I Large Language Models (LLM) sono venuti alla ribalta delle cronache come la tecnologia su cui si basa ChatGPT, il sistema di dialogo realizzato da OpenAI e che si è diffuso rapidamente raggiungendo in pochi mesi oltre 100 milioni di utenti.
L’attenzione sollevata da ChatGPT ha prodotto reazioni estreme, da una parte gli entusiasmi per un progresso sorprendente nelle capacità dei sistemi di Intelligenza Artificiale (AI) e dall’altra le paure per i potenziali pericoli nell’uso indiscriminato di tecnologie così potenti.
Proviamo intanto a capire quale sia la tecnologia di fondo e come stia evolvendo.
Large Language Models, che cosa sono e come funzionano
I Large Language Models sono modelli di reti neurali profonde (Deep Neural Network) in grado di acquisire una vasta conoscenza del linguaggio umano, imparando a svolgere un compito apparentemente molto semplice, ossia come completare una frase. Ad esempio, un LLM sa completare la frase “La capitale della Francia è …” con la parola “Parigi”.
Come siamo arrivati a questo punto?
Per ottenere questo risultato, si sono dovuti risolvere problemi che hanno eluso la scienza per secoli: come quello di definire il senso delle parole e di stabilire come le parole si compongono in frasi di senso compiuto. Ci sono voluti due fondamentali breakthrough tecnologici, avvenuti in meno di dieci anni.
Il primo breakthrough: word-embedding
l primo è stata la tecnica dei word-embedding, che utilizza una rete neurale per cogliere le migliaia di sfumature e somiglianze di significato tra le parole che compongono le frasi. Nello spazio a centinaia di dimensioni degli embedding, parole come Francia, Spagna e Italia si trovano vicine tra loro e lo stesso le parole Parigi, Madrid e Roma. Non solo, ma la distanza tra Francia e Parigi è simile a quella tra Spagna e Madrid e tra Italia e Roma, cogliendo in qualche modo le relazioni tra loro.
Il secondo breakthrough: attention
Il secondo breakthrough è un meccanismo denominato attention, che riesce a cogliere l’importanza delle relazioni tra parole. Per esempio, nella frase “lo schermo del cellulare è ottimo, ma il prezzo è caro”, il valore di attention tra prezzo e cellulare è maggiore di quello tra prezzo e schermo, indicando che il prezzo si riferisce più probabilmente a quello del cellulare. La attention costituisce la base dei cosiddetti Transformer, introdotti per la traduzione automatica, dove svolge un ruolo cruciale per comprendere il senso delle frasi e riprodurlo nelle traduzioni. I Transformer sono stati utilizzati a partire dal 2018 per costruire Large Language Models, tra cui BERT di Google e GPT-1, GPT-2 fino a GPT-4 di OpenAI.
I migliori LLM fanno uso di Transformer
Le capacità dei Large Language Models si sono presto dimostrate ben superiori alla loro intrinseca capacità di completare una frase o di comporre intere storie a partire da un breve spunto iniziale. Possono essere usati come basi per altri compiti, come rispondere a domande, tradurre, classificare, riassumere, comporre poesie e in combinazione con audio o immagini, produrre canzoni o foto realistiche a partire da una loro sommaria descrizione a parole.
Basta scorrere la classifica dei sistemi a confronto su vari benchmark di analisi linguistica, per notare che tutti i migliori fanno uso di Transformer, e che molti già superano in accuratezza le capacità umane. Sfruttando l’enorme conoscenza linguistica contenuta in un singolo Transformer, è oggi possibile accelerare lo sviluppo di nuove applicazioni specializzandolo con un numero ridotto di esempi tramite una seconda fase di apprendimento, chiamata fine-tuning.
ChatGPT in particolare è basato su GPT-3.5, un LLM sviluppato da OpenAI nel 2022 ed è stato specializzato per rispondere a domande e partecipare a un dialogo con l’utente. GPT- 3.5 fa parte di una famiglia ormai molto vasta di LLM sviluppati da varie aziende e la cui tecnologia è ben nota.
Ma un LLM è capace solo di completare una frase, per cui se si chiede di completare la frase “il re di Francia è …”, potrebbe (ma non lo fa), dire Luigi XVI: infatti non ricava la risposta da un database, ma solo dalla sua conoscenza della lingua. Questo può dare luogo alle cosiddette “allucinazioni”, risposte inesatte anche se apparentemente coerenti col resto della frase.
Ciò avviene principalmente su domande per cui ChatGPT non ha sufficienti elementi per rispondere. D’altro lato i Large Language Models esibiscono capacità emergenti, ossia che appaiono solo quando raggiungono grandi dimensioni e che i modelli più piccoli non hanno. È un fenomeno simile a quello che il Nobel Giorgio Parisi analizza nei sistemi complessi, il cui funzionamento è determinato dalla combinazione su larga scala di meccanismi semplici, come quello dei LLM di saper predire la prossina parola.
Tutto è cominciato 10 anni fa con Geoffrey Hinton
Questi progressi sono avvenuti nel breve periodo di dieci anni, a partire dai primi successi ottenuti da Geoff Hinton nel 2012, quando con la rete neurale AlexNet sbaragliò i concorrenti nel riconoscimento di immagini della competizione ImageNet. Conobbi Hinton nel 1981, quando lavorava a Carnegie Mellon sulle reti neurali, utilizzando una Lisp Machine al cui sviluppo avevo partecipato al MIT. Entrambi eravamo interessati alle reti semantiche, una forma per rappresentare concetti e relazioni tra loro sulle quali basare il ragionamento.
Hinton cercava una rappresentazione distribuita dei concetti, che non fosse racchiusa in un singolo nodo della rete, ma in tantissimi nodi la cui attivazione contemporanea dava luce a un concetto. Hinton studiava approcci affascinanti teoricamente come le Boltzmann Machine, ma assolutamente inutilizzabili in pratica all’epoca. Il motivo era che macchine come la Lisp Machine disponevano di una capacità di calcolo di circa 1 MIPS, assolutamente inadeguata alle necessità delle tecniche di apprendimento automatico che Hinton stava sviluppando, e che raggiungono buoni livelli solo analizzando milioni di esempi. Inoltre, a quell’epoca non esistevano corpora di apprendimento di dimensioni sufficienti come quelli di ImageNet.
Negli anni successivi, Hinton, non riuscendo a trovare finanziamenti per le sue ricerche negli USA si spostò a Toronto, dove una trentina di anni dopo riuscì finalmente a ottenere risultati pratici con le reti neurali profonde, escogitando il modo di utilizzare il calcolo parallelo delle GPU, ricavandone una potenza di 9 ordini di grandezza superiore a quella della Lisp Machine.
Nel 2021 fu insignito del premio Turing, insieme con Yoshua Bengio e Yann LeCun, in riconoscimento dei loro studi pioneristici sulle reti neurali profonde.
Geoff Hinton nel 2012 vendette a Google la sua startup DNNresearch e cominciò a collaborare con Google. A inizio maggio ha annunciato di interrompere questa collaborazione per poter parlare liberamente dei rischi dell’AI, anche se ribadisce che Google si sia sempre comportato in modo responsabile nell’utilizzo dell’AI e continui a credere nell’importanza dei suoi studi in materia.
Anche lui, come molti, riteneva che la possibilità di costruire sistemi più intelligenti delle persone fosse distante 30 o 50 anni, mentre ora si è ricreduto. I rischi che intravede sono nella diffusione su larga scala di fake-news, nell’eliminazione di posti di lavoro e infine nell’utilizzo per lo sviluppo di armi letali autonome.
A sua volta Yoshua Bengio ha sottoscritto una lettera aperta in cui si chiede una moratoria di sei mesi nello sviluppo di ulteriori più potenti Large Language Models, fintanto che non vengano definite nuove norme sul loro utilizzo. Invece Yann LeCun non ha firmato la lettera, sostenendo che la tecnologia è tuttora in evoluzione e come tutte le nuove tecnologie, forme di controllo e di sicurezza verranno introdotte contemporaneamente al loro sviluppo.
L’uso responsabile dell’AI e gli scenari da fantascienza
Le questioni segnalate da Hinton sono state ampiamente discusse negli anni scorsi e pericoli simili sono stati attribuiti anche ad altre tecnologie introdotte in passato. Ricordo, ad esempio, con quanta sufficienza e preoccupazione i media trattavano la nascente tecnologia di Internet una trentina di anni fa. Le preoccupazioni di oggi riguardano quindi più in generale l’uso responsabile delle tecnologie. Viene da chiedersi dunque cosa ci sia di particolare nei LLM che sta facendo concentrare l’attenzione di governi e istituzioni sulla loro regolamentazione.
Hinton afferma di essere rimasto spiazzato dalle capacità raggiunte dai LLM in poco tempo. In effetti la sua ricerca è stata latente per trenta anni ed è esplosa negli ultimi dieci. Ma lo sviluppo esponenziale delle tecnologie informatiche non è una novità: ne avvengono ogni 15 anni ed hanno effetti dirompenti e sostanzialmente positivi per tutti.
Perché l’AI dovrebbe essere diversa e più pericolosa di altre? Perché l’AI produce sistemi più capaci degli umani? Ma in molti compiti i computer sono già ampiamente superiori agli umani. Perché l’AI potrebbe riprodurre sé stessa? Ma i compilatori non sono altro che programmi che scrivono programmi. Perché l’AI potrebbe ritorcersi contro gli umani?
Ma questi sono scenari da fantascienza, nessun sistema potrebbe diventare autonomo se qualcuno non gli attribuisce questa capacità: i LLM al massimo possono dire sciocchezze ma non possono fare male fisico. Stranamente le norme proposte di regolamentazione dell’AI, come European AI Act, escludono invece dal loro ambito di applicazione i sistemi di utilizzo militare. Non è ridicolo che non si vogliano contrastare proprio le applicazioni più pericolose?
Sembra, quindi, paradossale che si voglia interrompere lo sviluppo di una tecnologia proprio nel momento in cui comincia a dare i suoi frutti e a migliorare giorno per giorno.
Che cosa si sta preparando dopo gli LLM
I LLM non sono certo l’ultimo risultato della ricerca sull’AI. C’è ancora da risolvere il problema di come sviluppare la capacità di adattare a nuovi compiti quanto un sistema ha già appreso, come fa chi passa da guidare una bici a guidare una moto. C’è da sviluppare la capacità di ragionamento e autoapprendimento, ossia di insegnare a sé stesso da pochi esempi. C’è da sviluppare la capacità di comprendere, prevedere e pianificare relazioni di causa ed effetto.
L’interesse e gli investimenti che l’AI sta attraendo fanno pensare che ci saranno nuovi breakthrough tecnologici nei prossimi anni che ci stupiranno ancor di più e che renderanno gli strumenti ancora migliori. E noi stessi potremmo diventare migliori imparando a farne l’uso migliore, come sempre in passato abbiamo imparato ad utilizzare nuove tecnologie.
Il vero problema è quello di rendere la tecnologia più accessibile a tutti. Di fatto oggi gli unici che possono permettersi le enormi risorse di calcolo necessarie per allenare un LLM sono le grandi aziende tecnologiche. E il loro ulteriore sviluppo e diffusione richiede investimenti massicci, come le decine di miliardi che Microsoft sta investendo in OpenAI e nell’integrazione di ChatGPT con il suo motore di ricerca Bing. In questo settore stiamo per assistere a una guerra tra titani, per conquistare spazi di mercato.
Ci sono due strade possibili per rendere accessibile e democratizzare la tecnologia dei LLM: progetti dal basso che aggregano comunità di ricercatori o costruire e rendere disponibili ai ricercatori infrastrutture pubbliche dotate di risorse di calcolo adeguate, come chiedono a gran voce i ricercatori stessi sia in USA che in Europa.
Fermare la ricercar è retrogrado e alla lunga dannoso.