I meccanismi dell’IA generativa

Manuel Gentile; Fabrizio Falchi

37

Manuel Gentile e Fabrizio Falchi

La grande popolarità ottenuta in un periodo di tempo breve dai sistemi di dialogo in linguaggio naturale comparsi recentemente (come ChatGPT, Bard e LLAMa2-chat) che utilizzano modelli linguistici di grandi dimensioni ha generato dibattiti accesi tuttora aperti su svariati aspetti. È indubbiamente affascinante chiedersi come un sistema informatico regolato da equazioni matematiche relativamente semplici sia in grado di generare comportamenti che molti definirebbero ‘intelligenti’.

Tuttavia, questo capitolo non cercherà di fornire risposte a interrogativi come: «I modelli LLM hanno comportamenti che possiamo definire intelligenti?», «Qual è la vera natura dell’intelligenza umana?», «Come possiamo definire la creatività?» e ad altre domande analoghe di sicuro interesse che rimangono e continueranno forse a rimanere per lungo tempo senza risposta e pertanto richiederebbero indagini molto più approfondite.

Invece, cercheremo di presentare una panoramica accessibile ai non esperti per promuovere la comprensione dei meccanismi alla base del funzionamento dei modelli linguistici di grandi dimensioni. È soltanto attraverso una consapevolezza accresciuta di questi meccanismi che è possibile comprenderne potenziale e rischi e promuoverne l’uso corretto, soprattutto nel campo dell’istruzione.

Un primo fraintendimento molto diffuso da fugare è che questi sistemi siano fondamentalmente delle grandi banche dati costituite da coppie di domande-risposte. Questa idea, che non corrisponde alla realtà, deriva da pratiche più o meno diffuse che si sono attestate nel corso degli anni per la creazione dei sistemi chatbot (vi rimandiamo al capitolo pertinente). Nello stesso tempo, questa idea non rende giustizia al carattere generativo dei LLM.

I modelli linguistici sono dei modelli statistici in grado di attribuire una probabilità di ricorrenza ad una porzione di testo (di norma una parola) come funzione di un contesto dato, che di solito è definito dalla serie di parole che precede la parola prevista.

Ai modelli elaborati utilizzando un approccio puramente statistico (per es., le catene di Markov, definite anche modelli n-gram) si sono aggiunti nel corso del tempo anche i modelli linguistici ricavati dalle reti neurali¹. Questi sono evoluti sia per quanto concerne la struttura delle reti sia per quanto concerne la dimensione di quelle reti.

Oggi definiamo modelli linguistici di grandi dimensioni (LLM) precisamente questo tipo di modelli linguistici basati su reti neurali di grandi dimensioni addestrate su ingenti quantitativi di dati.

Di conseguenza, diamo inizio alla nostra indagine sostenendo che i modelli linguistici generano testi piuttosto che limitarsi a recuperarli da una base di conoscenza precostituita.

L’aspetto generativo e la sua natura essenzialmente fondata sulle intuizioni degli esperti rendono imprevedibile come un sistema LLM potrebbe reagire agli input di un utente. Questa caratteristica pertanto porta a diffidare di questi sistemi in relazione alla loro potenziale capacità di generare testi falsi o imprecisi.

Pertanto, questo attributo è sia un traguardo tecnologico notevole per quanto concerne la capacità della macchina di comprendere e produrre testi sia, e contestualmente, uno dei principali pericoli di queste tecnologie.

Cerchiamo però di conoscere meglio questi sistemi.

Come accade per qualsiasi rivoluzione tecnologica, i fattori dietro a questa scoperta sono molteplici. Semplificando, citiamo i principali offrendo al lettore dei riferimenti in grado di guidarlo in successivi studi approfonditi:

la dimensione della rete: viene misurata attraverso il numero di parametri addestrabili all’interno della rete. I modelli linguistici di grandi dimensioni sono reti neurali profonde, caratterizzate da un numero esorbitante di nodi e di strati. Per fornire un ordine di grandezza, alcuni esperti del settore definiscono i modelli linguistici ‘di grandi dimensioni’ quando sono caratterizzati da più di dieci miliardi di parametri. Per indicarvi un ordine di grandezza concreto, il modello GPT3 ha centocinquanta miliardi di parametri, mentre la versione più ampia di LLAMa v2 ne ha circa settanta miliardi.
L’architettura di rete: i successi non sono garantiti soltanto dalle dimensioni della rete, ma anche dal modo in cui i nodi e i diversi strati della rete neurale sono interconnessi. Ancora una volta, semplificando, possiamo identificare le reti transformer e i meccanismi di attenzione come le principali innovazioni architettoniche che aiutano a comprendere il miglioramento dell’efficienza di queste reti.
Il quantitativo di dati disponibili per l’addestramento: la grande disponibilità di dati è indubbiamente un elemento essenziale nell’addestramento di tali modelli, ma in realtà ciò è stato consolidato da molti anni e anticipa di molto l’introduzione di questi modelli. Il fattore di innovazione principale pertanto risiede nelle tecniche di addestramento e nel processo di selezione e preparazione che porta dai dati al set di addestramento definito apprendimento autosupervisionato.
L’attuale capacità di calcolo: chiaramente, una maggiore capacità di calcolo ha svolto un ruolo decisivo nel rendere possibile il raggiungimento delle dimensioni di queste reti. L’esperienza empirica sembra mostrare che il fattore di scala è precisamente uno dei parametri essenziali affinché questi comportamenti emergano.
I meccanismi di aggiustamento: un altro elemento, spesso ignorato, è costituito dai meccanismi di aggiustamento che rappresentano l’ultimo passaggio nel processo di elaborazione di tali modelli. In particolare, facciamo riferimento ai meccanismi di apprendimento per rinforzo con feedback umano e di ranking che contribuiscono alla definizione del modello, utilizzati per produrre risposte più allineate alle intenzioni dell’utente. Ad essi dobbiamo poi aggiungere tutti i processi di perfezionamento che consentono la specializzazione e il miglioramento del comportamento di queste reti nell’esecuzione di attività specifiche.
Una pipeline sicura: accanto al modello di apprendimento profondo, esistono delle tecniche ad-hoc ideate per ridurre le fragilità del sistema in relazione con input non sicuri ed evitare comportamenti indesiderati nei confronti di input tanto sicuri quanto non sicuri.

A questo punto, consapevoli dei diversi fattori che caratterizzano i LLM, dobbiamo solo esaminare il potenziale di tali sistemi mettendoli alla prova nel nostro contesto didattico. Cerchiamo di parlare a ChatGPT o a Bard in modo che ci aiutino a elaborare nuovi esercizi e ad adattarli alle esigenze specifiche dei nostri studenti, a creare nuovi piani didattici con contenuti correlati e molto altro ancora. Dipende tutto dalla vostra creatività e dal modo in cui imparate a dialogare con questi sistemi.

Nota: ognuno di questi fattori richiede il dovuto approfondimento. Possiamo fornire un elenco di riferimenti agli interessati.

¹Bengio, Y., Ducharme, R., & Vincent, P., A neural probabilistic language model. Advances in neural information processing systems, 13, 2000.

² Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I., Attention is all you need, Advances in neural information processing systems, 30, 2017.

License

Icon for the Creative Commons Attribution 4.0 International License

License

Share This Book