{"id":183,"date":"2023-11-30T17:19:46","date_gmt":"2023-11-30T17:19:46","guid":{"rendered":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/chapter\/the-gears-of-generative\/"},"modified":"2024-01-31T11:39:33","modified_gmt":"2024-01-31T11:39:33","slug":"the-gears-of-generative","status":"publish","type":"chapter","link":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/chapter\/the-gears-of-generative\/","title":{"raw":"I meccanismi dell\u2019IA generativa","rendered":"I meccanismi dell\u2019IA generativa"},"content":{"raw":"<p class=\"no-indent\">La grande popolarit\u00e0 ottenuta in un periodo di tempo breve dai sistemi di dialogo in linguaggio naturale comparsi recentemente (come ChatGPT, Bard e LLAMa2-chat) che utilizzano modelli linguistici di grandi dimensioni ha generato dibattiti accesi tuttora aperti su svariati aspetti. \u00c8 indubbiamente affascinante chiedersi come un sistema informatico regolato da equazioni matematiche relativamente semplici sia in grado di generare comportamenti che molti definirebbero \u2018intelligenti\u2019.<\/p>\n<p class=\"indent\">Tuttavia, questo capitolo non cercher\u00e0 di fornire risposte a interrogativi come: <em>\u00abI modelli LLM hanno comportamenti che possiamo definire intelligenti?\u00bb, \u00abQual \u00e8 la vera natura dell\u2019intelligenza umana?\u00bb, \u00abCome possiamo definire la creativit\u00e0?\u00bb<\/em> e ad altre domande analoghe di sicuro interesse che rimangono e continueranno forse a rimanere per lungo tempo senza risposta e pertanto richiederebbero indagini molto pi\u00f9 approfondite.<\/p>\n<p class=\"indent\">Invece, cercheremo di presentare una panoramica accessibile ai non esperti per promuovere la comprensione dei meccanismi alla base del funzionamento dei modelli linguistici di grandi dimensioni. \u00c8 soltanto attraverso una consapevolezza accresciuta di questi meccanismi che \u00e8 possibile comprenderne potenziale e rischi e promuoverne l\u2019uso corretto, soprattutto nel campo dell\u2019istruzione.<\/p>\n<p class=\"indent\">Un primo fraintendimento molto diffuso da fugare \u00e8 che questi sistemi siano fondamentalmente delle grandi banche dati costituite da coppie di domande-risposte. Questa idea, che non corrisponde alla realt\u00e0, deriva da pratiche pi\u00f9 o meno diffuse che si sono attestate nel corso degli anni per la creazione dei sistemi chatbot (vi rimandiamo al capitolo pertinente). Nello stesso tempo, questa idea non rende giustizia al carattere generativo dei LLM.<\/p>\n<p class=\"indent\">I modelli linguistici sono dei modelli statistici in grado di attribuire una probabilit\u00e0 di ricorrenza ad una porzione di testo (di norma una parola) come funzione di un contesto dato, che di solito \u00e8 definito dalla serie di parole che precede la parola prevista.<\/p>\n<p class=\"indent\">Ai modelli elaborati utilizzando un approccio puramente statistico (per es., le catene di Markov, definite anche modelli n-gram) si sono aggiunti nel corso del tempo anche i modelli linguistici ricavati dalle reti neurali<sup>1<\/sup>. Questi sono evoluti sia per quanto concerne la struttura delle reti sia per quanto concerne la dimensione di quelle reti.<\/p>\n<p class=\"indent\">Oggi definiamo modelli linguistici di grandi dimensioni (LLM) precisamente questo tipo di modelli linguistici basati su reti neurali di grandi dimensioni addestrate su ingenti quantitativi di dati.<\/p>\nhttps:\/\/youtu.be\/FgWUnqT7laE?list=PLkm8ZqYSzE3cAymh6B9HHNoQluFEDQXkq\n<p class=\"no-indent\">Di conseguenza, diamo inizio alla nostra indagine sostenendo che i modelli linguistici generano testi piuttosto che limitarsi a recuperarli da una base di conoscenza precostituita.<\/p>\n<p class=\"indent\">L\u2019aspetto generativo e la sua natura essenzialmente fondata sulle intuizioni degli esperti rendono imprevedibile come un sistema LLM potrebbe reagire agli input di un utente. Questa caratteristica pertanto porta a diffidare di questi sistemi in relazione alla loro potenziale capacit\u00e0 di generare testi falsi o imprecisi.<\/p>\n<p class=\"indent\">Pertanto, questo attributo \u00e8 sia un traguardo tecnologico notevole per quanto concerne la capacit\u00e0 della macchina di comprendere e produrre testi sia, e contestualmente, uno dei principali pericoli di queste tecnologie.<\/p>\n<p class=\"indent\">Cerchiamo per\u00f2 di conoscere meglio questi sistemi.<\/p>\n<p class=\"indent\">Come accade per qualsiasi rivoluzione tecnologica, i fattori dietro a questa scoperta sono molteplici. Semplificando, citiamo i principali offrendo al lettore dei riferimenti in grado di guidarlo in successivi studi approfonditi:<\/p>\n\n<ul>\n \t<li>la dimensione della rete: viene misurata attraverso il numero di parametri addestrabili all\u2019interno della rete. I modelli linguistici di grandi dimensioni sono reti neurali profonde, caratterizzate da un numero esorbitante di nodi e di strati. Per fornire un ordine di grandezza, alcuni esperti del settore definiscono i modelli linguistici \u2018di grandi dimensioni\u2019 quando sono caratterizzati da pi\u00f9 di dieci miliardi di parametri. Per indicarvi un ordine di grandezza concreto, il modello GPT3 ha centocinquanta miliardi di parametri, mentre la versione pi\u00f9 ampia di LLAMa v2 ne ha circa settanta miliardi.<\/li>\n \t<li>L\u2019architettura di rete: i successi non sono garantiti soltanto dalle dimensioni della rete, ma anche dal modo in cui i nodi e i diversi strati della rete neurale sono interconnessi. Ancora una volta, semplificando, possiamo identificare <a href=\"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/chapter\/transformers\/\">le reti transformer e i meccanismi di attenzione <\/a>come le principali innovazioni architettoniche che aiutano a comprendere il miglioramento dell\u2019efficienza di queste reti.<\/li>\n \t<li>Il quantitativo di dati disponibili per l\u2019addestramento: la grande disponibilit\u00e0 di dati \u00e8 indubbiamente un elemento essenziale nell\u2019addestramento di tali modelli, ma in realt\u00e0 ci\u00f2 \u00e8 stato consolidato da molti anni e anticipa di molto l\u2019introduzione di questi modelli. Il fattore di innovazione principale pertanto risiede nelle tecniche di addestramento e nel processo di selezione e preparazione che porta dai dati al set di addestramento definito apprendimento autosupervisionato.<\/li>\n \t<li>L\u2019attuale capacit\u00e0 di calcolo: chiaramente, una maggiore capacit\u00e0 di calcolo ha svolto un ruolo decisivo nel rendere possibile il raggiungimento delle dimensioni di queste reti. L\u2019esperienza empirica sembra mostrare che il fattore di scala \u00e8 precisamente uno dei parametri essenziali affinch\u00e9 questi comportamenti emergano.<\/li>\n \t<li>I meccanismi di aggiustamento: un altro elemento, spesso ignorato, \u00e8 costituito dai meccanismi di aggiustamento che rappresentano l\u2019ultimo passaggio nel processo di elaborazione di tali modelli. In particolare, facciamo riferimento ai meccanismi di apprendimento per rinforzo con feedback umano e di ranking che contribuiscono alla definizione del modello, utilizzati per produrre risposte pi\u00f9 allineate alle intenzioni dell\u2019utente. Ad essi dobbiamo poi aggiungere tutti i processi di perfezionamento che consentono la specializzazione e il miglioramento del comportamento di queste reti nell\u2019esecuzione di attivit\u00e0 specifiche.<\/li>\n \t<li>Una pipeline sicura: accanto al modello di apprendimento profondo, esistono delle tecniche ad-hoc ideate per ridurre le fragilit\u00e0 del sistema in relazione con input non sicuri ed evitare comportamenti indesiderati nei confronti di input tanto sicuri quanto non sicuri.<\/li>\n<\/ul>\n<p class=\"no-indent\">A questo punto, consapevoli dei diversi fattori che caratterizzano i LLM, dobbiamo solo esaminare il potenziale di tali sistemi mettendoli alla prova nel nostro contesto didattico. Cerchiamo di parlare a ChatGPT o a Bard in modo che ci aiutino a elaborare nuovi esercizi e ad adattarli alle esigenze specifiche dei nostri studenti, a creare nuovi piani didattici con contenuti correlati e molto altro ancora. Dipende tutto dalla vostra creativit\u00e0 e dal modo in cui imparate a dialogare con questi sistemi.<\/p>\n<p class=\"no-indent\"><strong>Nota:<\/strong> ognuno di questi fattori richiede il dovuto approfondimento. Possiamo fornire un elenco di riferimenti agli interessati.<\/p>\n&nbsp;\n\n<hr>\n<p class=\"hanging-indent\"><sup>1 <\/sup>Bengio, Y., Ducharme, R., &amp; Vincent, P., A neural probabilistic language model. Advances in neural information processing systems, 13, 2000.<\/p>\n<p class=\"hanging-indent\"><sup>2<\/sup> Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... &amp; Polosukhin, I., <em>Attention is all you need,<\/em> Advances in neural information processing systems, 30, 2017.<\/p>","rendered":"<p class=\"no-indent\">La grande popolarit\u00e0 ottenuta in un periodo di tempo breve dai sistemi di dialogo in linguaggio naturale comparsi recentemente (come ChatGPT, Bard e LLAMa2-chat) che utilizzano modelli linguistici di grandi dimensioni ha generato dibattiti accesi tuttora aperti su svariati aspetti. \u00c8 indubbiamente affascinante chiedersi come un sistema informatico regolato da equazioni matematiche relativamente semplici sia in grado di generare comportamenti che molti definirebbero \u2018intelligenti\u2019.<\/p>\n<p class=\"indent\">Tuttavia, questo capitolo non cercher\u00e0 di fornire risposte a interrogativi come: <em>\u00abI modelli LLM hanno comportamenti che possiamo definire intelligenti?\u00bb, \u00abQual \u00e8 la vera natura dell\u2019intelligenza umana?\u00bb, \u00abCome possiamo definire la creativit\u00e0?\u00bb<\/em> e ad altre domande analoghe di sicuro interesse che rimangono e continueranno forse a rimanere per lungo tempo senza risposta e pertanto richiederebbero indagini molto pi\u00f9 approfondite.<\/p>\n<p class=\"indent\">Invece, cercheremo di presentare una panoramica accessibile ai non esperti per promuovere la comprensione dei meccanismi alla base del funzionamento dei modelli linguistici di grandi dimensioni. \u00c8 soltanto attraverso una consapevolezza accresciuta di questi meccanismi che \u00e8 possibile comprenderne potenziale e rischi e promuoverne l\u2019uso corretto, soprattutto nel campo dell\u2019istruzione.<\/p>\n<p class=\"indent\">Un primo fraintendimento molto diffuso da fugare \u00e8 che questi sistemi siano fondamentalmente delle grandi banche dati costituite da coppie di domande-risposte. Questa idea, che non corrisponde alla realt\u00e0, deriva da pratiche pi\u00f9 o meno diffuse che si sono attestate nel corso degli anni per la creazione dei sistemi chatbot (vi rimandiamo al capitolo pertinente). Nello stesso tempo, questa idea non rende giustizia al carattere generativo dei LLM.<\/p>\n<p class=\"indent\">I modelli linguistici sono dei modelli statistici in grado di attribuire una probabilit\u00e0 di ricorrenza ad una porzione di testo (di norma una parola) come funzione di un contesto dato, che di solito \u00e8 definito dalla serie di parole che precede la parola prevista.<\/p>\n<p class=\"indent\">Ai modelli elaborati utilizzando un approccio puramente statistico (per es., le catene di Markov, definite anche modelli n-gram) si sono aggiunti nel corso del tempo anche i modelli linguistici ricavati dalle reti neurali<sup>1<\/sup>. Questi sono evoluti sia per quanto concerne la struttura delle reti sia per quanto concerne la dimensione di quelle reti.<\/p>\n<p class=\"indent\">Oggi definiamo modelli linguistici di grandi dimensioni (LLM) precisamente questo tipo di modelli linguistici basati su reti neurali di grandi dimensioni addestrate su ingenti quantitativi di dati.<\/p>\n<p><iframe loading=\"lazy\" id=\"oembed-1\" title=\"Perch\u00e8 i dati sono cos\u00ec importanti per l\u2019IA?\" width=\"500\" height=\"281\" src=\"https:\/\/www.youtube.com\/embed\/FgWUnqT7laE?list=PLkm8ZqYSzE3cAymh6B9HHNoQluFEDQXkq\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\"><\/iframe><\/p>\n<p class=\"no-indent\">Di conseguenza, diamo inizio alla nostra indagine sostenendo che i modelli linguistici generano testi piuttosto che limitarsi a recuperarli da una base di conoscenza precostituita.<\/p>\n<p class=\"indent\">L\u2019aspetto generativo e la sua natura essenzialmente fondata sulle intuizioni degli esperti rendono imprevedibile come un sistema LLM potrebbe reagire agli input di un utente. Questa caratteristica pertanto porta a diffidare di questi sistemi in relazione alla loro potenziale capacit\u00e0 di generare testi falsi o imprecisi.<\/p>\n<p class=\"indent\">Pertanto, questo attributo \u00e8 sia un traguardo tecnologico notevole per quanto concerne la capacit\u00e0 della macchina di comprendere e produrre testi sia, e contestualmente, uno dei principali pericoli di queste tecnologie.<\/p>\n<p class=\"indent\">Cerchiamo per\u00f2 di conoscere meglio questi sistemi.<\/p>\n<p class=\"indent\">Come accade per qualsiasi rivoluzione tecnologica, i fattori dietro a questa scoperta sono molteplici. Semplificando, citiamo i principali offrendo al lettore dei riferimenti in grado di guidarlo in successivi studi approfonditi:<\/p>\n<ul>\n<li>la dimensione della rete: viene misurata attraverso il numero di parametri addestrabili all\u2019interno della rete. I modelli linguistici di grandi dimensioni sono reti neurali profonde, caratterizzate da un numero esorbitante di nodi e di strati. Per fornire un ordine di grandezza, alcuni esperti del settore definiscono i modelli linguistici \u2018di grandi dimensioni\u2019 quando sono caratterizzati da pi\u00f9 di dieci miliardi di parametri. Per indicarvi un ordine di grandezza concreto, il modello GPT3 ha centocinquanta miliardi di parametri, mentre la versione pi\u00f9 ampia di LLAMa v2 ne ha circa settanta miliardi.<\/li>\n<li>L\u2019architettura di rete: i successi non sono garantiti soltanto dalle dimensioni della rete, ma anche dal modo in cui i nodi e i diversi strati della rete neurale sono interconnessi. Ancora una volta, semplificando, possiamo identificare <a href=\"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/chapter\/transformers\/\">le reti transformer e i meccanismi di attenzione <\/a>come le principali innovazioni architettoniche che aiutano a comprendere il miglioramento dell\u2019efficienza di queste reti.<\/li>\n<li>Il quantitativo di dati disponibili per l\u2019addestramento: la grande disponibilit\u00e0 di dati \u00e8 indubbiamente un elemento essenziale nell\u2019addestramento di tali modelli, ma in realt\u00e0 ci\u00f2 \u00e8 stato consolidato da molti anni e anticipa di molto l\u2019introduzione di questi modelli. Il fattore di innovazione principale pertanto risiede nelle tecniche di addestramento e nel processo di selezione e preparazione che porta dai dati al set di addestramento definito apprendimento autosupervisionato.<\/li>\n<li>L\u2019attuale capacit\u00e0 di calcolo: chiaramente, una maggiore capacit\u00e0 di calcolo ha svolto un ruolo decisivo nel rendere possibile il raggiungimento delle dimensioni di queste reti. L\u2019esperienza empirica sembra mostrare che il fattore di scala \u00e8 precisamente uno dei parametri essenziali affinch\u00e9 questi comportamenti emergano.<\/li>\n<li>I meccanismi di aggiustamento: un altro elemento, spesso ignorato, \u00e8 costituito dai meccanismi di aggiustamento che rappresentano l\u2019ultimo passaggio nel processo di elaborazione di tali modelli. In particolare, facciamo riferimento ai meccanismi di apprendimento per rinforzo con feedback umano e di ranking che contribuiscono alla definizione del modello, utilizzati per produrre risposte pi\u00f9 allineate alle intenzioni dell\u2019utente. Ad essi dobbiamo poi aggiungere tutti i processi di perfezionamento che consentono la specializzazione e il miglioramento del comportamento di queste reti nell\u2019esecuzione di attivit\u00e0 specifiche.<\/li>\n<li>Una pipeline sicura: accanto al modello di apprendimento profondo, esistono delle tecniche ad-hoc ideate per ridurre le fragilit\u00e0 del sistema in relazione con input non sicuri ed evitare comportamenti indesiderati nei confronti di input tanto sicuri quanto non sicuri.<\/li>\n<\/ul>\n<p class=\"no-indent\">A questo punto, consapevoli dei diversi fattori che caratterizzano i LLM, dobbiamo solo esaminare il potenziale di tali sistemi mettendoli alla prova nel nostro contesto didattico. Cerchiamo di parlare a ChatGPT o a Bard in modo che ci aiutino a elaborare nuovi esercizi e ad adattarli alle esigenze specifiche dei nostri studenti, a creare nuovi piani didattici con contenuti correlati e molto altro ancora. Dipende tutto dalla vostra creativit\u00e0 e dal modo in cui imparate a dialogare con questi sistemi.<\/p>\n<p class=\"no-indent\"><strong>Nota:<\/strong> ognuno di questi fattori richiede il dovuto approfondimento. Possiamo fornire un elenco di riferimenti agli interessati.<\/p>\n<p>&nbsp;<\/p>\n<hr \/>\n<p class=\"hanging-indent\"><sup>1 <\/sup>Bengio, Y., Ducharme, R., &amp; Vincent, P., A neural probabilistic language model. Advances in neural information processing systems, 13, 2000.<\/p>\n<p class=\"hanging-indent\"><sup>2<\/sup> Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., &#8230; &amp; Polosukhin, I., <em>Attention is all you need,<\/em> Advances in neural information processing systems, 30, 2017.<\/p>\n","protected":false},"author":1,"menu_order":5,"template":"","meta":{"pb_show_title":"","pb_short_title":"","pb_subtitle":"","pb_authors":["manuel-gentile","fabrizio-falchi"],"pb_section_license":""},"chapter-type":[],"contributor":[71,63],"license":[],"part":164,"_links":{"self":[{"href":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-json\/pressbooks\/v2\/chapters\/183"}],"collection":[{"href":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-json\/pressbooks\/v2\/chapters"}],"about":[{"href":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-json\/wp\/v2\/types\/chapter"}],"author":[{"embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-json\/wp\/v2\/users\/1"}],"version-history":[{"count":1,"href":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-json\/pressbooks\/v2\/chapters\/183\/revisions"}],"predecessor-version":[{"id":184,"href":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-json\/pressbooks\/v2\/chapters\/183\/revisions\/184"}],"part":[{"href":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-json\/pressbooks\/v2\/parts\/164"}],"metadata":[{"href":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-json\/pressbooks\/v2\/chapters\/183\/metadata\/"}],"wp:attachment":[{"href":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-json\/wp\/v2\/media?parent=183"}],"wp:term":[{"taxonomy":"chapter-type","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-json\/pressbooks\/v2\/chapter-type?post=183"},{"taxonomy":"contributor","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-json\/wp\/v2\/contributor?post=183"},{"taxonomy":"license","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-json\/wp\/v2\/license?post=183"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}