{"id":146,"date":"2023-11-30T16:30:49","date_gmt":"2023-11-30T16:30:49","guid":{"rendered":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/chapter\/415\/"},"modified":"2024-01-31T11:51:18","modified_gmt":"2024-01-31T11:51:18","slug":"415","status":"publish","type":"chapter","link":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/chapter\/415\/","title":{"raw":"Parlons IA : Traitement automatique du langage naturel","rendered":"Parlons IA : Traitement automatique du langage naturel"},"content":{"raw":"<p class=\"no-indent\">Le traitement automatique du langage naturel est un sujet sur lequel la recherche a longuement travaill\u00e9 au cours des 50 derni\u00e8res ann\u00e9es. Cela a conduit au d\u00e9veloppement de nombreux outils que nous utilisons tous les jours :<\/p>\n\n<ul>\n \t<li>Les logiciels de traitement de texte,<\/li>\n \t<li>La correction automatique de la grammaire et de l'orthographe,<\/li>\n \t<li>La compl\u00e9tion automatique,<\/li>\n \t<li><a href=\"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/chapter\/optical-character-recognition\/\" target=\"_blank\" rel=\"noopener\">La reconnaissance optique de caract\u00e8res (ROC)<\/a>.<\/li>\n<\/ul>\n<p class=\"indent\">Plus r\u00e9cemment, les chatbots, les assistants personnels, les outils de traduction automatique ont eu un impact \u00e9norme dans tous les domaines.<\/p>\n\n\n[caption id=\"attachment_414\" align=\"alignleft\" width=\"394\"]<img class=\" wp-image-414\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/15\/2023\/11\/ch5-page-3-sign-language-scaled-2.jpg\" alt=\"\" width=\"394\" height=\"263\"> \"Learning sign language\" par daveynin est sous licence CC BY 2.0.\u00a0 Pour une copie de cette licence, voir <a href=\"https:\/\/creativecommons.org\/licenses\/by\/2.0\/?ref=openverse\">https:\/\/creativecommons.org\/licenses\/by\/2.0\/?ref=openverse<\/a>.[\/caption]\n\n&nbsp;\n<p class=\"indent\">Pendant longtemps, la recherche et l'industrie ont \u00e9t\u00e9 bloqu\u00e9es par la complexit\u00e9 intrins\u00e8que du langage. A la fin du 20e si\u00e8cle, les grammaires pour une langue, \u00e9crites par des experts, pouvaient compter jusqu'\u00e0 50 000 r\u00e8gles. Ces <strong>syst\u00e8mes d'experts<\/strong> montraient que la technologie pouvait faire la diff\u00e9rence, mais les solutions robustes \u00e9taient trop complexes \u00e0 d\u00e9velopper.<\/p>\n<p class=\"indent\">D'autre part, la <strong>reconnaissance vocale<\/strong> devait \u00eatre capable d'exploiter les donn\u00e9es acoustiques et de les transformer en texte. Avec la vari\u00e9t\u00e9 de locuteurs que l'on pouvait trouver, une t\u00e2che tr\u00e8s difficile en effet !<\/p>\n<p class=\"indent\">Les chercheurs ont compris que si l'on disposait d'un mod\u00e8le pour la langue vis\u00e9e, les d\u00e9marches seraient plus faciles : si l'on savait quels \u00e9taient les mots de la langue, comment les phrases \u00e9taient form\u00e9es, alors il serait plus facile de trouver la bonne phrase parmi un ensemble de candidats pour correspondre \u00e0 un \u00e9nonc\u00e9 donn\u00e9, ou de produire une traduction valide \u00e0 partir d'un ensemble de s\u00e9quences de mots possibles.<\/p>\n<p class=\"indent\">Un autre sujet crucial a \u00e9t\u00e9 celui de la <strong>s\u00e9mantique<\/strong>. La plupart des travaux que nous pouvons faire pour r\u00e9soudre les questions linguistiques sont superficiels : les algorithmes produiront une r\u00e9ponse bas\u00e9e sur certaines r\u00e8gles syntaxiques locales. Si, \u00e0 la fin, le texte ne veut rien dire, qu'il en soit ainsi. Une chose similaire peut se produire lorsque nous lisons un texte de certains \u00e9l\u00e8ves : nous pouvons corriger les erreurs sans vraiment comprendre le sens du texte ! Un v\u00e9ritable d\u00e9fi consiste \u00e0 associer du sens au texte, et lorsque cela est possible, aux phrases prononc\u00e9es.<\/p>\nhttps:\/\/www.youtube.com\/watch?v=eKorpGCxw2g&amp;list=PLkm8ZqYSzE3fQBx8zGr4oONlMSO-Cevma&amp;index=13&amp;pp=iAQB\n<p class=\"no-indent\">En 2008 est arriv\u00e9 un r\u00e9sultat surprenant<sup>1<\/sup> : un mod\u00e8le de langue unique pouvait \u00eatre appris \u00e0 partir d'une grande quantit\u00e9 de donn\u00e9es et utilis\u00e9 pour une vari\u00e9t\u00e9 de t\u00e2ches linguistiques. En fait, ce mod\u00e8le unique obtenait de meilleurs r\u00e9sultats que les mod\u00e8les form\u00e9s pour les t\u00e2ches sp\u00e9cifiques.<\/p>\n<p class=\"indent\">Le mod\u00e8le \u00e9tait un r\u00e9seau neuronal profond. Pas du tout aussi profond que les mod\u00e8les utilis\u00e9s aujourd'hui ! Mais suffisamment pour convaincre la recherche et l'industrie que l'apprentissage automatique, et plus sp\u00e9cifiquement l'apprentissage profond allait \u00eatre la r\u00e9ponse \u00e0 de nombreuses questions en TALN.<\/p>\n<p class=\"indent\">Depuis lors, le traitement du langage naturel a cess\u00e9 de suivre une approche ax\u00e9e sur les mod\u00e8les et a presque toujours \u00e9t\u00e9 bas\u00e9 sur une approche ax\u00e9e sur les donn\u00e9es.<\/p>\n<p class=\"indent\">Traditionnellement, les principales t\u00e2ches linguistiques peuvent \u00eatre d\u00e9compos\u00e9es en 2 familles : celles impliquant la construction de mod\u00e8les et celles impliquant le d\u00e9codage.<\/p>\n\n<h3 style=\"text-align: left\">Construction de mod\u00e8les<\/h3>\n<p class=\"no-indent\">Pour transcrire, r\u00e9pondre \u00e0 des questions, g\u00e9n\u00e9rer des dialogues ou traduire, il faut pouvoir savoir si \"Je parle fran\u00e7ais\" est bien une phrase en fran\u00e7ais ou non. Et comme avec la langue orale la grammaire n'est pas toujours suivie avec pr\u00e9cision, la r\u00e9ponse voudra \u00eatre probabiliste : une phrase est <em>plus ou moins <\/em>fran\u00e7aise. Cela permet au syst\u00e8me de produire diff\u00e9rentes phrases candidates (comme la transcription d'un son, la traduction d'une phrase) et la probabilit\u00e9 peut \u00eatre un score. Nous pouvons prendre la phrase la mieux class\u00e9e ou combiner le score avec d'autres sources d'informations (nous pouvons \u00e9galement nous int\u00e9resser au sujet de la phrase).<\/p>\n<p class=\"indent\">C'est ce que font les mod\u00e8les linguistiques : les probabilit\u00e9s sont construites \u00e0 partir d'algorithmes d'apprentissage automatique. Et bien s\u00fbr, plus il y a de donn\u00e9es, mieux c'est. Pour certaines langues, il y a beaucoup de donn\u00e9es \u00e0 partir desquelles construire des mod\u00e8les de langue. Pour d'autres, ce n'est pas le cas : ce sont des langues sous-ressourc\u00e9es.<\/p>\n<p class=\"indent\">Pour le cas de la traduction, nous ne voulons pas 2 mais 3 mod\u00e8les : un mod\u00e8le de langue pour chaque langue et un autre mod\u00e8le pour les traductions, nous informant de ce que peuvent \u00eatre les meilleures traductions de fragments de langue. Ces mod\u00e8les sont difficiles \u00e0 produire lorsque les donn\u00e9es sont rares. Si les mod\u00e8les pour les paires de langues communes sont plus faciles \u00e0 construire, ce ne sera pas le cas pour les langues qui ne sont pas fr\u00e9quemment parl\u00e9es ensemble (disons le portugais et le slov\u00e8ne). Une solution typique consiste \u00e0 utiliser une <em>langue pivot<\/em> (typiquement l'anglais) et \u00e0 traduire via cette langue pivot : du portugais \u00e0 l'anglais, puis de l'anglais au slov\u00e8ne. Ce qui conduit \u00e9videmment \u00e0 des r\u00e9sultats inf\u00e9rieurs au fur et \u00e0 mesure que les erreurs s'accumulent.<\/p>\n\n<h3 style=\"text-align: left\">D\u00e9codage<\/h3>\n<p class=\"no-indent\">Le d\u00e9codage est le processus par lequel un algorithme prend la s\u00e9quence d'entr\u00e9e (qui peut \u00eatre un signal ou un texte) et, en consultant les mod\u00e8les, prend une d\u00e9cision, qui sera souvent un texte de sortie. Il y a ici quelques consid\u00e9rations algorithmiques : dans de nombreux cas, la transcription et la traduction doivent se faire en temps r\u00e9el et la diminution du d\u00e9calage est une question cl\u00e9. Il y a donc de la place pour beaucoup d'intelligence artificielle.<\/p>\n\n<h3 style=\"text-align: left\">De bout en bout<\/h3>\n<p class=\"no-indent\">De nos jours, l'approche consistant \u00e0 construire ces composants s\u00e9par\u00e9ment et \u00e0 les combiner plus tard a \u00e9t\u00e9 remplac\u00e9e par des approches <em>de bout en bout<\/em> (end to end) dans lesquelles le syst\u00e8me va transcrire\/traduire\/interpr\u00e9ter l'entr\u00e9e \u00e0 travers un mod\u00e8le unique. Actuellement, de tels mod\u00e8les sont form\u00e9s par des r\u00e9seaux neuronaux profonds qui peuvent \u00eatre \u00e9normes : on rapporte que le plus grand mod\u00e8le actuel de GPT3 comprend plusieurs centaines de millions de param\u00e8tres !<\/p>\n\n\n[caption id=\"attachment_413\" align=\"alignleft\" width=\"357\"]<img class=\" wp-image-413\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/15\/2023\/11\/ch5-page-3-Autoencoder.png\" alt=\"\" width=\"357\" height=\"267\"> Chervinskii, Wikimedia Commonsest sous licence CC BY-SA 4.0. Pour une copie de cette licence, voir <a href=\"https:\/\/creativecommons.org\/licenses\/by\/2.0\/?ref=openverse\">https:\/\/creativecommons.org\/licenses\/by\/2.0\/?ref=openverse<\/a>.[\/caption]\n<p class=\"indent\">Essayons d'en saisir l'intuition : supposons que nous ayons des donn\u00e9es. Ces donn\u00e9es brutes peuvent \u00eatre encod\u00e9es d'une certaine mani\u00e8re. Mais l'encodage peut \u00eatre tr\u00e8s redondant, et peut-\u00eatre m\u00eame co\u00fbteux. Construisons maintenant une machine particuli\u00e8re appel\u00e9e auto-encodeur (voir le sch\u00e9ma ci-dessous). Cette machine sera capable de prendre un texte, de le compresser en un petit vecteur (c'est l'encodeur), puis de d\u00e9compresser le vecteur (la partie d\u00e9codeur) et de restituer un texte qui est en quelque sorte proche du texte original. L'id\u00e9e est que ce m\u00e9canisme rendra le vecteur interm\u00e9diaire tr\u00e8s significatif avec deux propri\u00e9t\u00e9s souhaitables : un vecteur raisonnablement petit \"contenant\" les informations du texte initial.<\/p>\n\n<h3 style=\"text-align: left\">L'avenir<\/h3>\n<p class=\"no-indent\">Un exemple de bout-en-bout que nous verrons bient\u00f4t sera capable d'effectuer la t\u00e2che suivante : il vous entendra parler votre langue, transcrira votre texte, le traduira dans une langue que vous ne connaissez pas, entra\u00eenera un syst\u00e8me de synth\u00e8se vocale \u00e0 votre voix et fera en sorte que votre propre voix prononce le texte correspondant dans une nouvelle phrase. Voici deux exemples produits par des chercheurs de l'Universidad Politecnica de Valencia, en Espagne, dans lesquels le mod\u00e8le vocal du locuteur est utilis\u00e9 pour effectuer le doublage.<\/p>\n[embed]https:\/\/www.youtube.com\/embed\/MIwBWUF334E[\/embed]\n\n[embed]https:\/\/www.youtube.com\/embed\/VBevQ77PQzw[\/embed]\n<h3 style=\"text-align: left\">Quelques cons\u00e9quences pour l'\u00e9ducation<\/h3>\n<p class=\"no-indent\">Les progr\u00e8s constants du traitement automatique des langues naturelles sont remarquables. L\u00e0 o\u00f9 nous nous moquions des traductions stupides propos\u00e9es par l'IA il y a seulement 10 ans, il devient de plus en plus difficile de trouver des erreurs grossi\u00e8res aujourd'hui. Les techniques de reconnaissance vocale et de reconnaissance de caract\u00e8res s'am\u00e9liorent \u00e9galement rapidement.<\/p>\n<p class=\"indent\">Les d\u00e9fis s\u00e9mantiques sont toujours l\u00e0 et r\u00e9pondre \u00e0 des questions qui n\u00e9cessitent une compr\u00e9hension profonde d'un texte ne fonctionne toujours pas correctement. Mais les choses vont dans la bonne direction. Ce qui signifie que l'enseignant doit s'attendre \u00e0 ce que certaines des affirmations suivantes soient bient\u00f4t vraies, si elles ne le sont pas d\u00e9j\u00e0 !<\/p>\n\n<ul>\n \t<li>un \u00e9l\u00e8ve prendra un texte complexe et en obtiendra (avec l'IA) une version simplifi\u00e9e ; le texte pourra m\u00eame \u00eatre personnalis\u00e9 et utiliser des termes, des mots et des concepts auxquels l'\u00e9l\u00e8ve est habitu\u00e9 ;<\/li>\n \t<li>un \u00e9l\u00e8ve pourra prendre un texte et obtenir un texte disant les m\u00eames choses mais ind\u00e9tectable par un outil anti-plagiat ;<\/li>\n \t<li>des vid\u00e9os produites partout dans le monde seront accessibles par doublage automatique dans n'importe quelle langue : cela signifie notamment que nos \u00e9l\u00e8ves ne seront pas seulement expos\u00e9s \u00e0 du mat\u00e9riel d'apprentissage construit dans notre langue, mais aussi par du mat\u00e9riel initialement con\u00e7u pour un autre syst\u00e8me d'apprentissage, une autre culture ;<\/li>\n \t<li>construire des essais pourrait devenir une t\u00e2che du pass\u00e9 car les outils permettront d'\u00e9crire sur n'importe quel sujet.<\/li>\n<\/ul>\n<p class=\"no-indent\">Dans ces exemples, il est clair que l'IA sera loin d'\u00eatre parfaite et que l'expert d\u00e9tectera que si le langage est correct, le flux d'id\u00e9es ne l'est pas. Mais regardons les choses en face : au cours de l\u2019enseignement, combien de temps faut-il \u00e0 nos \u00e9l\u00e8ves et \u00e9tudiants pour atteindre ce niveau ?<\/p>\n\n\n<hr>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>1<\/sup> Collobert, Ronan, et Jason Weston. \" <em>A unified architecture for natural language processing : Deep neural networks with multitask learning<\/em>\". Actes de la 25e conf\u00e9rence internationale sur l'apprentissage automatique. 2008. <a href=\"http:\/\/machinelearning.org\/archive\/icml2008\/papers\/391.pdf\" target=\"_blank\" rel=\"noopener\" data-cke-saved-href=\"http:\/\/machinelearning.org\/archive\/icml2008\/papers\/391.pdf\">http:\/\/machinelearning.org\/archive\/icml2008\/papers\/391.pdf<\/a>. Remarque : cette r\u00e9f\u00e9rence est donn\u00e9e pour des raisons historiques. Mais elle est difficile \u00e0 lire !<\/p>","rendered":"<p class=\"no-indent\">Le traitement automatique du langage naturel est un sujet sur lequel la recherche a longuement travaill\u00e9 au cours des 50 derni\u00e8res ann\u00e9es. Cela a conduit au d\u00e9veloppement de nombreux outils que nous utilisons tous les jours :<\/p>\n<ul>\n<li>Les logiciels de traitement de texte,<\/li>\n<li>La correction automatique de la grammaire et de l&rsquo;orthographe,<\/li>\n<li>La compl\u00e9tion automatique,<\/li>\n<li><a href=\"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/chapter\/optical-character-recognition\/\" target=\"_blank\" rel=\"noopener\">La reconnaissance optique de caract\u00e8res (ROC)<\/a>.<\/li>\n<\/ul>\n<p class=\"indent\">Plus r\u00e9cemment, les chatbots, les assistants personnels, les outils de traduction automatique ont eu un impact \u00e9norme dans tous les domaines.<\/p>\n<figure id=\"attachment_414\" aria-describedby=\"caption-attachment-414\" style=\"width: 394px\" class=\"wp-caption alignleft\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-414\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/15\/2023\/11\/ch5-page-3-sign-language-scaled-2.jpg\" alt=\"\" width=\"394\" height=\"263\" \/><figcaption id=\"caption-attachment-414\" class=\"wp-caption-text\">\u00ab\u00a0Learning sign language\u00a0\u00bb par daveynin est sous licence CC BY 2.0.\u00a0 Pour une copie de cette licence, voir <a href=\"https:\/\/creativecommons.org\/licenses\/by\/2.0\/?ref=openverse\">https:\/\/creativecommons.org\/licenses\/by\/2.0\/?ref=openverse<\/a>.<\/figcaption><\/figure>\n<p>&nbsp;<\/p>\n<p class=\"indent\">Pendant longtemps, la recherche et l&rsquo;industrie ont \u00e9t\u00e9 bloqu\u00e9es par la complexit\u00e9 intrins\u00e8que du langage. A la fin du 20e si\u00e8cle, les grammaires pour une langue, \u00e9crites par des experts, pouvaient compter jusqu&rsquo;\u00e0 50 000 r\u00e8gles. Ces <strong>syst\u00e8mes d&rsquo;experts<\/strong> montraient que la technologie pouvait faire la diff\u00e9rence, mais les solutions robustes \u00e9taient trop complexes \u00e0 d\u00e9velopper.<\/p>\n<p class=\"indent\">D&rsquo;autre part, la <strong>reconnaissance vocale<\/strong> devait \u00eatre capable d&rsquo;exploiter les donn\u00e9es acoustiques et de les transformer en texte. Avec la vari\u00e9t\u00e9 de locuteurs que l&rsquo;on pouvait trouver, une t\u00e2che tr\u00e8s difficile en effet !<\/p>\n<p class=\"indent\">Les chercheurs ont compris que si l&rsquo;on disposait d&rsquo;un mod\u00e8le pour la langue vis\u00e9e, les d\u00e9marches seraient plus faciles : si l&rsquo;on savait quels \u00e9taient les mots de la langue, comment les phrases \u00e9taient form\u00e9es, alors il serait plus facile de trouver la bonne phrase parmi un ensemble de candidats pour correspondre \u00e0 un \u00e9nonc\u00e9 donn\u00e9, ou de produire une traduction valide \u00e0 partir d&rsquo;un ensemble de s\u00e9quences de mots possibles.<\/p>\n<p class=\"indent\">Un autre sujet crucial a \u00e9t\u00e9 celui de la <strong>s\u00e9mantique<\/strong>. La plupart des travaux que nous pouvons faire pour r\u00e9soudre les questions linguistiques sont superficiels : les algorithmes produiront une r\u00e9ponse bas\u00e9e sur certaines r\u00e8gles syntaxiques locales. Si, \u00e0 la fin, le texte ne veut rien dire, qu&rsquo;il en soit ainsi. Une chose similaire peut se produire lorsque nous lisons un texte de certains \u00e9l\u00e8ves : nous pouvons corriger les erreurs sans vraiment comprendre le sens du texte ! Un v\u00e9ritable d\u00e9fi consiste \u00e0 associer du sens au texte, et lorsque cela est possible, aux phrases prononc\u00e9es.<\/p>\n<p><iframe loading=\"lazy\" id=\"oembed-3\" title=\"La distance d\u2019\u00e9dition\" width=\"500\" height=\"281\" src=\"https:\/\/www.youtube.com\/embed\/eKorpGCxw2g?list=PLkm8ZqYSzE3fQBx8zGr4oONlMSO-Cevma\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\"><\/iframe><\/p>\n<p class=\"no-indent\">En 2008 est arriv\u00e9 un r\u00e9sultat surprenant<sup>1<\/sup> : un mod\u00e8le de langue unique pouvait \u00eatre appris \u00e0 partir d&rsquo;une grande quantit\u00e9 de donn\u00e9es et utilis\u00e9 pour une vari\u00e9t\u00e9 de t\u00e2ches linguistiques. En fait, ce mod\u00e8le unique obtenait de meilleurs r\u00e9sultats que les mod\u00e8les form\u00e9s pour les t\u00e2ches sp\u00e9cifiques.<\/p>\n<p class=\"indent\">Le mod\u00e8le \u00e9tait un r\u00e9seau neuronal profond. Pas du tout aussi profond que les mod\u00e8les utilis\u00e9s aujourd&rsquo;hui ! Mais suffisamment pour convaincre la recherche et l&rsquo;industrie que l&rsquo;apprentissage automatique, et plus sp\u00e9cifiquement l&rsquo;apprentissage profond allait \u00eatre la r\u00e9ponse \u00e0 de nombreuses questions en TALN.<\/p>\n<p class=\"indent\">Depuis lors, le traitement du langage naturel a cess\u00e9 de suivre une approche ax\u00e9e sur les mod\u00e8les et a presque toujours \u00e9t\u00e9 bas\u00e9 sur une approche ax\u00e9e sur les donn\u00e9es.<\/p>\n<p class=\"indent\">Traditionnellement, les principales t\u00e2ches linguistiques peuvent \u00eatre d\u00e9compos\u00e9es en 2 familles : celles impliquant la construction de mod\u00e8les et celles impliquant le d\u00e9codage.<\/p>\n<h3 style=\"text-align: left\">Construction de mod\u00e8les<\/h3>\n<p class=\"no-indent\">Pour transcrire, r\u00e9pondre \u00e0 des questions, g\u00e9n\u00e9rer des dialogues ou traduire, il faut pouvoir savoir si \u00ab\u00a0Je parle fran\u00e7ais\u00a0\u00bb est bien une phrase en fran\u00e7ais ou non. Et comme avec la langue orale la grammaire n&rsquo;est pas toujours suivie avec pr\u00e9cision, la r\u00e9ponse voudra \u00eatre probabiliste : une phrase est <em>plus ou moins <\/em>fran\u00e7aise. Cela permet au syst\u00e8me de produire diff\u00e9rentes phrases candidates (comme la transcription d&rsquo;un son, la traduction d&rsquo;une phrase) et la probabilit\u00e9 peut \u00eatre un score. Nous pouvons prendre la phrase la mieux class\u00e9e ou combiner le score avec d&rsquo;autres sources d&rsquo;informations (nous pouvons \u00e9galement nous int\u00e9resser au sujet de la phrase).<\/p>\n<p class=\"indent\">C&rsquo;est ce que font les mod\u00e8les linguistiques : les probabilit\u00e9s sont construites \u00e0 partir d&rsquo;algorithmes d&rsquo;apprentissage automatique. Et bien s\u00fbr, plus il y a de donn\u00e9es, mieux c&rsquo;est. Pour certaines langues, il y a beaucoup de donn\u00e9es \u00e0 partir desquelles construire des mod\u00e8les de langue. Pour d&rsquo;autres, ce n&rsquo;est pas le cas : ce sont des langues sous-ressourc\u00e9es.<\/p>\n<p class=\"indent\">Pour le cas de la traduction, nous ne voulons pas 2 mais 3 mod\u00e8les : un mod\u00e8le de langue pour chaque langue et un autre mod\u00e8le pour les traductions, nous informant de ce que peuvent \u00eatre les meilleures traductions de fragments de langue. Ces mod\u00e8les sont difficiles \u00e0 produire lorsque les donn\u00e9es sont rares. Si les mod\u00e8les pour les paires de langues communes sont plus faciles \u00e0 construire, ce ne sera pas le cas pour les langues qui ne sont pas fr\u00e9quemment parl\u00e9es ensemble (disons le portugais et le slov\u00e8ne). Une solution typique consiste \u00e0 utiliser une <em>langue pivot<\/em> (typiquement l&rsquo;anglais) et \u00e0 traduire via cette langue pivot : du portugais \u00e0 l&rsquo;anglais, puis de l&rsquo;anglais au slov\u00e8ne. Ce qui conduit \u00e9videmment \u00e0 des r\u00e9sultats inf\u00e9rieurs au fur et \u00e0 mesure que les erreurs s&rsquo;accumulent.<\/p>\n<h3 style=\"text-align: left\">D\u00e9codage<\/h3>\n<p class=\"no-indent\">Le d\u00e9codage est le processus par lequel un algorithme prend la s\u00e9quence d&rsquo;entr\u00e9e (qui peut \u00eatre un signal ou un texte) et, en consultant les mod\u00e8les, prend une d\u00e9cision, qui sera souvent un texte de sortie. Il y a ici quelques consid\u00e9rations algorithmiques : dans de nombreux cas, la transcription et la traduction doivent se faire en temps r\u00e9el et la diminution du d\u00e9calage est une question cl\u00e9. Il y a donc de la place pour beaucoup d&rsquo;intelligence artificielle.<\/p>\n<h3 style=\"text-align: left\">De bout en bout<\/h3>\n<p class=\"no-indent\">De nos jours, l&rsquo;approche consistant \u00e0 construire ces composants s\u00e9par\u00e9ment et \u00e0 les combiner plus tard a \u00e9t\u00e9 remplac\u00e9e par des approches <em>de bout en bout<\/em> (end to end) dans lesquelles le syst\u00e8me va transcrire\/traduire\/interpr\u00e9ter l&rsquo;entr\u00e9e \u00e0 travers un mod\u00e8le unique. Actuellement, de tels mod\u00e8les sont form\u00e9s par des r\u00e9seaux neuronaux profonds qui peuvent \u00eatre \u00e9normes : on rapporte que le plus grand mod\u00e8le actuel de GPT3 comprend plusieurs centaines de millions de param\u00e8tres !<\/p>\n<figure id=\"attachment_413\" aria-describedby=\"caption-attachment-413\" style=\"width: 357px\" class=\"wp-caption alignleft\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-413\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/15\/2023\/11\/ch5-page-3-Autoencoder.png\" alt=\"\" width=\"357\" height=\"267\" \/><figcaption id=\"caption-attachment-413\" class=\"wp-caption-text\">Chervinskii, Wikimedia Commonsest sous licence CC BY-SA 4.0. Pour une copie de cette licence, voir <a href=\"https:\/\/creativecommons.org\/licenses\/by\/2.0\/?ref=openverse\">https:\/\/creativecommons.org\/licenses\/by\/2.0\/?ref=openverse<\/a>.<\/figcaption><\/figure>\n<p class=\"indent\">Essayons d&rsquo;en saisir l&rsquo;intuition : supposons que nous ayons des donn\u00e9es. Ces donn\u00e9es brutes peuvent \u00eatre encod\u00e9es d&rsquo;une certaine mani\u00e8re. Mais l&rsquo;encodage peut \u00eatre tr\u00e8s redondant, et peut-\u00eatre m\u00eame co\u00fbteux. Construisons maintenant une machine particuli\u00e8re appel\u00e9e auto-encodeur (voir le sch\u00e9ma ci-dessous). Cette machine sera capable de prendre un texte, de le compresser en un petit vecteur (c&rsquo;est l&rsquo;encodeur), puis de d\u00e9compresser le vecteur (la partie d\u00e9codeur) et de restituer un texte qui est en quelque sorte proche du texte original. L&rsquo;id\u00e9e est que ce m\u00e9canisme rendra le vecteur interm\u00e9diaire tr\u00e8s significatif avec deux propri\u00e9t\u00e9s souhaitables : un vecteur raisonnablement petit \u00ab\u00a0contenant\u00a0\u00bb les informations du texte initial.<\/p>\n<h3 style=\"text-align: left\">L&rsquo;avenir<\/h3>\n<p class=\"no-indent\">Un exemple de bout-en-bout que nous verrons bient\u00f4t sera capable d&rsquo;effectuer la t\u00e2che suivante : il vous entendra parler votre langue, transcrira votre texte, le traduira dans une langue que vous ne connaissez pas, entra\u00eenera un syst\u00e8me de synth\u00e8se vocale \u00e0 votre voix et fera en sorte que votre propre voix prononce le texte correspondant dans une nouvelle phrase. Voici deux exemples produits par des chercheurs de l&rsquo;Universidad Politecnica de Valencia, en Espagne, dans lesquels le mod\u00e8le vocal du locuteur est utilis\u00e9 pour effectuer le doublage.<\/p>\n<p><iframe loading=\"lazy\" id=\"oembed-1\" title=\"PhD defense Demo 4: Zero-shot Speaker Adaptation for OER dubbing\" width=\"500\" height=\"281\" src=\"https:\/\/www.youtube.com\/embed\/MIwBWUF334E?feature=oembed&#38;rel=0\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\"><\/iframe><\/p>\n<p><iframe loading=\"lazy\" id=\"oembed-2\" title=\"PhD defense Demo 1: Cross-lingual Voice Cloning at UPV[Media]\" width=\"500\" height=\"281\" src=\"https:\/\/www.youtube.com\/embed\/VBevQ77PQzw?feature=oembed&#38;rel=0\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\"><\/iframe><\/p>\n<h3 style=\"text-align: left\">Quelques cons\u00e9quences pour l&rsquo;\u00e9ducation<\/h3>\n<p class=\"no-indent\">Les progr\u00e8s constants du traitement automatique des langues naturelles sont remarquables. L\u00e0 o\u00f9 nous nous moquions des traductions stupides propos\u00e9es par l&rsquo;IA il y a seulement 10 ans, il devient de plus en plus difficile de trouver des erreurs grossi\u00e8res aujourd&rsquo;hui. Les techniques de reconnaissance vocale et de reconnaissance de caract\u00e8res s&rsquo;am\u00e9liorent \u00e9galement rapidement.<\/p>\n<p class=\"indent\">Les d\u00e9fis s\u00e9mantiques sont toujours l\u00e0 et r\u00e9pondre \u00e0 des questions qui n\u00e9cessitent une compr\u00e9hension profonde d&rsquo;un texte ne fonctionne toujours pas correctement. Mais les choses vont dans la bonne direction. Ce qui signifie que l&rsquo;enseignant doit s&rsquo;attendre \u00e0 ce que certaines des affirmations suivantes soient bient\u00f4t vraies, si elles ne le sont pas d\u00e9j\u00e0 !<\/p>\n<ul>\n<li>un \u00e9l\u00e8ve prendra un texte complexe et en obtiendra (avec l&rsquo;IA) une version simplifi\u00e9e ; le texte pourra m\u00eame \u00eatre personnalis\u00e9 et utiliser des termes, des mots et des concepts auxquels l&rsquo;\u00e9l\u00e8ve est habitu\u00e9 ;<\/li>\n<li>un \u00e9l\u00e8ve pourra prendre un texte et obtenir un texte disant les m\u00eames choses mais ind\u00e9tectable par un outil anti-plagiat ;<\/li>\n<li>des vid\u00e9os produites partout dans le monde seront accessibles par doublage automatique dans n&rsquo;importe quelle langue : cela signifie notamment que nos \u00e9l\u00e8ves ne seront pas seulement expos\u00e9s \u00e0 du mat\u00e9riel d&rsquo;apprentissage construit dans notre langue, mais aussi par du mat\u00e9riel initialement con\u00e7u pour un autre syst\u00e8me d&rsquo;apprentissage, une autre culture ;<\/li>\n<li>construire des essais pourrait devenir une t\u00e2che du pass\u00e9 car les outils permettront d&rsquo;\u00e9crire sur n&rsquo;importe quel sujet.<\/li>\n<\/ul>\n<p class=\"no-indent\">Dans ces exemples, il est clair que l&rsquo;IA sera loin d&rsquo;\u00eatre parfaite et que l&rsquo;expert d\u00e9tectera que si le langage est correct, le flux d&rsquo;id\u00e9es ne l&rsquo;est pas. Mais regardons les choses en face : au cours de l\u2019enseignement, combien de temps faut-il \u00e0 nos \u00e9l\u00e8ves et \u00e9tudiants pour atteindre ce niveau ?<\/p>\n<hr \/>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>1<\/sup> Collobert, Ronan, et Jason Weston. \u00a0\u00bb <em>A unified architecture for natural language processing : Deep neural networks with multitask learning<\/em>\u00ab\u00a0. Actes de la 25e conf\u00e9rence internationale sur l&rsquo;apprentissage automatique. 2008. <a href=\"http:\/\/machinelearning.org\/archive\/icml2008\/papers\/391.pdf\" target=\"_blank\" rel=\"noopener\" data-cke-saved-href=\"http:\/\/machinelearning.org\/archive\/icml2008\/papers\/391.pdf\">http:\/\/machinelearning.org\/archive\/icml2008\/papers\/391.pdf<\/a>. Remarque : cette r\u00e9f\u00e9rence est donn\u00e9e pour des raisons historiques. Mais elle est difficile \u00e0 lire !<\/p>\n","protected":false},"author":1,"menu_order":4,"template":"","meta":{"pb_show_title":"","pb_short_title":"","pb_subtitle":"","pb_authors":[],"pb_section_license":""},"chapter-type":[],"contributor":[],"license":[],"part":133,"_links":{"self":[{"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/chapters\/146"}],"collection":[{"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/chapters"}],"about":[{"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/wp\/v2\/types\/chapter"}],"author":[{"embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/wp\/v2\/users\/1"}],"version-history":[{"count":1,"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/chapters\/146\/revisions"}],"predecessor-version":[{"id":147,"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/chapters\/146\/revisions\/147"}],"part":[{"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/parts\/133"}],"metadata":[{"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/chapters\/146\/metadata\/"}],"wp:attachment":[{"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/wp\/v2\/media?parent=146"}],"wp:term":[{"taxonomy":"chapter-type","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/chapter-type?post=146"},{"taxonomy":"contributor","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/wp\/v2\/contributor?post=146"},{"taxonomy":"license","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/wp\/v2\/license?post=146"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}