{"id":156,"date":"2023-11-30T17:00:36","date_gmt":"2023-11-30T17:00:36","guid":{"rendered":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/chapter\/415\/"},"modified":"2024-01-31T11:43:49","modified_gmt":"2024-01-31T11:43:49","slug":"415","status":"publish","type":"chapter","link":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/chapter\/415\/","title":{"raw":"KI-Sprache: Nat\u00fcrliche Sprachverarbeitung","rendered":"KI-Sprache: Nat\u00fcrliche Sprachverarbeitung"},"content":{"raw":"<p class=\"no-indent\">Nat\u00fcrliche Sprachverarbeitung ist ein Thema, mit dem sich die Forschung in den letzten 50 Jahren intensiv besch\u00e4ftigt hat. Dies hat zur Entwicklung vieler Tools gef\u00fchrt, die wir t\u00e4glich nutzen:<\/p>\n\n<ul>\n \t<li>Wortprozessoren<\/li>\n \t<li>Automatische Grammatik- und Rechtschreibkorrektur<\/li>\n \t<li>Automatische Vervollst\u00e4ndigung<\/li>\n \t<li><a href=\"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/chapter\/optical-character-recognition\/\" target=\"_blank\" rel=\"noopener\">Optische Zeichenerkennung (OCR)<\/a><\/li>\n<\/ul>\n<p class=\"indent\">In j\u00fcngster Zeit haben Chatbots, Heimassistenten und automatische \u00dcbersetzungstools in allen Bereichen einen enormen Einfluss ausge\u00fcbt.<\/p>\n\n\n[caption id=\"attachment_155\" align=\"alignleft\" width=\"394\"]<img class=\" wp-image-154\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/13\/2023\/11\/ch5-page-3-sign-language-scaled-1.jpg\" alt=\"\" width=\"394\" height=\"263\"> \"Learning sign language\" by daveynin ist lizensiert unter CC BY 2.0. Um eine Kopie dieser Lizenz zu sehen, gehen Sie bitte zu: <a href=\"https:\/\/creativecommons.org\/licenses\/by\/2.0\/?ref=openverse\">https:\/\/creativecommons.org\/licenses\/by\/2.0\/?ref=openverse<\/a>.[\/caption]\n<p class=\"indent\">Lange Zeit wurden Forschung und Industrie durch die inh\u00e4rente Komplexit\u00e4t der Sprache ausgebremst. Ende des 20. Jahrhunderts konnten Grammatiken f\u00fcr eine Sprache, die von Fachleuten geschrieben wurden, bis zu 50.000 Regeln enthalten. Diese <strong>Expertensysteme <\/strong>zeigten, dass Technologie etwas bewirken konnte, aber robuste L\u00f6sungen waren zu komplex, um sie zu entwickeln.<\/p>\n<p class=\"indent\">Auf der anderen Seite musste die <strong>Spracherkennung<\/strong> in der Lage sein, akustische Daten zu nutzen und sie in Text umzuwandeln. Bei der Vielzahl von Sprechenden, die man finden konnte, in der Tat eine sehr schwierige Aufgabe!<\/p>\n<p class=\"indent\">Die Forschenden waren sich dar\u00fcber im Klaren, dass es einfacher w\u00e4re, wenn wir ein Modell der beabsichtigten Sprache h\u00e4tten: Wenn wir w\u00fcssten, welche W\u00f6rter die Sprache enth\u00e4lt und wie S\u00e4tze gebildet werden, w\u00e4re es einfacher, aus einer Reihe von Kandidaten den richtigen Satz zu finden, der zu einer bestimmten \u00c4u\u00dferung passt, oder aus einer Reihe von m\u00f6glichen Wortfolgen eine g\u00fcltige \u00dcbersetzung zu erstellen.<\/p>\n<p class=\"indent\">Ein weiteres wichtiges Thema ist die <strong>Semantik<\/strong>. Das meiste, was wir zur L\u00f6sung linguistischer Fragen tun k\u00f6nnen, ist oberfl\u00e4chlich: Die Algorithmen liefern eine Antwort auf der Grundlage einiger lokaler syntaktischer Regeln. Wenn der Text am Ende nichts bedeutet, dann ist das eben so. \u00c4hnliches kann passieren, wenn wir einen Text von Sch\u00fclerinnen bzw. Sch\u00fclern lesen: Wir k\u00f6nnen die Fehler korrigieren, ohne wirklich zu verstehen, worum es in dem Text geht! Eine echte Herausforderung besteht darin, dem Text und, wenn m\u00f6glich, den gesprochenen S\u00e4tzen eine Bedeutung zuzuordnen.<\/p>\nhttps:\/\/www.youtube.com\/watch?v=My2cQR5XuEU&amp;list=PLkm8ZqYSzE3eM28LL0BJylUFuVedLE3Uy&amp;index=13&amp;pp=iAQB\n<p class=\"no-indent\">Im Jahr 2008 kam ein \u00fcberraschendes Ergebnis<sup>1<\/sup>: Ein einziges Sprachmodell konnte aus einer gro\u00dfen Menge von Daten erlernt und f\u00fcr eine Vielzahl von sprachlichen Aufgaben verwendet werden. Dieses einzigartige Modell schnitt sogar besser ab als Modelle, die f\u00fcr die jeweiligen Aufgaben trainiert wurden.<\/p>\n<p class=\"indent\">Das Modell war ein tiefes neuronales Netzwerk. Bei weitem nicht so tief wie die heute verwendeten Modelle! Aber es reichte aus, um Forschung und Industrie davon zu \u00fcberzeugen, dass maschinelles Lernen und insbesondere Deep Learning die Antwort auf viele Fragen im Bereich NLP sein w\u00fcrde.<\/p>\n<p class=\"indent\">Seitdem hat die nat\u00fcrliche Sprachverarbeitung aufgeh\u00f6rt, einem modellgesteuerten Ansatz zu folgen, und basiert fast immer auf einem datengesteuerten Ansatz.<\/p>\n<p class=\"indent\">Traditionell lassen sich die wichtigsten Sprachaufgaben in 2 Familien unterteilen: diejenigen, bei denen es um die Erstellung von Modellen geht, und diejenigen, bei denen es um die Dekodierung geht.<\/p>\n\n<h3 style=\"text-align: left\">Aufbau von Modellen<\/h3>\n<p class=\"no-indent\">Um zu transkribieren, Fragen zu beantworten, Dialoge zu erstellen oder zu \u00fcbersetzen, m\u00fcssen Sie wissen, ob \u201eJe parle Fran\u00e7ais\u201d tats\u00e4chlich ein Satz auf Franz\u00f6sisch ist oder nicht. Und da die Grammatik der gesprochenen Sprache nicht immer genau befolgt wird, muss die Antwort probabilistisch sein: Ein Satz ist <em>mehr oder weniger <\/em>Franz\u00f6sisch. Dies erm\u00f6glicht es dem System, verschiedene Kandidatens\u00e4tze zu produzieren (wie die Transkription eines Lautes, die \u00dcbersetzung eines Satzes, \u2026) und die Wahrscheinlichkeit kann eine Punktzahl sein. Wir k\u00f6nnen den am h\u00f6chsten bewerteten Satz nehmen oder die Punktzahl mit anderen Informationsquellen kombinieren (wir k\u00f6nnen auch daran interessiert sein, worum es in dem Satz geht).<\/p>\n<p class=\"indent\">Sprachmodelle tun dies: Die Wahrscheinlichkeiten werden von Algorithmen des maschinellen Lernens erstellt. Je mehr Daten vorhanden sind, umso besser. F\u00fcr einige Sprachen gibt es eine Menge Daten, aus denen Sprachmodelle erstellt werden k\u00f6nnen. Bei anderen ist das nicht der Fall: Das sind Sprachen, f\u00fcr die nur wenige Daten vorliegen.<\/p>\n<p class=\"indent\">F\u00fcr den Fall der \u00dcbersetzung brauchen wir nicht 2, sondern 3 Modelle: ein Sprachmodell f\u00fcr jede Sprache und ein weiteres Modell f\u00fcr die \u00dcbersetzungen, das uns dar\u00fcber informiert, wie die besseren \u00dcbersetzungen von Sprachfragmenten aussehen k\u00f6nnen. Diese Modelle sind schwer zu erstellen, wenn die Daten knapp sind. Wenn Modelle f\u00fcr g\u00e4ngige Sprachpaare leichter zu erstellen sind, gilt dies nicht f\u00fcr Sprachen, die nicht h\u00e4ufig zusammen gesprochen werden (z. B. Portugiesisch und Slowenisch). Ein typischer Ausweg ist hier die Verwendung einer <em>Pivot-Sprache<\/em> (in der Regel Englisch) und die \u00dcbersetzung \u00fcber diese Pivot-Sprache: von Portugiesisch nach Englisch und dann von Englisch nach Slowenisch. Das f\u00fchrt nat\u00fcrlich zu minderwertigen Ergebnissen, da sich die Fehler h\u00e4ufen.<\/p>\n\n<h3 style=\"text-align: left\">Dekodierung<\/h3>\n<p class=\"no-indent\">Die Dekodierung ist der Prozess, bei dem ein Algorithmus die Eingabesequenz (bei der es sich um ein Signal oder einen Text handeln kann) nimmt und anhand der Modelle eine Entscheidung trifft, die h\u00e4ufig ein Ausgabetext sein wird. Hier gibt es einige algorithmische \u00dcberlegungen: In vielen F\u00e4llen m\u00fcssen Transkription und \u00dcbersetzung in Echtzeit erfolgen, und die Verringerung der Verz\u00f6gerung ist ein wichtiges Thema. Es gibt also viel Raum f\u00fcr k\u00fcnstliche Intelligenz.<\/p>\n\n<h3 style=\"text-align: left\">End-to-End<\/h3>\n<p class=\"no-indent\">Heutzutage ist der Ansatz, diese Komponenten separat zu erstellen und sp\u00e4ter zu kombinieren, durch <em>End-to-End-Ans\u00e4tze<\/em> ersetzt worden, bei denen das System die Eingabe durch ein einziges Modell transkribiert\/\u00fcbersetzt\/interpretiert. Derzeit werden solche Modelle von tiefen neuronalen Netzen trainiert, die riesig sein k\u00f6nnen: Es wird berichtet, dass das derzeit gr\u00f6\u00dfte GPT3-Modell mehrere hundert Millionen Parameter umfasst!<\/p>\n\n\n[caption id=\"attachment_155\" align=\"alignleft\" width=\"357\"]<img class=\" wp-image-155\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/13\/2024\/01\/ch5-page-3-Autoencoder.png\" alt=\"\" width=\"357\" height=\"267\"> Chervinskii, Wikimedia Commons ist lizensiert unter CC BY-SA 4.0. Um eine Kopie dieser Lizenz zu sehen, gehen Sie bitte zu: <a href=\"https:\/\/creativecommons.org\/licenses\/by\/2.0\/?ref=openverse\">https:\/\/creativecommons.org\/licenses\/by\/2.0\/?ref=openverse<\/a>.[\/caption]\n<p class=\"indent\">Lassen Sie uns versuchen, Zusammenh\u00e4nge zu verstehen: Angenommen, wir haben einige Daten. Diese Rohdaten k\u00f6nnen auf irgendeine Weise kodiert werden. Aber die Kodierung kann sehr redundant und vielleicht sogar teuer sein. Lassen Sie uns nun eine bestimmte Maschine bauen, die wir Auto-Encoder nennen (siehe Diagramm unten). Diese Maschine ist in der Lage, einen Text zu nehmen, ihn in einen kleinen Vektor zu komprimieren (das ist der Encoder) und dann den Vektor zu dekomprimieren (der Decoderteil) und einen Text wiederherzustellen, der dem urspr\u00fcnglichen Text irgendwie nahe kommt. Die Idee ist, dass dieser Mechanismus den Zwischenvektor sehr aussagekr\u00e4ftig macht und ihm zwei w\u00fcnschenswerte Eigenschaften verleiht: dass der Vektor einigerma\u00dfen klein ist und dass er die Informationen des Ausgangspunktes enth\u00e4lt.<\/p>\n\n<h3>Die Zukunft<\/h3>\n<p class=\"no-indent\">Ein Beispiel f\u00fcr ein End-to-End-System, das wir bald sehen werden, wird folgende Aufgabe erf\u00fcllen k\u00f6nnen: Es h\u00f6rt Sie Ihre Sprache sprechen, transkribiert Ihren Text, \u00fcbersetzt ihn in eine Sprache, die Sie nicht kennen, trainiert ein Sprachsynthesesystem auf Ihre Stimme und l\u00e4sst Ihre eigene Stimme den entsprechenden Text in einem neuen Satz sprechen. Hier sehen Sie zwei Beispiele, die von Forschenden der Universidad Politecnica de Valencia in Spanien produziert wurden und bei denen das eigene Sprachmodell der Sprecherin bzw. des Sprechers f\u00fcr die Synchronisation verwendet wird.<\/p>\n[embed]https:\/\/www.youtube.com\/embed\/MIwBWUF334E[\/embed]\n\n[embed]https:\/\/www.youtube.com\/embed\/VBevQ77PQzw[\/embed]\n<h3 style=\"text-align: left\">Einige Konsequenzen f\u00fcr die Bildung<\/h3>\n<p class=\"no-indent\">Die stetigen Fortschritte bei der Verarbeitung nat\u00fcrlicher Sprache sind bemerkenswert. Wo wir noch vor 10 Jahren \u00fcber die dummen \u00dcbersetzungen, die von der KI vorgeschlagen wurden, gelacht h\u00e4tten, wird es heute immer schwieriger, grobe Fehler zu finden. Auch die Techniken zur Sprach- und Zeichenerkennung werden immer besser.<\/p>\n<p class=\"indent\">Die semantischen Herausforderungen sind immer noch da und die Beantwortung von Fragen, die ein tiefes Verst\u00e4ndnis eines Textes erfordern, funktioniert immer noch nicht richtig. Aber die Dinge entwickeln sich in die richtige Richtung. Das bedeutet, dass Lehrkr\u00e4fte damit rechnen sollten, dass einige der folgenden Aussagen bald wahr sein werden, wenn sie es nicht schon sind!<\/p>\n\n<ul>\n \t<li>Ein Sch\u00fcler bzw. eine Sch\u00fclerin wird einen komplexen Text nehmen und (mit KI) eine vereinfachte Version erhalten; der Text kann sogar personalisiert sein und Begriffe, W\u00f6rter und Konzepte verwenden, die ihm btw. ihr vertraut sind.<\/li>\n \t<li>Ein Sch\u00fcler bzw. eine Sch\u00fclerin wird in der Lage sein, einen Text zu nehmen und einen Text zu erhalten, in dem dieselben Dinge stehen, der aber von einem Anti-Plagiat-Tool nicht entdeckt werden kann.<\/li>\n \t<li>Videos, die irgendwo auf der Welt produziert werden, werden durch automatische Synchronisation in jeder Sprache zug\u00e4nglich sein: Das bedeutet insbesondere, dass unsere Sch\u00fclerinnen und Sch\u00fcler nicht nur mit Lernmaterial in unserer Sprache konfrontiert werden, sondern auch mit Material, das urspr\u00fcnglich f\u00fcr ein anderes Lernsystem, eine andere Kultur entwickelt wurde.<\/li>\n \t<li>Das Verfassen von Aufs\u00e4tzen k\u00f6nnte der Vergangenheit angeh\u00f6ren, da die Tools es erm\u00f6glichen werden, zu jedem Thema etwas zu schreiben.<\/li>\n<\/ul>\n<p class=\"indent\">In diesen Beispielen wird deutlich, dass die KI bei weitem nicht perfekt sein und die Person mit Fachkenntnis feststellen wird, dass die Sprache zwar korrekt ist, der Ideenfluss jedoch nicht. Aber seien wir ehrlich: Wie lange dauert es im Laufe der Ausbildung, bis unsere Sch\u00fclerinnen und unsere Studierenden dieses Niveau erreichen?<\/p>\n\n\n<hr>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>1<\/sup> Collobert, Ronan, and Jason Weston. \u201cA unified architecture for natural language processing: Deep neural networks with multitask learning.\u201d Proceedings of the 25th international conference on Machine learning. 2008. <a href=\"http:\/\/machinelearning.org\/archive\/icml2008\/papers\/391.pdf\" target=\"_blank\" rel=\"noopener\" data-cke-saved-href=\"http:\/\/machinelearning.org\/archive\/icml2008\/papers\/391.pdf\">http:\/\/machinelearning.org\/archive\/icml2008\/papers\/391.pdf<\/a>. Note: this reference is given for historical reasons. But it is difficult to read!<\/p>","rendered":"<p class=\"no-indent\">Nat\u00fcrliche Sprachverarbeitung ist ein Thema, mit dem sich die Forschung in den letzten 50 Jahren intensiv besch\u00e4ftigt hat. Dies hat zur Entwicklung vieler Tools gef\u00fchrt, die wir t\u00e4glich nutzen:<\/p>\n<ul>\n<li>Wortprozessoren<\/li>\n<li>Automatische Grammatik- und Rechtschreibkorrektur<\/li>\n<li>Automatische Vervollst\u00e4ndigung<\/li>\n<li><a href=\"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/chapter\/optical-character-recognition\/\" target=\"_blank\" rel=\"noopener\">Optische Zeichenerkennung (OCR)<\/a><\/li>\n<\/ul>\n<p class=\"indent\">In j\u00fcngster Zeit haben Chatbots, Heimassistenten und automatische \u00dcbersetzungstools in allen Bereichen einen enormen Einfluss ausge\u00fcbt.<\/p>\n<figure id=\"attachment_155\" aria-describedby=\"caption-attachment-155\" style=\"width: 394px\" class=\"wp-caption alignleft\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-154\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/13\/2023\/11\/ch5-page-3-sign-language-scaled-1.jpg\" alt=\"\" width=\"394\" height=\"263\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2023\/11\/ch5-page-3-sign-language-scaled-1.jpg 2560w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2023\/11\/ch5-page-3-sign-language-scaled-1-300x200.jpg 300w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2023\/11\/ch5-page-3-sign-language-scaled-1-1024x683.jpg 1024w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2023\/11\/ch5-page-3-sign-language-scaled-1-768x512.jpg 768w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2023\/11\/ch5-page-3-sign-language-scaled-1-1536x1024.jpg 1536w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2023\/11\/ch5-page-3-sign-language-scaled-1-2048x1366.jpg 2048w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2023\/11\/ch5-page-3-sign-language-scaled-1-65x43.jpg 65w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2023\/11\/ch5-page-3-sign-language-scaled-1-225x150.jpg 225w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2023\/11\/ch5-page-3-sign-language-scaled-1-350x233.jpg 350w\" sizes=\"(max-width: 394px) 100vw, 394px\" \/><figcaption id=\"caption-attachment-155\" class=\"wp-caption-text\">&#8220;Learning sign language&#8221; by daveynin ist lizensiert unter CC BY 2.0. Um eine Kopie dieser Lizenz zu sehen, gehen Sie bitte zu: <a href=\"https:\/\/creativecommons.org\/licenses\/by\/2.0\/?ref=openverse\">https:\/\/creativecommons.org\/licenses\/by\/2.0\/?ref=openverse<\/a>.<\/figcaption><\/figure>\n<p class=\"indent\">Lange Zeit wurden Forschung und Industrie durch die inh\u00e4rente Komplexit\u00e4t der Sprache ausgebremst. Ende des 20. Jahrhunderts konnten Grammatiken f\u00fcr eine Sprache, die von Fachleuten geschrieben wurden, bis zu 50.000 Regeln enthalten. Diese <strong>Expertensysteme <\/strong>zeigten, dass Technologie etwas bewirken konnte, aber robuste L\u00f6sungen waren zu komplex, um sie zu entwickeln.<\/p>\n<p class=\"indent\">Auf der anderen Seite musste die <strong>Spracherkennung<\/strong> in der Lage sein, akustische Daten zu nutzen und sie in Text umzuwandeln. Bei der Vielzahl von Sprechenden, die man finden konnte, in der Tat eine sehr schwierige Aufgabe!<\/p>\n<p class=\"indent\">Die Forschenden waren sich dar\u00fcber im Klaren, dass es einfacher w\u00e4re, wenn wir ein Modell der beabsichtigten Sprache h\u00e4tten: Wenn wir w\u00fcssten, welche W\u00f6rter die Sprache enth\u00e4lt und wie S\u00e4tze gebildet werden, w\u00e4re es einfacher, aus einer Reihe von Kandidaten den richtigen Satz zu finden, der zu einer bestimmten \u00c4u\u00dferung passt, oder aus einer Reihe von m\u00f6glichen Wortfolgen eine g\u00fcltige \u00dcbersetzung zu erstellen.<\/p>\n<p class=\"indent\">Ein weiteres wichtiges Thema ist die <strong>Semantik<\/strong>. Das meiste, was wir zur L\u00f6sung linguistischer Fragen tun k\u00f6nnen, ist oberfl\u00e4chlich: Die Algorithmen liefern eine Antwort auf der Grundlage einiger lokaler syntaktischer Regeln. Wenn der Text am Ende nichts bedeutet, dann ist das eben so. \u00c4hnliches kann passieren, wenn wir einen Text von Sch\u00fclerinnen bzw. Sch\u00fclern lesen: Wir k\u00f6nnen die Fehler korrigieren, ohne wirklich zu verstehen, worum es in dem Text geht! Eine echte Herausforderung besteht darin, dem Text und, wenn m\u00f6glich, den gesprochenen S\u00e4tzen eine Bedeutung zuzuordnen.<\/p>\n<p><iframe loading=\"lazy\" id=\"oembed-3\" title=\"Abstand bearbeiten\" width=\"500\" height=\"281\" src=\"https:\/\/www.youtube.com\/embed\/My2cQR5XuEU?list=PLkm8ZqYSzE3eM28LL0BJylUFuVedLE3Uy\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\"><\/iframe><\/p>\n<p class=\"no-indent\">Im Jahr 2008 kam ein \u00fcberraschendes Ergebnis<sup>1<\/sup>: Ein einziges Sprachmodell konnte aus einer gro\u00dfen Menge von Daten erlernt und f\u00fcr eine Vielzahl von sprachlichen Aufgaben verwendet werden. Dieses einzigartige Modell schnitt sogar besser ab als Modelle, die f\u00fcr die jeweiligen Aufgaben trainiert wurden.<\/p>\n<p class=\"indent\">Das Modell war ein tiefes neuronales Netzwerk. Bei weitem nicht so tief wie die heute verwendeten Modelle! Aber es reichte aus, um Forschung und Industrie davon zu \u00fcberzeugen, dass maschinelles Lernen und insbesondere Deep Learning die Antwort auf viele Fragen im Bereich NLP sein w\u00fcrde.<\/p>\n<p class=\"indent\">Seitdem hat die nat\u00fcrliche Sprachverarbeitung aufgeh\u00f6rt, einem modellgesteuerten Ansatz zu folgen, und basiert fast immer auf einem datengesteuerten Ansatz.<\/p>\n<p class=\"indent\">Traditionell lassen sich die wichtigsten Sprachaufgaben in 2 Familien unterteilen: diejenigen, bei denen es um die Erstellung von Modellen geht, und diejenigen, bei denen es um die Dekodierung geht.<\/p>\n<h3 style=\"text-align: left\">Aufbau von Modellen<\/h3>\n<p class=\"no-indent\">Um zu transkribieren, Fragen zu beantworten, Dialoge zu erstellen oder zu \u00fcbersetzen, m\u00fcssen Sie wissen, ob \u201eJe parle Fran\u00e7ais\u201d tats\u00e4chlich ein Satz auf Franz\u00f6sisch ist oder nicht. Und da die Grammatik der gesprochenen Sprache nicht immer genau befolgt wird, muss die Antwort probabilistisch sein: Ein Satz ist <em>mehr oder weniger <\/em>Franz\u00f6sisch. Dies erm\u00f6glicht es dem System, verschiedene Kandidatens\u00e4tze zu produzieren (wie die Transkription eines Lautes, die \u00dcbersetzung eines Satzes, \u2026) und die Wahrscheinlichkeit kann eine Punktzahl sein. Wir k\u00f6nnen den am h\u00f6chsten bewerteten Satz nehmen oder die Punktzahl mit anderen Informationsquellen kombinieren (wir k\u00f6nnen auch daran interessiert sein, worum es in dem Satz geht).<\/p>\n<p class=\"indent\">Sprachmodelle tun dies: Die Wahrscheinlichkeiten werden von Algorithmen des maschinellen Lernens erstellt. Je mehr Daten vorhanden sind, umso besser. F\u00fcr einige Sprachen gibt es eine Menge Daten, aus denen Sprachmodelle erstellt werden k\u00f6nnen. Bei anderen ist das nicht der Fall: Das sind Sprachen, f\u00fcr die nur wenige Daten vorliegen.<\/p>\n<p class=\"indent\">F\u00fcr den Fall der \u00dcbersetzung brauchen wir nicht 2, sondern 3 Modelle: ein Sprachmodell f\u00fcr jede Sprache und ein weiteres Modell f\u00fcr die \u00dcbersetzungen, das uns dar\u00fcber informiert, wie die besseren \u00dcbersetzungen von Sprachfragmenten aussehen k\u00f6nnen. Diese Modelle sind schwer zu erstellen, wenn die Daten knapp sind. Wenn Modelle f\u00fcr g\u00e4ngige Sprachpaare leichter zu erstellen sind, gilt dies nicht f\u00fcr Sprachen, die nicht h\u00e4ufig zusammen gesprochen werden (z. B. Portugiesisch und Slowenisch). Ein typischer Ausweg ist hier die Verwendung einer <em>Pivot-Sprache<\/em> (in der Regel Englisch) und die \u00dcbersetzung \u00fcber diese Pivot-Sprache: von Portugiesisch nach Englisch und dann von Englisch nach Slowenisch. Das f\u00fchrt nat\u00fcrlich zu minderwertigen Ergebnissen, da sich die Fehler h\u00e4ufen.<\/p>\n<h3 style=\"text-align: left\">Dekodierung<\/h3>\n<p class=\"no-indent\">Die Dekodierung ist der Prozess, bei dem ein Algorithmus die Eingabesequenz (bei der es sich um ein Signal oder einen Text handeln kann) nimmt und anhand der Modelle eine Entscheidung trifft, die h\u00e4ufig ein Ausgabetext sein wird. Hier gibt es einige algorithmische \u00dcberlegungen: In vielen F\u00e4llen m\u00fcssen Transkription und \u00dcbersetzung in Echtzeit erfolgen, und die Verringerung der Verz\u00f6gerung ist ein wichtiges Thema. Es gibt also viel Raum f\u00fcr k\u00fcnstliche Intelligenz.<\/p>\n<h3 style=\"text-align: left\">End-to-End<\/h3>\n<p class=\"no-indent\">Heutzutage ist der Ansatz, diese Komponenten separat zu erstellen und sp\u00e4ter zu kombinieren, durch <em>End-to-End-Ans\u00e4tze<\/em> ersetzt worden, bei denen das System die Eingabe durch ein einziges Modell transkribiert\/\u00fcbersetzt\/interpretiert. Derzeit werden solche Modelle von tiefen neuronalen Netzen trainiert, die riesig sein k\u00f6nnen: Es wird berichtet, dass das derzeit gr\u00f6\u00dfte GPT3-Modell mehrere hundert Millionen Parameter umfasst!<\/p>\n<figure id=\"attachment_155\" aria-describedby=\"caption-attachment-155\" style=\"width: 357px\" class=\"wp-caption alignleft\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-155\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/13\/2024\/01\/ch5-page-3-Autoencoder.png\" alt=\"\" width=\"357\" height=\"267\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch5-page-3-Autoencoder.png 677w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch5-page-3-Autoencoder-300x224.png 300w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch5-page-3-Autoencoder-65x49.png 65w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch5-page-3-Autoencoder-225x168.png 225w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch5-page-3-Autoencoder-350x262.png 350w\" sizes=\"(max-width: 357px) 100vw, 357px\" \/><figcaption id=\"caption-attachment-155\" class=\"wp-caption-text\">Chervinskii, Wikimedia Commons ist lizensiert unter CC BY-SA 4.0. Um eine Kopie dieser Lizenz zu sehen, gehen Sie bitte zu: <a href=\"https:\/\/creativecommons.org\/licenses\/by\/2.0\/?ref=openverse\">https:\/\/creativecommons.org\/licenses\/by\/2.0\/?ref=openverse<\/a>.<\/figcaption><\/figure>\n<p class=\"indent\">Lassen Sie uns versuchen, Zusammenh\u00e4nge zu verstehen: Angenommen, wir haben einige Daten. Diese Rohdaten k\u00f6nnen auf irgendeine Weise kodiert werden. Aber die Kodierung kann sehr redundant und vielleicht sogar teuer sein. Lassen Sie uns nun eine bestimmte Maschine bauen, die wir Auto-Encoder nennen (siehe Diagramm unten). Diese Maschine ist in der Lage, einen Text zu nehmen, ihn in einen kleinen Vektor zu komprimieren (das ist der Encoder) und dann den Vektor zu dekomprimieren (der Decoderteil) und einen Text wiederherzustellen, der dem urspr\u00fcnglichen Text irgendwie nahe kommt. Die Idee ist, dass dieser Mechanismus den Zwischenvektor sehr aussagekr\u00e4ftig macht und ihm zwei w\u00fcnschenswerte Eigenschaften verleiht: dass der Vektor einigerma\u00dfen klein ist und dass er die Informationen des Ausgangspunktes enth\u00e4lt.<\/p>\n<h3>Die Zukunft<\/h3>\n<p class=\"no-indent\">Ein Beispiel f\u00fcr ein End-to-End-System, das wir bald sehen werden, wird folgende Aufgabe erf\u00fcllen k\u00f6nnen: Es h\u00f6rt Sie Ihre Sprache sprechen, transkribiert Ihren Text, \u00fcbersetzt ihn in eine Sprache, die Sie nicht kennen, trainiert ein Sprachsynthesesystem auf Ihre Stimme und l\u00e4sst Ihre eigene Stimme den entsprechenden Text in einem neuen Satz sprechen. Hier sehen Sie zwei Beispiele, die von Forschenden der Universidad Politecnica de Valencia in Spanien produziert wurden und bei denen das eigene Sprachmodell der Sprecherin bzw. des Sprechers f\u00fcr die Synchronisation verwendet wird.<\/p>\n<p><iframe loading=\"lazy\" id=\"oembed-1\" title=\"PhD defense Demo 4: Zero-shot Speaker Adaptation for OER dubbing\" width=\"500\" height=\"281\" src=\"https:\/\/www.youtube.com\/embed\/MIwBWUF334E?feature=oembed&#38;rel=0\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\"><\/iframe><\/p>\n<p><iframe loading=\"lazy\" id=\"oembed-2\" title=\"PhD defense Demo 1: Cross-lingual Voice Cloning at UPV[Media]\" width=\"500\" height=\"281\" src=\"https:\/\/www.youtube.com\/embed\/VBevQ77PQzw?feature=oembed&#38;rel=0\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\"><\/iframe><\/p>\n<h3 style=\"text-align: left\">Einige Konsequenzen f\u00fcr die Bildung<\/h3>\n<p class=\"no-indent\">Die stetigen Fortschritte bei der Verarbeitung nat\u00fcrlicher Sprache sind bemerkenswert. Wo wir noch vor 10 Jahren \u00fcber die dummen \u00dcbersetzungen, die von der KI vorgeschlagen wurden, gelacht h\u00e4tten, wird es heute immer schwieriger, grobe Fehler zu finden. Auch die Techniken zur Sprach- und Zeichenerkennung werden immer besser.<\/p>\n<p class=\"indent\">Die semantischen Herausforderungen sind immer noch da und die Beantwortung von Fragen, die ein tiefes Verst\u00e4ndnis eines Textes erfordern, funktioniert immer noch nicht richtig. Aber die Dinge entwickeln sich in die richtige Richtung. Das bedeutet, dass Lehrkr\u00e4fte damit rechnen sollten, dass einige der folgenden Aussagen bald wahr sein werden, wenn sie es nicht schon sind!<\/p>\n<ul>\n<li>Ein Sch\u00fcler bzw. eine Sch\u00fclerin wird einen komplexen Text nehmen und (mit KI) eine vereinfachte Version erhalten; der Text kann sogar personalisiert sein und Begriffe, W\u00f6rter und Konzepte verwenden, die ihm btw. ihr vertraut sind.<\/li>\n<li>Ein Sch\u00fcler bzw. eine Sch\u00fclerin wird in der Lage sein, einen Text zu nehmen und einen Text zu erhalten, in dem dieselben Dinge stehen, der aber von einem Anti-Plagiat-Tool nicht entdeckt werden kann.<\/li>\n<li>Videos, die irgendwo auf der Welt produziert werden, werden durch automatische Synchronisation in jeder Sprache zug\u00e4nglich sein: Das bedeutet insbesondere, dass unsere Sch\u00fclerinnen und Sch\u00fcler nicht nur mit Lernmaterial in unserer Sprache konfrontiert werden, sondern auch mit Material, das urspr\u00fcnglich f\u00fcr ein anderes Lernsystem, eine andere Kultur entwickelt wurde.<\/li>\n<li>Das Verfassen von Aufs\u00e4tzen k\u00f6nnte der Vergangenheit angeh\u00f6ren, da die Tools es erm\u00f6glichen werden, zu jedem Thema etwas zu schreiben.<\/li>\n<\/ul>\n<p class=\"indent\">In diesen Beispielen wird deutlich, dass die KI bei weitem nicht perfekt sein und die Person mit Fachkenntnis feststellen wird, dass die Sprache zwar korrekt ist, der Ideenfluss jedoch nicht. Aber seien wir ehrlich: Wie lange dauert es im Laufe der Ausbildung, bis unsere Sch\u00fclerinnen und unsere Studierenden dieses Niveau erreichen?<\/p>\n<hr \/>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>1<\/sup> Collobert, Ronan, and Jason Weston. \u201cA unified architecture for natural language processing: Deep neural networks with multitask learning.\u201d Proceedings of the 25th international conference on Machine learning. 2008. <a href=\"http:\/\/machinelearning.org\/archive\/icml2008\/papers\/391.pdf\" target=\"_blank\" rel=\"noopener\" data-cke-saved-href=\"http:\/\/machinelearning.org\/archive\/icml2008\/papers\/391.pdf\">http:\/\/machinelearning.org\/archive\/icml2008\/papers\/391.pdf<\/a>. Note: this reference is given for historical reasons. But it is difficult to read!<\/p>\n","protected":false},"author":1,"menu_order":4,"template":"","meta":{"pb_show_title":"","pb_short_title":"","pb_subtitle":"","pb_authors":[],"pb_section_license":""},"chapter-type":[],"contributor":[],"license":[],"part":143,"_links":{"self":[{"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/chapters\/156"}],"collection":[{"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/chapters"}],"about":[{"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/wp\/v2\/types\/chapter"}],"author":[{"embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/wp\/v2\/users\/1"}],"version-history":[{"count":1,"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/chapters\/156\/revisions"}],"predecessor-version":[{"id":157,"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/chapters\/156\/revisions\/157"}],"part":[{"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/parts\/143"}],"metadata":[{"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/chapters\/156\/metadata\/"}],"wp:attachment":[{"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/wp\/v2\/media?parent=156"}],"wp:term":[{"taxonomy":"chapter-type","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/chapter-type?post=156"},{"taxonomy":"contributor","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/wp\/v2\/contributor?post=156"},{"taxonomy":"license","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/wp\/v2\/license?post=156"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}