37
Manuel Gentile and Fabrizio Falchi
Die große Popularität, die die neuesten Dialogsysteme mit natürlicher Sprache (wie ChatGPT, Bard und LLAMa2-chat), die Large Language Models verwenden, in kurzer Zeit erlangt haben, hat zu hitzigen Debatten geführt, die in mehreren Punkten noch offen sind. Es ist zweifellos faszinierend zu hinterfragen, wie ein Computersystem, das von relativ einfachen mathematischen Gleichungen gesteuert wird, in der Lage ist, ein Verhalten zu erzeugen, das viele als „intelligent” bezeichnen
In diesem Kapitel soll jedoch nicht versucht werden, Antworten auf Fragen wie „Zeigen LLM-Modelle ein Verhalten, das wir als intelligent bezeichnen können?”, „Was ist die wahre Natur der menschlichen Intelligenz?”, „Wie können wir Kreativität definieren?” und andere ähnliche Fragen von gewissem Interesse zu geben, die derzeit und vielleicht für lange Zeit noch unbeantwortet sind und daher eine viel eingehendere Untersuchung erfordern würden.
Stattdessen werden wir versuchen, einen Überblick zu geben, der auch für Nicht-Experten zugänglich ist, um das Verständnis für die Mechanismen zu fördern, die der Funktionsweise groß angelegter Language Models zugrunde liegen. Nur durch ein größeres Bewusstsein für diese Mechanismen ist es möglich, ihr Potenzial und ihre Risiken zu verstehen und ihre richtige Verwendung, insbesondere im Bildungswesen, zu fördern.
Ein erster und sehr weit verbreiteter Irrglaube, den es auszuräumen gilt, ist der, dass es sich bei solchen Systemen im Grunde um große Datenbanken handelt, die aus Frage-Antwort-Paaren bestehen. Diese Vorstellung, die nicht der Realität entspricht, leitet sich aus den mehr oder weniger gängigen Praktiken ab, die sich im Laufe der Jahre für die Erstellung von Chatbot-Systemen etabliert haben (wir laden Sie ein, das entsprechende Kapitel zu lesen). Zugleich wird diese Vorstellung dem generativen Charakter des LLM nicht gerecht.
Language Models sind statistische Modelle, die in der Lage sind, einem Textteil (in der Regel einem Wort) eine Eintrittswahrscheinlichkeit innerhalb eines bestimmten Zusammenhangs zuzuweisen, der in der Regel definiert wird durch die dem erwarteten Wort vorausgehenden Satz von Wörtern.
Zu den Modellen, die auf einem rein statistischen Ansatz beruhen (z. B. Markov-Ketten, auch N-Gramm-Modelle genannt), sind im Laufe der Zeit Sprachmodelle hinzugekommen, die auf neuronalen Netzwerken1 basieren. Diese haben sich sowohl hinsichtlich der Netzwerkstruktur als auch hinsichtlich der Netzwerkgröße weiterentwickelt.
Heute bezeichnen wir als Large Language Modls (LLMs) genau diese Art von Sprachmodellen, die auf großen neuronalen Netzwerken basieren, die anhand von riesigen Datenmengen trainiert wurden.
Daher beginnen wir unsere Untersuchung mit der Behauptung, dass Sprachmodelle Texte generieren, anstatt sie einfach aus einer vorgegebenen Wissensdatenbank abzurufen.
Der generative Aspekt und seine im Wesentlichen fachlich-intuitive Natur machen es unvorhersehbar, wie LLM-Systeme auf Nutzereingaben reagieren könnten Diese Eigenschaft erzeugt daher ein häufiges Misstrauen gegenüber solchen Systemen in Bezug auf ihre potenzielle Fähigkeit, falsche oder ungenaue Texte zu erzeugen.
Daher stellt diese Eigenschaft eine große technologische Errungenschaft in Bezug auf die Fähigkeit einer Maschine, Text zu verstehen und zu produzieren, als auch gleichzeitig eine der Hauptgefahren solcher Technologien dar.
Wir wollen jedoch versuchen, solche Systeme zu erikunden.
Wie bei jeder technologischen Revolution stehen hinter diesem Durchbruch viele Faktoren. Zur Vereinfachung nennen wir hier die wichtigsten und geben den Leserinnen und Lesern Hinweise, die sie bei einer späteren eingehenden Untersuchung als Anhaltspunkte dienen können:
- Die Größe des Netzwerkes: Diese wird an der Anzahl der trainierbaren Parameter innerhalb des Netzwerkes gemessen. Bei Large Language Models handelt es sich um tiefe neuronale Netzwerke, die sich durch eine enorme Anzahl von Knoten und Ebenen auszeichnen. Einige Expertinnen und Experten auf diesem Gebiet bezeichnen Sprachmodelle als „groß”, wenn sie mehr als 10 Milliarden Parameter aufweisen, um Ihnen eine Vorstellung für die Größenordnung zu geben. Hier einige konkrete Größenordnungen: Das GPT3-Modell hat 150 Milliarden Parameter, während die größte Version von LLAMa v2 etwa 70 Milliarden hat.
- Die Netzwerkarchitektur: Der Erfolg beruht nicht nur auf der Größe des Netzwerkes, sondern auch auf der Art und Weise, wie die Knoten und die verschiedenen Ebenen des neuronalen Netzwerkes miteinander verbunden sind. Auch hier können wir vereinfacht die Transformatorennetzwerke und die Aufmerksamkeitsmechanismen als die wichtigsten architektonischen Innovationen identifizieren, um zu verstehen, warum diese Netzwerke eine höhere Effizienz haben.
- Die Menge der für das Training verfügbaren Daten: Die große Verfügbarkeit von Daten ist zweifellos ein wesentliches Element für das Training solcher Modelle, aber in Wirklichkeit stehen diese schon seit vielen Jahren zur Verfügung – lange vor der Einführung dieser Modelle. Der entscheidende Innovationsfaktor liegt daher in den Trainingstechniken und dem Auswahl- und Aufbereitungsprozess, der von den Daten zum Trainingssatz führt, dem sogenannten selbstüberwachten Lernen.
- Die aktuelle Rechenleistung: Die gestiegene Rechenleistung von Computern hat zweifellos entscheidend dazu beigetragen, dass diese Netzwerke so groß werden konnten. Die empirische Erfahrung scheint zu zeigen, dass der Skalierungsfaktor einer der wesentlichen Parameter für das Auftreten dieser Eigenschaften ist.
- Die Abstimmungsmechanismen: Ein weiteres Element, das oft vernachlässigt wird, sind die Abstimmungsmechanismen, die den letzten Schritt im Prozess der Erstellung solcher Modelle darstellen. Wir beziehen uns insbesondere auf die Mechanismen des Reinforcement-Learning mit menschlichem Feedback und Ranking, die zur Erstellung des Modells beitragen und dazu dienen, Antworten zu erzeugen, die der Intention des Nutzers besser entsprechen. Dazu kommen dann noch alle Feinabstimmungsprozesse, die eine Spezialisierung und Verbesserung des Verhaltens solcher Netzwerke bei der Ausführung spezifischer Aufgaben ermöglichen.
- Eine Sicherheits-Pipeline: Neben dem Deep-Learning-Modell gibt es Ad-hoc-Techniken, die darauf abzielen, die Schwächen des Systems bei unsicheren Eingaben abzumildern und unerwünschtes Verhalten sowohl bei sicheren als auch bei unsicheren Eingaben zu verhindern.
Da wir uns der verschiedenen Faktoren, die LLM auszeichnen, bewusst sind, müssen wir an dieser Stelle nur noch das Potenzial solcher Systeme erkunden, indem wir sie in unserem Bildungskontext auf die Probe stellen. Versuchen Sie also, mit ChatGPT oder Bard zu sprechen, um uns zu helfen, neue Übungen zu erstellen und sie an die spezifischen Bedürfnisse unserer Schüler anzupassen, neue Unterrichtsstunden mit verwandten Inhalten zu erstellen und vieles mehr. Es hängt alles von Ihrer Kreativität ab und davon, wie Sie lernen, mit solchen Systemen zu kommunizieren.
Hinweis: Jeder dieser Faktoren bedarf einer ausführlichen Erläuterung. Für Interessierte stellen wir ein Literaturverzeichnis zur Verfügung.
1 Bengio, Y., Ducharme, R., & Vincent, P., A neural probabilistic language model. Advances in neural information processing systems, 13, 2000.
2 Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I., Attention is all you need, Advances in neural information processing systems, 30, 2017.