{"id":152,"date":"2023-11-30T17:00:33","date_gmt":"2023-11-30T17:00:33","guid":{"rendered":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/chapter\/deep-neural-networks\/"},"modified":"2024-01-31T11:43:46","modified_gmt":"2024-01-31T11:43:46","slug":"deep-neural-networks","status":"publish","type":"chapter","link":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/chapter\/deep-neural-networks\/","title":{"raw":"KI-Sprache: Tiefe neuronale Netzwerke (Deep Neural Networks)","rendered":"KI-Sprache: Tiefe neuronale Netzwerke (Deep Neural Networks)"},"content":{"raw":"<h3>Maschinenlernen geht in die Tiefe<\/h3>\n<p class=\"no-indent\">Das menschliche Wissen ist breit gef\u00e4chert und variabel, und es ist von Natur aus schwer zu erfassen. Der menschliche Verstand kann Wissen aufnehmen und damit arbeiten, weil er, wie Chomsky es ausdr\u00fcckte, \u201eein \u00fcberraschend effizientes und sogar elegantes System ist, das mit kleinen Informationsmengen arbeitet; es versucht nicht, grobe Korrelationen zwischen Datenpunkten zu erkennen, sondern Erkl\u00e4rungen zu finden<sup>1<\/sup>.\u201c<\/p>\n<p class=\"indent\"><a href=\"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/chapter\/ai-speak-machine-learning\/\">Maschinelle Lernen<\/a> soll jedoch Muster in gro\u00dfen Datenmengen finden. Zuvor m\u00fcssen sich jedoch Expertinnen und Experten und Programmierende programmieren, welche Datenmerkmale f\u00fcr das jeweilige Problem relevant sind und diese als \u201eParameter\u201c an die Maschine weitergeben<sup>2,3<\/sup>. Wie wir bereits gesehen haben, h\u00e4ngt die Leistung des Systems in hohem Ma\u00dfe von der Qualit\u00e4t dieser Daten und Parameter ab, die nicht immer leicht zu bestimmen sind.<\/p>\n<p class=\"indent\">Tiefe neuronale Netzwerke oder Deep Learning sind ein Teilbereich des maschinellen Lernens, der darauf abzielt, dieses Problem zu l\u00f6sen, indem er w\u00e4hrend der Trainingsphase eigene Parameter aus den Daten extrahiert. Dabei werden mehrere Schichten verwendet, die Beziehungen zwischen den Parametern herstellen und dabei schrittweise von einfachen Darstellungen in der \u00e4u\u00dfersten Schicht zu komplexeren und abstrakteren \u00fcbergehen. Dadurch k\u00f6nnen gegen\u00fcber herk\u00f6mmlichen ML-Algorithmen einige Dinge verbessert werden<sup>2<\/sup>.<\/p>\n<p class=\"no-indent\">Die meisten der leistungsstarken ML-Anwendungen verwenden <em>Deep Learning<\/em>. Dazu geh\u00f6ren Suchmaschinen, Empfehlungssysteme, Sprachtranskription und \u00dcbersetzung, die wir in diesem Buch behandelt haben. Es ist nicht \u00fcbertrieben zu sagen, dass <em>Deep Learning<\/em> den Erfolg der k\u00fcnstlichen Intelligenz bei zahlreichen Aufgaben vorangetrieben hat.<\/p>\n\n\n[caption id=\"attachment_61\" align=\"aligncenter\" width=\"575\"]<img class=\" wp-image-149\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/13\/2023\/11\/ch6-page-5-AI-ML-DL.png\" alt=\"\" width=\"575\" height=\"482\"> Referenzen: Goodfellow, I.J., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016.[\/caption]\n<p class=\"no-indent\">\u201eTief\" bezieht sich darauf, dass sich Schichten \u00fcbereinander stapeln, um das Netzwerk zu bilden. Der Begriff \u201eneural\" spiegelt die Tatsache wider, dass einige Aspekte vom biologischen Gehirn inspiriert wurden. Auch wenn sie Einblicke in unsere eigenen Denkprozesse gew\u00e4hren, handelt es sich doch um rein mathematische Modelle, die keinerlei biologischen Strukturen oder Prozessen \u00e4hneln<sup>2<\/sup>.<\/p>\n\n<h3>Die Grundlagen von Deep Learning<\/h3>\n<p class=\"no-indent\">Wenn wir Menschen uns ein Bild ansehen, erkennen wir automatisch Objekte und Gesichter. Aber f\u00fcr einen Algorithmus ist ein Foto nur eine Ansammlung von Pixeln. Der Sprung von einem Durcheinander von Farben und Helligkeitsstufen zur Erkennung eines Gesichts ist zu kompliziert, um ihn durchzuf\u00fchren.<\/p>\n<p class=\"indent\"><em>Deep Learning<\/em> erreicht dies, indem es den Prozess in der ersten Ebene in sehr einfache Darstellungen zerlegt - indem es beispielsweise die Helligkeitsstufe der benachbarten Pixel vergleicht, um das Vorhandensein oder Fehlen von Kanten in verschiedenen Regionen des Bildes festzustellen. In der zweiten Ebene werden Sammlungen von Kanten verwendet, um nach komplexeren Objekten zu suchen - wie Ecken und Konturen, wobei kleine Variationen der Kantenpositionen ignoriert werden<sup>2,3<\/sup>. Die darauffolgende Ebene sucht anhand der Konturen und Ecken nach Objektteilen. Langsam steigert sich die Komplexit\u00e4t, bis zu dem Punkt, an dem die letzte Ebene verschiedene Teile gut genug kombiniert, um ein Gesicht zu erkennen oder ein Objekt zu identifizieren.<\/p>\n<img class=\"aligncenter wp-image-150\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/13\/2024\/01\/ch5-page3-Deep-learning.png\" alt=\"\" width=\"500\" height=\"419\">\n<p class=\"no-indent\">Was in den einzelnen Ebenen zu ber\u00fccksichtigen ist, wird nicht von den Programmierenden festgelegt, sondern im Trainingsprozess aus den Daten gelernt<sup>3<\/sup>. Durch den Vergleich dieser Vorhersagen mit den tats\u00e4chlichen Ergebnissen des Trainingsdatensatzes wird die Funktionsweise jeder Ebene leicht ver\u00e4ndert, um jedes Mal ein etwas besseres Ergebnis zu erzielen. Wenn alles korrekt funktioniert hat und ausreichend Daten von guter Qualit\u00e4t vorhanden sind, sollte sich das Netzwerk so entwickeln, dass es irrelevante Teile des Fotos, wie die genaue Position der Einheiten, den Winkel und die Beleuchtung, ignoriert und sich auf die Teile konzentriert, die die Erkennung erm\u00f6glichen.<\/p>\n<p class=\"indent\">Es ist zu beachten, dass trotz der Verwendung von Kanten und Umrissen zum Verst\u00e4ndnis des Prozesses die Ebenen tats\u00e4chlich aus einer Reihe von Zahlen bestehen, die manchmal Dingen entsprechen k\u00f6nnen, die wir verstehen oder auch nicht. Was sich nicht \u00e4ndert, ist der zunehmende Grad an Abstraktion und Komplexit\u00e4t.<\/p>\n\n<h3>Das Netzwerk gestalten<\/h3>\n<p class=\"no-indent\">Sobald der Programmierende beschlie\u00dft, <em>Deep Learning<\/em> f\u00fcr eine Aufgabe zu verwenden und <a href=\"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/chapter\/ai-speak-machine-learning\/\">die Daten vorbereitet hat<\/a>, muss er oder sie die sogenannte Architektur seines neuronalen Netzwerkes entwerfen. Sie m\u00fcssen die Anzahl der Ebenen (Tiefe des Netzwerkes) und die Anzahl der Parameter pro Ebene (Breite des Netzwerkes) bestimmen. Als N\u00e4chstes m\u00fcssen sie entscheiden, wie die Verbindungen zwischen den Ebenen hergestellt werden sollen - ob jede Einheit einer Ebene mit jeder Einheit der vorherigen Ebene verbunden werden soll oder nicht.<\/p>\n<p class=\"indent\">Die ideale Architektur f\u00fcr eine bestimmte Aufgabe wird oft durch Experimente ermittelt. Je gr\u00f6\u00dfer die Anzahl der Ebenen ist, desto weniger Parameter werden pro Ebene ben\u00f6tigt, das Netzwerk funktioniert dar\u00fcber hinaus besser mit allgemeinen Daten, ist allerdings dann schwieriger zu optimieren. Weniger Verbindungen w\u00fcrden weniger Parameter und einen geringeren Rechenaufwand bedeuten, die Flexibilit\u00e4t des Netzwerks jedoch verringern<sup>2<\/sup>.<\/p>\n\n<h3>Das Netzwerk trainieren<\/h3>\n<p class=\"no-indent\">Nehmen wir das Beispiel eines neuronalen Feedforward-Netzwerks, das \u00fcberwachtes Lernen betreibt. Hier flie\u00dfen die Informationen ohne Feedback-Schleifen von Ebene zu Ebene. Wie bei allen Techniken des maschinellen Lernens besteht das Ziel hier darin, herauszufinden, wie der Input mit dem Output zusammenh\u00e4ngt - welche Parameter zusammenkommen und wie sie zusammenkommen, um das festgestellte Ergebnis zu erhalten: Wir gehen von einer Beziehung f aus, die den Input x mit dem Output y verbindet. Dann verwenden wir das Netzwerk, um den Parametersatz \u03b8 zu finden, der die beste \u00dcbereinstimmung zwischen dem vorhergesagten und tats\u00e4chlichen Ergebnis ergibt.<\/p>\n\n<div class=\"textbox\">\n\nSchl\u00fcsselfrage: Das vorhergesagte y ist f (x, \u03b8), f\u00fcr welches \u03b8?\n\n<\/div>\n<p class=\"no-indent\">Hier ist die Vorhersage f\u00fcr y das Endprodukt und Datensatz x als Input. Bei der Gesichtserkennung ist x normalerweise die Menge der Pixel in einem Bild, y kann der Name der Person sein. Im Netzwerk sind die Ebenen wie Arbeitende an einem Flie\u00dfband, wo jeder Arbeitende das bearbeitet, was sie oder er erh\u00e4lt und es an den n\u00e4chsten Arbeitenden weitergibt. Die erste nimmt den Input auf, wandelt ihn ein wenig um und gibt ihn an den zweiten in der Reihe weiter. Der zweite tut dasselbe, bevor er es an den dritten weitergibt, und so weiter, bis der Input schlie\u00dflich in das Endprodukt umgewandelt ist.<\/p>\n<p class=\"indent\">Mathematisch gesehen wird die Funktion f in viele Funktionen f1, f2, f3... aufgeteilt, wobei f= ....f3(f2(f1(x))). Die Ebene direkt nach dem Input transformiert die Eingabeparameter mit f1, die n\u00e4chste Ebene mit f2 und so weiter. Der Programmierende kann bei der Auswahl der richtigen Funktionsfamilie auf der Grundlage seines Wissens \u00fcber das Problem eingreifen.<\/p>\n<img class=\"aligncenter wp-image-151\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/13\/2024\/01\/ch5-page3-DL-function.png\" alt=\"\" width=\"500\" height=\"419\">\n<p class=\"no-indent\">Jede Ebene hat die Aufgabe, jedem Parameter, den sie erh\u00e4lt, eine Bedeutung zuzuweisen - das ist die Gewichtung. Diese Gewichtungen sind wie Drehkn\u00f6pfe oder Regler, die letztendlich die Beziehung zwischen dem vorhergesagten Output und dem Input in dieser Schicht definieren<sup>3<\/sup>. In einem typischen Deep-Learning-System haben wir es mit Hunderten von Millionen dieser Regler und Hunderten von Millionen von Trainingsbeispielen zu tun. Da wir den Output und die Gewichtung in den Ebenen zwischen Input und Output weder definieren noch sehen k\u00f6nnen, werden diese als versteckte Ebenen bezeichnet.<\/p>\n<p class=\"indent\">Im Falle des oben beschriebenen Beispiels der Objekterkennung ist es die Aufgabe des ersten Arbeiters, Kanten zu erkennen und diese an den zweiten weiterzugeben, der die Konturen erkennt usw.<\/p>\n<p class=\"indent\">W\u00e4hrend des Trainings wird der vorhergesagte Output mit dem tats\u00e4chlichen Output verglichen. Wenn ein gro\u00dfer Unterschied zwischen beiden vorhanden ist, m\u00fcssen die jeder Ebene zugewiesenen Gewichtungen stark ver\u00e4ndert werden. Wenn nicht, m\u00fcssen sie nur ein wenig ge\u00e4ndert werden. Diese Arbeit wird in zwei Teilen durchgef\u00fchrt. Zun\u00e4chst wird die Differenz zwischen Vorhersage und Output berechnet, und dann berechnet ein anderer Algorithmus, wie die Gewichtungen in jeder Ebene ge\u00e4ndert werden muss. Dabei wird mit der Output-Ebene begonnen (in diesem Fall flie\u00dfen die Informationen aus den tieferen Schichten zur\u00fcck). Am Ende des Trainingsprozesses ist das Netzwerk also mit seinen Gewichtungen und Funktionen bereit, Testdaten zu verarbeiten. Der Rest des Prozesses ist derselbe wie beim herk\u00f6mmlichen maschinellen Lernen.<\/p>\n&nbsp;\n\n<img class=\"aligncenter wp-image-61\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page3-traintestuse-e1697823763965.png\" alt=\"\" width=\"457\" height=\"217\">\n\n<hr>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>1 <\/sup>Chomsky, N., Roberts, I., Watumull, J., <em>Noam Chomsky: The False Promise of ChatGPT,\u00a0<\/em>The New York Times, 2023.<\/p>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>2 <\/sup>Goodfellow, I.J., Bengio, Y., Courville, A., <em>Deep Learning, <\/em>MIT Press, 2016.<\/p>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>3 <\/sup>LeCun, Y., Bengio, Y., Hinton, G., <em>Deep learning,<\/em>\u00a0Nature\u00a0<b>521<\/b>, 436\u2013444 (2015).<\/p>","rendered":"<h3>Maschinenlernen geht in die Tiefe<\/h3>\n<p class=\"no-indent\">Das menschliche Wissen ist breit gef\u00e4chert und variabel, und es ist von Natur aus schwer zu erfassen. Der menschliche Verstand kann Wissen aufnehmen und damit arbeiten, weil er, wie Chomsky es ausdr\u00fcckte, \u201eein \u00fcberraschend effizientes und sogar elegantes System ist, das mit kleinen Informationsmengen arbeitet; es versucht nicht, grobe Korrelationen zwischen Datenpunkten zu erkennen, sondern Erkl\u00e4rungen zu finden<sup>1<\/sup>.\u201c<\/p>\n<p class=\"indent\"><a href=\"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/chapter\/ai-speak-machine-learning\/\">Maschinelle Lernen<\/a> soll jedoch Muster in gro\u00dfen Datenmengen finden. Zuvor m\u00fcssen sich jedoch Expertinnen und Experten und Programmierende programmieren, welche Datenmerkmale f\u00fcr das jeweilige Problem relevant sind und diese als \u201eParameter\u201c an die Maschine weitergeben<sup>2,3<\/sup>. Wie wir bereits gesehen haben, h\u00e4ngt die Leistung des Systems in hohem Ma\u00dfe von der Qualit\u00e4t dieser Daten und Parameter ab, die nicht immer leicht zu bestimmen sind.<\/p>\n<p class=\"indent\">Tiefe neuronale Netzwerke oder Deep Learning sind ein Teilbereich des maschinellen Lernens, der darauf abzielt, dieses Problem zu l\u00f6sen, indem er w\u00e4hrend der Trainingsphase eigene Parameter aus den Daten extrahiert. Dabei werden mehrere Schichten verwendet, die Beziehungen zwischen den Parametern herstellen und dabei schrittweise von einfachen Darstellungen in der \u00e4u\u00dfersten Schicht zu komplexeren und abstrakteren \u00fcbergehen. Dadurch k\u00f6nnen gegen\u00fcber herk\u00f6mmlichen ML-Algorithmen einige Dinge verbessert werden<sup>2<\/sup>.<\/p>\n<p class=\"no-indent\">Die meisten der leistungsstarken ML-Anwendungen verwenden <em>Deep Learning<\/em>. Dazu geh\u00f6ren Suchmaschinen, Empfehlungssysteme, Sprachtranskription und \u00dcbersetzung, die wir in diesem Buch behandelt haben. Es ist nicht \u00fcbertrieben zu sagen, dass <em>Deep Learning<\/em> den Erfolg der k\u00fcnstlichen Intelligenz bei zahlreichen Aufgaben vorangetrieben hat.<\/p>\n<figure id=\"attachment_61\" aria-describedby=\"caption-attachment-61\" style=\"width: 575px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-149\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/13\/2023\/11\/ch6-page-5-AI-ML-DL.png\" alt=\"\" width=\"575\" height=\"482\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2023\/11\/ch6-page-5-AI-ML-DL.png 940w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2023\/11\/ch6-page-5-AI-ML-DL-300x251.png 300w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2023\/11\/ch6-page-5-AI-ML-DL-768x644.png 768w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2023\/11\/ch6-page-5-AI-ML-DL-65x54.png 65w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2023\/11\/ch6-page-5-AI-ML-DL-225x189.png 225w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2023\/11\/ch6-page-5-AI-ML-DL-350x293.png 350w\" sizes=\"(max-width: 575px) 100vw, 575px\" \/><figcaption id=\"caption-attachment-61\" class=\"wp-caption-text\">Referenzen: Goodfellow, I.J., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016.<\/figcaption><\/figure>\n<p class=\"no-indent\">\u201eTief&#8221; bezieht sich darauf, dass sich Schichten \u00fcbereinander stapeln, um das Netzwerk zu bilden. Der Begriff \u201eneural&#8221; spiegelt die Tatsache wider, dass einige Aspekte vom biologischen Gehirn inspiriert wurden. Auch wenn sie Einblicke in unsere eigenen Denkprozesse gew\u00e4hren, handelt es sich doch um rein mathematische Modelle, die keinerlei biologischen Strukturen oder Prozessen \u00e4hneln<sup>2<\/sup>.<\/p>\n<h3>Die Grundlagen von Deep Learning<\/h3>\n<p class=\"no-indent\">Wenn wir Menschen uns ein Bild ansehen, erkennen wir automatisch Objekte und Gesichter. Aber f\u00fcr einen Algorithmus ist ein Foto nur eine Ansammlung von Pixeln. Der Sprung von einem Durcheinander von Farben und Helligkeitsstufen zur Erkennung eines Gesichts ist zu kompliziert, um ihn durchzuf\u00fchren.<\/p>\n<p class=\"indent\"><em>Deep Learning<\/em> erreicht dies, indem es den Prozess in der ersten Ebene in sehr einfache Darstellungen zerlegt &#8211; indem es beispielsweise die Helligkeitsstufe der benachbarten Pixel vergleicht, um das Vorhandensein oder Fehlen von Kanten in verschiedenen Regionen des Bildes festzustellen. In der zweiten Ebene werden Sammlungen von Kanten verwendet, um nach komplexeren Objekten zu suchen &#8211; wie Ecken und Konturen, wobei kleine Variationen der Kantenpositionen ignoriert werden<sup>2,3<\/sup>. Die darauffolgende Ebene sucht anhand der Konturen und Ecken nach Objektteilen. Langsam steigert sich die Komplexit\u00e4t, bis zu dem Punkt, an dem die letzte Ebene verschiedene Teile gut genug kombiniert, um ein Gesicht zu erkennen oder ein Objekt zu identifizieren.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-150\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/13\/2024\/01\/ch5-page3-Deep-learning.png\" alt=\"\" width=\"500\" height=\"419\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch5-page3-Deep-learning.png 940w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch5-page3-Deep-learning-300x251.png 300w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch5-page3-Deep-learning-768x644.png 768w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch5-page3-Deep-learning-65x54.png 65w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch5-page3-Deep-learning-225x189.png 225w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch5-page3-Deep-learning-350x293.png 350w\" sizes=\"(max-width: 500px) 100vw, 500px\" \/><\/p>\n<p class=\"no-indent\">Was in den einzelnen Ebenen zu ber\u00fccksichtigen ist, wird nicht von den Programmierenden festgelegt, sondern im Trainingsprozess aus den Daten gelernt<sup>3<\/sup>. Durch den Vergleich dieser Vorhersagen mit den tats\u00e4chlichen Ergebnissen des Trainingsdatensatzes wird die Funktionsweise jeder Ebene leicht ver\u00e4ndert, um jedes Mal ein etwas besseres Ergebnis zu erzielen. Wenn alles korrekt funktioniert hat und ausreichend Daten von guter Qualit\u00e4t vorhanden sind, sollte sich das Netzwerk so entwickeln, dass es irrelevante Teile des Fotos, wie die genaue Position der Einheiten, den Winkel und die Beleuchtung, ignoriert und sich auf die Teile konzentriert, die die Erkennung erm\u00f6glichen.<\/p>\n<p class=\"indent\">Es ist zu beachten, dass trotz der Verwendung von Kanten und Umrissen zum Verst\u00e4ndnis des Prozesses die Ebenen tats\u00e4chlich aus einer Reihe von Zahlen bestehen, die manchmal Dingen entsprechen k\u00f6nnen, die wir verstehen oder auch nicht. Was sich nicht \u00e4ndert, ist der zunehmende Grad an Abstraktion und Komplexit\u00e4t.<\/p>\n<h3>Das Netzwerk gestalten<\/h3>\n<p class=\"no-indent\">Sobald der Programmierende beschlie\u00dft, <em>Deep Learning<\/em> f\u00fcr eine Aufgabe zu verwenden und <a href=\"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/chapter\/ai-speak-machine-learning\/\">die Daten vorbereitet hat<\/a>, muss er oder sie die sogenannte Architektur seines neuronalen Netzwerkes entwerfen. Sie m\u00fcssen die Anzahl der Ebenen (Tiefe des Netzwerkes) und die Anzahl der Parameter pro Ebene (Breite des Netzwerkes) bestimmen. Als N\u00e4chstes m\u00fcssen sie entscheiden, wie die Verbindungen zwischen den Ebenen hergestellt werden sollen &#8211; ob jede Einheit einer Ebene mit jeder Einheit der vorherigen Ebene verbunden werden soll oder nicht.<\/p>\n<p class=\"indent\">Die ideale Architektur f\u00fcr eine bestimmte Aufgabe wird oft durch Experimente ermittelt. Je gr\u00f6\u00dfer die Anzahl der Ebenen ist, desto weniger Parameter werden pro Ebene ben\u00f6tigt, das Netzwerk funktioniert dar\u00fcber hinaus besser mit allgemeinen Daten, ist allerdings dann schwieriger zu optimieren. Weniger Verbindungen w\u00fcrden weniger Parameter und einen geringeren Rechenaufwand bedeuten, die Flexibilit\u00e4t des Netzwerks jedoch verringern<sup>2<\/sup>.<\/p>\n<h3>Das Netzwerk trainieren<\/h3>\n<p class=\"no-indent\">Nehmen wir das Beispiel eines neuronalen Feedforward-Netzwerks, das \u00fcberwachtes Lernen betreibt. Hier flie\u00dfen die Informationen ohne Feedback-Schleifen von Ebene zu Ebene. Wie bei allen Techniken des maschinellen Lernens besteht das Ziel hier darin, herauszufinden, wie der Input mit dem Output zusammenh\u00e4ngt &#8211; welche Parameter zusammenkommen und wie sie zusammenkommen, um das festgestellte Ergebnis zu erhalten: Wir gehen von einer Beziehung f aus, die den Input x mit dem Output y verbindet. Dann verwenden wir das Netzwerk, um den Parametersatz \u03b8 zu finden, der die beste \u00dcbereinstimmung zwischen dem vorhergesagten und tats\u00e4chlichen Ergebnis ergibt.<\/p>\n<div class=\"textbox\">\n<p>Schl\u00fcsselfrage: Das vorhergesagte y ist f (x, \u03b8), f\u00fcr welches \u03b8?<\/p>\n<\/div>\n<p class=\"no-indent\">Hier ist die Vorhersage f\u00fcr y das Endprodukt und Datensatz x als Input. Bei der Gesichtserkennung ist x normalerweise die Menge der Pixel in einem Bild, y kann der Name der Person sein. Im Netzwerk sind die Ebenen wie Arbeitende an einem Flie\u00dfband, wo jeder Arbeitende das bearbeitet, was sie oder er erh\u00e4lt und es an den n\u00e4chsten Arbeitenden weitergibt. Die erste nimmt den Input auf, wandelt ihn ein wenig um und gibt ihn an den zweiten in der Reihe weiter. Der zweite tut dasselbe, bevor er es an den dritten weitergibt, und so weiter, bis der Input schlie\u00dflich in das Endprodukt umgewandelt ist.<\/p>\n<p class=\"indent\">Mathematisch gesehen wird die Funktion f in viele Funktionen f1, f2, f3&#8230; aufgeteilt, wobei f= &#8230;.f3(f2(f1(x))). Die Ebene direkt nach dem Input transformiert die Eingabeparameter mit f1, die n\u00e4chste Ebene mit f2 und so weiter. Der Programmierende kann bei der Auswahl der richtigen Funktionsfamilie auf der Grundlage seines Wissens \u00fcber das Problem eingreifen.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-151\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/13\/2024\/01\/ch5-page3-DL-function.png\" alt=\"\" width=\"500\" height=\"419\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch5-page3-DL-function.png 940w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch5-page3-DL-function-300x251.png 300w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch5-page3-DL-function-768x644.png 768w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch5-page3-DL-function-65x54.png 65w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch5-page3-DL-function-225x189.png 225w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch5-page3-DL-function-350x293.png 350w\" sizes=\"(max-width: 500px) 100vw, 500px\" \/><\/p>\n<p class=\"no-indent\">Jede Ebene hat die Aufgabe, jedem Parameter, den sie erh\u00e4lt, eine Bedeutung zuzuweisen &#8211; das ist die Gewichtung. Diese Gewichtungen sind wie Drehkn\u00f6pfe oder Regler, die letztendlich die Beziehung zwischen dem vorhergesagten Output und dem Input in dieser Schicht definieren<sup>3<\/sup>. In einem typischen Deep-Learning-System haben wir es mit Hunderten von Millionen dieser Regler und Hunderten von Millionen von Trainingsbeispielen zu tun. Da wir den Output und die Gewichtung in den Ebenen zwischen Input und Output weder definieren noch sehen k\u00f6nnen, werden diese als versteckte Ebenen bezeichnet.<\/p>\n<p class=\"indent\">Im Falle des oben beschriebenen Beispiels der Objekterkennung ist es die Aufgabe des ersten Arbeiters, Kanten zu erkennen und diese an den zweiten weiterzugeben, der die Konturen erkennt usw.<\/p>\n<p class=\"indent\">W\u00e4hrend des Trainings wird der vorhergesagte Output mit dem tats\u00e4chlichen Output verglichen. Wenn ein gro\u00dfer Unterschied zwischen beiden vorhanden ist, m\u00fcssen die jeder Ebene zugewiesenen Gewichtungen stark ver\u00e4ndert werden. Wenn nicht, m\u00fcssen sie nur ein wenig ge\u00e4ndert werden. Diese Arbeit wird in zwei Teilen durchgef\u00fchrt. Zun\u00e4chst wird die Differenz zwischen Vorhersage und Output berechnet, und dann berechnet ein anderer Algorithmus, wie die Gewichtungen in jeder Ebene ge\u00e4ndert werden muss. Dabei wird mit der Output-Ebene begonnen (in diesem Fall flie\u00dfen die Informationen aus den tieferen Schichten zur\u00fcck). Am Ende des Trainingsprozesses ist das Netzwerk also mit seinen Gewichtungen und Funktionen bereit, Testdaten zu verarbeiten. Der Rest des Prozesses ist derselbe wie beim herk\u00f6mmlichen maschinellen Lernen.<\/p>\n<p>&nbsp;<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-61\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page3-traintestuse-e1697823763965.png\" alt=\"\" width=\"457\" height=\"217\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page3-traintestuse-e1697823763965.png 940w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page3-traintestuse-e1697823763965-300x142.png 300w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page3-traintestuse-e1697823763965-768x364.png 768w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page3-traintestuse-e1697823763965-65x31.png 65w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page3-traintestuse-e1697823763965-225x107.png 225w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page3-traintestuse-e1697823763965-350x166.png 350w\" sizes=\"(max-width: 457px) 100vw, 457px\" \/><\/p>\n<hr \/>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>1 <\/sup>Chomsky, N., Roberts, I., Watumull, J., <em>Noam Chomsky: The False Promise of ChatGPT,\u00a0<\/em>The New York Times, 2023.<\/p>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>2 <\/sup>Goodfellow, I.J., Bengio, Y., Courville, A., <em>Deep Learning, <\/em>MIT Press, 2016.<\/p>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>3 <\/sup>LeCun, Y., Bengio, Y., Hinton, G., <em>Deep learning,<\/em>\u00a0Nature\u00a0<b>521<\/b>, 436\u2013444 (2015).<\/p>\n","protected":false},"author":1,"menu_order":3,"template":"","meta":{"pb_show_title":"","pb_short_title":"","pb_subtitle":"","pb_authors":[],"pb_section_license":""},"chapter-type":[],"contributor":[],"license":[],"part":143,"_links":{"self":[{"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/chapters\/152"}],"collection":[{"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/chapters"}],"about":[{"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/wp\/v2\/types\/chapter"}],"author":[{"embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/wp\/v2\/users\/1"}],"version-history":[{"count":1,"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/chapters\/152\/revisions"}],"predecessor-version":[{"id":153,"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/chapters\/152\/revisions\/153"}],"part":[{"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/parts\/143"}],"metadata":[{"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/chapters\/152\/metadata\/"}],"wp:attachment":[{"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/wp\/v2\/media?parent=152"}],"wp:term":[{"taxonomy":"chapter-type","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/chapter-type?post=152"},{"taxonomy":"contributor","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/wp\/v2\/contributor?post=152"},{"taxonomy":"license","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/wp\/v2\/license?post=152"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}