{"id":219,"date":"2023-11-30T17:01:33","date_gmt":"2023-11-30T17:01:33","guid":{"rendered":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/chapter\/does-data-always-have-to-be-labeled\/"},"modified":"2024-01-31T11:44:33","modified_gmt":"2024-01-31T11:44:33","slug":"does-data-always-have-to-be-labeled","status":"publish","type":"chapter","link":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/chapter\/does-data-always-have-to-be-labeled\/","title":{"raw":"M\u00fcssen Daten immer gelabelt werden?","rendered":"M\u00fcssen Daten immer gelabelt werden?"},"content":{"raw":"<h3>M\u00fcssen Daten immer gelabelt werden?<\/h3>\n<p class=\"no-indent\">Nein, nicht immer. Ein gro\u00dfer Teil der Algorithmen f\u00fcr maschinelles Lernen besteht entweder aus \u00fcberwachten oder un\u00fcberwachten Lernalgorithmen.<\/p>\n<p class=\"indent\">Wenn Sie ein Foto als das eines Hundes, einer Katze oder eines Gorillas klassifizieren wollen, k\u00f6nnen Sie die Maschine mit Fotos f\u00fcttern, die als Hund, Katze oder Gorilla gekennzeichnet sind. Wenn man einen Aufsatz bewerten will, kann man eine Menge korrigierter Aufs\u00e4tze mit den entsprechenden Noten eingeben. In jedem Fall wussten wir, wie der Output aussehen w\u00fcrde: Hund, Katze, Gorilla, A+, A, A-, D ...<\/p>\n<p class=\"indent\">Der Algorithmus versucht, anhand der beim Training gelabelten Daten eine Funktion oder, wenn Sie so wollen, ein mathematisches Rezept zu finden, das den Output mit dem Input abgleicht. Oft bedeutet das auch, dass der Programmierer verschiedene Algorithmen ausprobiert, um zu sehen, welcher die beste Anpassungsfunktion bietet. Solange die Daten jedoch Labels haben, fungieren diese Labels wie ein \u201eKontrolleur\" oder ein Leitfaden, der \u00fcberpr\u00fcft, ob die Funktion, die vom Algorithmus ausgew\u00e4hlt wurde, tats\u00e4chlich funktioniert1. Wenn die Funktion ein vom Label abweichenden Output abliefert, muss der Algorithmus eine bessere Funktion finden.<\/p>\n<p class=\"indent\">Das Labeln von Daten ist jedoch ein zeit- und kostenaufw\u00e4ndiger Prozess, f\u00fcr den oft Menschen eingestellt werden m\u00fcssen. Wenn wir nur nach Mustern in den Daten suchen und keine klare Vorstellung davon haben, welches Muster wir finden werden, ist uns der Output nicht bekannt. Die Daten k\u00f6nnen also nicht gelabelt werden. An dieser Stelle kommen un\u00fcberwachte Algorithmen ins Spiel.<\/p>\n<p class=\"indent\">Anstatt zu versuchen, den Input dem Output zuzuordnen, versuchen diese Algorithmen, Regelm\u00e4\u00dfigkeiten in den Daten zu finden, mit deren Hilfe der Input in Kategorien eingeteilt werden kann1. Banken nutzen un\u00fcberwachtes maschinelles Lernen, um betr\u00fcgerische Aktivit\u00e4ten bei Kreditkartentransaktionen zu erkennen. Da es eine riesige Anzahl von Transaktionen gibt und wir nicht wissen, wie wir Muster erkennen und eine Aktivit\u00e4t als Betrug einstufen sollen, verlassen wir uns auf maschinelles Lernen, um das Muster automatisch zu finden. Das Clustering einer beliebigen Gruppe von Sch\u00fclern in eine feste Anzahl von Gruppen ist ebenfalls ein Problem, bei dem h\u00e4ufig un\u00fcberwachtes Lernen zum Einsatz kommt. Das Gleiche gilt f\u00fcr das Aufsp\u00fcren terroristischer Aktivit\u00e4ten anhand von Zellaktivit\u00e4ten in einem Netzwerk.<\/p>\n\n\n<hr>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>1 <\/sup>Kelleher, J.D, Tierney, B, <em>Data Science<\/em>, London, 2018.<\/p>","rendered":"<h3>M\u00fcssen Daten immer gelabelt werden?<\/h3>\n<p class=\"no-indent\">Nein, nicht immer. Ein gro\u00dfer Teil der Algorithmen f\u00fcr maschinelles Lernen besteht entweder aus \u00fcberwachten oder un\u00fcberwachten Lernalgorithmen.<\/p>\n<p class=\"indent\">Wenn Sie ein Foto als das eines Hundes, einer Katze oder eines Gorillas klassifizieren wollen, k\u00f6nnen Sie die Maschine mit Fotos f\u00fcttern, die als Hund, Katze oder Gorilla gekennzeichnet sind. Wenn man einen Aufsatz bewerten will, kann man eine Menge korrigierter Aufs\u00e4tze mit den entsprechenden Noten eingeben. In jedem Fall wussten wir, wie der Output aussehen w\u00fcrde: Hund, Katze, Gorilla, A+, A, A-, D &#8230;<\/p>\n<p class=\"indent\">Der Algorithmus versucht, anhand der beim Training gelabelten Daten eine Funktion oder, wenn Sie so wollen, ein mathematisches Rezept zu finden, das den Output mit dem Input abgleicht. Oft bedeutet das auch, dass der Programmierer verschiedene Algorithmen ausprobiert, um zu sehen, welcher die beste Anpassungsfunktion bietet. Solange die Daten jedoch Labels haben, fungieren diese Labels wie ein \u201eKontrolleur&#8221; oder ein Leitfaden, der \u00fcberpr\u00fcft, ob die Funktion, die vom Algorithmus ausgew\u00e4hlt wurde, tats\u00e4chlich funktioniert1. Wenn die Funktion ein vom Label abweichenden Output abliefert, muss der Algorithmus eine bessere Funktion finden.<\/p>\n<p class=\"indent\">Das Labeln von Daten ist jedoch ein zeit- und kostenaufw\u00e4ndiger Prozess, f\u00fcr den oft Menschen eingestellt werden m\u00fcssen. Wenn wir nur nach Mustern in den Daten suchen und keine klare Vorstellung davon haben, welches Muster wir finden werden, ist uns der Output nicht bekannt. Die Daten k\u00f6nnen also nicht gelabelt werden. An dieser Stelle kommen un\u00fcberwachte Algorithmen ins Spiel.<\/p>\n<p class=\"indent\">Anstatt zu versuchen, den Input dem Output zuzuordnen, versuchen diese Algorithmen, Regelm\u00e4\u00dfigkeiten in den Daten zu finden, mit deren Hilfe der Input in Kategorien eingeteilt werden kann1. Banken nutzen un\u00fcberwachtes maschinelles Lernen, um betr\u00fcgerische Aktivit\u00e4ten bei Kreditkartentransaktionen zu erkennen. Da es eine riesige Anzahl von Transaktionen gibt und wir nicht wissen, wie wir Muster erkennen und eine Aktivit\u00e4t als Betrug einstufen sollen, verlassen wir uns auf maschinelles Lernen, um das Muster automatisch zu finden. Das Clustering einer beliebigen Gruppe von Sch\u00fclern in eine feste Anzahl von Gruppen ist ebenfalls ein Problem, bei dem h\u00e4ufig un\u00fcberwachtes Lernen zum Einsatz kommt. Das Gleiche gilt f\u00fcr das Aufsp\u00fcren terroristischer Aktivit\u00e4ten anhand von Zellaktivit\u00e4ten in einem Netzwerk.<\/p>\n<hr \/>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>1 <\/sup>Kelleher, J.D, Tierney, B, <em>Data Science<\/em>, London, 2018.<\/p>\n","protected":false},"author":1,"menu_order":6,"template":"","meta":{"pb_show_title":"","pb_short_title":"","pb_subtitle":"","pb_authors":[],"pb_section_license":""},"chapter-type":[49],"contributor":[],"license":[],"part":205,"_links":{"self":[{"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/chapters\/219"}],"collection":[{"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/chapters"}],"about":[{"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/wp\/v2\/types\/chapter"}],"author":[{"embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/wp\/v2\/users\/1"}],"version-history":[{"count":1,"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/chapters\/219\/revisions"}],"predecessor-version":[{"id":220,"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/chapters\/219\/revisions\/220"}],"part":[{"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/parts\/205"}],"metadata":[{"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/chapters\/219\/metadata\/"}],"wp:attachment":[{"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/wp\/v2\/media?parent=219"}],"wp:term":[{"taxonomy":"chapter-type","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/chapter-type?post=219"},{"taxonomy":"contributor","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/wp\/v2\/contributor?post=219"},{"taxonomy":"license","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/wp\/v2\/license?post=219"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}