{"id":71,"date":"2023-11-30T16:59:30","date_gmt":"2023-11-30T16:59:30","guid":{"rendered":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/chapter\/ai-speak-search-engine-indexing\/"},"modified":"2024-01-31T11:42:53","modified_gmt":"2024-01-31T11:42:53","slug":"ai-speak-search-engine-indexing","status":"publish","type":"chapter","link":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/chapter\/ai-speak-search-engine-indexing\/","title":{"raw":"KI-Sprache:  Suchmaschinenindizierung","rendered":"KI-Sprache:  Suchmaschinenindizierung"},"content":{"raw":"<p class=\"no-indent\">Eine Suchmaschine nimmt die in das Suchfeld eingegebenen Schl\u00fcsselw\u00f6rter - die Suchanfrage - auf und versucht, die Webdokumente zu finden, die dem Informationsbedarf eines Nutzers entsprechen. Anschlie\u00dfend zeigt sie die Informationen in leicht zug\u00e4nglicher Form an, wobei die relevanteste Seite ganz oben steht. Um dies zu erreichen, muss die Suchmaschine zun\u00e4chst Dokumente im Internet finden und sie mit <em>Tags<\/em> versehen, damit sie leicht abrufbar sind. Schauen wir uns in groben Z\u00fcgen an, was bei diesem Prozess vor sich geht.<\/p>\n\n<h3>Schritt 1: Web-Crawler finden Dokumente und laden sie herunter<\/h3>\n[caption id=\"attachment_70\" align=\"alignleft\" width=\"403\"]<img class=\" wp-image-64\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/13\/2023\/11\/ch2-page-4-web-crawling-300x213.png\" alt=\"\" width=\"403\" height=\"286\"> Idee aus \u201eSearch engine crawlers\" von Seobility, lizensiert<br>unter CC BY-SA 4.0. Informationen zu dieser Lizenz finden Sie unter: <a href=\"https:\/\/www.seobility.net\/en\/wiki\/Creative_Commons_License_BY-SA_4.0\">https:\/\/www.seobility.net\/en\/wiki\/Creative_Commons_License_BY-SA_4.0<\/a>[\/caption]\n<p class=\"no-indent\">Nachdem ein Nutzender eine Suchanfrage eingegeben hat, ist es zu sp\u00e4t, sich alle im Internet verf\u00fcgbaren Inhalte anzusehen<sup>1<\/sup>. Die Webdokumente werden vorher gesichtet, ihr Inhalt wird aufgeschl\u00fcsselt und in verschiedenen Slots gespeichert. Sobald die Abfrage vorliegt, muss nur noch der Inhalt der Abfrage mit dem Inhalt der Slots abgeglichen werden.<\/p>\n<p class=\"indent\">Web-Crawler sind Teile von Programmcodes, die Dokumente im Internet finden und herunterladen. Sie beginnen mit einer Reihe von Website-Adressen (URLs) und suchen in ihnen nach Links zu neuen Websites. Dann laden sie die neuen Seiten herunter und suchen darin nach weiteren Links. Wenn die Startliste vielf\u00e4ltig genug ist, besuchen die Crawler am Ende jede Website, die den Zugang zu ihnen erlaubt - oft mehrmals, um nach Aktualisierungen zu suchen.<\/p>\n\n<h3>Schritt 2: Das Dokument wird in zahlreiche Teile zerlegt<\/h3>\n<p class=\"no-indent\"><img class=\" wp-image-65 alignright\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-Bigtable-300x213.png\" alt=\"\" width=\"405\" height=\"288\">Das vom Crawler heruntergeladene Dokument kann eine klar strukturierte Webseite mit einer eigenen Beschreibung von Inhalt, Autor, Datum usw. sein. Es kann aber auch ein schlecht eingescanntes Bild eines alten Bibliotheksbuchs sein. Suchmaschinen k\u00f6nnen in der Regel hunderte verschiedene Dokumenttypen lesen<sup>1<\/sup>. Sie wandeln diese in html oder xml um und speichern sie in Tabellen (im Falle von Google <em>BigTable<\/em> genannt).<\/p>\n<p class=\"indent\">Eine Tabelle besteht aus kleineren Abschnitten, die <em>Tablets<\/em> genannt werden, wobei jede Zeile des <em>Tablets<\/em> einer Webseite gewidmet ist. Diese Zeilen sind in einer bestimmten Reihenfolge angeordnet, die zusammen mit einem Protokoll f\u00fcr Aktualisierungen aufgezeichnet wird. Jede Spalte enth\u00e4lt spezifische Informationen \u00fcber die Webseite, die beim Abgleich des Dokumenteninhalts mit dem Inhalt einer k\u00fcnftigen Abfrage hilfreich sein k\u00f6nnen. Die Spalten enthalten:<\/p>\n\n<ul>\n \t<li>Die Adresse der Internetseite, die allein schon eine gute Beschreibung des Inhalts der Seite geben kann, wenn es sich um eine Homepage mit repr\u00e4sentativem Inhalt oder eine Seite mit damit verbundenem Inhalt handelt.<\/li>\n \t<li>Titel, \u00dcberschriften und fett gedruckte W\u00f6rter, die wichtige Inhalte beschreiben.<\/li>\n \t<li>Metadaten der Seite: Dies sind Informationen \u00fcber die Seite, die nicht Teil des Hauptinhalts sind, wie z. B. der Dokumenttyp (z. B. E-Mail oder Webseite), die Dokumentstruktur und Merkmale, wie die L\u00e4nge des Dokuments, Schl\u00fcsselw\u00f6rter, Autorennamen und das Ver\u00f6ffentlichungsdatum.<\/li>\n \t<li>Beschreibung der Links von anderen Seiten zu dieser Seite, die einen kurzen Text \u00fcber verschiedene Aspekte des Seiteninhalts liefern. Je mehr Links, desto mehr Beschreibungen und desto mehr Spalten werden verwendet. Das Vorhandensein von Links wird auch f\u00fcr das Ranking verwendet, um festzustellen, wie beliebt eine Webseite ist (sehen Sie sich <a href=\"https:\/\/en.wikipedia.org\/wiki\/PageRank\">Google\u2019s Pagerank<\/a> an, ein Ranking-System, das Links zu und von einer Seite verwendet, um Qualit\u00e4t und Popularit\u00e4t zu messen).<\/li>\n \t<li>Namen von Personen, Namen von Unternehmen oder Organisationen, Orte, Adressen, Zeit- und Datumsangaben, Mengen und Geldwerte usw. : Algorithmen f\u00fcr maschinelles Lernen k\u00f6nnen darauf trainiert werden, diese Dateneinheiten in beliebigen Inhalten zu finden, indem sie Trainingsdaten verwenden, die von einem Menschen kommentiert wurden<sup>1<\/sup>.<\/li>\n<\/ul>\n[caption id=\"attachment_70\" align=\"alignleft\" width=\"297\"]<img class=\"size-medium wp-image-66\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-webpage-297x300.jpg\" alt=\"\" width=\"297\" height=\"300\"> Der Hauptinhalt der Seite ist oft zwischen anderen Informationen versteckt. \"theguardian\" by Il Fatto Quotidiano ist lizensiert unter CC BY-NC-SA 2.0. Informationen zu dieser Lizenz finden Sie unter: <a href=\"https:\/\/creativecommons.org\/licenses\/by-nc-sa\/2.0\/?ref=openverse.\">https:\/\/creativecommons.org\/licenses\/by-nc-sa\/2.0\/?ref=openverse.<\/a>[\/caption]\n<p class=\"indent\">Die vielleicht wichtigste Spalte der Tabelle enth\u00e4lt den Hauptinhalt des Dokuments, der inmitten all der externen Links und Werbeanzeigen identifiziert werden muss. Eine Technik verwendet ein maschinelles Lernmodell, um zu \u201elernen\", welches der Hauptinhalt einer beliebigen Webseite ist.<\/p>\n<p class=\"indent\">Wir k\u00f6nnen nat\u00fcrlich exakte W\u00f6rter aus der Suchanfrage mit den W\u00f6rtern in einem Webdokument abgleichen, so wie die Schaltfl\u00e4che <em>Suchen<\/em> in jedem Textverarbeitungsprogramm. Dies ist jedoch nicht sehr effektiv, da Menschen unterschiedliche W\u00f6rter verwenden, um \u00fcber dieselbe Sache zu sprechen. Die Aufzeichnung der einzelnen W\u00f6rter allein hilft nicht dabei, zu erfassen, wie diese W\u00f6rter miteinander verbunden sind und eine Bedeutung ergeben: Es ist letztlich der Gedanke hinter den W\u00f6rtern, der uns hilft zu kommunizieren und nicht die W\u00f6rter selbst. Daher wandeln alle Suchmaschinen den Text so um, dass er leichter mit der Bedeutung des Abfragetextes \u00fcbereinstimmt. Sp\u00e4ter wird die Anfrage auf \u00e4hnliche Weise verarbeitet.<\/p>\n<p class=\"no-indent\"><img class=\"aligncenter wp-image-67 \" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-text-processing-576x1024.png\" alt=\"\" width=\"388\" height=\"689\"><\/p>\n<p class=\"no-indent\">Da es sich um Wortteile handelt, verringert sich die Gesamtzahl der verschiedenen <em>Token<\/em>, die gespeichert werden m\u00fcssen. Aktuelle Modelle speichern etwa 30.000 bis 50.000 <em>Token<\/em><sup>2<\/sup>. Falsch geschriebene W\u00f6rter k\u00f6nnen identifiziert werden, da Teile von ihnen noch mit den gespeicherten <em>Token<\/em> \u00fcbereinstimmen. Unbekannte W\u00f6rter k\u00f6nnen zu Suchergebnissen f\u00fchren, da ihre Teile mit den gespeicherten <em>Token<\/em> \u00fcbereinstimmen k\u00f6nnen.<\/p>\n<p class=\"indent\">Die Trainingsmenge f\u00fcr das maschinelle Lernen besteht hier aus Beispieltexten. Ausgehend von einzelnen Zeichen, Leerzeichen und Interpunktion fasst das Modell h\u00e4ufig vorkommende Zeichen zu neuen <em>Token<\/em> zusammen. Wenn die Anzahl der <em>Token<\/em> nicht ausreicht, wird der Zusammenf\u00fchrungsprozess fortgesetzt, um gr\u00f6\u00dfere oder weniger h\u00e4ufige Wortteile abzudecken. Auf diese Weise k\u00f6nnen die meisten W\u00f6rter, Wortendungen und alle Pr\u00e4fixe abgedeckt werden. So kann die Maschine einen neuen Text leicht in <em>Token<\/em> aufteilen und an den Speicher senden.\n<img class=\"aligncenter wp-image-68 \" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page4-tokens-e1697829526838-1024x546.png\" alt=\"\" width=\"495\" height=\"264\"><\/p>\n\n<h3>Schritt 3: Ein Index wird als einfache Referenz erstellt<\/h3>\n[caption id=\"attachment_70\" align=\"alignright\" width=\"352\"]<img class=\" wp-image-69\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-index-scaled-1.jpg\" alt=\"\" width=\"352\" height=\"264\"> \u201eIndex\u201d von Ben Weiner ist lizensiert unter CC BY-ND 2.0.<br>Informationen zu dieser Lizenz finden Sie unter: <a href=\"https:\/\/creativecommons.org\/licenses\/by-nd\/2.0\/?ref=openverse\">https:\/\/creativecommons.org\/licenses\/by-nd\/2.0\/?ref=openverse<\/a>.[\/caption]\n<p class=\"no-indent\">Sobald die Daten in<em> BigTables<\/em> gespeichert sind, wird ein Index erstellt. \u00c4hnlich wie Lehrbuchindizes listet der Suchindex <em>Token<\/em> und ihre Position in einem Webdokument auf - zusammen mit statistischen Angaben, z. B. wie oft ein <em>Token<\/em> in einem Dokument vorkommt und wie wichtig es f\u00fcr das Dokument ist sowie Positionsangaben, z. B. ob das <em>Token<\/em> im Titel oder in einer \u00dcberschrift vorkommt, ob es sich auf einen Teil des Dokuments konzentriert und ob ein <em>Token<\/em> immer auf ein anderes folgt.<\/p>\n\n<div>\n<p class=\"indent\">Heutzutage verwenden viele Suchmaschinen eine Kombination aus traditioneller Indexierung und sprachbasierten Modellen, die von tiefen neuronalen Netzen (<em>deep neural networks<\/em>) generiert werden. Letztere kodieren semantische Details des Textes und sorgen f\u00fcr ein besseres Verst\u00e4ndnis der Suchanfragen<sup>3<\/sup>. Sie helfen den Suchmaschinen, \u00fcber die Anfrage hinauszugehen, um den Informationsbedarf zu erfassen, der die Abfrage ausgel\u00f6st hat.<\/p>\n\n<\/div>\n<p class=\"indent\">Diese drei Schritte stellen eine vereinfachte Darstellung dessen dar, was als \u201eIndexierung\" bezeichnet wird - das Auffinden, Vorbereiten und Speichern von Dokumenten und die Erstellung eines Index. Als N\u00e4chstes folgen die Schritte des \u201eRanking\", d. h. der Abgleich von Abfrage und Inhalt und die Anzeige der Ergebnisse nach Relevanz.<\/p>\n<img class=\" wp-image-70 aligncenter\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page4-indexing-process-300x213.png\" alt=\"\" width=\"453\" height=\"322\">\n\n&nbsp;\n\n<hr>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>1<\/sup> Croft, B., Metzler D., Strohman, T.,<em> Search Engines, Information Retrieval in Practice<\/em>, 2015<\/p>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>2 <\/sup>Sennrich,R., Haddow, B., and Birch, A., <em>Neural Machine Translation of Rare Words with Subword Units,<\/em> In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1715\u20131725, Berlin, Germany. Association for Computational Linguistics, 2016.<\/p>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>3<\/sup> Metzler, D., Tay, Y., Bahri, D., Najork, M., <em>Rethinking Search: Making Domain Experts out of Dilettantes<\/em>, SIGIR Forum 55, 1, Article 13, June 2021.<\/p>","rendered":"<p class=\"no-indent\">Eine Suchmaschine nimmt die in das Suchfeld eingegebenen Schl\u00fcsselw\u00f6rter &#8211; die Suchanfrage &#8211; auf und versucht, die Webdokumente zu finden, die dem Informationsbedarf eines Nutzers entsprechen. Anschlie\u00dfend zeigt sie die Informationen in leicht zug\u00e4nglicher Form an, wobei die relevanteste Seite ganz oben steht. Um dies zu erreichen, muss die Suchmaschine zun\u00e4chst Dokumente im Internet finden und sie mit <em>Tags<\/em> versehen, damit sie leicht abrufbar sind. Schauen wir uns in groben Z\u00fcgen an, was bei diesem Prozess vor sich geht.<\/p>\n<h3>Schritt 1: Web-Crawler finden Dokumente und laden sie herunter<\/h3>\n<figure id=\"attachment_70\" aria-describedby=\"caption-attachment-70\" style=\"width: 403px\" class=\"wp-caption alignleft\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-64\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/13\/2023\/11\/ch2-page-4-web-crawling-300x213.png\" alt=\"\" width=\"403\" height=\"286\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2023\/11\/ch2-page-4-web-crawling-300x213.png 300w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2023\/11\/ch2-page-4-web-crawling-1024x726.png 1024w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2023\/11\/ch2-page-4-web-crawling-768x545.png 768w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2023\/11\/ch2-page-4-web-crawling-1536x1090.png 1536w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2023\/11\/ch2-page-4-web-crawling-65x46.png 65w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2023\/11\/ch2-page-4-web-crawling-225x160.png 225w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2023\/11\/ch2-page-4-web-crawling-350x248.png 350w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2023\/11\/ch2-page-4-web-crawling.png 1748w\" sizes=\"(max-width: 403px) 100vw, 403px\" \/><figcaption id=\"caption-attachment-70\" class=\"wp-caption-text\">Idee aus \u201eSearch engine crawlers&#8221; von Seobility, lizensiert<br \/>unter CC BY-SA 4.0. Informationen zu dieser Lizenz finden Sie unter: <a href=\"https:\/\/www.seobility.net\/en\/wiki\/Creative_Commons_License_BY-SA_4.0\">https:\/\/www.seobility.net\/en\/wiki\/Creative_Commons_License_BY-SA_4.0<\/a><\/figcaption><\/figure>\n<p class=\"no-indent\">Nachdem ein Nutzender eine Suchanfrage eingegeben hat, ist es zu sp\u00e4t, sich alle im Internet verf\u00fcgbaren Inhalte anzusehen<sup>1<\/sup>. Die Webdokumente werden vorher gesichtet, ihr Inhalt wird aufgeschl\u00fcsselt und in verschiedenen Slots gespeichert. Sobald die Abfrage vorliegt, muss nur noch der Inhalt der Abfrage mit dem Inhalt der Slots abgeglichen werden.<\/p>\n<p class=\"indent\">Web-Crawler sind Teile von Programmcodes, die Dokumente im Internet finden und herunterladen. Sie beginnen mit einer Reihe von Website-Adressen (URLs) und suchen in ihnen nach Links zu neuen Websites. Dann laden sie die neuen Seiten herunter und suchen darin nach weiteren Links. Wenn die Startliste vielf\u00e4ltig genug ist, besuchen die Crawler am Ende jede Website, die den Zugang zu ihnen erlaubt &#8211; oft mehrmals, um nach Aktualisierungen zu suchen.<\/p>\n<h3>Schritt 2: Das Dokument wird in zahlreiche Teile zerlegt<\/h3>\n<p class=\"no-indent\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-65 alignright\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-Bigtable-300x213.png\" alt=\"\" width=\"405\" height=\"288\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-Bigtable-300x213.png 300w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-Bigtable-1024x726.png 1024w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-Bigtable-768x545.png 768w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-Bigtable-1536x1090.png 1536w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-Bigtable-65x46.png 65w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-Bigtable-225x160.png 225w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-Bigtable-350x248.png 350w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-Bigtable.png 1748w\" sizes=\"(max-width: 405px) 100vw, 405px\" \/>Das vom Crawler heruntergeladene Dokument kann eine klar strukturierte Webseite mit einer eigenen Beschreibung von Inhalt, Autor, Datum usw. sein. Es kann aber auch ein schlecht eingescanntes Bild eines alten Bibliotheksbuchs sein. Suchmaschinen k\u00f6nnen in der Regel hunderte verschiedene Dokumenttypen lesen<sup>1<\/sup>. Sie wandeln diese in html oder xml um und speichern sie in Tabellen (im Falle von Google <em>BigTable<\/em> genannt).<\/p>\n<p class=\"indent\">Eine Tabelle besteht aus kleineren Abschnitten, die <em>Tablets<\/em> genannt werden, wobei jede Zeile des <em>Tablets<\/em> einer Webseite gewidmet ist. Diese Zeilen sind in einer bestimmten Reihenfolge angeordnet, die zusammen mit einem Protokoll f\u00fcr Aktualisierungen aufgezeichnet wird. Jede Spalte enth\u00e4lt spezifische Informationen \u00fcber die Webseite, die beim Abgleich des Dokumenteninhalts mit dem Inhalt einer k\u00fcnftigen Abfrage hilfreich sein k\u00f6nnen. Die Spalten enthalten:<\/p>\n<ul>\n<li>Die Adresse der Internetseite, die allein schon eine gute Beschreibung des Inhalts der Seite geben kann, wenn es sich um eine Homepage mit repr\u00e4sentativem Inhalt oder eine Seite mit damit verbundenem Inhalt handelt.<\/li>\n<li>Titel, \u00dcberschriften und fett gedruckte W\u00f6rter, die wichtige Inhalte beschreiben.<\/li>\n<li>Metadaten der Seite: Dies sind Informationen \u00fcber die Seite, die nicht Teil des Hauptinhalts sind, wie z. B. der Dokumenttyp (z. B. E-Mail oder Webseite), die Dokumentstruktur und Merkmale, wie die L\u00e4nge des Dokuments, Schl\u00fcsselw\u00f6rter, Autorennamen und das Ver\u00f6ffentlichungsdatum.<\/li>\n<li>Beschreibung der Links von anderen Seiten zu dieser Seite, die einen kurzen Text \u00fcber verschiedene Aspekte des Seiteninhalts liefern. Je mehr Links, desto mehr Beschreibungen und desto mehr Spalten werden verwendet. Das Vorhandensein von Links wird auch f\u00fcr das Ranking verwendet, um festzustellen, wie beliebt eine Webseite ist (sehen Sie sich <a href=\"https:\/\/en.wikipedia.org\/wiki\/PageRank\">Google\u2019s Pagerank<\/a> an, ein Ranking-System, das Links zu und von einer Seite verwendet, um Qualit\u00e4t und Popularit\u00e4t zu messen).<\/li>\n<li>Namen von Personen, Namen von Unternehmen oder Organisationen, Orte, Adressen, Zeit- und Datumsangaben, Mengen und Geldwerte usw. : Algorithmen f\u00fcr maschinelles Lernen k\u00f6nnen darauf trainiert werden, diese Dateneinheiten in beliebigen Inhalten zu finden, indem sie Trainingsdaten verwenden, die von einem Menschen kommentiert wurden<sup>1<\/sup>.<\/li>\n<\/ul>\n<figure id=\"attachment_70\" aria-describedby=\"caption-attachment-70\" style=\"width: 297px\" class=\"wp-caption alignleft\"><img loading=\"lazy\" decoding=\"async\" class=\"size-medium wp-image-66\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-webpage-297x300.jpg\" alt=\"\" width=\"297\" height=\"300\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-webpage-297x300.jpg 297w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-webpage-65x66.jpg 65w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-webpage-225x227.jpg 225w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-webpage-350x354.jpg 350w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-webpage.jpg 553w\" sizes=\"(max-width: 297px) 100vw, 297px\" \/><figcaption id=\"caption-attachment-70\" class=\"wp-caption-text\">Der Hauptinhalt der Seite ist oft zwischen anderen Informationen versteckt. &#8220;theguardian&#8221; by Il Fatto Quotidiano ist lizensiert unter CC BY-NC-SA 2.0. Informationen zu dieser Lizenz finden Sie unter: <a href=\"https:\/\/creativecommons.org\/licenses\/by-nc-sa\/2.0\/?ref=openverse.\">https:\/\/creativecommons.org\/licenses\/by-nc-sa\/2.0\/?ref=openverse.<\/a><\/figcaption><\/figure>\n<p class=\"indent\">Die vielleicht wichtigste Spalte der Tabelle enth\u00e4lt den Hauptinhalt des Dokuments, der inmitten all der externen Links und Werbeanzeigen identifiziert werden muss. Eine Technik verwendet ein maschinelles Lernmodell, um zu \u201elernen&#8221;, welches der Hauptinhalt einer beliebigen Webseite ist.<\/p>\n<p class=\"indent\">Wir k\u00f6nnen nat\u00fcrlich exakte W\u00f6rter aus der Suchanfrage mit den W\u00f6rtern in einem Webdokument abgleichen, so wie die Schaltfl\u00e4che <em>Suchen<\/em> in jedem Textverarbeitungsprogramm. Dies ist jedoch nicht sehr effektiv, da Menschen unterschiedliche W\u00f6rter verwenden, um \u00fcber dieselbe Sache zu sprechen. Die Aufzeichnung der einzelnen W\u00f6rter allein hilft nicht dabei, zu erfassen, wie diese W\u00f6rter miteinander verbunden sind und eine Bedeutung ergeben: Es ist letztlich der Gedanke hinter den W\u00f6rtern, der uns hilft zu kommunizieren und nicht die W\u00f6rter selbst. Daher wandeln alle Suchmaschinen den Text so um, dass er leichter mit der Bedeutung des Abfragetextes \u00fcbereinstimmt. Sp\u00e4ter wird die Anfrage auf \u00e4hnliche Weise verarbeitet.<\/p>\n<p class=\"no-indent\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-67\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-text-processing-576x1024.png\" alt=\"\" width=\"388\" height=\"689\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-text-processing-576x1024.png 576w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-text-processing-169x300.png 169w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-text-processing-768x1365.png 768w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-text-processing-864x1536.png 864w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-text-processing-65x116.png 65w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-text-processing-225x400.png 225w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-text-processing-350x622.png 350w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-text-processing.png 1080w\" sizes=\"(max-width: 388px) 100vw, 388px\" \/><\/p>\n<p class=\"no-indent\">Da es sich um Wortteile handelt, verringert sich die Gesamtzahl der verschiedenen <em>Token<\/em>, die gespeichert werden m\u00fcssen. Aktuelle Modelle speichern etwa 30.000 bis 50.000 <em>Token<\/em><sup>2<\/sup>. Falsch geschriebene W\u00f6rter k\u00f6nnen identifiziert werden, da Teile von ihnen noch mit den gespeicherten <em>Token<\/em> \u00fcbereinstimmen. Unbekannte W\u00f6rter k\u00f6nnen zu Suchergebnissen f\u00fchren, da ihre Teile mit den gespeicherten <em>Token<\/em> \u00fcbereinstimmen k\u00f6nnen.<\/p>\n<p class=\"indent\">Die Trainingsmenge f\u00fcr das maschinelle Lernen besteht hier aus Beispieltexten. Ausgehend von einzelnen Zeichen, Leerzeichen und Interpunktion fasst das Modell h\u00e4ufig vorkommende Zeichen zu neuen <em>Token<\/em> zusammen. Wenn die Anzahl der <em>Token<\/em> nicht ausreicht, wird der Zusammenf\u00fchrungsprozess fortgesetzt, um gr\u00f6\u00dfere oder weniger h\u00e4ufige Wortteile abzudecken. Auf diese Weise k\u00f6nnen die meisten W\u00f6rter, Wortendungen und alle Pr\u00e4fixe abgedeckt werden. So kann die Maschine einen neuen Text leicht in <em>Token<\/em> aufteilen und an den Speicher senden.<br \/>\n<img loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-68\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page4-tokens-e1697829526838-1024x546.png\" alt=\"\" width=\"495\" height=\"264\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page4-tokens-e1697829526838-1024x546.png 1024w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page4-tokens-e1697829526838-300x160.png 300w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page4-tokens-e1697829526838-768x410.png 768w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page4-tokens-e1697829526838-1536x819.png 1536w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page4-tokens-e1697829526838-65x35.png 65w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page4-tokens-e1697829526838-225x120.png 225w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page4-tokens-e1697829526838-350x187.png 350w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page4-tokens-e1697829526838.png 1800w\" sizes=\"(max-width: 495px) 100vw, 495px\" \/><\/p>\n<h3>Schritt 3: Ein Index wird als einfache Referenz erstellt<\/h3>\n<figure id=\"attachment_70\" aria-describedby=\"caption-attachment-70\" style=\"width: 352px\" class=\"wp-caption alignright\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-69\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-index-scaled-1.jpg\" alt=\"\" width=\"352\" height=\"264\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-index-scaled-1.jpg 2560w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-index-scaled-1-300x225.jpg 300w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-index-scaled-1-1024x768.jpg 1024w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-index-scaled-1-768x576.jpg 768w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-index-scaled-1-1536x1152.jpg 1536w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-index-scaled-1-2048x1536.jpg 2048w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-index-scaled-1-65x49.jpg 65w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-index-scaled-1-225x169.jpg 225w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page-4-index-scaled-1-350x263.jpg 350w\" sizes=\"(max-width: 352px) 100vw, 352px\" \/><figcaption id=\"caption-attachment-70\" class=\"wp-caption-text\">\u201eIndex\u201d von Ben Weiner ist lizensiert unter CC BY-ND 2.0.<br \/>Informationen zu dieser Lizenz finden Sie unter: <a href=\"https:\/\/creativecommons.org\/licenses\/by-nd\/2.0\/?ref=openverse\">https:\/\/creativecommons.org\/licenses\/by-nd\/2.0\/?ref=openverse<\/a>.<\/figcaption><\/figure>\n<p class=\"no-indent\">Sobald die Daten in<em> BigTables<\/em> gespeichert sind, wird ein Index erstellt. \u00c4hnlich wie Lehrbuchindizes listet der Suchindex <em>Token<\/em> und ihre Position in einem Webdokument auf &#8211; zusammen mit statistischen Angaben, z. B. wie oft ein <em>Token<\/em> in einem Dokument vorkommt und wie wichtig es f\u00fcr das Dokument ist sowie Positionsangaben, z. B. ob das <em>Token<\/em> im Titel oder in einer \u00dcberschrift vorkommt, ob es sich auf einen Teil des Dokuments konzentriert und ob ein <em>Token<\/em> immer auf ein anderes folgt.<\/p>\n<div>\n<p class=\"indent\">Heutzutage verwenden viele Suchmaschinen eine Kombination aus traditioneller Indexierung und sprachbasierten Modellen, die von tiefen neuronalen Netzen (<em>deep neural networks<\/em>) generiert werden. Letztere kodieren semantische Details des Textes und sorgen f\u00fcr ein besseres Verst\u00e4ndnis der Suchanfragen<sup>3<\/sup>. Sie helfen den Suchmaschinen, \u00fcber die Anfrage hinauszugehen, um den Informationsbedarf zu erfassen, der die Abfrage ausgel\u00f6st hat.<\/p>\n<\/div>\n<p class=\"indent\">Diese drei Schritte stellen eine vereinfachte Darstellung dessen dar, was als \u201eIndexierung&#8221; bezeichnet wird &#8211; das Auffinden, Vorbereiten und Speichern von Dokumenten und die Erstellung eines Index. Als N\u00e4chstes folgen die Schritte des \u201eRanking&#8221;, d. h. der Abgleich von Abfrage und Inhalt und die Anzeige der Ergebnisse nach Relevanz.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-70 aligncenter\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page4-indexing-process-300x213.png\" alt=\"\" width=\"453\" height=\"322\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page4-indexing-process-300x213.png 300w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page4-indexing-process-1024x726.png 1024w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page4-indexing-process-768x545.png 768w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page4-indexing-process-1536x1090.png 1536w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page4-indexing-process-65x46.png 65w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page4-indexing-process-225x160.png 225w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page4-indexing-process-350x248.png 350w, https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-content\/uploads\/sites\/13\/2024\/01\/ch2-page4-indexing-process.png 1748w\" sizes=\"(max-width: 453px) 100vw, 453px\" \/><\/p>\n<p>&nbsp;<\/p>\n<hr \/>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>1<\/sup> Croft, B., Metzler D., Strohman, T.,<em> Search Engines, Information Retrieval in Practice<\/em>, 2015<\/p>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>2 <\/sup>Sennrich,R., Haddow, B., and Birch, A., <em>Neural Machine Translation of Rare Words with Subword Units,<\/em> In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1715\u20131725, Berlin, Germany. Association for Computational Linguistics, 2016.<\/p>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>3<\/sup> Metzler, D., Tay, Y., Bahri, D., Najork, M., <em>Rethinking Search: Making Domain Experts out of Dilettantes<\/em>, SIGIR Forum 55, 1, Article 13, June 2021.<\/p>\n","protected":false},"author":1,"menu_order":4,"template":"","meta":{"pb_show_title":"","pb_short_title":"","pb_subtitle":"","pb_authors":[],"pb_section_license":""},"chapter-type":[],"contributor":[],"license":[],"part":47,"_links":{"self":[{"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/chapters\/71"}],"collection":[{"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/chapters"}],"about":[{"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/wp\/v2\/types\/chapter"}],"author":[{"embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/wp\/v2\/users\/1"}],"version-history":[{"count":1,"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/chapters\/71\/revisions"}],"predecessor-version":[{"id":72,"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/chapters\/71\/revisions\/72"}],"part":[{"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/parts\/47"}],"metadata":[{"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/chapters\/71\/metadata\/"}],"wp:attachment":[{"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/wp\/v2\/media?parent=71"}],"wp:term":[{"taxonomy":"chapter-type","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/pressbooks\/v2\/chapter-type?post=71"},{"taxonomy":"contributor","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/wp\/v2\/contributor?post=71"},{"taxonomy":"license","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/aifurlehrer\/wp-json\/wp\/v2\/license?post=71"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}