{"id":68,"date":"2023-11-30T16:29:35","date_gmt":"2023-11-30T16:29:35","guid":{"rendered":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/chapter\/ai-speak-search-engine-indexing\/"},"modified":"2024-01-31T11:50:26","modified_gmt":"2024-01-31T11:50:26","slug":"ai-speak-search-engine-indexing","status":"publish","type":"chapter","link":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/chapter\/ai-speak-search-engine-indexing\/","title":{"raw":"Parlons IA : Indexation des moteurs de recherche","rendered":"Parlons IA : Indexation des moteurs de recherche"},"content":{"raw":"A partir de la requ\u00eate de l\u2019utilisateur \u2013 \u00e0 savoir des mots-cl\u00e9s saisis dans la fen\u00eatre de recherche \u2013 le moteur de recherche tente de trouver, sur le web, des documents susceptibles de satisfaire les besoins d\u2019information de celui-ci. Puis, il les affiche sous une forme facilement accessible, par ordre de pertinence d\u00e9croissant, avec la page la plus pertinente en t\u00eate de liste. Pour ce faire, le moteur de recherche doit commencer par trouver des documents sur le web et les \u00e9tiqueter de mani\u00e8re \u00e0 ce qu\u2019ils soient faciles \u00e0 r\u00e9cup\u00e9rer. Voyons, dans les grandes lignes, ce qui se passe dans ce processus :\n<h3>Etape n\u00b01 : les robots d\u2019exploration rep\u00e8rent et t\u00e9l\u00e9chargent des documents.<\/h3>\n[caption id=\"attachment_67\" align=\"alignleft\" width=\"403\"]<img class=\" wp-image-62\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/15\/2023\/11\/ch2-page-4-web-crawling-2.png\" alt=\"\" width=\"403\" height=\"286\"> Id\u00e9e tir\u00e9e de \u201cSearch engine crawlers\u201d par Seobility, sous la licence CC BY-SA 4.0. Pour afficher une copie de cette licence, visitez le site <a href=\"https:\/\/www.seobility.net\/en\/wiki\/Creative_Commons_License_BY-SA_4.0\">https:\/\/www.seobility.net\/en\/wiki\/Creative_Commons_License_BY-SA_4.0<\/a>[\/caption]\n<p class=\"no-indent\">Une fois que l\u2019utilisateur a saisi sa requ\u00eate, il est trop tard pour aller consulter tous les contenus disponibles surinternet<sup>1<\/sup>. Les documents web sont examin\u00e9s au pr\u00e9alable et leur contenu est ensuite d\u00e9compos\u00e9 et stock\u00e9 \u00e0 diff\u00e9rents emplacements. Une fois que la r\u00e9ponse \u00e0 la requ\u00eate est pr\u00eate, il ne reste plus qu\u2019\u00e0 associer le contenu de la requ\u00eate au contenu des emplacements.<\/p>\n<p class=\"indent\">Les robots d\u2019exploration sont des \u00e9l\u00e9ments de code qui trouvent et t\u00e9l\u00e9chargent des documents pr\u00e9sents sur le web. Ils commencent par une s\u00e9rie d\u2019adresses de sites web (URL) et en examinent le contenu \u00e0 la recherche de liens vers de nouvelles pages web. Puis, ils t\u00e9l\u00e9chargent et examinent le contenu des nouvelles pages \u00e0 la recherche de nouveaux liens. Si la liste de d\u00e9part \u00e9tait suffisamment diversifi\u00e9e, les robots finissent par visiter tous les sites qui leur autorisent l\u2019acc\u00e8s, souvent plusieurs fois, \u00e0 la recherche de mises \u00e0 jour.<\/p>\n\n<h3>Etape n\u00b0 2 : le document est r\u00e9parti en plusieurs \u00e9l\u00e9ments<\/h3>\n<p class=\"no-indent\"><img class=\" wp-image-63 alignright\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.2.png\" alt=\"\" width=\"405\" height=\"288\">Le document t\u00e9l\u00e9charg\u00e9 par le robot d\u2019exploration peut se pr\u00e9senter comme une page web clairement structur\u00e9e contenant sa propre description du contenu, le nom de l\u2019auteur, la date etc. Il peut aussi s\u2019agir d\u2019une mauvaise image num\u00e9ris\u00e9e d\u2019un vieux livre conserv\u00e9 dans une biblioth\u00e8que. Les moteurs de recherche peuvent lire, g\u00e9n\u00e9ralement, une centaine de types de documents diff\u00e9rents<sup>1<\/sup>.<\/p>\n<p class=\"indent\">Ils les convertissent au format html ou xml et les stockent dans des tableaux (appel\u00e9s <em>BigTable<\/em> dans Google).<\/p>\n<p class=\"indent\">Chaque tableau est r\u00e9parti en plus petits \u00e9l\u00e9ments dits \u00ab\u00a0tablettes\u00a0\u00bb, dans lesquels chaque rang\u00e9e de la tablette est consacr\u00e9e \u00e0 une page web. Ces rang\u00e9es sont dispos\u00e9es dans un certain ordre, qui est enregistr\u00e9, avec un journal pour les mises \u00e0 jour. Chaque colonne contient une information sp\u00e9cifique relative \u00e0 la page web, qui peut aider \u00e0 associer le contenu du document aux contenus d\u2019une future requ\u00eate. Les colonnes contiennent :<\/p>\n\n<ul>\n \t<li>L\u2019adresse du site web qui peut fournir, d\u00e9j\u00e0, par elle-m\u00eame, une bonne description du contenu de la page, s\u2019il \u2018agit d\u2019une page d\u2019accueil avec un contenu significatif ou d\u2019une page secondaire, avec un contenu associ\u00e9.<\/li>\n \t<li>Les titres, intertitres et mots en caract\u00e8res gras mettant en \u00e9vidence les contenus importants.<\/li>\n \t<li>Les m\u00e9tadonn\u00e9es de la page. Il s\u2019agit d\u2019informations relatives \u00e0 la page ne faisant pas partie du contenu principal, telles que le type de document (par ex. e-mail ou page web), la structure du document et ses caract\u00e9ristiques, telles que la longueur du document, les mots-cl\u00e9s, les noms des auteurs et la date de publication.<\/li>\n \t<li>La description des liens contenus dans d\u2019autres pages vers cette page avec un bref texte d\u00e9crivant les diff\u00e9rents aspects du contenu de la page. Plus il y a de liens plus il y a de descriptions et de colonnes utilis\u00e9es. La pr\u00e9sence de liens est \u00e9galement utilis\u00e9e pour prioriser, afin de d\u00e9terminer la popularit\u00e9 d\u2019une page (Cf.<a href=\"https:\/\/en.wikipedia.org\/wiki\/PageRank\">Google\u2019s Pagerank<\/a>, un syst\u00e8me de classement bas\u00e9 sur les liens vers et depuis une page pour mesurer la qualit\u00e9 et la popularit\u00e9 de celle-ci).<\/li>\n \t<li>Les noms des personnes de la soci\u00e9t\u00e9 ou de l\u2019organisation, les lieux, les adresses, l\u2019horodatage, les quantit\u00e9s et les valeurs mon\u00e9taires etc. Les algorithmes d\u2019apprentissage automatique peuvent \u00eatre entra\u00een\u00e9s \u00e0 d\u00e9tecter ces entit\u00e9s dans tout contenu, \u00e0 l\u2019aide des donn\u00e9es d\u2019entra\u00eenement annot\u00e9es par un \u00eatre humain<sup>1<\/sup>.<\/li>\n<\/ul>\n[caption id=\"attachment_67\" align=\"alignleft\" width=\"297\"]<img class=\"size-medium wp-image-64\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/15\/2024\/01\/ch2-page-4-webpage-2.jpg\" alt=\"\" width=\"297\" height=\"300\"> Le contenu principal d\u2019une page est souvent cach\u00e9 parmi d\u2019autres informations. \u201ctheguardian\u201d par Il Fatto Quotidiano fait l\u2019objet de la licence CC BY-NC-SA 2.0. Pour afficher une copie de cette licence visitez le site <a href=\"https:\/\/creativecommons.org\/licenses\/by-nc-sa\/2.0\/?ref=openverse.\">https:\/\/creativecommons.org\/licenses\/by-nc-sa\/2.0\/?ref=openverse.<\/a>[\/caption]\n<p class=\"indent\">Une colonne du tableau, peut-\u00eatre la plus importante, contient le contenu principal du document, qui doit \u00eatre identifi\u00e9 parmi les liens externes et les annonces publicitaires. L\u2019une des techniques applicables consiste \u00e0 employer un mod\u00e8le d\u2019apprentissage automatique pour \u201capprendre\u201d \u00e0 distinguer le contenu principal d\u2019une page web.<\/p>\n<p class=\"indent\">Naturellement, nous pouvons rechercher une correspondance entre certains termes pr\u00e9cis contenus dans la requ\u00eate et les termes contenus dans un document web, comme on le fait dans n\u2019importe quel traitement de texte en appuyant sur le bouton <em>Rechercher<\/em>. Toutefois, ce syst\u00e8me n\u2019est pas tr\u00e8s efficace, car les gens peuvent utiliser des mots diff\u00e9rents pour parler de la m\u00eame chose. Il ne suffit pas d\u2019enregistrer chaque mot pour saisir de quelle mani\u00e8re ces mots s\u2019associent pour cr\u00e9er du sens : en effet, c\u2019est la pens\u00e9e qui sous-tend ces mots qui nous aide \u00e0 communiquer et non pas les mots en tant que tels. Par cons\u00e9quent, tous les moteurs de recherche transforment le texte de mani\u00e8re \u00e0 ce qu\u2019il corresponde au sens du texte de la requ\u00eate. Ensuite, la requ\u00eate est trait\u00e9e de mani\u00e8re similaire.<\/p>\n<p class=\"no-indent\"><img class=\"aligncenter wp-image-65 \" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.3.png\" alt=\"\" width=\"388\" height=\"689\"><\/p>\n<p class=\"no-indent\">En tant que parties de mots, le nombre total de jetons [<em>tokens<\/em>] diff\u00e9rents qui doivent \u00eatre stock\u00e9s est limit\u00e9. Les mod\u00e8les actuels peuvent stocker environ 30000 \u00e0 50000 jetons<sup>2<\/sup>. Les mots mal orthographi\u00e9s peuvent \u00eatre identifi\u00e9s, car certaines parties du mot peuvent correspondre aux jetons stock\u00e9s. Les mots inconnus peuvent donner lieu \u00e0 des r\u00e9sultats de recherche, parce que certaines parties du mot peuvent correspondre aux jetons stock\u00e9s.<\/p>\n<p class=\"indent\">Ici les donn\u00e9es d\u2019entra\u00eenement pour l\u2019apprentissage automatique sont constitu\u00e9es d\u2019exemples de textes. A partir de caract\u00e8res, espaces et signes de ponctuation, le mod\u00e8le fusionne les caract\u00e8res r\u00e9currents pour former de nouveaux <em>tokens<\/em>. Si le nombre de <em>tokens<\/em> n\u2019est pas suffisamment \u00e9lev\u00e9, le processus de fusion se poursuit pour prendre en compte des parties de mots plus \u00e9tendues ou moins fr\u00e9quentes. De cette fa\u00e7on, la plupart des mots, les terminaisons des mots et tous les pr\u00e9fixes peuvent \u00eatre pris en compte. Par cons\u00e9quent, quand elle re\u00e7oit un nouveau texte, la machine peut ais\u00e9ment le r\u00e9partir en <em>tokens<\/em> \u00e0 stocker.<\/p>\n<img class=\"size-medium wp-image-66 aligncenter\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.4.png\" alt=\"\" width=\"495\" height=\"264\">\n<h3>Etape n\u00b0 3 : Un index est cr\u00e9\u00e9 pour faciliter la consultation<\/h3>\n[caption id=\"attachment_67\" align=\"alignright\" width=\"352\"]<img class=\" wp-image-177\" src=\"https:\/\/pressbooks.pub\/app\/uploads\/sites\/12811\/2023\/11\/ch2-page-4-index-300x225.jpg#fixme\" alt=\"\" width=\"352\" height=\"264\"> \u00ab Index \u00bb par Ben Weiner fait l\u2019objet d\u2019une licence CCBY-ND 2.0. Pour afficher une copie de cette licence visitez le site <a href=\"https:\/\/creativecommons.org\/licenses\/by-nd\/2.0\/?ref=openverse\">https:\/\/creativecommons.org\/licenses\/by-nd\/2.0\/?ref=openverse<\/a>.<br><br>[\/caption]\n<p class=\"no-indent\">Une fois que les donn\u00e9es sont stock\u00e9es dans <em>BigTables<\/em>, un index est cr\u00e9\u00e9. L\u2019index de recherche, qui est similaire, dans sa forme, \u00e0 celui des index des manuels scolaires, r\u00e9pertorie les <em>tokens<\/em> dans un document web, avec leur emplacement et des statistiques \u2013 concernant, entre autres, le nombre d\u2019occurrences d\u2019un <em>token<\/em> dans un document et son importance pour le document \u2013 et des informations sur la position \u2013 par ex. se trouve-t-il dans le titre ou dans un intertitre, est-il concentr\u00e9 dans une certaine partie du document et un certain <em>token<\/em> suit-il toujours un autre <em>token<\/em>.<\/p>\n<p class=\"indent\">Actuellement, de nombreux moteurs de recherche combinent un syst\u00e8me d\u2019indexation classique et des mod\u00e8les bas\u00e9s sur le langage g\u00e9n\u00e9r\u00e9s par des r\u00e9seaux neuronaux profonds. Ces derniers encodent des d\u00e9tails s\u00e9mantiques du texte et permettent de mieux comprendre les requ\u00eates<sup>3<\/sup>. Ils aident les moteurs de recherche \u00e0 aller au-del\u00e0 de la requ\u00eate pour saisir le besoin d\u2019information qui en est \u00e0 l\u2019origine.<\/p>\n<p style=\"text-align: left\">Ces trois \u00e9tapes offrent une description simplifi\u00e9e de ce que l\u2019on appelle \u201cIndexation\u201d : trouver, pr\u00e9parer et stocker des documents et cr\u00e9er un index. Suivent les \u00e9tapes qui concernent le \u201cR\u00e9f\u00e9rencement\u201d, qui consiste \u00e0 trouver une correspondance entre la requ\u00eate et le contenu et \u00e0 afficher les r\u00e9sultats selon leur pertinence.<\/p>\n<img class=\" wp-image-67 aligncenter\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.5.png\" alt=\"\" width=\"453\" height=\"322\">\n\n<hr>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>1<\/sup> Croft, B., Metzler D., Strohman, T.,<em> Search Engines, Information Retrieval in Practice<\/em>, 2015<\/p>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>2 <\/sup>Sennrich,R., Haddow, B., and Birch, A., <em>Neural Machine Translation of Rare Words with Subword Units,<\/em> In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1715\u20131725, Berlin, Germany. Association for Computational Linguistics, 2016.<\/p>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>3<\/sup> Metzler, D., Tay, Y., Bahri, D., Najork, M., <em>Rethinking Search: Making Domain Experts out of Dilettantes<\/em>, SIGIR Forum 55, 1, Article 13, June 2021.<\/p>","rendered":"<p>A partir de la requ\u00eate de l\u2019utilisateur \u2013 \u00e0 savoir des mots-cl\u00e9s saisis dans la fen\u00eatre de recherche \u2013 le moteur de recherche tente de trouver, sur le web, des documents susceptibles de satisfaire les besoins d\u2019information de celui-ci. Puis, il les affiche sous une forme facilement accessible, par ordre de pertinence d\u00e9croissant, avec la page la plus pertinente en t\u00eate de liste. Pour ce faire, le moteur de recherche doit commencer par trouver des documents sur le web et les \u00e9tiqueter de mani\u00e8re \u00e0 ce qu\u2019ils soient faciles \u00e0 r\u00e9cup\u00e9rer. Voyons, dans les grandes lignes, ce qui se passe dans ce processus :<\/p>\n<h3>Etape n\u00b01 : les robots d\u2019exploration rep\u00e8rent et t\u00e9l\u00e9chargent des documents.<\/h3>\n<figure id=\"attachment_67\" aria-describedby=\"caption-attachment-67\" style=\"width: 403px\" class=\"wp-caption alignleft\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-62\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/15\/2023\/11\/ch2-page-4-web-crawling-2.png\" alt=\"\" width=\"403\" height=\"286\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2023\/11\/ch2-page-4-web-crawling-2.png 1748w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2023\/11\/ch2-page-4-web-crawling-2-300x213.png 300w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2023\/11\/ch2-page-4-web-crawling-2-1024x726.png 1024w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2023\/11\/ch2-page-4-web-crawling-2-768x545.png 768w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2023\/11\/ch2-page-4-web-crawling-2-1536x1090.png 1536w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2023\/11\/ch2-page-4-web-crawling-2-65x46.png 65w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2023\/11\/ch2-page-4-web-crawling-2-225x160.png 225w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2023\/11\/ch2-page-4-web-crawling-2-350x248.png 350w\" sizes=\"(max-width: 403px) 100vw, 403px\" \/><figcaption id=\"caption-attachment-67\" class=\"wp-caption-text\">Id\u00e9e tir\u00e9e de \u201cSearch engine crawlers\u201d par Seobility, sous la licence CC BY-SA 4.0. Pour afficher une copie de cette licence, visitez le site <a href=\"https:\/\/www.seobility.net\/en\/wiki\/Creative_Commons_License_BY-SA_4.0\">https:\/\/www.seobility.net\/en\/wiki\/Creative_Commons_License_BY-SA_4.0<\/a><\/figcaption><\/figure>\n<p class=\"no-indent\">Une fois que l\u2019utilisateur a saisi sa requ\u00eate, il est trop tard pour aller consulter tous les contenus disponibles surinternet<sup>1<\/sup>. Les documents web sont examin\u00e9s au pr\u00e9alable et leur contenu est ensuite d\u00e9compos\u00e9 et stock\u00e9 \u00e0 diff\u00e9rents emplacements. Une fois que la r\u00e9ponse \u00e0 la requ\u00eate est pr\u00eate, il ne reste plus qu\u2019\u00e0 associer le contenu de la requ\u00eate au contenu des emplacements.<\/p>\n<p class=\"indent\">Les robots d\u2019exploration sont des \u00e9l\u00e9ments de code qui trouvent et t\u00e9l\u00e9chargent des documents pr\u00e9sents sur le web. Ils commencent par une s\u00e9rie d\u2019adresses de sites web (URL) et en examinent le contenu \u00e0 la recherche de liens vers de nouvelles pages web. Puis, ils t\u00e9l\u00e9chargent et examinent le contenu des nouvelles pages \u00e0 la recherche de nouveaux liens. Si la liste de d\u00e9part \u00e9tait suffisamment diversifi\u00e9e, les robots finissent par visiter tous les sites qui leur autorisent l\u2019acc\u00e8s, souvent plusieurs fois, \u00e0 la recherche de mises \u00e0 jour.<\/p>\n<h3>Etape n\u00b0 2 : le document est r\u00e9parti en plusieurs \u00e9l\u00e9ments<\/h3>\n<p class=\"no-indent\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-63 alignright\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.2.png\" alt=\"\" width=\"405\" height=\"288\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.2.png 1748w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.2-300x213.png 300w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.2-1024x726.png 1024w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.2-768x545.png 768w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.2-1536x1090.png 1536w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.2-65x46.png 65w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.2-225x160.png 225w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.2-350x248.png 350w\" sizes=\"(max-width: 405px) 100vw, 405px\" \/>Le document t\u00e9l\u00e9charg\u00e9 par le robot d\u2019exploration peut se pr\u00e9senter comme une page web clairement structur\u00e9e contenant sa propre description du contenu, le nom de l\u2019auteur, la date etc. Il peut aussi s\u2019agir d\u2019une mauvaise image num\u00e9ris\u00e9e d\u2019un vieux livre conserv\u00e9 dans une biblioth\u00e8que. Les moteurs de recherche peuvent lire, g\u00e9n\u00e9ralement, une centaine de types de documents diff\u00e9rents<sup>1<\/sup>.<\/p>\n<p class=\"indent\">Ils les convertissent au format html ou xml et les stockent dans des tableaux (appel\u00e9s <em>BigTable<\/em> dans Google).<\/p>\n<p class=\"indent\">Chaque tableau est r\u00e9parti en plus petits \u00e9l\u00e9ments dits \u00ab\u00a0tablettes\u00a0\u00bb, dans lesquels chaque rang\u00e9e de la tablette est consacr\u00e9e \u00e0 une page web. Ces rang\u00e9es sont dispos\u00e9es dans un certain ordre, qui est enregistr\u00e9, avec un journal pour les mises \u00e0 jour. Chaque colonne contient une information sp\u00e9cifique relative \u00e0 la page web, qui peut aider \u00e0 associer le contenu du document aux contenus d\u2019une future requ\u00eate. Les colonnes contiennent :<\/p>\n<ul>\n<li>L\u2019adresse du site web qui peut fournir, d\u00e9j\u00e0, par elle-m\u00eame, une bonne description du contenu de la page, s\u2019il \u2018agit d\u2019une page d\u2019accueil avec un contenu significatif ou d\u2019une page secondaire, avec un contenu associ\u00e9.<\/li>\n<li>Les titres, intertitres et mots en caract\u00e8res gras mettant en \u00e9vidence les contenus importants.<\/li>\n<li>Les m\u00e9tadonn\u00e9es de la page. Il s\u2019agit d\u2019informations relatives \u00e0 la page ne faisant pas partie du contenu principal, telles que le type de document (par ex. e-mail ou page web), la structure du document et ses caract\u00e9ristiques, telles que la longueur du document, les mots-cl\u00e9s, les noms des auteurs et la date de publication.<\/li>\n<li>La description des liens contenus dans d\u2019autres pages vers cette page avec un bref texte d\u00e9crivant les diff\u00e9rents aspects du contenu de la page. Plus il y a de liens plus il y a de descriptions et de colonnes utilis\u00e9es. La pr\u00e9sence de liens est \u00e9galement utilis\u00e9e pour prioriser, afin de d\u00e9terminer la popularit\u00e9 d\u2019une page (Cf.<a href=\"https:\/\/en.wikipedia.org\/wiki\/PageRank\">Google\u2019s Pagerank<\/a>, un syst\u00e8me de classement bas\u00e9 sur les liens vers et depuis une page pour mesurer la qualit\u00e9 et la popularit\u00e9 de celle-ci).<\/li>\n<li>Les noms des personnes de la soci\u00e9t\u00e9 ou de l\u2019organisation, les lieux, les adresses, l\u2019horodatage, les quantit\u00e9s et les valeurs mon\u00e9taires etc. Les algorithmes d\u2019apprentissage automatique peuvent \u00eatre entra\u00een\u00e9s \u00e0 d\u00e9tecter ces entit\u00e9s dans tout contenu, \u00e0 l\u2019aide des donn\u00e9es d\u2019entra\u00eenement annot\u00e9es par un \u00eatre humain<sup>1<\/sup>.<\/li>\n<\/ul>\n<figure id=\"attachment_67\" aria-describedby=\"caption-attachment-67\" style=\"width: 297px\" class=\"wp-caption alignleft\"><img loading=\"lazy\" decoding=\"async\" class=\"size-medium wp-image-64\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/15\/2024\/01\/ch2-page-4-webpage-2.jpg\" alt=\"\" width=\"297\" height=\"300\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/ch2-page-4-webpage-2.jpg 553w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/ch2-page-4-webpage-2-297x300.jpg 297w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/ch2-page-4-webpage-2-65x66.jpg 65w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/ch2-page-4-webpage-2-225x227.jpg 225w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/ch2-page-4-webpage-2-350x354.jpg 350w\" sizes=\"(max-width: 297px) 100vw, 297px\" \/><figcaption id=\"caption-attachment-67\" class=\"wp-caption-text\">Le contenu principal d\u2019une page est souvent cach\u00e9 parmi d\u2019autres informations. \u201ctheguardian\u201d par Il Fatto Quotidiano fait l\u2019objet de la licence CC BY-NC-SA 2.0. Pour afficher une copie de cette licence visitez le site <a href=\"https:\/\/creativecommons.org\/licenses\/by-nc-sa\/2.0\/?ref=openverse.\">https:\/\/creativecommons.org\/licenses\/by-nc-sa\/2.0\/?ref=openverse.<\/a><\/figcaption><\/figure>\n<p class=\"indent\">Une colonne du tableau, peut-\u00eatre la plus importante, contient le contenu principal du document, qui doit \u00eatre identifi\u00e9 parmi les liens externes et les annonces publicitaires. L\u2019une des techniques applicables consiste \u00e0 employer un mod\u00e8le d\u2019apprentissage automatique pour \u201capprendre\u201d \u00e0 distinguer le contenu principal d\u2019une page web.<\/p>\n<p class=\"indent\">Naturellement, nous pouvons rechercher une correspondance entre certains termes pr\u00e9cis contenus dans la requ\u00eate et les termes contenus dans un document web, comme on le fait dans n\u2019importe quel traitement de texte en appuyant sur le bouton <em>Rechercher<\/em>. Toutefois, ce syst\u00e8me n\u2019est pas tr\u00e8s efficace, car les gens peuvent utiliser des mots diff\u00e9rents pour parler de la m\u00eame chose. Il ne suffit pas d\u2019enregistrer chaque mot pour saisir de quelle mani\u00e8re ces mots s\u2019associent pour cr\u00e9er du sens : en effet, c\u2019est la pens\u00e9e qui sous-tend ces mots qui nous aide \u00e0 communiquer et non pas les mots en tant que tels. Par cons\u00e9quent, tous les moteurs de recherche transforment le texte de mani\u00e8re \u00e0 ce qu\u2019il corresponde au sens du texte de la requ\u00eate. Ensuite, la requ\u00eate est trait\u00e9e de mani\u00e8re similaire.<\/p>\n<p class=\"no-indent\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-65\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.3.png\" alt=\"\" width=\"388\" height=\"689\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.3.png 1080w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.3-169x300.png 169w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.3-576x1024.png 576w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.3-768x1365.png 768w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.3-864x1536.png 864w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.3-65x116.png 65w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.3-225x400.png 225w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.3-350x622.png 350w\" sizes=\"(max-width: 388px) 100vw, 388px\" \/><\/p>\n<p class=\"no-indent\">En tant que parties de mots, le nombre total de jetons [<em>tokens<\/em>] diff\u00e9rents qui doivent \u00eatre stock\u00e9s est limit\u00e9. Les mod\u00e8les actuels peuvent stocker environ 30000 \u00e0 50000 jetons<sup>2<\/sup>. Les mots mal orthographi\u00e9s peuvent \u00eatre identifi\u00e9s, car certaines parties du mot peuvent correspondre aux jetons stock\u00e9s. Les mots inconnus peuvent donner lieu \u00e0 des r\u00e9sultats de recherche, parce que certaines parties du mot peuvent correspondre aux jetons stock\u00e9s.<\/p>\n<p class=\"indent\">Ici les donn\u00e9es d\u2019entra\u00eenement pour l\u2019apprentissage automatique sont constitu\u00e9es d\u2019exemples de textes. A partir de caract\u00e8res, espaces et signes de ponctuation, le mod\u00e8le fusionne les caract\u00e8res r\u00e9currents pour former de nouveaux <em>tokens<\/em>. Si le nombre de <em>tokens<\/em> n\u2019est pas suffisamment \u00e9lev\u00e9, le processus de fusion se poursuit pour prendre en compte des parties de mots plus \u00e9tendues ou moins fr\u00e9quentes. De cette fa\u00e7on, la plupart des mots, les terminaisons des mots et tous les pr\u00e9fixes peuvent \u00eatre pris en compte. Par cons\u00e9quent, quand elle re\u00e7oit un nouveau texte, la machine peut ais\u00e9ment le r\u00e9partir en <em>tokens<\/em> \u00e0 stocker.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"size-medium wp-image-66 aligncenter\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.4.png\" alt=\"\" width=\"495\" height=\"264\" \/><\/p>\n<h3>Etape n\u00b0 3 : Un index est cr\u00e9\u00e9 pour faciliter la consultation<\/h3>\n<figure id=\"attachment_67\" aria-describedby=\"caption-attachment-67\" style=\"width: 352px\" class=\"wp-caption alignright\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-177\" src=\"https:\/\/pressbooks.pub\/app\/uploads\/sites\/12811\/2023\/11\/ch2-page-4-index-300x225.jpg#fixme\" alt=\"\" width=\"352\" height=\"264\" \/><figcaption id=\"caption-attachment-67\" class=\"wp-caption-text\">\u00ab Index \u00bb par Ben Weiner fait l\u2019objet d\u2019une licence CCBY-ND 2.0. Pour afficher une copie de cette licence visitez le site <a href=\"https:\/\/creativecommons.org\/licenses\/by-nd\/2.0\/?ref=openverse\">https:\/\/creativecommons.org\/licenses\/by-nd\/2.0\/?ref=openverse<\/a>.<\/p>\n<\/figcaption><\/figure>\n<p class=\"no-indent\">Une fois que les donn\u00e9es sont stock\u00e9es dans <em>BigTables<\/em>, un index est cr\u00e9\u00e9. L\u2019index de recherche, qui est similaire, dans sa forme, \u00e0 celui des index des manuels scolaires, r\u00e9pertorie les <em>tokens<\/em> dans un document web, avec leur emplacement et des statistiques \u2013 concernant, entre autres, le nombre d\u2019occurrences d\u2019un <em>token<\/em> dans un document et son importance pour le document \u2013 et des informations sur la position \u2013 par ex. se trouve-t-il dans le titre ou dans un intertitre, est-il concentr\u00e9 dans une certaine partie du document et un certain <em>token<\/em> suit-il toujours un autre <em>token<\/em>.<\/p>\n<p class=\"indent\">Actuellement, de nombreux moteurs de recherche combinent un syst\u00e8me d\u2019indexation classique et des mod\u00e8les bas\u00e9s sur le langage g\u00e9n\u00e9r\u00e9s par des r\u00e9seaux neuronaux profonds. Ces derniers encodent des d\u00e9tails s\u00e9mantiques du texte et permettent de mieux comprendre les requ\u00eates<sup>3<\/sup>. Ils aident les moteurs de recherche \u00e0 aller au-del\u00e0 de la requ\u00eate pour saisir le besoin d\u2019information qui en est \u00e0 l\u2019origine.<\/p>\n<p style=\"text-align: left\">Ces trois \u00e9tapes offrent une description simplifi\u00e9e de ce que l\u2019on appelle \u201cIndexation\u201d : trouver, pr\u00e9parer et stocker des documents et cr\u00e9er un index. Suivent les \u00e9tapes qui concernent le \u201cR\u00e9f\u00e9rencement\u201d, qui consiste \u00e0 trouver une correspondance entre la requ\u00eate et le contenu et \u00e0 afficher les r\u00e9sultats selon leur pertinence.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-67 aligncenter\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.5.png\" alt=\"\" width=\"453\" height=\"322\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.5.png 1748w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.5-300x213.png 300w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.5-1024x726.png 1024w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.5-768x545.png 768w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.5-1536x1090.png 1536w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.5-65x46.png 65w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.5-225x160.png 225w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2024\/01\/FR-10.5-350x248.png 350w\" sizes=\"(max-width: 453px) 100vw, 453px\" \/><\/p>\n<hr \/>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>1<\/sup> Croft, B., Metzler D., Strohman, T.,<em> Search Engines, Information Retrieval in Practice<\/em>, 2015<\/p>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>2 <\/sup>Sennrich,R., Haddow, B., and Birch, A., <em>Neural Machine Translation of Rare Words with Subword Units,<\/em> In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1715\u20131725, Berlin, Germany. Association for Computational Linguistics, 2016.<\/p>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>3<\/sup> Metzler, D., Tay, Y., Bahri, D., Najork, M., <em>Rethinking Search: Making Domain Experts out of Dilettantes<\/em>, SIGIR Forum 55, 1, Article 13, June 2021.<\/p>\n","protected":false},"author":1,"menu_order":4,"template":"","meta":{"pb_show_title":"","pb_short_title":"","pb_subtitle":"","pb_authors":[],"pb_section_license":""},"chapter-type":[],"contributor":[],"license":[],"part":46,"_links":{"self":[{"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/chapters\/68"}],"collection":[{"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/chapters"}],"about":[{"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/wp\/v2\/types\/chapter"}],"author":[{"embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/wp\/v2\/users\/1"}],"version-history":[{"count":1,"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/chapters\/68\/revisions"}],"predecessor-version":[{"id":69,"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/chapters\/68\/revisions\/69"}],"part":[{"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/parts\/46"}],"metadata":[{"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/chapters\/68\/metadata\/"}],"wp:attachment":[{"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/wp\/v2\/media?parent=68"}],"wp:term":[{"taxonomy":"chapter-type","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/chapter-type?post=68"},{"taxonomy":"contributor","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/wp\/v2\/contributor?post=68"},{"taxonomy":"license","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/wp\/v2\/license?post=68"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}