{"id":71,"date":"2023-11-30T17:17:53","date_gmt":"2023-11-30T17:17:53","guid":{"rendered":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/chapter\/ai-speak-search-engine-indexing\/"},"modified":"2024-01-31T11:38:20","modified_gmt":"2024-01-31T11:38:20","slug":"ai-speak-search-engine-indexing","status":"publish","type":"chapter","link":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/chapter\/ai-speak-search-engine-indexing\/","title":{"raw":"Parola all\u2019IA:  l\u2019indicizzazione sui motori di ricerca","rendered":"Parola all\u2019IA:  l\u2019indicizzazione sui motori di ricerca"},"content":{"raw":"<p class=\"no-indent\">Un motore di ricerca prende delle parole chiave inserite in una casella di testo, la query di ricerca, e cerca di trovare i documenti web che corrispondono alla necessit\u00e0 di informazioni di un utente. Poi mostra le informazioni in un formato facilmente accessibile, con la pagina pi\u00f9 pertinente in alto. Per farlo, il motore di ricerca deve iniziare a trovare documenti sul web e a taggarli in modo che siano facilmente reperibili. Vediamo a grandi linee come funziona il processo:<\/p>\n\n<h3>Fase 1: i web crawler trovano e scaricano i documenti.<\/h3>\n[caption id=\"attachment_70\" align=\"alignleft\" width=\"403\"]<img class=\" wp-image-64\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/12\/2023\/11\/ch2-page-4-web-crawling-1.png\" alt=\"\" width=\"403\" height=\"286\"> Idea tratta da \u201cSearch \u00a0engine \u00a0crawlers\u201d \u00a0di \u00a0Seobility, pubblicata<br>con licenza CC BY-SA 4.0. Per visualizzare una copia di questa licenza, visitare <a href=\"https:\/\/www.seobility.net\/en\/wiki\/Creative_Commons_License_BY-SA_4.0\">https:\/\/www.seobility.net\/en\/wiki\/Creative_Commons_License_BY-SA_4.0<\/a>[\/caption]\n<p class=\"no-indent\">Dopo che un utente ha inserito una query di ricerca, \u00e8 troppo tardi per andare a cercare tutti i contenuti disponibili in Internet<sup>1<\/sup>. I documenti web sono previamente visionati e il loro contenuto viene frazionato e archiviato in slot diversi. Quando la query \u00e8 disponibile, tutto ci\u00f2 che bisogna fare \u00e8 combinare il contenuto della query con quello degli slot.<\/p>\n\n<div>\n<p class=\"indent\">I web crawler sono frammenti di codice che trovano e scaricano documenti dal web. Iniziano con una serie di indirizzi di siti web (URL) cercando al loro interno collegamenti a nuove pagine web. Poi scaricano le nuove pagine e al loro interno cercano ulteriori collegamenti. Purch\u00e9 l\u2019elenco iniziale fosse sufficientemente diversificato, i crawler finiscono per visitare qualsiasi sito consenta loro l\u2019accesso, spesso svariate volte, alla ricerca di aggiornamenti.<\/p>\n\n<\/div>\n<h3>Fase 2: il documento viene scomposto in molteplici parti<\/h3>\n<p class=\"no-indent\"><img class=\" wp-image-65 alignright\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-Bigtable-1.png\" alt=\"\" width=\"405\" height=\"288\">Il documento scaricato dal crawler potrebbe essere una pagina web chiaramente strutturata con la propria descrizione del contenuto, l\u2019indicazione dell\u2019autore, della data ecc. Pu\u00f2 anche essere un\u2019immagine digitalizzata malamente di un vecchio libro custodito in una biblioteca. Di norma i motori di ricerca sono in grado di leggere un centinaio di tipi diversi di documenti<sup>1<\/sup>. Li convertono in formato html o xml e li archiviano in tabelle (denominate BigTable nel caso di Google).<\/p>\n<p class=\"indent\">Una tabella \u00e8 costituita da sezioni pi\u00f9 piccole denominate tablet, ogni riga di un tablet \u00e8 dedicata a una pagina web.<\/p>\n<p class=\"indent\">Queste righe sono disposte secondo un ordine registrato insieme a un registro per gli aggiornamenti. Ogni colonna riporta delle informazioni specifiche collegate alla pagina web che possono essere di aiuto nel combinare il contenuto del documento ai contenuti di query future. Le colonne riportano:<\/p>\n\n<ul>\n \t<li>l\u2019indirizzo del sito web che potrebbe, di per s\u00e9, fornire una buona descrizione dei contenuti della pagina, se la home page contiene contenuti rappresentativi, o il collegamento a una pagina laterale con contenuto inerente.<\/li>\n \t<li>Titoli, intestazioni e parole in grassetto che descrivono contenuti importanti.<\/li>\n \t<li>Metadati della pagina. Si tratta di informazioni inerenti alla pagina che non costituiscono parte del contenuto principale, come il tipo del documento (per es. e-mail o pagina web), la struttura e le caratteristiche del documento, come la sua lunghezza, le parole chiave, i nomi degli autori e la data di pubblicazione.<\/li>\n \t<li>La descrizione di link da altre pagine a questa pagina, che fornisce una formulazione testuale succinta dei diversi aspetti del contenuto della pagina. Pi\u00f9 sono i link, pi\u00f9 sono le descrizioni e le colonne utilizzate. La presenza di link viene utilizzata anche a fini di ranking, per stabilire quanto sia visualizzata una pagina web (date un\u2019occhiata al <a href=\"https:\/\/en.wikipedia.org\/wiki\/PageRank\">\u00a0PageRank<\/a> di Google, un sistema di classificazione che utilizza i link a e da una pagina per valutare qualit\u00e0 e popolarit\u00e0).<\/li>\n \t<li>I nomi di persone, societ\u00e0, organizzazioni, di localit\u00e0, gli indirizzi, indicazioni di date e orari, quantit\u00e0 e valori monetari ecc.. Gli algoritmi di apprendimento automatico possono essere addestrati al reperimento di questi elementi in qualsiasi contenuto utilizzando dei dati di addestramento inseriti da un essere umano<sup>1<\/sup>.<\/li>\n<\/ul>\n[caption id=\"attachment_70\" align=\"alignleft\" width=\"297\"]<img class=\"size-medium wp-image-66\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-webpage-1.jpg\" alt=\"\" width=\"297\" height=\"300\"> Il contenuto principale di una pagina spesso \u00e8 nascosto in mezzo ad altre informazioni. The guardian \u00a0da \u00a0Il Fatto Quotidiano, pubblicato con licenza CC BY-NC-SA 2.0. Per visualizzare una copia di questa licenza, visitare: <a href=\"https:\/\/creativecommons.org\/licenses\/by-nc-sa\/2.0\/?ref=openverse.\">https:\/\/creativecommons.org\/licenses\/by-nc-sa\/2.0\/?ref=openverse.<\/a>[\/caption]\n<p class=\"no-indent\">Una colonna della tabella, forse la pi\u00f9 importante, presenta il contenuto principale del documento, che deve essere identificato tra tutti i link e gli annunci pubblicitari esterni. Una tecnica utilizza un modello di apprendimento automatico per \u201capprendere\u201d quale sia il contenuto principale di una pagina web.<\/p>\n<p class=\"indent\">Possiamo naturalmente combinare delle parole esatte tratte dalla query con le parole contenute in un documento web, come faremmo con il pulsante <em>Find<\/em> (Trova) di un programma di videoscrittura. Ma non \u00e8 una soluzione molto efficace in quanto le persone usano parole diverse per definire il medesimo oggetto. Registrare semplicemente i termini separati non aiuter\u00e0 a catturare il modo in cui essi si combinano tra loro per creare significato: in definitiva \u00e8 il pensiero dietro le parole che ci aiuta a comunicare e non le parole di per s\u00e9 stesse. Pertanto, tutti i motori di ricerca trasformano il testo in un modo che renda pi\u00f9 semplice combinarlo con il significato del testo della query. Successivamente, la query viene elaborata in modo analogo.<\/p>\n<p class=\"no-indent\"><img class=\"aligncenter wp-image-67 \" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-text-processing-1.png\" alt=\"\" width=\"388\" height=\"689\"><\/p>\n<p class=\"no-indent\">In quanto segmenti di parole, il numero totale di token diversi che devono essere archiviati si riduce. I modelli attuali archiviano da trentamila a cinquantamila token<sup>2<\/sup>. Delle parole scritte in modo scorretto possono essere individuate in quanto parti di esse continuano a corrispondere ai token archiviati. Delle parole sconosciute possono emergere dai risultati delle ricerche, dal momento che parti di esse potrebbero corrispondere con i token archiviati.<\/p>\n<p class=\"indent\">Nel nostro caso, il set di addestramento per l\u2019apprendimento automatico \u00e8 costituito da testi esemplificativi. Iniziando da singoli caratteri, spazi e segni di interpunzione, il modello fonde caratteri che si presentano frequentemente per formare nuovi token. Se il numero di token non \u00e8 sufficientemente elevato, il processo di fusione continua in modo da coprire parti di parole pi\u00f9 grandi o meno frequenti. In questo modo si riescono a coprire la maggior parte delle parole, delle terminazioni delle parole e tutti i prefissi. Quindi, fornito un nuovo testo, la macchina lo pu\u00f2 suddividere facilmente in token e archiviare.<\/p>\n<p class=\"no-indent\">\n<a class=\"inline\" href=\"https:\/\/www.ai4t.eu\/book\/ai-for-teachers-an-open-textbook\/media\/Black White Minimalist Elegant Business Thank You Card.jpg\" name=\"scalar-inline-media\" data-size=\"medium\" data-align=\"center\" data-caption=\"none\" data-annotations=\"\" data-cke-saved-name=\"scalar-inline-media\" data-cke-saved-href=\"https:\/\/www.ai4t.eu\/book\/ai-for-teachers-an-open-textbook\/media\/Black White Minimalist Elegant Business Thank You Card.jpg\"><\/a><\/p>\n<img class=\"aligncenter wp-image-68 \" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page4-tokens-e1697829526838-1.png\" alt=\"\" width=\"495\" height=\"264\">\n<h3>Fase 3: si crea un indice per farvi agevolmente riferimento<\/h3>\n[caption id=\"attachment_70\" align=\"alignright\" width=\"352\"]<img class=\" wp-image-69\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-index-scaled-2.jpg\" alt=\"\" width=\"352\" height=\"264\"> \u201cIndice\u201d di Ben Weiner, pubblicato con licenza CC BY-ND 2.0.<br>Per visualizzare una copia di questa licenza, visitare: <a href=\"https:\/\/creativecommons.org\/licenses\/by-nd\/2.0\/?ref=openverse\">https:\/\/creativecommons.org\/licenses\/by-nd\/2.0\/?ref=openverse<\/a>.<br><br>[\/caption]\n\n<div>\n<p class=\"no-indent\">Quando i dati sono inseriti in BigTable, si crea un indice. Similarmente al concetto degli indici dei libri, l\u2019indice di ricerca elenca i token contenuti in un documento web e la loro posizione, insieme a statistiche come quelle inerenti al numero di volte in cui un token si rinviene all\u2019interno di un documento, quanto importante sia per il documento ecc. e a informazioni sulla sua posizione, per esempio se il token si trovi nel titolo o in un\u2019intestazione, sia concentrato in una parte del documento e se un token ne segua sempre un altro.<\/p>\n\n<\/div>\n<p class=\"indent\">Oggi, molti motori di ricerca utilizzano una combinazione di modelli di indicizzazione tradizionali e linguistici generati da reti neurali profonde. I secondi codificano dettagli semantici del testo e consentono una miglior comprensione delle query<sup>3<\/sup>.<\/p>\n<p class=\"indent\">Aiutano i motori di ricerca a superare la query al fine di catturare le informazioni necessarie alla base della creazione della query.<\/p>\n\n<h3>Queste tre fasi forniscono un resoconto semplificato di ci\u00f2 che viene definito \u201cindicizzazione\u201d, ossia reperire, preparare e archiviare documenti creando un indice. Il passaggio successivo sono le fasi del \u201cranking\u201d consistenti nel combinare query e contenuto e nel mostrare i risultati in base alla pertinenza.<\/h3>\n<img class=\" wp-image-70 aligncenter\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page4-indexing-process-1.png\" alt=\"\" width=\"453\" height=\"322\">\n\n&nbsp;\n\n<hr>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>1<\/sup> Croft, B., Metzler D., Strohman, T.,<em> Search Engines, Information Retrieval in Practice<\/em>, 2015<\/p>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>2 <\/sup>Sennrich,R., Haddow, B., and Birch, A., <em>Neural Machine Translation of Rare Words with Subword Units,<\/em> In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1715\u20131725, Berlin, Germany. Association for Computational Linguistics, 2016.<\/p>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>3<\/sup> Metzler, D., Tay, Y., Bahri, D., Najork, M., <em>Rethinking Search: Making Domain Experts out of Dilettantes<\/em>, SIGIR Forum 55, 1, Article 13, June 2021.<\/p>","rendered":"<p class=\"no-indent\">Un motore di ricerca prende delle parole chiave inserite in una casella di testo, la query di ricerca, e cerca di trovare i documenti web che corrispondono alla necessit\u00e0 di informazioni di un utente. Poi mostra le informazioni in un formato facilmente accessibile, con la pagina pi\u00f9 pertinente in alto. Per farlo, il motore di ricerca deve iniziare a trovare documenti sul web e a taggarli in modo che siano facilmente reperibili. Vediamo a grandi linee come funziona il processo:<\/p>\n<h3>Fase 1: i web crawler trovano e scaricano i documenti.<\/h3>\n<figure id=\"attachment_70\" aria-describedby=\"caption-attachment-70\" style=\"width: 403px\" class=\"wp-caption alignleft\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-64\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/12\/2023\/11\/ch2-page-4-web-crawling-1.png\" alt=\"\" width=\"403\" height=\"286\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2023\/11\/ch2-page-4-web-crawling-1.png 1748w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2023\/11\/ch2-page-4-web-crawling-1-300x213.png 300w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2023\/11\/ch2-page-4-web-crawling-1-1024x726.png 1024w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2023\/11\/ch2-page-4-web-crawling-1-768x545.png 768w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2023\/11\/ch2-page-4-web-crawling-1-1536x1090.png 1536w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2023\/11\/ch2-page-4-web-crawling-1-65x46.png 65w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2023\/11\/ch2-page-4-web-crawling-1-225x160.png 225w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2023\/11\/ch2-page-4-web-crawling-1-350x248.png 350w\" sizes=\"(max-width: 403px) 100vw, 403px\" \/><figcaption id=\"caption-attachment-70\" class=\"wp-caption-text\">Idea tratta da \u201cSearch \u00a0engine \u00a0crawlers\u201d \u00a0di \u00a0Seobility, pubblicata<br \/>con licenza CC BY-SA 4.0. Per visualizzare una copia di questa licenza, visitare <a href=\"https:\/\/www.seobility.net\/en\/wiki\/Creative_Commons_License_BY-SA_4.0\">https:\/\/www.seobility.net\/en\/wiki\/Creative_Commons_License_BY-SA_4.0<\/a><\/figcaption><\/figure>\n<p class=\"no-indent\">Dopo che un utente ha inserito una query di ricerca, \u00e8 troppo tardi per andare a cercare tutti i contenuti disponibili in Internet<sup>1<\/sup>. I documenti web sono previamente visionati e il loro contenuto viene frazionato e archiviato in slot diversi. Quando la query \u00e8 disponibile, tutto ci\u00f2 che bisogna fare \u00e8 combinare il contenuto della query con quello degli slot.<\/p>\n<div>\n<p class=\"indent\">I web crawler sono frammenti di codice che trovano e scaricano documenti dal web. Iniziano con una serie di indirizzi di siti web (URL) cercando al loro interno collegamenti a nuove pagine web. Poi scaricano le nuove pagine e al loro interno cercano ulteriori collegamenti. Purch\u00e9 l\u2019elenco iniziale fosse sufficientemente diversificato, i crawler finiscono per visitare qualsiasi sito consenta loro l\u2019accesso, spesso svariate volte, alla ricerca di aggiornamenti.<\/p>\n<\/div>\n<h3>Fase 2: il documento viene scomposto in molteplici parti<\/h3>\n<p class=\"no-indent\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-65 alignright\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-Bigtable-1.png\" alt=\"\" width=\"405\" height=\"288\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-Bigtable-1.png 1748w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-Bigtable-1-300x213.png 300w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-Bigtable-1-1024x726.png 1024w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-Bigtable-1-768x545.png 768w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-Bigtable-1-1536x1090.png 1536w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-Bigtable-1-65x46.png 65w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-Bigtable-1-225x160.png 225w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-Bigtable-1-350x248.png 350w\" sizes=\"(max-width: 405px) 100vw, 405px\" \/>Il documento scaricato dal crawler potrebbe essere una pagina web chiaramente strutturata con la propria descrizione del contenuto, l\u2019indicazione dell\u2019autore, della data ecc. Pu\u00f2 anche essere un\u2019immagine digitalizzata malamente di un vecchio libro custodito in una biblioteca. Di norma i motori di ricerca sono in grado di leggere un centinaio di tipi diversi di documenti<sup>1<\/sup>. Li convertono in formato html o xml e li archiviano in tabelle (denominate BigTable nel caso di Google).<\/p>\n<p class=\"indent\">Una tabella \u00e8 costituita da sezioni pi\u00f9 piccole denominate tablet, ogni riga di un tablet \u00e8 dedicata a una pagina web.<\/p>\n<p class=\"indent\">Queste righe sono disposte secondo un ordine registrato insieme a un registro per gli aggiornamenti. Ogni colonna riporta delle informazioni specifiche collegate alla pagina web che possono essere di aiuto nel combinare il contenuto del documento ai contenuti di query future. Le colonne riportano:<\/p>\n<ul>\n<li>l\u2019indirizzo del sito web che potrebbe, di per s\u00e9, fornire una buona descrizione dei contenuti della pagina, se la home page contiene contenuti rappresentativi, o il collegamento a una pagina laterale con contenuto inerente.<\/li>\n<li>Titoli, intestazioni e parole in grassetto che descrivono contenuti importanti.<\/li>\n<li>Metadati della pagina. Si tratta di informazioni inerenti alla pagina che non costituiscono parte del contenuto principale, come il tipo del documento (per es. e-mail o pagina web), la struttura e le caratteristiche del documento, come la sua lunghezza, le parole chiave, i nomi degli autori e la data di pubblicazione.<\/li>\n<li>La descrizione di link da altre pagine a questa pagina, che fornisce una formulazione testuale succinta dei diversi aspetti del contenuto della pagina. Pi\u00f9 sono i link, pi\u00f9 sono le descrizioni e le colonne utilizzate. La presenza di link viene utilizzata anche a fini di ranking, per stabilire quanto sia visualizzata una pagina web (date un\u2019occhiata al <a href=\"https:\/\/en.wikipedia.org\/wiki\/PageRank\">\u00a0PageRank<\/a> di Google, un sistema di classificazione che utilizza i link a e da una pagina per valutare qualit\u00e0 e popolarit\u00e0).<\/li>\n<li>I nomi di persone, societ\u00e0, organizzazioni, di localit\u00e0, gli indirizzi, indicazioni di date e orari, quantit\u00e0 e valori monetari ecc.. Gli algoritmi di apprendimento automatico possono essere addestrati al reperimento di questi elementi in qualsiasi contenuto utilizzando dei dati di addestramento inseriti da un essere umano<sup>1<\/sup>.<\/li>\n<\/ul>\n<figure id=\"attachment_70\" aria-describedby=\"caption-attachment-70\" style=\"width: 297px\" class=\"wp-caption alignleft\"><img loading=\"lazy\" decoding=\"async\" class=\"size-medium wp-image-66\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-webpage-1.jpg\" alt=\"\" width=\"297\" height=\"300\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-webpage-1.jpg 553w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-webpage-1-297x300.jpg 297w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-webpage-1-65x66.jpg 65w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-webpage-1-225x227.jpg 225w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-webpage-1-350x354.jpg 350w\" sizes=\"(max-width: 297px) 100vw, 297px\" \/><figcaption id=\"caption-attachment-70\" class=\"wp-caption-text\">Il contenuto principale di una pagina spesso \u00e8 nascosto in mezzo ad altre informazioni. The guardian \u00a0da \u00a0Il Fatto Quotidiano, pubblicato con licenza CC BY-NC-SA 2.0. Per visualizzare una copia di questa licenza, visitare: <a href=\"https:\/\/creativecommons.org\/licenses\/by-nc-sa\/2.0\/?ref=openverse.\">https:\/\/creativecommons.org\/licenses\/by-nc-sa\/2.0\/?ref=openverse.<\/a><\/figcaption><\/figure>\n<p class=\"no-indent\">Una colonna della tabella, forse la pi\u00f9 importante, presenta il contenuto principale del documento, che deve essere identificato tra tutti i link e gli annunci pubblicitari esterni. Una tecnica utilizza un modello di apprendimento automatico per \u201capprendere\u201d quale sia il contenuto principale di una pagina web.<\/p>\n<p class=\"indent\">Possiamo naturalmente combinare delle parole esatte tratte dalla query con le parole contenute in un documento web, come faremmo con il pulsante <em>Find<\/em> (Trova) di un programma di videoscrittura. Ma non \u00e8 una soluzione molto efficace in quanto le persone usano parole diverse per definire il medesimo oggetto. Registrare semplicemente i termini separati non aiuter\u00e0 a catturare il modo in cui essi si combinano tra loro per creare significato: in definitiva \u00e8 il pensiero dietro le parole che ci aiuta a comunicare e non le parole di per s\u00e9 stesse. Pertanto, tutti i motori di ricerca trasformano il testo in un modo che renda pi\u00f9 semplice combinarlo con il significato del testo della query. Successivamente, la query viene elaborata in modo analogo.<\/p>\n<p class=\"no-indent\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-67\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-text-processing-1.png\" alt=\"\" width=\"388\" height=\"689\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-text-processing-1.png 1080w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-text-processing-1-169x300.png 169w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-text-processing-1-576x1024.png 576w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-text-processing-1-768x1365.png 768w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-text-processing-1-864x1536.png 864w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-text-processing-1-65x116.png 65w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-text-processing-1-225x400.png 225w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-text-processing-1-350x622.png 350w\" sizes=\"(max-width: 388px) 100vw, 388px\" \/><\/p>\n<p class=\"no-indent\">In quanto segmenti di parole, il numero totale di token diversi che devono essere archiviati si riduce. I modelli attuali archiviano da trentamila a cinquantamila token<sup>2<\/sup>. Delle parole scritte in modo scorretto possono essere individuate in quanto parti di esse continuano a corrispondere ai token archiviati. Delle parole sconosciute possono emergere dai risultati delle ricerche, dal momento che parti di esse potrebbero corrispondere con i token archiviati.<\/p>\n<p class=\"indent\">Nel nostro caso, il set di addestramento per l\u2019apprendimento automatico \u00e8 costituito da testi esemplificativi. Iniziando da singoli caratteri, spazi e segni di interpunzione, il modello fonde caratteri che si presentano frequentemente per formare nuovi token. Se il numero di token non \u00e8 sufficientemente elevato, il processo di fusione continua in modo da coprire parti di parole pi\u00f9 grandi o meno frequenti. In questo modo si riescono a coprire la maggior parte delle parole, delle terminazioni delle parole e tutti i prefissi. Quindi, fornito un nuovo testo, la macchina lo pu\u00f2 suddividere facilmente in token e archiviare.<\/p>\n<p class=\"no-indent\">\n<a class=\"inline\" href=\"https:\/\/www.ai4t.eu\/book\/ai-for-teachers-an-open-textbook\/media\/Black White Minimalist Elegant Business Thank You Card.jpg\" name=\"scalar-inline-media\" data-size=\"medium\" data-align=\"center\" data-caption=\"none\" data-annotations=\"\" data-cke-saved-name=\"scalar-inline-media\" data-cke-saved-href=\"https:\/\/www.ai4t.eu\/book\/ai-for-teachers-an-open-textbook\/media\/Black White Minimalist Elegant Business Thank You Card.jpg\"><\/a><\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter wp-image-68\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page4-tokens-e1697829526838-1.png\" alt=\"\" width=\"495\" height=\"264\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page4-tokens-e1697829526838-1.png 1800w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page4-tokens-e1697829526838-1-300x160.png 300w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page4-tokens-e1697829526838-1-1024x546.png 1024w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page4-tokens-e1697829526838-1-768x410.png 768w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page4-tokens-e1697829526838-1-1536x819.png 1536w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page4-tokens-e1697829526838-1-65x35.png 65w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page4-tokens-e1697829526838-1-225x120.png 225w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page4-tokens-e1697829526838-1-350x187.png 350w\" sizes=\"(max-width: 495px) 100vw, 495px\" \/><\/p>\n<h3>Fase 3: si crea un indice per farvi agevolmente riferimento<\/h3>\n<figure id=\"attachment_70\" aria-describedby=\"caption-attachment-70\" style=\"width: 352px\" class=\"wp-caption alignright\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-69\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-index-scaled-2.jpg\" alt=\"\" width=\"352\" height=\"264\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-index-scaled-2.jpg 2560w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-index-scaled-2-300x225.jpg 300w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-index-scaled-2-1024x768.jpg 1024w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-index-scaled-2-768x576.jpg 768w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-index-scaled-2-1536x1152.jpg 1536w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-index-scaled-2-2048x1536.jpg 2048w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-index-scaled-2-65x49.jpg 65w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-index-scaled-2-225x169.jpg 225w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page-4-index-scaled-2-350x263.jpg 350w\" sizes=\"(max-width: 352px) 100vw, 352px\" \/><figcaption id=\"caption-attachment-70\" class=\"wp-caption-text\">\u201cIndice\u201d di Ben Weiner, pubblicato con licenza CC BY-ND 2.0.<br \/>Per visualizzare una copia di questa licenza, visitare: <a href=\"https:\/\/creativecommons.org\/licenses\/by-nd\/2.0\/?ref=openverse\">https:\/\/creativecommons.org\/licenses\/by-nd\/2.0\/?ref=openverse<\/a>.<\/p>\n<\/figcaption><\/figure>\n<div>\n<p class=\"no-indent\">Quando i dati sono inseriti in BigTable, si crea un indice. Similarmente al concetto degli indici dei libri, l\u2019indice di ricerca elenca i token contenuti in un documento web e la loro posizione, insieme a statistiche come quelle inerenti al numero di volte in cui un token si rinviene all\u2019interno di un documento, quanto importante sia per il documento ecc. e a informazioni sulla sua posizione, per esempio se il token si trovi nel titolo o in un\u2019intestazione, sia concentrato in una parte del documento e se un token ne segua sempre un altro.<\/p>\n<\/div>\n<p class=\"indent\">Oggi, molti motori di ricerca utilizzano una combinazione di modelli di indicizzazione tradizionali e linguistici generati da reti neurali profonde. I secondi codificano dettagli semantici del testo e consentono una miglior comprensione delle query<sup>3<\/sup>.<\/p>\n<p class=\"indent\">Aiutano i motori di ricerca a superare la query al fine di catturare le informazioni necessarie alla base della creazione della query.<\/p>\n<h3>Queste tre fasi forniscono un resoconto semplificato di ci\u00f2 che viene definito \u201cindicizzazione\u201d, ossia reperire, preparare e archiviare documenti creando un indice. Il passaggio successivo sono le fasi del \u201cranking\u201d consistenti nel combinare query e contenuto e nel mostrare i risultati in base alla pertinenza.<\/h3>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-70 aligncenter\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page4-indexing-process-1.png\" alt=\"\" width=\"453\" height=\"322\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page4-indexing-process-1.png 1748w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page4-indexing-process-1-300x213.png 300w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page4-indexing-process-1-1024x726.png 1024w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page4-indexing-process-1-768x545.png 768w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page4-indexing-process-1-1536x1090.png 1536w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page4-indexing-process-1-65x46.png 65w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page4-indexing-process-1-225x160.png 225w, https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-content\/uploads\/sites\/12\/2024\/01\/ch2-page4-indexing-process-1-350x248.png 350w\" sizes=\"(max-width: 453px) 100vw, 453px\" \/><\/p>\n<p>&nbsp;<\/p>\n<hr \/>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>1<\/sup> Croft, B., Metzler D., Strohman, T.,<em> Search Engines, Information Retrieval in Practice<\/em>, 2015<\/p>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>2 <\/sup>Sennrich,R., Haddow, B., and Birch, A., <em>Neural Machine Translation of Rare Words with Subword Units,<\/em> In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1715\u20131725, Berlin, Germany. Association for Computational Linguistics, 2016.<\/p>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>3<\/sup> Metzler, D., Tay, Y., Bahri, D., Najork, M., <em>Rethinking Search: Making Domain Experts out of Dilettantes<\/em>, SIGIR Forum 55, 1, Article 13, June 2021.<\/p>\n","protected":false},"author":1,"menu_order":4,"template":"","meta":{"pb_show_title":"","pb_short_title":"","pb_subtitle":"","pb_authors":[],"pb_section_license":""},"chapter-type":[],"contributor":[],"license":[],"part":47,"_links":{"self":[{"href":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-json\/pressbooks\/v2\/chapters\/71"}],"collection":[{"href":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-json\/pressbooks\/v2\/chapters"}],"about":[{"href":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-json\/wp\/v2\/types\/chapter"}],"author":[{"embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-json\/wp\/v2\/users\/1"}],"version-history":[{"count":1,"href":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-json\/pressbooks\/v2\/chapters\/71\/revisions"}],"predecessor-version":[{"id":72,"href":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-json\/pressbooks\/v2\/chapters\/71\/revisions\/72"}],"part":[{"href":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-json\/pressbooks\/v2\/parts\/47"}],"metadata":[{"href":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-json\/pressbooks\/v2\/chapters\/71\/metadata\/"}],"wp:attachment":[{"href":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-json\/wp\/v2\/media?parent=71"}],"wp:term":[{"taxonomy":"chapter-type","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-json\/pressbooks\/v2\/chapter-type?post=71"},{"taxonomy":"contributor","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-json\/wp\/v2\/contributor?post=71"},{"taxonomy":"license","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/intelligenzaartificiale\/wp-json\/wp\/v2\/license?post=71"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}