{"id":71,"date":"2023-11-30T17:30:06","date_gmt":"2023-11-30T17:30:06","guid":{"rendered":"https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/chapter\/ai-speak-search-engine-indexing\/"},"modified":"2024-01-31T11:47:23","modified_gmt":"2024-01-31T11:47:23","slug":"ai-speak-search-engine-indexing","status":"publish","type":"chapter","link":"https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/chapter\/ai-speak-search-engine-indexing\/","title":{"raw":"Govorica UI:\u00a0 indeksiranje","rendered":"Govorica UI:\u00a0 indeksiranje"},"content":{"raw":"<div class=\"paragraph_wrapper\">\n<div class=\"body_copy\">Spletni iskalniki posku\u0161ajo razumeti, katere informacije potrebuje uporabnik. To po\u010dnejo na podlagi klju\u010dnih besed, vnesenih v iskalno polje - na podlagi iskalnih poizvedb. Ko vnesemo poizvedbo, posku\u0161a iskalnik med milijardami spletnih dokumentov poiskati tistih nekaj, ki odgovarjajo izra\u017eeni zahtevi. Informacije nato prika\u017ee v preprosto dostopni obliki, pri \u010demer je najpomembnej\u0161a stran uvr\u0161\u010dena na vrh. Da lahko iskalnik vse to opravi, mora najprej poiskati dokumente na spletu in jih ozna\u010diti, da jih je mogo\u010de nato zlahka pridobiti. Oglejte si nekaj osnovnih korakov tega postopka.<\/div>\n<\/div>\n<h3>1. korak: spletni pajki poi\u0161\u010dejo in prenesejo dokumente<\/h3>\n[caption id=\"attachment_69\" align=\"aligncenter\" width=\"300\"]<img class=\"size-medium wp-image-64\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/14\/2023\/11\/ch2-page-4-web-crawling-300x213.png\" alt=\"\" width=\"300\" height=\"213\"> Zamisel \"pajkov iskalnikov\" orodja Seobility, licencirana pod CC BY-SA 4.0. \u010ce si \u017eelite ogledati kopijo te licence, obi\u0161\u010dite <a href=\"https:\/\/www.seobility.net\/en\/wiki\/Creative_Commons_License_BY-SA_4.0\">https:\/ www.seobility.net\/en\/wiki\/<\/a> <a href=\"https:\/\/www.seobility.net\/en\/wiki\/Creative_Commons_License_BY-SA_4.0\">Creative_Commons_License_BY-SA_4.0<\/a>[\/caption]\n<p class=\"no-indent\">Ko uporabnik vnese iskalno poizvedbo, se v naslednjem koraku seveda ne loti pregledovanja vseh vsebin, ki so na voljo na internetu.<sup>1<\/sup>\u00a0Dokumenti na spletu so bili pregledani \u017ee prej, njihova vsebina pa je razdeljena in shranjena v razli\u010dnih sklopih. Ko uporabnik vnese svojo poizvedbo, je treba le \u0161e uskladiti informacije v poizvedbi z informacijami v posameznih sklopih.<\/p>\n<p class=\"indent\">Spletni pajki so avtomatizirani programi oz. skripte, ki samostojno preiskujejo spletne strani na internetu. So deli ra\u010dunalni\u0161ke kode, ki i\u0161\u010dejo in prena\u0161ajo dokumente s spleta. Za za\u010detek dobijo nabor naslovov spletnih strani (URL), do katerih morajo dostopati. To je za\u010detni niz (angl. seed set). Ko prenesejo posamezno stran, na njej najprej preverijo, ali vsebuje povezave do drugih spletnih strani. \u010ce jih vsebujejo, njihove naslove dodajo na svoj seznam opravil. Nato spet prenesejo na novo najdene strani in v njih spet i\u0161\u010dejo povezave.<\/p>\n\n<h3>2. korak: dokument se preoblikuje v ve\u010d delov<\/h3>\n<p class=\"no-indent\"><img class=\"size-medium wp-image-65 alignleft\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-Bigtable-300x213.png\" alt=\"\" width=\"300\" height=\"213\">Dokument, ki ga prenese spletni pajek, je lahko jasno strukturirana spletna stran (napisana v jeziku html) z lastnim opisom vsebine, avtorja, datuma itd. Lahko pa je tudi slabo skenirana slika neke stare knjige iz knji\u017enice. Iskalniki obi\u010dajno znajo prebrati pribli\u017eno sto razli\u010dnih vrst dokumentov.<sup>1<\/sup> Te pretvorijo v html ali xml in jih shranijo v tabele (v primeru Googla se tak\u0161na tabela imenuje BigTable).<\/p>\n<p class=\"indent\">Vsaka tabela je sestavljena iz manj\u0161ih tabel (angl. tablets). Vsaka vrstica v tabeli je namenjena eni spletni strani. Vrstice so razporejene v dolo\u010denem vrstnem redu, ki se bele\u017ei skupaj z dnevnikom posodobitev. Vsak stolpec vsebuje dolo\u010den tip informacij, povezanih s spletno stranjo, kar lahko pomaga pri usklajevanju vsebine z vsebino neke prihodnje iskalne poizvedbe. Stolpci vsebujejo:<\/p>\n\n<ul>\n \t<li>spletni naslov. Poleg tega, da spletni naslov omogo\u010da identifikacijo vrstice v tabeli, nam lahko nekaj pove tudi \u017ee o vsebini izbrane strani. \u010ce je stran identificirana kot doma\u010da stran, vsebina strani reprezentira celotno spletno mesto.<\/li>\n \t<li>naslove in posamezne besede v krepkem tisku, ki nakazujejo pomembno vsebino.<\/li>\n \t<li>metapodatke. To so informacije o strani, ki niso del glavne vsebine, npr. vrsta dokumenta (npr. e-po\u0161ta ali spletna stran), struktura dokumenta, dol\u017eina dokumenta ipd. Html strani v opisih vsebujejo tudi (pogosto dragocene) klju\u010dne besede. Znanstveni in \u010dasopisni \u010dlanki vsebujejo podatke o avtorjih in datum objave. Za slike in videoposnetke so zna\u010dilne spet druge vrste metapodatkov.<\/li>\n \t<li>opise povezav z drugih spletnih strani na to stran. Kadar spletne strani vsebujejo povezave do drugih strani, so te obi\u010dajno v obliki pod\u010drtanega besedila (prav to je znak, da gre za hiperpovezavo). Temu pravimo sidrno besedilo. Ka\u017ee na to, kar je po mnenju avtorja osrednja vsebina strani. Sidrno besedilo je zapisano v lo\u010denem stolpcu (ve\u010d je povezav, ve\u010d je stolpcev). Povezave se uporabljajo tudi za razvr\u0161\u010danje, ki razkriva, kako priljubljena je dolo\u010dena spletna stran (oglejte si npr. <a href=\"https:\/\/en.wikipedia.org\/wiki\/PageRank\" target=\"_blank\" rel=\"noopener\">Google Pagerank<\/a>, sistem razvr\u0161\u010danja za merjenje kakovosti in priljubljenosti spletnih strani).<\/li>\n \t<li>imena ljudi, podjetij ali organizacij ter lokacije, oznake za izra\u017eanje \u010dasa, datuma, koli\u010din, denarnih vrednosti itd. Algoritmi strojnega u\u010denja znajo te podatke poiskati v katerikoli vsebini. Pri tem u\u010dni podatki vsebujejo ozna\u010dbe, ki jih je dodal \u010dlovek.<sup>1<\/sup><\/li>\n<\/ul>\n&nbsp;\n\n[caption id=\"attachment_69\" align=\"aligncenter\" width=\"297\"]<img class=\"size-medium wp-image-66\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-webpage-297x300.jpg\" alt=\"\" width=\"297\" height=\"300\"> Glavna vsebina strani je pogosto skrita med drugimi informacijami. \"theguardian\" (Il Fatto Quotidiano) je licenciran pod CC BY-NC-SA 2.0. \u010ce si \u017eelite ogledati kopijo te licence, obi\u0161\u010dite<br><a href=\"https:\/\/creativecommons.org\/licenses\/by-nc-sa\/2.0\/?ref=openverse\">https:\/ creativecommons.org\/licenses\/by-nc-sa\/<\/a> <a href=\"https:\/\/creativecommons.org\/licenses\/by-nc-sa\/2.0\/?ref=openverse\">2.0\/?ref=openverse.<\/a>.[\/caption]\n<p class=\"no-indent\">Eden izmed stolpcev v tak\u0161ni tabeli, pravzaprav najpomembnej\u0161i stolpec, vsebuje glavno vsebino dokumenta. Spletna stran lahko vsebuje \u0161e druge podatke, npr. zunanje povezave ali oglase, zato je treba najprej dolo\u010diti glavno vsebino. Ena izmed temu namenjenih tehnik uporablja model strojnega u\u010denja za \u201cu\u010denje\u201d o tem, kaj predstavlja glavno vsebino na poljubni spletni strani.<\/p>\n<p class=\"indent\">To\u010dne dolo\u010dene besede, ki jih vsebuje iskalna poizvedba, se bodo seveda ujemale z istimi besedami v najdenem spletnem dokumentu (podobno npr. omogo\u010da funkcija <em>iskanje\/poi\u0161\u010di <\/em>v katerem koli urejevalniku besedil). Vendar to ni prav u\u010dinkovit na\u010din, saj ljudje za pogovor o isti stvari uporabljajo razli\u010dne besede. Zgolj bele\u017eenje posameznih besed ne bo pomagalo ugotoviti, kako se te besede med seboj povezujejo, kar jim daje pomen. \u00a0Navsezadnje nam pri sporazumevanju najbolj pomaga misel za besedami, in ne besede same. Zato vsi spletni iskalniki besedilo preoblikujejo tako, da se la\u017eje ujema s pomenom besedila poizvedbe. Kasneje se tudi poizvedba obdela na podoben na\u010din.<\/p>\n<img class=\"size-medium wp-image-67 alignleft\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-text-processing-169x300.png\" alt=\"\" width=\"169\" height=\"300\">\n<p class=\"indent\">Iskalnik dele besed shrani kot \u017eetone. Na ta na\u010din se zmanj\u0161a skupno \u0161tevilo razli\u010dnih \u017eetonov, ki jih je treba shraniti. Modeli, ki so trenutno v uporabi, shranjujejo med 30.000 in 50.000 \u017eetonov.<sup>2 <\/sup>Napa\u010dno \u010drkovane besede so prepoznane, saj se deli teh besed \u0161e vedno ujemajo s shranjenimi \u017eetoni. Tudi iskanje neznanih besed lahko obrodi rezultate, saj se njihovi posamezni deli lahko ujemajo z \u017ee shranjenimi \u017eetoni.<\/p>\n<p class=\"indent\">U\u010dne podatke za strojno u\u010denje predstavljajo vzor\u010dna besedila. Model izhaja iz posameznih znakov, presledkov in lo\u010dil ter zdru\u017euje znake, ki se pogosto pojavljajo, in tako tvori nove \u017eetone. \u010ce \u0161tevilo \u017eetonov ni dovolj veliko, nadaljuje postopek zdru\u017eevanja, da zajame ve\u010dje ali manj pogoste dele besed. Na ta na\u010din zajame ve\u010dino besed, kon\u010dnic in predpon. Ko dobi novo besedilo, ga stroj zlahka razdeli na \u017eetone in shrani v pomnilniku.<\/p>\n<img class=\"alignnone size-medium wp-image-68\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page4-tokens-e1697829526838-300x160.png\" alt=\"\" width=\"300\" height=\"160\">\n<h3>3. korak: za la\u017eji dostop se ustvari kazalo<\/h3>\n[caption id=\"attachment_69\" align=\"alignleft\" width=\"300\"]<img class=\"size-medium wp-image-69\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-index-scaled-1-300x225.jpg\" alt=\"\" width=\"300\" height=\"225\"> \"Kazalo\" Bena Weinerja je licenciran pod CC BY-ND 2.0.<br>\u010ce si \u017eelite ogledati kopijo te licence, obi\u0161\u010dite <a href=\"http:\/\/&quot;Kazalo&quot; Bena Weinerja je licenciran pod CC BY-ND 2.0. \u010ce si \u017eelite ogledati kopijo te licence, obi\u0161\u010dite https:\/ creativecommons.org\/licenses\/by-nd\/ 2.0\/\">https:\/ creativecommons.org\/licenses\/by-nd\/2.0<\/a>.[\/caption]\n<p class=\"no-indent\">Ko so podatki shranjeni v tabeli (BigTable), se ustvari kazalo. Na koncu klasi\u010dnih, tiskanih u\u010dbenikov so v kazalu navedeni pomembni izrazi in \u0161tevilke strani, kjer te izraze najdemo. Spletni iskalniki pa razporedijo \u017eetone in njihove lokacije\u00a0v spletnem dokumentu. Pri tem lahko kazalu dodajo tudi dolo\u010dene statisti\u010dne podatke, npr. kolikokrat se \u017eeton pojavi v dokumentu, kako pomemben je ta \u017eeton za dokument itd. Zapisane so lahko tudi informacije o polo\u017eaju \u017eetona v besedilu: ali je \u017eeton v naslovu, ali v podnaslovu? Ali se zgo\u0161\u010deno pojavlja le v dolo\u010denem delu besedila, ali ga najdemo v celotnem dokumentu? Ali en \u017eeton vedno sledi to\u010dno dolo\u010denemu drugemu \u017eetonu?<\/p>\n<p class=\"indent\">Dandanes \u0161tevilni iskalniki uporabljajo kombinacijo tradicionalnega indeksiranja in jezikovnih modelov, ustvarjenih s pomo\u010djo globokih nevronskih mre\u017e. Slednje kodirajo semanti\u010dne podrobnosti besedila in so odgovorne za bolj\u0161e razumevanje poizvedb.<sup>3<\/sup> Iskalnikom pomagajo prese\u010di zgolj iskalni niz in se dokopati do zahteve, ki je v prvi vrsti sploh spodbudila poizvedbo.<\/p>\n<p class=\"heading_font heading_weight\" style=\"text-align: left\">Ti trije koraki na zelo poenostavljen na\u010din\u00a0opisujejo to, kar imenujemo \"indeksiranje\" - torej iskanje, pripravo\u00a0in shranjevanje dokumentov ter ustvarjanje kazala. V naslednjem poglavju so opisani koraki \"razvr\u0161\u010danja\", tj.\u00a0ujemanja iskalne\u00a0poizvedbe z vsebino in prikazovanje rezultatov glede na pomembnost.<\/p>\n<img class=\"size-medium wp-image-71 aligncenter\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-5-ranking-.png\" alt=\"\" width=\"300\" height=\"213\">\n\n<hr>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>1<\/sup> Croft, B., Metzler D., Strohman, T.,<em> Search Engines, Information Retrieval in Practice<\/em>, 2015<\/p>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>2 <\/sup>Sennrich,R., Haddow, B., and Birch, A., <em>Neural Machine Translation of Rare Words with Subword Units,<\/em> In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1715\u20131725, Berlin, Germany. Association for Computational Linguistics, 2016.<\/p>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>3<\/sup> Metzler, D., Tay, Y., Bahri, D., Najork, M., <em>Rethinking Search: Making Domain Experts out of Dilettantes<\/em>, SIGIR Forum 55, 1, Article 13, June 2021.<\/p>","rendered":"<div class=\"paragraph_wrapper\">\n<div class=\"body_copy\">Spletni iskalniki posku\u0161ajo razumeti, katere informacije potrebuje uporabnik. To po\u010dnejo na podlagi klju\u010dnih besed, vnesenih v iskalno polje &#8211; na podlagi iskalnih poizvedb. Ko vnesemo poizvedbo, posku\u0161a iskalnik med milijardami spletnih dokumentov poiskati tistih nekaj, ki odgovarjajo izra\u017eeni zahtevi. Informacije nato prika\u017ee v preprosto dostopni obliki, pri \u010demer je najpomembnej\u0161a stran uvr\u0161\u010dena na vrh. Da lahko iskalnik vse to opravi, mora najprej poiskati dokumente na spletu in jih ozna\u010diti, da jih je mogo\u010de nato zlahka pridobiti. Oglejte si nekaj osnovnih korakov tega postopka.<\/div>\n<\/div>\n<h3>1. korak: spletni pajki poi\u0161\u010dejo in prenesejo dokumente<\/h3>\n<figure id=\"attachment_69\" aria-describedby=\"caption-attachment-69\" style=\"width: 300px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"size-medium wp-image-64\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/14\/2023\/11\/ch2-page-4-web-crawling-300x213.png\" alt=\"\" width=\"300\" height=\"213\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2023\/11\/ch2-page-4-web-crawling-300x213.png 300w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2023\/11\/ch2-page-4-web-crawling-1024x726.png 1024w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2023\/11\/ch2-page-4-web-crawling-768x545.png 768w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2023\/11\/ch2-page-4-web-crawling-1536x1090.png 1536w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2023\/11\/ch2-page-4-web-crawling-65x46.png 65w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2023\/11\/ch2-page-4-web-crawling-225x160.png 225w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2023\/11\/ch2-page-4-web-crawling-350x248.png 350w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2023\/11\/ch2-page-4-web-crawling.png 1748w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><figcaption id=\"caption-attachment-69\" class=\"wp-caption-text\">Zamisel &#8220;pajkov iskalnikov&#8221; orodja Seobility, licencirana pod CC BY-SA 4.0. \u010ce si \u017eelite ogledati kopijo te licence, obi\u0161\u010dite <a href=\"https:\/\/www.seobility.net\/en\/wiki\/Creative_Commons_License_BY-SA_4.0\">https:\/ www.seobility.net\/en\/wiki\/<\/a> <a href=\"https:\/\/www.seobility.net\/en\/wiki\/Creative_Commons_License_BY-SA_4.0\">Creative_Commons_License_BY-SA_4.0<\/a><\/figcaption><\/figure>\n<p class=\"no-indent\">Ko uporabnik vnese iskalno poizvedbo, se v naslednjem koraku seveda ne loti pregledovanja vseh vsebin, ki so na voljo na internetu.<sup>1<\/sup>\u00a0Dokumenti na spletu so bili pregledani \u017ee prej, njihova vsebina pa je razdeljena in shranjena v razli\u010dnih sklopih. Ko uporabnik vnese svojo poizvedbo, je treba le \u0161e uskladiti informacije v poizvedbi z informacijami v posameznih sklopih.<\/p>\n<p class=\"indent\">Spletni pajki so avtomatizirani programi oz. skripte, ki samostojno preiskujejo spletne strani na internetu. So deli ra\u010dunalni\u0161ke kode, ki i\u0161\u010dejo in prena\u0161ajo dokumente s spleta. Za za\u010detek dobijo nabor naslovov spletnih strani (URL), do katerih morajo dostopati. To je za\u010detni niz (angl. seed set). Ko prenesejo posamezno stran, na njej najprej preverijo, ali vsebuje povezave do drugih spletnih strani. \u010ce jih vsebujejo, njihove naslove dodajo na svoj seznam opravil. Nato spet prenesejo na novo najdene strani in v njih spet i\u0161\u010dejo povezave.<\/p>\n<h3>2. korak: dokument se preoblikuje v ve\u010d delov<\/h3>\n<p class=\"no-indent\"><img loading=\"lazy\" decoding=\"async\" class=\"size-medium wp-image-65 alignleft\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-Bigtable-300x213.png\" alt=\"\" width=\"300\" height=\"213\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-Bigtable-300x213.png 300w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-Bigtable-1024x726.png 1024w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-Bigtable-768x545.png 768w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-Bigtable-1536x1090.png 1536w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-Bigtable-65x46.png 65w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-Bigtable-225x160.png 225w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-Bigtable-350x248.png 350w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-Bigtable.png 1748w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/>Dokument, ki ga prenese spletni pajek, je lahko jasno strukturirana spletna stran (napisana v jeziku html) z lastnim opisom vsebine, avtorja, datuma itd. Lahko pa je tudi slabo skenirana slika neke stare knjige iz knji\u017enice. Iskalniki obi\u010dajno znajo prebrati pribli\u017eno sto razli\u010dnih vrst dokumentov.<sup>1<\/sup> Te pretvorijo v html ali xml in jih shranijo v tabele (v primeru Googla se tak\u0161na tabela imenuje BigTable).<\/p>\n<p class=\"indent\">Vsaka tabela je sestavljena iz manj\u0161ih tabel (angl. tablets). Vsaka vrstica v tabeli je namenjena eni spletni strani. Vrstice so razporejene v dolo\u010denem vrstnem redu, ki se bele\u017ei skupaj z dnevnikom posodobitev. Vsak stolpec vsebuje dolo\u010den tip informacij, povezanih s spletno stranjo, kar lahko pomaga pri usklajevanju vsebine z vsebino neke prihodnje iskalne poizvedbe. Stolpci vsebujejo:<\/p>\n<ul>\n<li>spletni naslov. Poleg tega, da spletni naslov omogo\u010da identifikacijo vrstice v tabeli, nam lahko nekaj pove tudi \u017ee o vsebini izbrane strani. \u010ce je stran identificirana kot doma\u010da stran, vsebina strani reprezentira celotno spletno mesto.<\/li>\n<li>naslove in posamezne besede v krepkem tisku, ki nakazujejo pomembno vsebino.<\/li>\n<li>metapodatke. To so informacije o strani, ki niso del glavne vsebine, npr. vrsta dokumenta (npr. e-po\u0161ta ali spletna stran), struktura dokumenta, dol\u017eina dokumenta ipd. Html strani v opisih vsebujejo tudi (pogosto dragocene) klju\u010dne besede. Znanstveni in \u010dasopisni \u010dlanki vsebujejo podatke o avtorjih in datum objave. Za slike in videoposnetke so zna\u010dilne spet druge vrste metapodatkov.<\/li>\n<li>opise povezav z drugih spletnih strani na to stran. Kadar spletne strani vsebujejo povezave do drugih strani, so te obi\u010dajno v obliki pod\u010drtanega besedila (prav to je znak, da gre za hiperpovezavo). Temu pravimo sidrno besedilo. Ka\u017ee na to, kar je po mnenju avtorja osrednja vsebina strani. Sidrno besedilo je zapisano v lo\u010denem stolpcu (ve\u010d je povezav, ve\u010d je stolpcev). Povezave se uporabljajo tudi za razvr\u0161\u010danje, ki razkriva, kako priljubljena je dolo\u010dena spletna stran (oglejte si npr. <a href=\"https:\/\/en.wikipedia.org\/wiki\/PageRank\" target=\"_blank\" rel=\"noopener\">Google Pagerank<\/a>, sistem razvr\u0161\u010danja za merjenje kakovosti in priljubljenosti spletnih strani).<\/li>\n<li>imena ljudi, podjetij ali organizacij ter lokacije, oznake za izra\u017eanje \u010dasa, datuma, koli\u010din, denarnih vrednosti itd. Algoritmi strojnega u\u010denja znajo te podatke poiskati v katerikoli vsebini. Pri tem u\u010dni podatki vsebujejo ozna\u010dbe, ki jih je dodal \u010dlovek.<sup>1<\/sup><\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n<figure id=\"attachment_69\" aria-describedby=\"caption-attachment-69\" style=\"width: 297px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"size-medium wp-image-66\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-webpage-297x300.jpg\" alt=\"\" width=\"297\" height=\"300\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-webpage-297x300.jpg 297w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-webpage-65x66.jpg 65w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-webpage-225x227.jpg 225w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-webpage-350x354.jpg 350w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-webpage.jpg 553w\" sizes=\"(max-width: 297px) 100vw, 297px\" \/><figcaption id=\"caption-attachment-69\" class=\"wp-caption-text\">Glavna vsebina strani je pogosto skrita med drugimi informacijami. &#8220;theguardian&#8221; (Il Fatto Quotidiano) je licenciran pod CC BY-NC-SA 2.0. \u010ce si \u017eelite ogledati kopijo te licence, obi\u0161\u010dite<br \/><a href=\"https:\/\/creativecommons.org\/licenses\/by-nc-sa\/2.0\/?ref=openverse\">https:\/ creativecommons.org\/licenses\/by-nc-sa\/<\/a> <a href=\"https:\/\/creativecommons.org\/licenses\/by-nc-sa\/2.0\/?ref=openverse\">2.0\/?ref=openverse.<\/a>.<\/figcaption><\/figure>\n<p class=\"no-indent\">Eden izmed stolpcev v tak\u0161ni tabeli, pravzaprav najpomembnej\u0161i stolpec, vsebuje glavno vsebino dokumenta. Spletna stran lahko vsebuje \u0161e druge podatke, npr. zunanje povezave ali oglase, zato je treba najprej dolo\u010diti glavno vsebino. Ena izmed temu namenjenih tehnik uporablja model strojnega u\u010denja za \u201cu\u010denje\u201d o tem, kaj predstavlja glavno vsebino na poljubni spletni strani.<\/p>\n<p class=\"indent\">To\u010dne dolo\u010dene besede, ki jih vsebuje iskalna poizvedba, se bodo seveda ujemale z istimi besedami v najdenem spletnem dokumentu (podobno npr. omogo\u010da funkcija <em>iskanje\/poi\u0161\u010di <\/em>v katerem koli urejevalniku besedil). Vendar to ni prav u\u010dinkovit na\u010din, saj ljudje za pogovor o isti stvari uporabljajo razli\u010dne besede. Zgolj bele\u017eenje posameznih besed ne bo pomagalo ugotoviti, kako se te besede med seboj povezujejo, kar jim daje pomen. \u00a0Navsezadnje nam pri sporazumevanju najbolj pomaga misel za besedami, in ne besede same. Zato vsi spletni iskalniki besedilo preoblikujejo tako, da se la\u017eje ujema s pomenom besedila poizvedbe. Kasneje se tudi poizvedba obdela na podoben na\u010din.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"size-medium wp-image-67 alignleft\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-text-processing-169x300.png\" alt=\"\" width=\"169\" height=\"300\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-text-processing-169x300.png 169w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-text-processing-576x1024.png 576w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-text-processing-768x1365.png 768w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-text-processing-864x1536.png 864w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-text-processing-65x116.png 65w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-text-processing-225x400.png 225w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-text-processing-350x622.png 350w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-text-processing.png 1080w\" sizes=\"(max-width: 169px) 100vw, 169px\" \/><\/p>\n<p class=\"indent\">Iskalnik dele besed shrani kot \u017eetone. Na ta na\u010din se zmanj\u0161a skupno \u0161tevilo razli\u010dnih \u017eetonov, ki jih je treba shraniti. Modeli, ki so trenutno v uporabi, shranjujejo med 30.000 in 50.000 \u017eetonov.<sup>2 <\/sup>Napa\u010dno \u010drkovane besede so prepoznane, saj se deli teh besed \u0161e vedno ujemajo s shranjenimi \u017eetoni. Tudi iskanje neznanih besed lahko obrodi rezultate, saj se njihovi posamezni deli lahko ujemajo z \u017ee shranjenimi \u017eetoni.<\/p>\n<p class=\"indent\">U\u010dne podatke za strojno u\u010denje predstavljajo vzor\u010dna besedila. Model izhaja iz posameznih znakov, presledkov in lo\u010dil ter zdru\u017euje znake, ki se pogosto pojavljajo, in tako tvori nove \u017eetone. \u010ce \u0161tevilo \u017eetonov ni dovolj veliko, nadaljuje postopek zdru\u017eevanja, da zajame ve\u010dje ali manj pogoste dele besed. Na ta na\u010din zajame ve\u010dino besed, kon\u010dnic in predpon. Ko dobi novo besedilo, ga stroj zlahka razdeli na \u017eetone in shrani v pomnilniku.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-medium wp-image-68\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page4-tokens-e1697829526838-300x160.png\" alt=\"\" width=\"300\" height=\"160\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page4-tokens-e1697829526838-300x160.png 300w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page4-tokens-e1697829526838-1024x546.png 1024w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page4-tokens-e1697829526838-768x410.png 768w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page4-tokens-e1697829526838-1536x819.png 1536w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page4-tokens-e1697829526838-65x35.png 65w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page4-tokens-e1697829526838-225x120.png 225w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page4-tokens-e1697829526838-350x187.png 350w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page4-tokens-e1697829526838.png 1800w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><\/p>\n<h3>3. korak: za la\u017eji dostop se ustvari kazalo<\/h3>\n<figure id=\"attachment_69\" aria-describedby=\"caption-attachment-69\" style=\"width: 300px\" class=\"wp-caption alignleft\"><img loading=\"lazy\" decoding=\"async\" class=\"size-medium wp-image-69\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-index-scaled-1-300x225.jpg\" alt=\"\" width=\"300\" height=\"225\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-index-scaled-1-300x225.jpg 300w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-index-scaled-1-1024x768.jpg 1024w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-index-scaled-1-768x576.jpg 768w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-index-scaled-1-1536x1152.jpg 1536w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-index-scaled-1-2048x1536.jpg 2048w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-index-scaled-1-65x49.jpg 65w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-index-scaled-1-225x169.jpg 225w, https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-4-index-scaled-1-350x263.jpg 350w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><figcaption id=\"caption-attachment-69\" class=\"wp-caption-text\">&#8220;Kazalo&#8221; Bena Weinerja je licenciran pod CC BY-ND 2.0.<br \/>\u010ce si \u017eelite ogledati kopijo te licence, obi\u0161\u010dite <a href=\"http:\/\/&quot;Kazalo&quot; Bena Weinerja je licenciran pod CC BY-ND 2.0. \u010ce si \u017eelite ogledati kopijo te licence, obi\u0161\u010dite https:\/ creativecommons.org\/licenses\/by-nd\/ 2.0\/\">https:\/ creativecommons.org\/licenses\/by-nd\/2.0<\/a>.<\/figcaption><\/figure>\n<p class=\"no-indent\">Ko so podatki shranjeni v tabeli (BigTable), se ustvari kazalo. Na koncu klasi\u010dnih, tiskanih u\u010dbenikov so v kazalu navedeni pomembni izrazi in \u0161tevilke strani, kjer te izraze najdemo. Spletni iskalniki pa razporedijo \u017eetone in njihove lokacije\u00a0v spletnem dokumentu. Pri tem lahko kazalu dodajo tudi dolo\u010dene statisti\u010dne podatke, npr. kolikokrat se \u017eeton pojavi v dokumentu, kako pomemben je ta \u017eeton za dokument itd. Zapisane so lahko tudi informacije o polo\u017eaju \u017eetona v besedilu: ali je \u017eeton v naslovu, ali v podnaslovu? Ali se zgo\u0161\u010deno pojavlja le v dolo\u010denem delu besedila, ali ga najdemo v celotnem dokumentu? Ali en \u017eeton vedno sledi to\u010dno dolo\u010denemu drugemu \u017eetonu?<\/p>\n<p class=\"indent\">Dandanes \u0161tevilni iskalniki uporabljajo kombinacijo tradicionalnega indeksiranja in jezikovnih modelov, ustvarjenih s pomo\u010djo globokih nevronskih mre\u017e. Slednje kodirajo semanti\u010dne podrobnosti besedila in so odgovorne za bolj\u0161e razumevanje poizvedb.<sup>3<\/sup> Iskalnikom pomagajo prese\u010di zgolj iskalni niz in se dokopati do zahteve, ki je v prvi vrsti sploh spodbudila poizvedbo.<\/p>\n<p class=\"heading_font heading_weight\" style=\"text-align: left\">Ti trije koraki na zelo poenostavljen na\u010din\u00a0opisujejo to, kar imenujemo &#8220;indeksiranje&#8221; &#8211; torej iskanje, pripravo\u00a0in shranjevanje dokumentov ter ustvarjanje kazala. V naslednjem poglavju so opisani koraki &#8220;razvr\u0161\u010danja&#8221;, tj.\u00a0ujemanja iskalne\u00a0poizvedbe z vsebino in prikazovanje rezultatov glede na pomembnost.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"size-medium wp-image-71 aligncenter\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/14\/2024\/01\/ch2-page-5-ranking-.png\" alt=\"\" width=\"300\" height=\"213\" \/><\/p>\n<hr \/>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>1<\/sup> Croft, B., Metzler D., Strohman, T.,<em> Search Engines, Information Retrieval in Practice<\/em>, 2015<\/p>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>2 <\/sup>Sennrich,R., Haddow, B., and Birch, A., <em>Neural Machine Translation of Rare Words with Subword Units,<\/em> In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1715\u20131725, Berlin, Germany. Association for Computational Linguistics, 2016.<\/p>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>3<\/sup> Metzler, D., Tay, Y., Bahri, D., Najork, M., <em>Rethinking Search: Making Domain Experts out of Dilettantes<\/em>, SIGIR Forum 55, 1, Article 13, June 2021.<\/p>\n","protected":false},"author":1,"menu_order":4,"template":"","meta":{"pb_show_title":"","pb_short_title":"","pb_subtitle":"","pb_authors":[],"pb_section_license":""},"chapter-type":[],"contributor":[],"license":[],"part":47,"_links":{"self":[{"href":"https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-json\/pressbooks\/v2\/chapters\/71"}],"collection":[{"href":"https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-json\/pressbooks\/v2\/chapters"}],"about":[{"href":"https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-json\/wp\/v2\/types\/chapter"}],"author":[{"embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-json\/wp\/v2\/users\/1"}],"version-history":[{"count":1,"href":"https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-json\/pressbooks\/v2\/chapters\/71\/revisions"}],"predecessor-version":[{"id":72,"href":"https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-json\/pressbooks\/v2\/chapters\/71\/revisions\/72"}],"part":[{"href":"https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-json\/pressbooks\/v2\/parts\/47"}],"metadata":[{"href":"https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-json\/pressbooks\/v2\/chapters\/71\/metadata\/"}],"wp:attachment":[{"href":"https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-json\/wp\/v2\/media?parent=71"}],"wp:term":[{"taxonomy":"chapter-type","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-json\/pressbooks\/v2\/chapter-type?post=71"},{"taxonomy":"contributor","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-json\/wp\/v2\/contributor?post=71"},{"taxonomy":"license","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/umetnainteligenca\/wp-json\/wp\/v2\/license?post=71"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}