Sťahovanie dokumentov, spracovanie odkazov, tovrba bázy dokumentov Vyhľadávanie informácií Michal Laclavík
Literatúra http://en.wikipedia.org/wiki/Web_crawler Nový učebný text Obsahuje dobrý prehľad s odkazmi na literatúru Nový učebný text Kapitola 2: ZÍSKAVANIE DÁT ALEBO DOKUMENTOV Vyhľadávanie informácií Bratislava, 30. septembra 2013
Architektúra získavanie informácií stiahnutie dokumentov textové operácie indexovanie spracovanie odkazov Vyhľadávanie formulácia dopytu a operácie na dopyte spracovanie dopytu vrátenie výsledku na používateľské rozhranie spätná väzba od používateľa Vyhľadávanie informácií Bratislava, 30. septembra 2013
web crawler, Web spider, Web robot Sťahovač web crawler, Web spider, Web robot Začne z jedného alebo viac zdrojov (liniek), ukladá cache dokumentov alebo iné získané informácie, vyhľadáva linky v dokumentoch, ukladá informácie o linkách na ďalšie spracovanie do zásobníka, pokračuje nad ďalšou linkou (rekurzívne alebo vytiahne linku zo zásobníka) Vyhľadávanie informácií Bratislava, 30. septembra 2013
Postup na príklade Do hĺbky: 1,3,2,4,5,6 Do šírky: 1,3,6,4,2,5 Vyhľadávanie informácií Bratislava, 30. septembra 2013
Architektúra sťahovača Vyhľadávanie informácií Bratislava, 30. septembra 2013
Sťahovače pre vyhľadávače Harvest Typy sťahovačov Sťahovače pre vyhľadávače Harvest Path-ascending crawlers Deep web Focused crawling anchor text of links Rozhodnutie pred sťahovaním linky Po stiahnutí, klasifikácia Netreba indexovať, ukladať Vyhľadávanie informácií Bratislava, 30. septembra 2013
výpočet čiastočného PageRank a sťahovanie stránky s najväčším PageRank Stratégie Do hĺbky Do šírky výpočet čiastočného PageRank a sťahovanie stránky s najväčším PageRank výpočet OPIC Obmedzenia maximálny počet stiahnutých stránok maximálna hĺbka vnorenia od počiatočných stránok maximálny čas sťahovania Typ dokumentov (HTML, doc, PDF, obrázky, videá) Obmedzenie na domény Obmedzenie URL pomocou regulárnych výrazov Sťahovanie iba statických dokumentov, vynechanie dynamického obsahu Vyhľadávanie informácií Bratislava, 30. septembra 2013
Problém sťahovačov v prostredí internetu Crawling policies Problém sťahovačov v prostredí internetu its large volume priority its fast rate of change, and Znovu sťahovanie dynamic page generation Rovnaký obsah cez rôzne URL Zoraďovanie, tlač, poslať emailom, ... Story www.sav.sk indexing ... Problémy s dynamicky generovanými stránkami Problém so zahltením serverov Distribuované sťahovanie Vyhľadávanie informácií Bratislava, 30. septembra 2013
selection policy (výber) re-visit policy (znovu navštívenie) Policy - taktiky selection policy (výber) Ktoré stránky sťahovať re-visit policy (znovu navštívenie) Kedy znovu navštíviť stránky politeness policy (zdvorilostné taktiky) Zabrániť zahlteniu stránok parallelization policy (distribučné taktiky) Ako organizovať distribuované sťahovanie Vyhľadávanie informácií Bratislava, 30. septembra 2013
Selection Policy breadth-first, Do šírky backlink-count Asi najpoužívanejšie Stránky s vysokým PageRank sa nájdu skoro Dá sa vylepšiť čiastočným PageRank backlink-count Počet liniek ukazujúcich na stránku Čiastočný Pagerank Vypočítaný z doteraz stiahnutých liniek OPIC (On-line Page Importance Computation) each page is given an initial sum of "cash" which is distributed equally among the pages it points to. Vyhľadávanie informácií Bratislava, 30. septembra 2013
Typ dokumentov (MIME Type) Obmedzenia Typ dokumentov (MIME Type) HEAD Request, GET Podľa prípony (môže vynechať dôležité info) Domény Regulárne výrazy Deep web (?, &, …) Vyhľadávanie informácií Bratislava, 30. septembra 2013
Niekedy sa tu zahŕňajú aj všetky dynamické stránky ?& … Deep Web Niekedy sa tu zahŕňajú aj všetky dynamické stránky ?& … Niekedy len tie ktoré sú prístupne cez vyhľadávaciu query na website Žiadne linky neukazujú na tieto zdroje Sitemaps (Podobné ako robots.txt) mod_oai (modul do apache) Vždy musí povoliť, zverejniť vlastník stránky Používa sa pri platených službách Vyhľadávanie informácií Bratislava, 30. septembra 2013
Re-visit policy Uniform Proportional Najlepšia stratégia Proporčná + ignorovanie príliš rýchlo meniacich sa stránok Vyhľadávanie informácií Bratislava, 30. septembra 2013
Politeness policy Network resources, as crawlers require considerable bandwidth and operate with a high degree of parallelism during a long period of time. Server overload, especially if the frequency of accesses to a given server is too high. Poorly written crawlers, which can crash servers or routers, or which download pages they cannot handle. Personal crawlers that, if deployed by too many users, can disrupt networks and Web servers. Vyhľadávanie informácií Bratislava, 30. septembra 2013
Na jeden sajt pristupovať v intervale Politeness policy Na jeden sajt pristupovať v intervale 60, 15, 10 sekúnd Dnes je optimálne aj 1 s Vyhľadávanie informácií Bratislava, 30. septembra 2013
Politnes (2) Identifikácia sťahovača User-agent HTTP requestu Slušnosť káže identifikovať sa Crawler trap Sťahovače sa často identifikujú ako web browsery (Mozilla, IE) Vyhľadávanie informácií Bratislava, 30. septembra 2013
Parallelization policy Dynamic assignment Centrálny server rozdeľuje load, URLs A small crawler configuration, in which there is a central DNS resolver and central queues per Web site, and distributed downloaders. A large crawler configuration, in which the DNS resolver and the queues are also distributed. Static assignment Nody sa informuju o sťahovanych URL (sajtoch) Hash URL websites Vyhľadávanie informácií Bratislava, 30. septembra 2013
Problém sťahovania rovnakých zdrojov URL normalization ?Možnosť projektu? Sťahovač ktorý rozozná či sa stránka dostatočne líši a podľa toho sa rozhodne Ide o ignorovanie stránok s rovnakým obsahom iba zmena v zoradení, print, email ... Vyhľadávanie informácií Bratislava, 30. septembra 2013
Sťahovanie a ukladanie súborov len do určitej veľkosti Báza dát Cache verzie súborov Sťahovanie a ukladanie súborov len do určitej veľkosti Cache PDF, Word môže byť len text Zipovanie dokumentov, keďže sú riedke Prídavné súbory (CSS, images) Podľa potreby Zmena referencií na externé objekty Vyhľadávanie informácií Bratislava, 30. septembra 2013
Text odkazu – súčasť dokumentu pre indexovanie Spracovanie odkazov Linka Text odkazu Text odkazu – súčasť dokumentu pre indexovanie Vyhľadávanie informácií Bratislava, 30. septembra 2013
< href=http://nieco/stranka/>Text odkazu</a> Spracovanie odkazov < href=http://nieco/stranka/>Text odkazu</a> Text odkazu sa prida k dokumentu linky V linkách sa často vyskytujú Named Entity Možnosť projektu Posťahovať a zistiť štatistiku entít Organizácie Ľudia ... Vyhľadávanie informácií Bratislava, 30. septembra 2013
Tokenizácia cez _ alebo NazovDokumentu Tiez / Osobitne domena Spracovanie URL Tokenizácia cez _ alebo NazovDokumentu Tiez / Osobitne domena Vyhľadávanie informácií Bratislava, 30. septembra 2013