Presentation is loading. Please wait.

Presentation is loading. Please wait.

Sťahovanie dokumentov, spracovanie odkazov, tovrba bázy dokumentov

Similar presentations


Presentation on theme: "Sťahovanie dokumentov, spracovanie odkazov, tovrba bázy dokumentov"— Presentation transcript:

1 Sťahovanie dokumentov, spracovanie odkazov, tovrba bázy dokumentov
Vyhľadávanie informácií Michal Laclavík

2 Literatúra http://en.wikipedia.org/wiki/Web_crawler Nový učebný text
Obsahuje dobrý prehľad s odkazmi na literatúru Nový učebný text Kapitola 2: ZÍSKAVANIE DÁT ALEBO DOKUMENTOV Vyhľadávanie informácií Bratislava, 30. septembra 2013

3 Architektúra získavanie informácií stiahnutie dokumentov
textové operácie indexovanie spracovanie odkazov Vyhľadávanie formulácia dopytu a operácie na dopyte spracovanie dopytu vrátenie výsledku na používateľské rozhranie spätná väzba od používateľa Vyhľadávanie informácií Bratislava, 30. septembra 2013

4 web crawler, Web spider, Web robot
Sťahovač web crawler, Web spider, Web robot Začne z jedného alebo viac zdrojov (liniek), ukladá cache dokumentov alebo iné získané informácie, vyhľadáva linky v dokumentoch, ukladá informácie o linkách na ďalšie spracovanie do zásobníka, pokračuje nad ďalšou linkou (rekurzívne alebo vytiahne linku zo zásobníka) Vyhľadávanie informácií Bratislava, 30. septembra 2013

5 Postup na príklade Do hĺbky: 1,3,2,4,5,6 Do šírky: 1,3,6,4,2,5
Vyhľadávanie informácií Bratislava, 30. septembra 2013

6 Architektúra sťahovača
Vyhľadávanie informácií Bratislava, 30. septembra 2013

7 Sťahovače pre vyhľadávače Harvest
Typy sťahovačov Sťahovače pre vyhľadávače Harvest Path-ascending crawlers Deep web Focused crawling anchor text of links Rozhodnutie pred sťahovaním linky Po stiahnutí, klasifikácia Netreba indexovať, ukladať Vyhľadávanie informácií Bratislava, 30. septembra 2013

8 výpočet čiastočného PageRank a sťahovanie stránky s najväčším PageRank
Stratégie Do hĺbky Do šírky výpočet čiastočného PageRank a sťahovanie stránky s najväčším PageRank výpočet OPIC Obmedzenia maximálny počet stiahnutých stránok maximálna hĺbka vnorenia od počiatočných stránok maximálny čas sťahovania Typ dokumentov (HTML, doc, PDF, obrázky, videá) Obmedzenie na domény Obmedzenie URL pomocou regulárnych výrazov Sťahovanie iba statických dokumentov, vynechanie dynamického obsahu Vyhľadávanie informácií Bratislava, 30. septembra 2013

9 Problém sťahovačov v prostredí internetu
Crawling policies Problém sťahovačov v prostredí internetu its large volume priority its fast rate of change, and Znovu sťahovanie dynamic page generation Rovnaký obsah cez rôzne URL Zoraďovanie, tlač, poslať om, ... Story indexing ... Problémy s dynamicky generovanými stránkami Problém so zahltením serverov Distribuované sťahovanie Vyhľadávanie informácií Bratislava, 30. septembra 2013

10 selection policy (výber) re-visit policy (znovu navštívenie)
Policy - taktiky selection policy (výber) Ktoré stránky sťahovať re-visit policy (znovu navštívenie) Kedy znovu navštíviť stránky politeness policy (zdvorilostné taktiky) Zabrániť zahlteniu stránok parallelization policy (distribučné taktiky) Ako organizovať distribuované sťahovanie Vyhľadávanie informácií Bratislava, 30. septembra 2013

11 Selection Policy breadth-first, Do šírky backlink-count
Asi najpoužívanejšie Stránky s vysokým PageRank sa nájdu skoro Dá sa vylepšiť čiastočným PageRank backlink-count Počet liniek ukazujúcich na stránku Čiastočný Pagerank Vypočítaný z doteraz stiahnutých liniek OPIC (On-line Page Importance Computation) each page is given an initial sum of "cash" which is distributed equally among the pages it points to. Vyhľadávanie informácií Bratislava, 30. septembra 2013

12 Typ dokumentov (MIME Type)
Obmedzenia Typ dokumentov (MIME Type) HEAD Request, GET Podľa prípony (môže vynechať dôležité info) Domény Regulárne výrazy Deep web (?, &, …) Vyhľadávanie informácií Bratislava, 30. septembra 2013

13 Niekedy sa tu zahŕňajú aj všetky dynamické stránky ?& …
Deep Web Niekedy sa tu zahŕňajú aj všetky dynamické stránky ?& … Niekedy len tie ktoré sú prístupne cez vyhľadávaciu query na website Žiadne linky neukazujú na tieto zdroje Sitemaps (Podobné ako robots.txt) mod_oai (modul do apache) Vždy musí povoliť, zverejniť vlastník stránky Používa sa pri platených službách Vyhľadávanie informácií Bratislava, 30. septembra 2013

14 Re-visit policy Uniform Proportional Najlepšia stratégia
Proporčná + ignorovanie príliš rýchlo meniacich sa stránok Vyhľadávanie informácií Bratislava, 30. septembra 2013

15 Politeness policy Network resources, as crawlers require considerable bandwidth and operate with a high degree of parallelism during a long period of time. Server overload, especially if the frequency of accesses to a given server is too high. Poorly written crawlers, which can crash servers or routers, or which download pages they cannot handle. Personal crawlers that, if deployed by too many users, can disrupt networks and Web servers. Vyhľadávanie informácií Bratislava, 30. septembra 2013

16 Na jeden sajt pristupovať v intervale
Politeness policy Na jeden sajt pristupovať v intervale 60, 15, 10 sekúnd Dnes je optimálne aj 1 s Vyhľadávanie informácií Bratislava, 30. septembra 2013

17 Politnes (2) Identifikácia sťahovača
User-agent HTTP requestu Slušnosť káže identifikovať sa Crawler trap Sťahovače sa často identifikujú ako web browsery (Mozilla, IE) Vyhľadávanie informácií Bratislava, 30. septembra 2013

18 Parallelization policy
Dynamic assignment Centrálny server rozdeľuje load, URLs A small crawler configuration, in which there is a central DNS resolver and central queues per Web site, and distributed downloaders. A large crawler configuration, in which the DNS resolver and the queues are also distributed. Static assignment Nody sa informuju o sťahovanych URL (sajtoch) Hash URL websites Vyhľadávanie informácií Bratislava, 30. septembra 2013

19 Problém sťahovania rovnakých zdrojov
URL normalization ?Možnosť projektu? Sťahovač ktorý rozozná či sa stránka dostatočne líši a podľa toho sa rozhodne Ide o ignorovanie stránok s rovnakým obsahom iba zmena v zoradení, print, ... Vyhľadávanie informácií Bratislava, 30. septembra 2013

20 Sťahovanie a ukladanie súborov len do určitej veľkosti
Báza dát Cache verzie súborov Sťahovanie a ukladanie súborov len do určitej veľkosti Cache PDF, Word môže byť len text Zipovanie dokumentov, keďže sú riedke Prídavné súbory (CSS, images) Podľa potreby Zmena referencií na externé objekty Vyhľadávanie informácií Bratislava, 30. septembra 2013

21 Text odkazu – súčasť dokumentu pre indexovanie
Spracovanie odkazov Linka Text odkazu Text odkazu – súčasť dokumentu pre indexovanie Vyhľadávanie informácií Bratislava, 30. septembra 2013

22 < href=http://nieco/stranka/>Text odkazu</a>
Spracovanie odkazov < href= odkazu</a> Text odkazu sa prida k dokumentu linky V linkách sa často vyskytujú Named Entity Možnosť projektu Posťahovať a zistiť štatistiku entít Organizácie Ľudia ... Vyhľadávanie informácií Bratislava, 30. septembra 2013

23 Tokenizácia cez _ alebo NazovDokumentu Tiez / Osobitne domena
Spracovanie URL Tokenizácia cez _ alebo NazovDokumentu Tiez / Osobitne domena Vyhľadávanie informácií Bratislava, 30. septembra 2013


Download ppt "Sťahovanie dokumentov, spracovanie odkazov, tovrba bázy dokumentov"

Similar presentations


Ads by Google