Presentation is loading. Please wait.

Presentation is loading. Please wait.

Algoritm de crawling optimizat pe similaritate în documente HTML

Similar presentations


Presentation on theme: "Algoritm de crawling optimizat pe similaritate în documente HTML"— Presentation transcript:

1 Algoritm de crawling optimizat pe similaritate în documente HTML
Universitatea Politehnica Bucureşti Facultatea Electronică, Telecomunicaţii şi Tehnologia Informaţiei Algoritm de crawling optimizat pe similaritate în documente HTML Coordonator stiintific Conf. Dr. Ing. Ştefan Stăncescu Student Pop Cătălin

2 Descrierea problemei WWW este intr-o continua crestere
Informatia din www se gaseste intr-un mod nestructurat S-a simtit nevoia de a se cataloga aceasta informatie in grupuri in functie de anumite criterii Aceasta catalogare serveste la dorinta utilizatorilor de a gasi pagini relevante in functie de un anumit topic dorit

3 Ce este un web crawler?

4 Aplicatii ale web crawlerului
Motoare de cautare Google, Yahoo, Bing, Ask Verificarea link-urlilor valide Extragerea anumitor informatii din pagini web Extragearea adreselor de Extragerea pretului produselor din magazinele online

5 Provocare Ce ar trebui facut pentru a cataloga o pagina web ca fiind cea mai relevanta pentru topicul “cumpar garsoniera” ? O idee Catalogarea paginilor in functie de frecventa cuvintelor In functie nu numarul de linkuri din alte pagini relevante

6 Problema conceptuala Fiecare pagina web este reprezentata de un set de cuvinte cu o anumita greutate Structura linkurilor(legaturilor) dintre pagini Problema conceptuala: defineste relevanta unei pagini bazata pe greutatea cuvintelor si pe structura linkurilor

7 Algoritmi de crawling HITS(Hyperlink-Induced Topic Search)
Un document autoritar bun este atunci când are cât mai multe legături către el Un hub bun este un document care are legături spre cât mai multe autorităţi

8 Algoritmi de crawling PageRank
Valoarea unui document ar trebui sa fie data de valoarea altor documente asemanatoare Reprezinta o plimbare aleatoare pe graful www Alege o pagina aleatoare probabilitatea1- α de a mai continua sa navigheze pe alta pagina Probabilitatea α de naviga un anumit link

9 Metode de stabilire a similaritatii
VECTOR SPACE MODEL (VSM) METODA OKAPI

10 CDR (Cover Density Ranking)
TLS (Three level scoring)

11 Implementare practica
Crawlerul elaborat în acestă lucrare poate fi folosit atât ca un crawler preferenţial, şi anume să indexeze doar anumite siteuri, precum şi ca un crawler general un algoritm care va stabili ordinea următoarelor n linkuri din frontiera ce urmează a fi vizitate un algoritm care va stabili scorul fiecărei pagini vizitate.

12 Arhitectura algoritmului

13 Prezentarea algoritmilor folositi
Prioritate(link)=adancime * numar_pagini_indexate(site) Modul de stabilire a similaritatii intre un topic anume si document este VSM(vector space model)

14 Modul de evaluare S-a propus indexarea siteului Universitatii Politehnica Bucuresti : Dupa primele 10 minute crawlerul a gasit siteurile fiecărei facultăţi ce aparţine de Universitatea Politehnica Bucureşti, indexarea acestora durand în jur de 2 ore. Paginile care au fost gasite de crawler dar nu au fost indexate sunt in numar de 1348

15 Eficienta crawlerului
Precizie = gasite/ (gasite+ nefolositoare) Rata achizitie = gasite/ (nr_total documente) Cuvinte propuse: Electronica Telecomunicatii Politehnica bucuresti Admitere Program rectorat

16 Implementare algoritm Google.com (PageRank)
Electronica Telecomunicatii Politehnica bucuresti Program rectorat Admitere Electronica Telecomunicatii Politehnica bucuresti Program rectorat Admitere

17

18 Va multumesc!


Download ppt "Algoritm de crawling optimizat pe similaritate în documente HTML"

Similar presentations


Ads by Google