Algoritm de crawling optimizat pe similaritate în documente HTML

Algoritm de crawling optimizat pe similaritate în documente HTML
Universitatea Politehnica Bucureşti Facultatea Electronică, Telecomunicaţii şi Tehnologia Informaţiei Algoritm de crawling optimizat pe similaritate în documente HTML Coordonator stiintific Conf. Dr. Ing. Ştefan Stăncescu Student Pop Cătălin

Descrierea problemei WWW este intr-o continua crestere
Informatia din www se gaseste intr-un mod nestructurat S-a simtit nevoia de a se cataloga aceasta informatie in grupuri in functie de anumite criterii Aceasta catalogare serveste la dorinta utilizatorilor de a gasi pagini relevante in functie de un anumit topic dorit

Ce este un web crawler?

Aplicatii ale web crawlerului
Motoare de cautare Google, Yahoo, Bing, Ask Verificarea link-urlilor valide Extragerea anumitor informatii din pagini web Extragearea adreselor de Extragerea pretului produselor din magazinele online

Provocare Ce ar trebui facut pentru a cataloga o pagina web ca fiind cea mai relevanta pentru topicul “cumpar garsoniera” ? O idee Catalogarea paginilor in functie de frecventa cuvintelor In functie nu numarul de linkuri din alte pagini relevante

Problema conceptuala Fiecare pagina web este reprezentata de un set de cuvinte cu o anumita greutate Structura linkurilor(legaturilor) dintre pagini Problema conceptuala: defineste relevanta unei pagini bazata pe greutatea cuvintelor si pe structura linkurilor

Algoritmi de crawling HITS(Hyperlink-Induced Topic Search)
Un document autoritar bun este atunci când are cât mai multe legături către el Un hub bun este un document care are legături spre cât mai multe autorităţi

Algoritmi de crawling PageRank
Valoarea unui document ar trebui sa fie data de valoarea altor documente asemanatoare Reprezinta o plimbare aleatoare pe graful www Alege o pagina aleatoare probabilitatea1- α de a mai continua sa navigheze pe alta pagina Probabilitatea α de naviga un anumit link

Metode de stabilire a similaritatii
VECTOR SPACE MODEL (VSM) METODA OKAPI

CDR (Cover Density Ranking)
TLS (Three level scoring)

Implementare practica
Crawlerul elaborat în acestă lucrare poate fi folosit atât ca un crawler preferenţial, şi anume să indexeze doar anumite siteuri, precum şi ca un crawler general un algoritm care va stabili ordinea următoarelor n linkuri din frontiera ce urmează a fi vizitate un algoritm care va stabili scorul fiecărei pagini vizitate.

Arhitectura algoritmului

Prezentarea algoritmilor folositi
Prioritate(link)=adancime * numar_pagini_indexate(site) Modul de stabilire a similaritatii intre un topic anume si document este VSM(vector space model)

Modul de evaluare S-a propus indexarea siteului Universitatii Politehnica Bucuresti : Dupa primele 10 minute crawlerul a gasit siteurile fiecărei facultăţi ce aparţine de Universitatea Politehnica Bucureşti, indexarea acestora durand în jur de 2 ore. Paginile care au fost gasite de crawler dar nu au fost indexate sunt in numar de 1348

Eficienta crawlerului
Precizie = gasite/ (gasite+ nefolositoare) Rata achizitie = gasite/ (nr_total documente) Cuvinte propuse: Electronica Telecomunicatii Politehnica bucuresti Admitere Program rectorat

Implementare algoritm Google.com (PageRank)
Electronica Telecomunicatii Politehnica bucuresti Program rectorat Admitere Electronica Telecomunicatii Politehnica bucuresti Program rectorat Admitere

Va multumesc!

Algoritm de crawling optimizat pe similaritate în documente HTML

Similar presentations

Presentation on theme: "Algoritm de crawling optimizat pe similaritate în documente HTML"— Presentation transcript:

Similar presentations

About project

Feedback

Log in

Auth with social network:

Algoritm de crawling optimizat pe similaritate în documente HTML

Similar presentations

Presentation on theme: "Algoritm de crawling optimizat pe similaritate în documente HTML"— Presentation transcript:

Similar presentations

About project

Feedback