Download presentation
Presentation is loading. Please wait.
Published byGeorgina George Modified over 6 years ago
1
Algoritm de crawling optimizat pe similaritate în documente HTML
Universitatea Politehnica Bucureşti Facultatea Electronică, Telecomunicaţii şi Tehnologia Informaţiei Algoritm de crawling optimizat pe similaritate în documente HTML Coordonator stiintific Conf. Dr. Ing. Ştefan Stăncescu Student Pop Cătălin
2
Descrierea problemei WWW este intr-o continua crestere
Informatia din www se gaseste intr-un mod nestructurat S-a simtit nevoia de a se cataloga aceasta informatie in grupuri in functie de anumite criterii Aceasta catalogare serveste la dorinta utilizatorilor de a gasi pagini relevante in functie de un anumit topic dorit
3
Ce este un web crawler?
4
Aplicatii ale web crawlerului
Motoare de cautare Google, Yahoo, Bing, Ask Verificarea link-urlilor valide Extragerea anumitor informatii din pagini web Extragearea adreselor de Extragerea pretului produselor din magazinele online
5
Provocare Ce ar trebui facut pentru a cataloga o pagina web ca fiind cea mai relevanta pentru topicul “cumpar garsoniera” ? O idee Catalogarea paginilor in functie de frecventa cuvintelor In functie nu numarul de linkuri din alte pagini relevante
6
Problema conceptuala Fiecare pagina web este reprezentata de un set de cuvinte cu o anumita greutate Structura linkurilor(legaturilor) dintre pagini Problema conceptuala: defineste relevanta unei pagini bazata pe greutatea cuvintelor si pe structura linkurilor
7
Algoritmi de crawling HITS(Hyperlink-Induced Topic Search)
Un document autoritar bun este atunci când are cât mai multe legături către el Un hub bun este un document care are legături spre cât mai multe autorităţi
8
Algoritmi de crawling PageRank
Valoarea unui document ar trebui sa fie data de valoarea altor documente asemanatoare Reprezinta o plimbare aleatoare pe graful www Alege o pagina aleatoare probabilitatea1- α de a mai continua sa navigheze pe alta pagina Probabilitatea α de naviga un anumit link
9
Metode de stabilire a similaritatii
VECTOR SPACE MODEL (VSM) METODA OKAPI
10
CDR (Cover Density Ranking)
TLS (Three level scoring)
11
Implementare practica
Crawlerul elaborat în acestă lucrare poate fi folosit atât ca un crawler preferenţial, şi anume să indexeze doar anumite siteuri, precum şi ca un crawler general un algoritm care va stabili ordinea următoarelor n linkuri din frontiera ce urmează a fi vizitate un algoritm care va stabili scorul fiecărei pagini vizitate.
12
Arhitectura algoritmului
13
Prezentarea algoritmilor folositi
Prioritate(link)=adancime * numar_pagini_indexate(site) Modul de stabilire a similaritatii intre un topic anume si document este VSM(vector space model)
14
Modul de evaluare S-a propus indexarea siteului Universitatii Politehnica Bucuresti : Dupa primele 10 minute crawlerul a gasit siteurile fiecărei facultăţi ce aparţine de Universitatea Politehnica Bucureşti, indexarea acestora durand în jur de 2 ore. Paginile care au fost gasite de crawler dar nu au fost indexate sunt in numar de 1348
15
Eficienta crawlerului
Precizie = gasite/ (gasite+ nefolositoare) Rata achizitie = gasite/ (nr_total documente) Cuvinte propuse: Electronica Telecomunicatii Politehnica bucuresti Admitere Program rectorat
16
Implementare algoritm Google.com (PageRank)
Electronica Telecomunicatii Politehnica bucuresti Program rectorat Admitere Electronica Telecomunicatii Politehnica bucuresti Program rectorat Admitere
18
Va multumesc!
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.