Algoritm de crawling optimizat pe similaritate în documente HTML Universitatea Politehnica Bucureşti Facultatea Electronică, Telecomunicaţii şi Tehnologia Informaţiei Algoritm de crawling optimizat pe similaritate în documente HTML Coordonator stiintific Conf. Dr. Ing. Ştefan Stăncescu Student Pop Cătălin
Descrierea problemei WWW este intr-o continua crestere Informatia din www se gaseste intr-un mod nestructurat S-a simtit nevoia de a se cataloga aceasta informatie in grupuri in functie de anumite criterii Aceasta catalogare serveste la dorinta utilizatorilor de a gasi pagini relevante in functie de un anumit topic dorit
Ce este un web crawler?
Aplicatii ale web crawlerului Motoare de cautare Google, Yahoo, Bing, Ask Verificarea link-urlilor valide Extragerea anumitor informatii din pagini web Extragearea adreselor de email Extragerea pretului produselor din magazinele online
Provocare Ce ar trebui facut pentru a cataloga o pagina web ca fiind cea mai relevanta pentru topicul “cumpar garsoniera” ? O idee Catalogarea paginilor in functie de frecventa cuvintelor In functie nu numarul de linkuri din alte pagini relevante
Problema conceptuala Fiecare pagina web este reprezentata de un set de cuvinte cu o anumita greutate Structura linkurilor(legaturilor) dintre pagini Problema conceptuala: defineste relevanta unei pagini bazata pe greutatea cuvintelor si pe structura linkurilor
Algoritmi de crawling HITS(Hyperlink-Induced Topic Search) Un document autoritar bun este atunci când are cât mai multe legături către el Un hub bun este un document care are legături spre cât mai multe autorităţi
Algoritmi de crawling PageRank Valoarea unui document ar trebui sa fie data de valoarea altor documente asemanatoare Reprezinta o plimbare aleatoare pe graful www Alege o pagina aleatoare probabilitatea1- α de a mai continua sa navigheze pe alta pagina Probabilitatea α de naviga un anumit link
Metode de stabilire a similaritatii VECTOR SPACE MODEL (VSM) METODA OKAPI
CDR (Cover Density Ranking) TLS (Three level scoring)
Implementare practica Crawlerul elaborat în acestă lucrare poate fi folosit atât ca un crawler preferenţial, şi anume să indexeze doar anumite siteuri, precum şi ca un crawler general un algoritm care va stabili ordinea următoarelor n linkuri din frontiera ce urmează a fi vizitate un algoritm care va stabili scorul fiecărei pagini vizitate.
Arhitectura algoritmului
Prezentarea algoritmilor folositi Prioritate(link)=adancime * numar_pagini_indexate(site) Modul de stabilire a similaritatii intre un topic anume si document este VSM(vector space model)
Modul de evaluare S-a propus indexarea siteului Universitatii Politehnica Bucuresti : http://www.upb.ro Dupa primele 10 minute crawlerul a gasit siteurile fiecărei facultăţi ce aparţine de Universitatea Politehnica Bucureşti, indexarea acestora durand în jur de 2 ore. Paginile care au fost gasite de crawler dar nu au fost indexate sunt in numar de 1348
Eficienta crawlerului Precizie = gasite/ (gasite+ nefolositoare) Rata achizitie = gasite/ (nr_total documente) Cuvinte propuse: Electronica Telecomunicatii Politehnica bucuresti Admitere Program rectorat
Implementare algoritm Google.com (PageRank) Electronica http://www.electronica.pub.ro/ http://students.chem.uaic.ro/ http://tet.pub.ro/ Telecomunicatii http://www.upb.ro/index.php/ro/facultati-si-departamente/facultati/electronica,-telecomunicatii-si-tehnologia-informatiei Politehnica bucuresti http://www.upb.ro http://cercetare.pub.ro/home.do http://www.library.pub.ro/legaturi.htm Program rectorat http://www.upb.ro/contact.php http://www.upb.ro/index.php//managementul-upb/senatul-upb/biroul-senatului http://erasmus.upb.ro/english/ Admitere http://admitere.pub.ro/ http://www.upb.ro/documente/admitere-online.php https://admitere.ncit.pub.ro/moodle/login/index.php Electronica http://www.upb.ro/index.php/ro/facultati-si-departamente/facultati/electronica,-telecomunicatii-si-tehnologia-informatiei http://www.upb.ro/upb/romana/facultati/electronica.html http://www.upb.ro/index.php/en/faculties-and-departments/faculties/electronics,-telecommunications-and-information-technology Telecomunicatii http://www.upb.ro/vechi/romana/turvirtual/electronica/index.html Politehnica bucuresti http://www.upb.ro/ http://www.upb.ro/index.php/ro/studii/programe-de-master http://www.upb.ro/vechi/romana/carta/cap6.html Program rectorat http://www.upb.ro/vechi/romana/senatul/index.html http://www.upb.ro/index.php/ro/managementul-upb/senatul-upb/biroul-senatului http://www.upb.ro/index.php/en/faculties-and-departments/faculties/automatic-control-and-computers Admitere http://www.upb.ro/index.php/ro/admitere/studii-de-licenta/calendar-admitere http://www.upb.ro/documente/admitere-master.php
Va multumesc!