Căutarea paginilor WEB Cristian Damian Coordonator: Ștefan Stăncescu IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
Sumar Structura motoarelor de căutare Comportamentul utilizatorilor Indexarea Ranking Ranking static Ranking dinamic Evaluarea motoarelor de căutare IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
Structura motoarelor de căutare IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
Structura Web-ului Descentralizat Volum mare Divesitate mare in teme și limbi Link-uri de la un document la altul Graful Web Slab conectat Conexiuni nealieatoare IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
Comportamentul utilizatorilor Cereri de căutare cu puține cuvinte cheie. Nu se ține cont de majuscule, minuscule, semne diacritice sau de punctuație. Abrevieri: UPS: Uninteruptible power supply Compania de curierat Cuvinte scrise greșit. Căutările au distribuție Zipf. IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
Comportamentul utilizatorilor Trei tipuri de căutări Navigaționale Utilizatorul caută un site anume Există un singur site relevant Informative Utiliatorul caută informații despre o temă Utilizatorul poate căuta in mai multe din site-urile returnate Tranzacționale Utilizatorul caută un serviciu Urmează să interacționeze cu site-ul IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
Comportamentul utilizatorilor Utilizatori oferă un feedback implicit Utilizatori pot reformula cererea IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
Procesarea textului Tokenul este o instanță a unui termen Etape: Extragerea textului Tokenizare Procesarea tokenurilor Indexarea Tokenuri: cuvinte, numere, coduri alfanumerice IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
Indexarea Indexul invers Ușurează căutarea Dicționar termeni Lista de apariții în corpul de documente Operații: Next(term, current) Prev(term,current) Ușurează căutarea După termeni După fraze IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
Căutarea booleană Se returnează toate documentele ce indeplinesc o condiție Cererile sunt de regulă bazate pe termeni și operatori: Ex: (Albert OR Maria) AND NOT Bogdan În contexut căutarii Web nu este suficient. Se returnează prea multe documente. IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
Ranking Principiul Ranking-ului Probabilistic 2 Tipuri: Dacă un sistem de căutare răspunde la fiecare interogare cu o ordonare a colecției de documente în ordinea descendentă a probabilității relevanței, atunci se maximixează eficiența sistemului. 2 Tipuri: Ranking static Se realizează la indexare Nu depinde de interogare Evaluează popularitatea, calitatea sau încrederea în documentul respectiv Ranking dinamic Se realizează la interogare Evaluază relevanța documentului la căutare IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
Ranking static (Page Rank) Ipoteză: Un navigator imaginar se plimbă aleatoriu și e întodeauna pe o pagină. Fie sare la un site oarecare Fie intră pe un link de pe pagină Navigatorul este un proces Markov. Se calculează pobabilitatea ca o pagină să fie navigată de navigator la un moment aleator. Paginile cu o probalilitate mai mare au ranking mai bun. IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
Ranking static (Page Rank) IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
Ranking static (HITS) Hiperlink-Induced Topic Search Unele site-uri sunt centre (hubs) Sunt locuri în care persoane recomandă site- uri Acolo sunt link-uri către autorități bune Unele site-uri sunt autorități Sunt locuri unde se găsește informație de calitate Sunt linkate de către centre bune IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
Ranking static (HITS) Se poate calcula un scor de centru și un scor de autoritate h( α ) ← f( ∑ α → β a( β ) ) a( β ) ← f( ∑ α → β h( α ) ) Centrele conconțin cuvite cheie folositoare pentru categorisirea autorității. Autoritățile sunt site-urile relevante pentru o căutare informațională IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
Ranking dinamic Evaluază cât de relevant este documentul pentru interogare. Ponderarea termenului cu zona în care se află: titlu, subtilturi, text, link-urile asociate. Frecvența și importanța termenilor. IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
Modelul spațiului vectorial Se transformă documentul într-un vector de trăsături. Se transformă interogarea în acelaș tip de vector. Se ordonează documentele în ordinea cresătoare distanței față de interogare. Se fol de obicei distanța cosinus. IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
TF-IDF Construcția vectrorului de trăsături X = [x1, …,xt,…xN] xt = TFt * IDFt TF este o funcție ce depinde de frecvența termenului în document IDF este o funcție de inversul numărului de documente în care apare termenul. IDF t= log(N/Nt) IDF măsoară importanța termenului IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
Evaluarea motoarelor de căutare Sunt necesare O colecție de documente. O colecție de cereri. Un set de judecăți de relevanță Precizie = nr. relevante si returnate / nr. returnate Reamintire = relevante si returnate / nr. relevante F measure = media armonică intre precizie și reamintire Mean Average Precision IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
Concluzii Motoarele de căutare web sunt specializate pentru particularitățile web- ului. Trebuie să utilizeze un index inversat foarte eficient. Nu se poate baza doar pe căutarea booleană. Poate profita de link-uri pentru ranking. IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
Bibliografie Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. "An Introduction to Information Retrieval",Cambridge University Press, 2009. Stefan, Charles LA Clarke, and Gordon V. Cormack. "Information Retrieval: Implementing and Evaluating Search Engines",MIT Press, 2010. "PageRank". Wikipedia: The Free Encyclopedia. Wikimedia Foundation, Inc. 27.01.2016. Online: https://en.wikipedia.org/wiki/PageRank . Accesat: 27.01.2016. IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației