Download presentation
Presentation is loading. Please wait.
1
Căutarea paginilor WEB
Cristian Damian Coordonator: Ștefan Stăncescu IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
2
Sumar Structura motoarelor de căutare Comportamentul utilizatorilor
Indexarea Ranking Ranking static Ranking dinamic Evaluarea motoarelor de căutare IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
3
Structura motoarelor de căutare
IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
4
Structura Web-ului Descentralizat Volum mare
Divesitate mare in teme și limbi Link-uri de la un document la altul Graful Web Slab conectat Conexiuni nealieatoare IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
5
Comportamentul utilizatorilor
Cereri de căutare cu puține cuvinte cheie. Nu se ține cont de majuscule, minuscule, semne diacritice sau de punctuație. Abrevieri: UPS: Uninteruptible power supply Compania de curierat Cuvinte scrise greșit. Căutările au distribuție Zipf. IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
6
Comportamentul utilizatorilor
Trei tipuri de căutări Navigaționale Utilizatorul caută un site anume Există un singur site relevant Informative Utiliatorul caută informații despre o temă Utilizatorul poate căuta in mai multe din site-urile returnate Tranzacționale Utilizatorul caută un serviciu Urmează să interacționeze cu site-ul IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
7
Comportamentul utilizatorilor
Utilizatori oferă un feedback implicit Utilizatori pot reformula cererea IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
8
Procesarea textului Tokenul este o instanță a unui termen Etape:
Extragerea textului Tokenizare Procesarea tokenurilor Indexarea Tokenuri: cuvinte, numere, coduri alfanumerice IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
9
Indexarea Indexul invers Ușurează căutarea Dicționar termeni
Lista de apariții în corpul de documente Operații: Next(term, current) Prev(term,current) Ușurează căutarea După termeni După fraze IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
10
Căutarea booleană Se returnează toate documentele ce indeplinesc o condiție Cererile sunt de regulă bazate pe termeni și operatori: Ex: (Albert OR Maria) AND NOT Bogdan În contexut căutarii Web nu este suficient. Se returnează prea multe documente. IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
11
Ranking Principiul Ranking-ului Probabilistic 2 Tipuri:
Dacă un sistem de căutare răspunde la fiecare interogare cu o ordonare a colecției de documente în ordinea descendentă a probabilității relevanței, atunci se maximixează eficiența sistemului. 2 Tipuri: Ranking static Se realizează la indexare Nu depinde de interogare Evaluează popularitatea, calitatea sau încrederea în documentul respectiv Ranking dinamic Se realizează la interogare Evaluază relevanța documentului la căutare IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
12
Ranking static (Page Rank)
Ipoteză: Un navigator imaginar se plimbă aleatoriu și e întodeauna pe o pagină. Fie sare la un site oarecare Fie intră pe un link de pe pagină Navigatorul este un proces Markov. Se calculează pobabilitatea ca o pagină să fie navigată de navigator la un moment aleator. Paginile cu o probalilitate mai mare au ranking mai bun. IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
13
Ranking static (Page Rank)
IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
14
Ranking static (HITS) Hiperlink-Induced Topic Search
Unele site-uri sunt centre (hubs) Sunt locuri în care persoane recomandă site- uri Acolo sunt link-uri către autorități bune Unele site-uri sunt autorități Sunt locuri unde se găsește informație de calitate Sunt linkate de către centre bune IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
15
Ranking static (HITS) Se poate calcula un scor de centru și un scor de autoritate h( α ) ← f( ∑ α → β a( β ) ) a( β ) ← f( ∑ α → β h( α ) ) Centrele conconțin cuvite cheie folositoare pentru categorisirea autorității. Autoritățile sunt site-urile relevante pentru o căutare informațională IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
16
Ranking dinamic Evaluază cât de relevant este documentul pentru interogare. Ponderarea termenului cu zona în care se află: titlu, subtilturi, text, link-urile asociate. Frecvența și importanța termenilor. IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
17
Modelul spațiului vectorial
Se transformă documentul într-un vector de trăsături. Se transformă interogarea în acelaș tip de vector. Se ordonează documentele în ordinea cresătoare distanței față de interogare. Se fol de obicei distanța cosinus. IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
18
TF-IDF Construcția vectrorului de trăsături X = [x1, …,xt,…xN]
xt = TFt * IDFt TF este o funcție ce depinde de frecvența termenului în document IDF este o funcție de inversul numărului de documente în care apare termenul. IDF t= log(N/Nt) IDF măsoară importanța termenului IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
19
Evaluarea motoarelor de căutare
Sunt necesare O colecție de documente. O colecție de cereri. Un set de judecăți de relevanță Precizie = nr. relevante si returnate / nr. returnate Reamintire = relevante si returnate / nr. relevante F measure = media armonică intre precizie și reamintire Mean Average Precision IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
20
Concluzii Motoarele de căutare web sunt specializate pentru particularitățile web- ului. Trebuie să utilizeze un index inversat foarte eficient. Nu se poate baza doar pe căutarea booleană. Poate profita de link-uri pentru ranking. IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
21
Bibliografie Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. "An Introduction to Information Retrieval",Cambridge University Press, 2009. Stefan, Charles LA Clarke, and Gordon V. Cormack. "Information Retrieval: Implementing and Evaluating Search Engines",MIT Press, 2010. "PageRank". Wikipedia: The Free Encyclopedia. Wikimedia Foundation, Inc Online: . Accesat: IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.