Căutarea paginilor WEB

Slides:



Advertisements
Similar presentations
Crearea unei prezentari PowerPoint
Advertisements

SoSBlog Novac Lucian Doncilă Sergiu Rusu Andrei Rusu Alexandru Ţuţurman Andreea Tofan Radu Grupa 1B - subgrupa 3:
Avantajele si dezavantajele folosirii unui blog de pe blogger(blogspot)
 Ce e bravenet.COM ?  De ce bravenet.COM ?  Avantaje si dezavantaje in folosirea bravenet.COm Grupa 6: Lucian-Eduard Barticel Eduard Giurgiu Iany Ionut.
Dan Brasoveanu – SEO/SEM specialist. » 2010 – Online Marketing Specialist - auto.ro, animale.ro, bloombiz.ro, cursvalutar.bloombiz.ro, smartbuy.ro, animall.ro.
-Modelul Entitate-Legatura (ER)-
Februarie 2018 ASE Bucuresti
ACTIVITATEA 1 -,, PROFESOR IT LA PAPI’’
Subinterogări multiple
Oracle Academy Lead Adjunct
Prof. Elena Răducanu, Colegiul Naţional Bănăţean,Timişoara
CUPRINS Tastatura Imprimanta Scanner Bibliografie Recapitulare.
IntraShip inovatie, flexibilitate, rapiditate.
Posibilităţi de analiză în timp real a parametrilor de calitate a apei cu ajutorul sistemului informatic de management SIVECO Business Analyzer September.
Căutarea şi regăsirea informaţiei.
Mobile Apps Economy ZF Mobilio - Bucuresti, 24 aprilie 2012
SOFTWARE Tipuri de software.
Să căutăm eficient cu Prezentare de Stephanie Lichtenauer
Absolvent Ioana MENGHERIȘ
Mihai Dumitru, Decembrie ‘09
Căutarea şi regăsirea informaţiei.
Conducător ştiinţific: Conf. Dr. ing. Ştefan Stăncescu
Managementul serviciilor IT
Paxos Made Simple Autor: Puşcaş Radu George
Aparatura auxiliară Generalităţi, clasificare
Gestionarea datelor stiintifice
Retele de calculatoare
Design and implementation of a virtual shop using the joomla CMS
De la calitatea serviciilor la o bună guvernanţă
METODA BACKTRACKING Examenul de bacalaureat 2012
ASIRA COMMUNICATION.
Software product management
WebSite Social Tema 2 WebSite Social.
Problema rucsacului lacom
Tipuri structurate Tipul tablou
Search Engine Optimization
Curs 2 1 Sistem de operare-concepte: 2 Apeluri de sistem
Curs 6: Introducere în programarea SAS
Algoritm de crawling optimizat pe similaritate în documente HTML
Impulsul mecanic Impulsul mecanic. Teorema conservarii impulsului mecanic.
Sistem de monitorizare şi control prin Internet cu procesor ARM
Citește-mă Acest slide are rolul de a-ți explica modul în care să folosești umătoarele slide-uri. Șterge-l din prezentarea finală. În următoarele slide-uri.
Tehnoredactarea computerizată
AUTOMOBILUL ELECTRIC UNIVERSITATEA POLITEHNICA
INTERNET SERVICII INTERNET.
SOAP Simple Object Access Protocol
ERASMUS CLUJ-NAPOCA 25 martie 2014.
Îmbunătăţirea serviciilor publice prin intermediul Chartelor de Servicii: Elaborarea şi implementarea Planurilor de Acţiune pentru Îmbunătăţirea Serviciilor.
A great way to create a channel of communication
Cursul 9. SEO (Promovarea site-urilor web)
Functia de documentare
Căutarea şi regăsirea informaţiei
SECŢIUNE: Modele de bună-practică în școala românească
Administrarea reţelelor de calculatoare
Folosirea de către companii a Twitter, Facebook şi LinkedIn
Sisteme de recomandare
Algoritmi 2PL şi Send on Demand pentru
Cum să particularizați Microsoft SharePoint Site web online
Sisteme integrate pentru -business
Utilizarea Internet in România
SECŢIUNE: Modele de bună-practică în școala românească
Aplicaţii specializate pentru realizarea unei prezentări – PowerPoint
Configurarea metodelor de management al calităţii în sectorul public
FACULTATEA DE ȘTIINȚE ECONOMICE PROGRAM DE STUDIU: FINANȚE ȘI BĂNCI
Cross Border Seminar (CBS) Euroguidance
- calitatea serviciului de internet -
Funcții NULL.
Comunicare in medii electronice
Despre lamaie.net De ce sunt lamaile acre? Realizatori: Cristina Cazan
CONTRACTUL-CADRU EFET ȘI PIAȚA CU NEGOCIERE DUBLĂ CONTINUĂ
Presentation transcript:

Căutarea paginilor WEB Cristian Damian Coordonator: Ștefan Stăncescu IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației

Sumar Structura motoarelor de căutare Comportamentul utilizatorilor Indexarea Ranking Ranking static Ranking dinamic Evaluarea motoarelor de căutare IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației

Structura motoarelor de căutare IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației

Structura Web-ului Descentralizat Volum mare Divesitate mare in teme și limbi Link-uri de la un document la altul Graful Web Slab conectat Conexiuni nealieatoare IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației

Comportamentul utilizatorilor Cereri de căutare cu puține cuvinte cheie. Nu se ține cont de majuscule, minuscule, semne diacritice sau de punctuație. Abrevieri: UPS: Uninteruptible power supply Compania de curierat Cuvinte scrise greșit. Căutările au distribuție Zipf. IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației

Comportamentul utilizatorilor Trei tipuri de căutări Navigaționale Utilizatorul caută un site anume Există un singur site relevant Informative Utiliatorul caută informații despre o temă Utilizatorul poate căuta in mai multe din site-urile returnate Tranzacționale Utilizatorul caută un serviciu Urmează să interacționeze cu site-ul IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației

Comportamentul utilizatorilor Utilizatori oferă un feedback implicit Utilizatori pot reformula cererea IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației

Procesarea textului Tokenul este o instanță a unui termen Etape: Extragerea textului Tokenizare Procesarea tokenurilor Indexarea Tokenuri: cuvinte, numere, coduri alfanumerice IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației

Indexarea Indexul invers Ușurează căutarea Dicționar termeni Lista de apariții în corpul de documente Operații: Next(term, current) Prev(term,current) Ușurează căutarea După termeni După fraze IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației

Căutarea booleană Se returnează toate documentele ce indeplinesc o condiție Cererile sunt de regulă bazate pe termeni și operatori: Ex: (Albert OR Maria) AND NOT Bogdan În contexut căutarii Web nu este suficient. Se returnează prea multe documente. IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației

Ranking Principiul Ranking-ului Probabilistic 2 Tipuri: Dacă un sistem de căutare răspunde la fiecare interogare cu o ordonare a colecției de documente în ordinea descendentă a probabilității relevanței, atunci se maximixează eficiența sistemului. 2 Tipuri: Ranking static Se realizează la indexare Nu depinde de interogare Evaluează popularitatea, calitatea sau încrederea în documentul respectiv Ranking dinamic Se realizează la interogare Evaluază relevanța documentului la căutare IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației

Ranking static (Page Rank) Ipoteză: Un navigator imaginar se plimbă aleatoriu și e întodeauna pe o pagină. Fie sare la un site oarecare Fie intră pe un link de pe pagină Navigatorul este un proces Markov. Se calculează pobabilitatea ca o pagină să fie navigată de navigator la un moment aleator. Paginile cu o probalilitate mai mare au ranking mai bun. IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației

Ranking static (Page Rank) IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației

Ranking static (HITS) Hiperlink-Induced Topic Search Unele site-uri sunt centre (hubs) Sunt locuri în care persoane recomandă site- uri Acolo sunt link-uri către autorități bune Unele site-uri sunt autorități Sunt locuri unde se găsește informație de calitate Sunt linkate de către centre bune IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației

Ranking static (HITS) Se poate calcula un scor de centru și un scor de autoritate h( α ) ← f( ∑ α → β a( β ) ) a( β ) ← f( ∑ α → β h( α ) ) Centrele conconțin cuvite cheie folositoare pentru categorisirea autorității. Autoritățile sunt site-urile relevante pentru o căutare informațională IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației

Ranking dinamic Evaluază cât de relevant este documentul pentru interogare. Ponderarea termenului cu zona în care se află: titlu, subtilturi, text, link-urile asociate. Frecvența și importanța termenilor. IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației

Modelul spațiului vectorial Se transformă documentul într-un vector de trăsături. Se transformă interogarea în acelaș tip de vector. Se ordonează documentele în ordinea cresătoare distanței față de interogare. Se fol de obicei distanța cosinus. IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației

TF-IDF Construcția vectrorului de trăsături X = [x1, …,xt,…xN] xt = TFt * IDFt TF este o funcție ce depinde de frecvența termenului în document IDF este o funcție de inversul numărului de documente în care apare termenul. IDF t= log(N/Nt) IDF măsoară importanța termenului IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației

Evaluarea motoarelor de căutare Sunt necesare O colecție de documente. O colecție de cereri. Un set de judecăți de relevanță Precizie = nr. relevante si returnate / nr. returnate Reamintire = relevante si returnate / nr. relevante F measure = media armonică intre precizie și reamintire Mean Average Precision IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației

Concluzii Motoarele de căutare web sunt specializate pentru particularitățile web- ului. Trebuie să utilizeze un index inversat foarte eficient. Nu se poate baza doar pe căutarea booleană. Poate profita de link-uri pentru ranking. IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației

Bibliografie Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. "An Introduction to Information Retrieval",Cambridge University Press, 2009. Stefan, Charles LA Clarke, and Gordon V. Cormack. "Information Retrieval: Implementing and Evaluating Search Engines",MIT Press, 2010. "PageRank". Wikipedia: The Free Encyclopedia. Wikimedia Foundation, Inc. 27.01.2016. Online: https://en.wikipedia.org/wiki/PageRank . Accesat: 27.01.2016. IISC, Facultatea de Electronică Telecomunicații și Tehnologia Informației