Algoritm de crawling optimizat pe similaritate în documente HTML

Slides:



Advertisements
Similar presentations
Exemple de bune practici în domeniul SCMI Endre-Sandor ERDŐDI, Manager public, Direcţia de politici publice.
Advertisements

SoSBlog Novac Lucian Doncilă Sergiu Rusu Andrei Rusu Alexandru Ţuţurman Andreea Tofan Radu Grupa 1B - subgrupa 3:
Noua generaţie de clienţi. Noua generaţie de clienţi este aici.
 Ce e bravenet.COM ?  De ce bravenet.COM ?  Avantaje si dezavantaje in folosirea bravenet.COm Grupa 6: Lucian-Eduard Barticel Eduard Giurgiu Iany Ionut.
Schimbarea Luminozit ă ţii.  Photoshop este un instrument pentru retusarea fotografiilor care ofera posibilitatea de a crea imagini deosebite in special.
Cum sa-i tii pe pagina ta Bobby Voicu. Mai intai de toate… … e bine sa ai: Un plan de dezvoltare al site-ului Un plan de promovare Un plan de management.
WP 4: Campania de măsurători. Măsurătorile pilot au început în August 2006 pentru stabilirea celor mai adecvate echipamente şi metode de măsurare în locuinţe.
2009 Pag Pag. 2 Agenda 1.Obiectivul proiectului 2.Parteneri 3.Autentificare versus identificare 4.Schema generala 5.Probleme de rezolvat / rezolvate.
Display Advertising ARBOsocial Departament SEM in structura ARBOinteractive Dezvoltarea si management ul campaniilor CPC prin: Principalul sistem de.
ASIGURAREA PRIVATĂ DE SĂNĂTATE ÎN CONFRUNTAREA CU CRIZA ECONOMICĂ FIAR 2011 Ziua Asigurărilor de Viaţă şi Sănătate 24 mai 2011 În parteneriat cu.
Batalia sexelor O lume dominata de barbati vs o lume dominata de femei.
-Modelul Entitate-Legatura (ER)-
Februarie 2018 ASE Bucuresti
ACTIVITATEA 1 -,, PROFESOR IT LA PAPI’’
Subinterogări multiple
Oracle Academy Lead Adjunct
IntraShip inovatie, flexibilitate, rapiditate.
Căutarea şi regăsirea informaţiei.
SOFTWARE Tipuri de software.
PASII INSTALARII SISTEMULUI DE OPERARE
Dispozitive de stocare
Landing pages Seo World Coffee – 2009.
Mihai Dumitru, Decembrie ‘09
Cum foloseşti WordPress drept CMS?
Căutarea şi regăsirea informaţiei.
Conducător ştiinţific: Conf. Dr. ing. Ştefan Stăncescu
Paxos Made Simple Autor: Puşcaş Radu George
Gindeste ……...
Gestionarea datelor stiintifice
Retele de calculatoare
Design and implementation of a virtual shop using the joomla CMS
METODA BACKTRACKING Examenul de bacalaureat 2012
Introducere in HCI.
CONVERSII INTRE SISTEME DE NUMERATIE
WebSite Social Tema 2 WebSite Social.
Problema rucsacului lacom
Tipuri structurate Tipul tablou
SUBNETAREA.
Grasu leonard ionut Trifu gabriel
Search Engine Optimization
Web Form BuilDer Coffee Cup.
studiu de caz – adwords campanie servicii
Formatarea paragrafului
Funcții C/C++ continuare
Sistem de monitorizare şi control prin Internet cu procesor ARM
Gindeste ……...
Citește-mă Acest slide are rolul de a-ți explica modul în care să folosești umătoarele slide-uri. Șterge-l din prezentarea finală. În următoarele slide-uri.
INTERNET SERVICII INTERNET.
SOAP Simple Object Access Protocol
Mic ghid pentru crearea unei prezentari PowerPoint
Eclipsele de soare si de luna
Forms (Formulare).
A great way to create a channel of communication
Cursul 9. SEO (Promovarea site-urilor web)
Functia de documentare
Căutarea şi regăsirea informaţiei
Un motor eficient de căutare în e-commerce
Folosirea de către companii a Twitter, Facebook şi LinkedIn
Căutarea paginilor WEB
Sisteme de recomandare
Gindeste ……...
Aplicaţii specializate pentru realizarea unei prezentări – PowerPoint
CMMI- Arii de proces: Inginerie si managementului proiectelor
Review blog culianu.wordpress.com
Configurarea metodelor de management al calităţii în sectorul public
FACULTATEA DE INGINERIE ELECTRICA –Universitatea Politehnica Bucuresti
Implementarea listelor simplu inlantuite
Comunicare in medii electronice
Despre lamaie.net De ce sunt lamaile acre? Realizatori: Cristina Cazan
Tabele WEB.
Presentation transcript:

Algoritm de crawling optimizat pe similaritate în documente HTML Universitatea Politehnica Bucureşti Facultatea Electronică, Telecomunicaţii şi Tehnologia Informaţiei Algoritm de crawling optimizat pe similaritate în documente HTML Coordonator stiintific Conf. Dr. Ing. Ştefan Stăncescu Student Pop Cătălin

Descrierea problemei WWW este intr-o continua crestere Informatia din www se gaseste intr-un mod nestructurat S-a simtit nevoia de a se cataloga aceasta informatie in grupuri in functie de anumite criterii Aceasta catalogare serveste la dorinta utilizatorilor de a gasi pagini relevante in functie de un anumit topic dorit

Ce este un web crawler?

Aplicatii ale web crawlerului Motoare de cautare Google, Yahoo, Bing, Ask Verificarea link-urlilor valide Extragerea anumitor informatii din pagini web Extragearea adreselor de email Extragerea pretului produselor din magazinele online

Provocare Ce ar trebui facut pentru a cataloga o pagina web ca fiind cea mai relevanta pentru topicul “cumpar garsoniera” ? O idee Catalogarea paginilor in functie de frecventa cuvintelor In functie nu numarul de linkuri din alte pagini relevante

Problema conceptuala Fiecare pagina web este reprezentata de un set de cuvinte cu o anumita greutate Structura linkurilor(legaturilor) dintre pagini Problema conceptuala: defineste relevanta unei pagini bazata pe greutatea cuvintelor si pe structura linkurilor

Algoritmi de crawling HITS(Hyperlink-Induced Topic Search) Un document autoritar bun este atunci când are cât mai multe legături către el Un hub bun este un document care are legături spre cât mai multe autorităţi

Algoritmi de crawling PageRank Valoarea unui document ar trebui sa fie data de valoarea altor documente asemanatoare Reprezinta o plimbare aleatoare pe graful www Alege o pagina aleatoare probabilitatea1- α de a mai continua sa navigheze pe alta pagina Probabilitatea α de naviga un anumit link

Metode de stabilire a similaritatii VECTOR SPACE MODEL (VSM) METODA OKAPI

CDR (Cover Density Ranking) TLS (Three level scoring)

Implementare practica Crawlerul elaborat în acestă lucrare poate fi folosit atât ca un crawler preferenţial, şi anume să indexeze doar anumite siteuri, precum şi ca un crawler general un algoritm care va stabili ordinea următoarelor n linkuri din frontiera ce urmează a fi vizitate un algoritm care va stabili scorul fiecărei pagini vizitate.

Arhitectura algoritmului

Prezentarea algoritmilor folositi Prioritate(link)=adancime * numar_pagini_indexate(site) Modul de stabilire a similaritatii intre un topic anume si document este VSM(vector space model)

Modul de evaluare S-a propus indexarea siteului Universitatii Politehnica Bucuresti : http://www.upb.ro Dupa primele 10 minute crawlerul a gasit siteurile fiecărei facultăţi ce aparţine de Universitatea Politehnica Bucureşti, indexarea acestora durand în jur de 2 ore. Paginile care au fost gasite de crawler dar nu au fost indexate sunt in numar de 1348

Eficienta crawlerului Precizie = gasite/ (gasite+ nefolositoare) Rata achizitie = gasite/ (nr_total documente) Cuvinte propuse: Electronica Telecomunicatii Politehnica bucuresti Admitere Program rectorat

Implementare algoritm Google.com (PageRank) Electronica http://www.electronica.pub.ro/ http://students.chem.uaic.ro/ http://tet.pub.ro/ Telecomunicatii http://www.upb.ro/index.php/ro/facultati-si-departamente/facultati/electronica,-telecomunicatii-si-tehnologia-informatiei Politehnica bucuresti http://www.upb.ro http://cercetare.pub.ro/home.do http://www.library.pub.ro/legaturi.htm Program rectorat http://www.upb.ro/contact.php http://www.upb.ro/index.php//managementul-upb/senatul-upb/biroul-senatului http://erasmus.upb.ro/english/ Admitere http://admitere.pub.ro/ http://www.upb.ro/documente/admitere-online.php https://admitere.ncit.pub.ro/moodle/login/index.php Electronica http://www.upb.ro/index.php/ro/facultati-si-departamente/facultati/electronica,-telecomunicatii-si-tehnologia-informatiei http://www.upb.ro/upb/romana/facultati/electronica.html http://www.upb.ro/index.php/en/faculties-and-departments/faculties/electronics,-telecommunications-and-information-technology Telecomunicatii http://www.upb.ro/vechi/romana/turvirtual/electronica/index.html Politehnica bucuresti http://www.upb.ro/ http://www.upb.ro/index.php/ro/studii/programe-de-master http://www.upb.ro/vechi/romana/carta/cap6.html Program rectorat http://www.upb.ro/vechi/romana/senatul/index.html http://www.upb.ro/index.php/ro/managementul-upb/senatul-upb/biroul-senatului http://www.upb.ro/index.php/en/faculties-and-departments/faculties/automatic-control-and-computers Admitere http://www.upb.ro/index.php/ro/admitere/studii-de-licenta/calendar-admitere http://www.upb.ro/documente/admitere-master.php

Va multumesc!