Conducător ştiinţific: Conf. Dr. ing. Ştefan Stăncescu

Slides:



Advertisements
Similar presentations
SoSBlog Novac Lucian Doncilă Sergiu Rusu Andrei Rusu Alexandru Ţuţurman Andreea Tofan Radu Grupa 1B - subgrupa 3:
Advertisements

Propuneri pentru managementul SPA- urilor in favoarea speciei – m ă suri pentru p ă duri şi m ă suri pentru pajişti Alex Nicoar ă, Tamas Papp „Conservarea.
De ce campaniile de scurt ă durat ă de SEO și PPC eșueaz ă ? Ionut & imunteanu.com.
-Modelul Entitate-Legatura (ER)-
Februarie 2018 ASE Bucuresti
Subinterogări multiple
Prof. Elena Răducanu, Colegiul Naţional Bănăţean,Timişoara
CUPRINS Tastatura Imprimanta Scanner Bibliografie Recapitulare.
Structura unui site Web
IntraShip inovatie, flexibilitate, rapiditate.
Posibilităţi de analiză în timp real a parametrilor de calitate a apei cu ajutorul sistemului informatic de management SIVECO Business Analyzer September.
Căutarea şi regăsirea informaţiei.
SOFTWARE Tipuri de software.
Dispozitive de stocare
Să căutăm eficient cu Prezentare de Stephanie Lichtenauer
Mihai Dumitru, Decembrie ‘09
Cum foloseşti WordPress drept CMS?
Căutarea şi regăsirea informaţiei.
Managementul serviciilor IT
Paxos Made Simple Autor: Puşcaş Radu George
Curs 4: Prelucrarea datelor în SAS
Gestionarea datelor stiintifice
Participarea DTM la dezvoltarea INIS
Retele de calculatoare
Design and implementation of a virtual shop using the joomla CMS
De la calitatea serviciilor la o bună guvernanţă
METODA BACKTRACKING Examenul de bacalaureat 2012
Conducător ştiinţific Prof. Dr. Ing. Radu VASIU
Problema rucsacului lacom
MANAGEMENT EDUCAŢIONAL PERFORMANT Limbajul de programare Borland Pacal
Tipuri structurate Tipul tablou
Search Engine Optimization
Curs 2 1 Sistem de operare-concepte: 2 Apeluri de sistem
Modificarea structurii unei tabele
Curs 6: Introducere în programarea SAS
DETERMINAREA ALCALINITATII SI PH-UL APELOR NATURALE
Algoritm de crawling optimizat pe similaritate în documente HTML
Funcții C/C++ continuare
Riscul de securitate a informației
Office of Assessment and Accountaility
Impulsul mecanic Impulsul mecanic. Teorema conservarii impulsului mecanic.
Sistem de monitorizare şi control prin Internet cu procesor ARM
Citește-mă Acest slide are rolul de a-ți explica modul în care să folosești umătoarele slide-uri. Șterge-l din prezentarea finală. În următoarele slide-uri.
AUTOMOBILUL ELECTRIC UNIVERSITATEA POLITEHNICA
Misiune şi indicatori de performanţă
SOAP Simple Object Access Protocol
Eclipsele de soare si de luna
Forms (Formulare).
Universitatea POLITEHNICA din București - Curs de 16 ore – Curs 11
Îmbunătăţirea serviciilor publice prin intermediul Chartelor de Servicii: Elaborarea şi implementarea Planurilor de Acţiune pentru Îmbunătăţirea Serviciilor.
A great way to create a channel of communication
Sistemul de prognoză atmosferică RapidRefresh - WRF
Cursul 9. SEO (Promovarea site-urilor web)
Functia de documentare
Căutarea şi regăsirea informaţiei
Open Access. Open Source. WEB 2.0
Căutarea paginilor WEB
Algoritmi 2PL şi Send on Demand pentru
Cum să particularizați Microsoft SharePoint Site web online
ARBORI BINARI DE CĂUTARE
Utilizarea Internet in România
Unitatea centrală de prelucrare
Software open source in industria software
ACTIUNEA Programe de Acces Comunitar
Aplicaţii specializate pentru realizarea unei prezentări – PowerPoint
Rezistorul, bobina și condensatorul în curent alternativ
Review blog culianu.wordpress.com
Configurarea metodelor de management al calităţii în sectorul public
- calitatea serviciului de internet -
Despre lamaie.net De ce sunt lamaile acre? Realizatori: Cristina Cazan
Presentation transcript:

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Conducător ştiinţific: Conf. Dr. ing. Ştefan Stăncescu Student: Robu Anca - iulie 2011 -

Sumar World Wide Web şi motoarele de căutare Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Sumar World Wide Web şi motoarele de căutare Componentele unui motor de căutare uzual Mecanismul extragerii seed-urilor Premisele construirii unui extractor de seed-uri Diagrama funcţionării motorului de căutare cu extragere de seed-uri Metode de evaluare a performanţei Rezultate Concluzii

World Wide Web şi motoarele de căutare

World Wide Web şi motoarele de căutare Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet World Wide Web şi motoarele de căutare Un utilizator are acces la site-urile web de pe Internet şi informaţiile conţinute de acestea direct, prin accesarea linkului indirect, prin intermediul unei interfeţe şi a unui server de căutare

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Funcţionarea unui server de căutare se bazează pe existenţa unor algoritmi: de crawl (căutare automată şi parsare a URL-urilor de pe Internet) de search (căutare iniţiată de utilizator pe serverul web) de sortare a URL urilor în ordinea relevanţei pentru utilizator

Componentele unui motor de căutare uzual

Mecanismul extragerii seed-urilor îmbunătăţirile aduse motorului uzual de căutare

Pe internet informaţia nu este repartizată uniform, ci există aşa numite zone de acumulare a informaţiei, cum ar fi directoarele, revistele online de specialitate sau blogurile de specialitate. Pentru a utiliza aceste zone în mecanismul de crawling, în urma filtrării informaţiei acumulate printr-un proces iniţial de crawlare, vom reţine un număr de seed- uri(seminţe) aranjate în ordinea relevanţei pentru anumite categorii de căutare (de ex: categoria computer software, computer hardware, computer programming, arts, sports etc). Vrem să demonstrăm că aceste seed-uri ne vor oferi linkuri mai relevante pentru utilizator la o crawlare ulterioară.

Metode de evaluare a performanţei teste efectuate prin varierea parametrilor algoritmilor folosiţi

Sistemul de testare folosit: Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Sistemul de testare folosit: Server: Apache 2.2 Limbaj de implementare: Python 2.5.4 Modul urllib2 pentru comunicarea crawler-server (deschiderea URL-urilor) Parser: Beautiful Soup Baza de date creata cu SqLite Modul pentru conectarea la baza de date: dbapi2 Staţie de lucru: RAM: 4GB Intel core i5 2.27GHz Pentru testare am construit un director, preluând o parte din paginile www.3schools.com, (467 linkuri unice) păstrând din ele numai conţinutul şi linkurile utile.

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Algoritmi testaţi: Breadth First: am ales acest algoritm deoarece am urmărit extragerea tuturor linkurilor relevante de pe un anumit nivel web, înainte de a merge în adâncime pentru extragerea datelor. Page Rank: am ales acest algoritm deoarece am urmarit sa extrag, din URL-urile crawlate, toate zonele web (pagini, site-uri, directoare) cu cele mai mari aglomerari de linkuri, pentru a furniza crawlerului, pentru update, seedurile cu cele mai multe URL-uri Algoritmi de analiză a textului: Am testat aceşti algoritmi, doarece avem nevoie de seed-uri pentru update, cu un conţinut calitativ ridicat, care sa ofere cai către pagini relevante pentru utilizatori. Algoritmii de analiza ai textului sunt: Frecvenţa cuvintelor cheie căutate în cadrul paginii Localizarea cuvintelor căutate în cadrul paginii Textul linkurilor Distanţa dintre cuvintele cheie regăsite în pagină

Parametrii variaţi pe parcursul testarii: Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Parametrii variaţi pe parcursul testarii: Breadth First: adâncimea crawlării – câte noduri “copil” împreună cu vecini lor va parcurge, după vizitarea vecinului propriu. Page Rank: factorul de dumping, d, din formula (“The Anatomy of a Large-Scale Hypertextual Web Search Engine”, Larry Page, Sergey Brin): PR(u) = (1-d) + d(PR(v1)/L(v1) + ... + PR(vn)/L(vn)) PR(u)= probabilitatea de aparitie a paginii “u” v= numarul paginilor din setul de pagini Bu PR(v)=Probabilitatea existentei unui link catre pagina u din pagina vi L(v)=numarul likurilor din pagina vi catre paginile externe numărul de iteraţii Algoritmi de analiză a textului şi Page Rank: procentul cu care sunt combinate scorurile individuale ale acestor algoritmi in cadrul scorului final

Metode utilizate pentru calcului relevanţei algoritmilor menţionaţi: Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Metode utilizate pentru calcului relevanţei algoritmilor menţionaţi: Calcului Preciziei pentru un set de pagini ales Se pune accent pe calcularea preciziei până la un rang ales „i”. Precizia până la documentul „i” este Pi = Si/i ,unde Si fiind numărul siteurilor relevante până la rangul „i” Rangul mediu reciproc Se foloseşte pentru evaluarea rezultatelor unei căutari ce a avut la bază o meodă de ordonare după scor. Unde Q reprezină numărul de URL-uri din set, iar rank i este rangul URL-ului curent.

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Testare algoritm Best First prin calcularea timpului de procesare a URL-urilor, varierea adâncimii de crawling (10, 25, 50), luând în calcul şi frecvenţa cuvintelor pentru ordonare(f:1)

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Testare algoritm Best First prin varierea adâncimii (10, 25, 50) se ia in calcul şi frecvenţa cuvintelor pentru ordonare(f:1) Se observă că timpul de procesare creşte odată cu adâncimea selectată, URL-urile returnate fiind identice şi afişate în aceeaşi ordine pentru toate cele 4 adâncimi. Pentru testele urmatoare am ales adâncimea:10 deoarece avem un timp de procesare mai mic, dar cu aceleaşi rezultate.

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Testare algoritm Page Rank prin varierea factorului de dumping (0.5, 0.85) şi a numărului de iteraţii (10, 50, 100, 150)

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Testare algoritm Page Rank prin varierea factorului de dumping (0.5, 0.85) şi a numărului de iteraţii (10, 50, 100, 150)

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Testare algoritm Page Rank prin varierea factorului de dumping (0.5, 0.85) şi a numărului de iteraţii (10, 50, 100, 150)

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Testare algoritm Best First prin varierea adâncimii (10, 25, 50) se ia in calcul şi frecvenţa cuvintelor pentru ordonare(f:1) Se observă că rangurile URL-urilor scad, apărând o mai mare departajare între scorurile lor, odată cu introducerea altor metode de evaluare (cum ar fi analiza frecvenţei sau a textului linkurilor). Variaţiile date de factorul de dumping arată ca aprecierea pozitivă(prin acordarea unui scor mai mare) a unui site este influenţată de probabilitatea ca utilizatorul sa nu părăsească acel site şi să navigheze pe linkurile din el. Pentru testele urmatoare am ales d(factorul de dumping) :0.5 deoarece presupunem că există 50% şanse ca utilizatorul sa nu inchidă site-ul curent.

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet In urma calculelor, combinaţiile de algoritmi cu rezultatele cele mai relevante sunt: Nr 15: MRR=2.0833333333333333333333333333333 AvP= 0.4   Parametri: f:0, l:0, lt:0.2, d:0.7, pr:0.1 Nr 22: MRR=2.1944444444444444444444444444444 AVP=0.5 Parametri: f:0.1,l:0.1,lt:0.7,d:0.1

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Testarea tuturor algoritmilor. Observaţii. Combinaţia cea mai bună de parametri este: f:0.1,l:0.1,lt:0.7,d:0.1, ordonarea după numărul linkurilor fiind luată în calcul pentru parametrul ce se referă la textul linkurilor. Motorul de căutare cu numărul 22, prezită cele mai scăzute valori ale rangului comparativ cu celelalte variante, dar si o diferenţiere mai bună a calităţii rezultatelor. Cu toate acestea, pentru a extrage seed-uri (huburi de linkuri dar care să indice spre pagini de bună calitate) avem nevoie de o valoare mai mare pentru page rank. Din acest motiv, pentru testele efectuate asupra mecanismului de extragere al seed-urilor, vom folosi motorul de căutare cu numărul 15 cu parametri: f:0, l:0, lt:0.2, d:0.7, pr:0.1

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Testarea eficienţei extractorului de seed-uri şi a împărţirii pe categorii Am crawlat iniţial directorul http://dir.yahoo.com/ timp de aprox. 3 zile, obţinând o bază de date cu 150 736 de URL-uri unice. Am ales 150 de iteraţii pentru a obţine o rafinare cât mai mare a scorului de page rank şi astfel o diferenţiere mai mare a calităţii paginilor returnate pe primele poziţii. Am presupus ca există sanse de 50% ca un utilizator să continue navigaţia de pe pagina respectivă, deci factorul de dumping:0.5 Pentru o bază de date de asemenea capacitate timpul pentru iterare este mai mare de 5 ore. Daca iteraţiile sunt intrerupte, valorile scorurilor din baza de date nu se modifică, acestea trebuind reluate. Am ales impărţirea URL-urilor unice in categoriile: Computer science Computer software Computer internet Computer security

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Testarea eficienţei extractorului de seed-uri şi a împărţirii pe categorii 1.Testarea relevanţei URL-urilor returnate pe baza de date iniţială, Înaintea extragerii seed-urilor Numărul de rezultate returnate pentru aceste categorii a fost de 676 de URL-uri. Am ales un set de 20 de pagini pentru fiecare categorie pentru a calcula relevanţa site-urilor returnate în raport cu scorul obţinut. Computer science: MRR=2.172557998 /20 = 0.10862 AvP: 0.45 Computer Software: MRR= 2.0409090909090909090909090909091 /20=0.10200

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Testarea eficienţei extractorului de seed-uri şi a împărţirii pe categorii 2.Linkurile extrase, cu scor mai mare de 0.8 Scor : 0.973442 URL: http://dir.yahoo.com/Science/ --”computer science” Scor : 0.929174 URL: http://dir.yahoo.com/Computers_and_Internet/Software/ --”computer software”

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Testarea eficienţei extractorului de seed-uri şi a împărţirii pe categorii 3. Testarea relevanţei URL-urilor returnate din baza de date alcătuită prin Crawlarea celor 2 seed-uri relevante Numărul de rezultate returnate pentru aceste categorii a fost de 676 de URL-uri. Am ales un set de 20 de pagini pentru fiecare categorie pentru a calcula relevanţa site-urilor returnate în raport cu scorul obţinut. Computer science: MRR=3.597739657/20= 0.179 AvP=1 Computer Software: MRR= 3.3442184102/20=0.172109 AvP= 0.95

Concluzii

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Concluzii cu privire la extragerea de seed-uri şi impărţirea pe categorii Rezultatele foarte bune obţinute (relevante in procent de 99%) prin crawlarea seed- urilor extrase anterior, ne demonstrează că un link ce indică o pagină cu o calitate ridicată, specializată pe un anumit domeniu, ne va conduce spre alte pagini ce au calitate ridicată. Cu cât rangul seed-ului este mai mare, cu atât, paginile spre care va duce vor avea o calitate mai mare.