Download presentation
Presentation is loading. Please wait.
Published byYanti Kusumo Modified over 6 years ago
1
Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet
Conducător ştiinţific: Conf. Dr. ing. Ştefan Stăncescu Student: Robu Anca - iulie
2
Sumar World Wide Web şi motoarele de căutare
Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Sumar World Wide Web şi motoarele de căutare Componentele unui motor de căutare uzual Mecanismul extragerii seed-urilor Premisele construirii unui extractor de seed-uri Diagrama funcţionării motorului de căutare cu extragere de seed-uri Metode de evaluare a performanţei Rezultate Concluzii
3
World Wide Web şi motoarele de căutare
4
World Wide Web şi motoarele de căutare
Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet World Wide Web şi motoarele de căutare Un utilizator are acces la site-urile web de pe Internet şi informaţiile conţinute de acestea direct, prin accesarea linkului indirect, prin intermediul unei interfeţe şi a unui server de căutare
5
Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet
Funcţionarea unui server de căutare se bazează pe existenţa unor algoritmi: de crawl (căutare automată şi parsare a URL-urilor de pe Internet) de search (căutare iniţiată de utilizator pe serverul web) de sortare a URL urilor în ordinea relevanţei pentru utilizator
6
Componentele unui motor de căutare uzual
8
Mecanismul extragerii seed-urilor îmbunătăţirile aduse motorului uzual de căutare
9
Pe internet informaţia nu este repartizată uniform, ci există aşa numite zone de acumulare a informaţiei, cum ar fi directoarele, revistele online de specialitate sau blogurile de specialitate. Pentru a utiliza aceste zone în mecanismul de crawling, în urma filtrării informaţiei acumulate printr-un proces iniţial de crawlare, vom reţine un număr de seed- uri(seminţe) aranjate în ordinea relevanţei pentru anumite categorii de căutare (de ex: categoria computer software, computer hardware, computer programming, arts, sports etc). Vrem să demonstrăm că aceste seed-uri ne vor oferi linkuri mai relevante pentru utilizator la o crawlare ulterioară.
11
Metode de evaluare a performanţei teste efectuate prin varierea parametrilor algoritmilor folosiţi
12
Sistemul de testare folosit:
Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Sistemul de testare folosit: Server: Apache 2.2 Limbaj de implementare: Python 2.5.4 Modul urllib2 pentru comunicarea crawler-server (deschiderea URL-urilor) Parser: Beautiful Soup Baza de date creata cu SqLite Modul pentru conectarea la baza de date: dbapi2 Staţie de lucru: RAM: 4GB Intel core i5 2.27GHz Pentru testare am construit un director, preluând o parte din paginile (467 linkuri unice) păstrând din ele numai conţinutul şi linkurile utile.
13
Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet
Algoritmi testaţi: Breadth First: am ales acest algoritm deoarece am urmărit extragerea tuturor linkurilor relevante de pe un anumit nivel web, înainte de a merge în adâncime pentru extragerea datelor. Page Rank: am ales acest algoritm deoarece am urmarit sa extrag, din URL-urile crawlate, toate zonele web (pagini, site-uri, directoare) cu cele mai mari aglomerari de linkuri, pentru a furniza crawlerului, pentru update, seedurile cu cele mai multe URL-uri Algoritmi de analiză a textului: Am testat aceşti algoritmi, doarece avem nevoie de seed-uri pentru update, cu un conţinut calitativ ridicat, care sa ofere cai către pagini relevante pentru utilizatori. Algoritmii de analiza ai textului sunt: Frecvenţa cuvintelor cheie căutate în cadrul paginii Localizarea cuvintelor căutate în cadrul paginii Textul linkurilor Distanţa dintre cuvintele cheie regăsite în pagină
14
Parametrii variaţi pe parcursul testarii:
Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Parametrii variaţi pe parcursul testarii: Breadth First: adâncimea crawlării – câte noduri “copil” împreună cu vecini lor va parcurge, după vizitarea vecinului propriu. Page Rank: factorul de dumping, d, din formula (“The Anatomy of a Large-Scale Hypertextual Web Search Engine”, Larry Page, Sergey Brin): PR(u) = (1-d) + d(PR(v1)/L(v1) PR(vn)/L(vn)) PR(u)= probabilitatea de aparitie a paginii “u” v= numarul paginilor din setul de pagini Bu PR(v)=Probabilitatea existentei unui link catre pagina u din pagina vi L(v)=numarul likurilor din pagina vi catre paginile externe numărul de iteraţii Algoritmi de analiză a textului şi Page Rank: procentul cu care sunt combinate scorurile individuale ale acestor algoritmi in cadrul scorului final
15
Metode utilizate pentru calcului relevanţei algoritmilor menţionaţi:
Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Metode utilizate pentru calcului relevanţei algoritmilor menţionaţi: Calcului Preciziei pentru un set de pagini ales Se pune accent pe calcularea preciziei până la un rang ales „i”. Precizia până la documentul „i” este Pi = Si/i ,unde Si fiind numărul siteurilor relevante până la rangul „i” Rangul mediu reciproc Se foloseşte pentru evaluarea rezultatelor unei căutari ce a avut la bază o meodă de ordonare după scor. Unde Q reprezină numărul de URL-uri din set, iar rank i este rangul URL-ului curent.
16
Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet
Testare algoritm Best First prin calcularea timpului de procesare a URL-urilor, varierea adâncimii de crawling (10, 25, 50), luând în calcul şi frecvenţa cuvintelor pentru ordonare(f:1)
17
Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet
Testare algoritm Best First prin varierea adâncimii (10, 25, 50) se ia in calcul şi frecvenţa cuvintelor pentru ordonare(f:1) Se observă că timpul de procesare creşte odată cu adâncimea selectată, URL-urile returnate fiind identice şi afişate în aceeaşi ordine pentru toate cele 4 adâncimi. Pentru testele urmatoare am ales adâncimea:10 deoarece avem un timp de procesare mai mic, dar cu aceleaşi rezultate.
18
Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet
Testare algoritm Page Rank prin varierea factorului de dumping (0.5, 0.85) şi a numărului de iteraţii (10, 50, 100, 150)
19
Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet
Testare algoritm Page Rank prin varierea factorului de dumping (0.5, 0.85) şi a numărului de iteraţii (10, 50, 100, 150)
20
Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet
Testare algoritm Page Rank prin varierea factorului de dumping (0.5, 0.85) şi a numărului de iteraţii (10, 50, 100, 150)
21
Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet
Testare algoritm Best First prin varierea adâncimii (10, 25, 50) se ia in calcul şi frecvenţa cuvintelor pentru ordonare(f:1) Se observă că rangurile URL-urilor scad, apărând o mai mare departajare între scorurile lor, odată cu introducerea altor metode de evaluare (cum ar fi analiza frecvenţei sau a textului linkurilor). Variaţiile date de factorul de dumping arată ca aprecierea pozitivă(prin acordarea unui scor mai mare) a unui site este influenţată de probabilitatea ca utilizatorul sa nu părăsească acel site şi să navigheze pe linkurile din el. Pentru testele urmatoare am ales d(factorul de dumping) :0.5 deoarece presupunem că există 50% şanse ca utilizatorul sa nu inchidă site-ul curent.
22
Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet
23
Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet
In urma calculelor, combinaţiile de algoritmi cu rezultatele cele mai relevante sunt: Nr 15: MRR= AvP= 0.4 Parametri: f:0, l:0, lt:0.2, d:0.7, pr:0.1 Nr 22: MRR= AVP=0.5 Parametri: f:0.1,l:0.1,lt:0.7,d:0.1
24
Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet
Testarea tuturor algoritmilor. Observaţii. Combinaţia cea mai bună de parametri este: f:0.1,l:0.1,lt:0.7,d:0.1, ordonarea după numărul linkurilor fiind luată în calcul pentru parametrul ce se referă la textul linkurilor. Motorul de căutare cu numărul 22, prezită cele mai scăzute valori ale rangului comparativ cu celelalte variante, dar si o diferenţiere mai bună a calităţii rezultatelor. Cu toate acestea, pentru a extrage seed-uri (huburi de linkuri dar care să indice spre pagini de bună calitate) avem nevoie de o valoare mai mare pentru page rank. Din acest motiv, pentru testele efectuate asupra mecanismului de extragere al seed-urilor, vom folosi motorul de căutare cu numărul 15 cu parametri: f:0, l:0, lt:0.2, d:0.7, pr:0.1
25
Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet
Testarea eficienţei extractorului de seed-uri şi a împărţirii pe categorii Am crawlat iniţial directorul timp de aprox. 3 zile, obţinând o bază de date cu de URL-uri unice. Am ales 150 de iteraţii pentru a obţine o rafinare cât mai mare a scorului de page rank şi astfel o diferenţiere mai mare a calităţii paginilor returnate pe primele poziţii. Am presupus ca există sanse de 50% ca un utilizator să continue navigaţia de pe pagina respectivă, deci factorul de dumping:0.5 Pentru o bază de date de asemenea capacitate timpul pentru iterare este mai mare de 5 ore. Daca iteraţiile sunt intrerupte, valorile scorurilor din baza de date nu se modifică, acestea trebuind reluate. Am ales impărţirea URL-urilor unice in categoriile: Computer science Computer software Computer internet Computer security
26
Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet
Testarea eficienţei extractorului de seed-uri şi a împărţirii pe categorii 1.Testarea relevanţei URL-urilor returnate pe baza de date iniţială, Înaintea extragerii seed-urilor Numărul de rezultate returnate pentru aceste categorii a fost de 676 de URL-uri. Am ales un set de 20 de pagini pentru fiecare categorie pentru a calcula relevanţa site-urilor returnate în raport cu scorul obţinut. Computer science: MRR= /20 = AvP: 0.45 Computer Software: MRR= /20=
27
Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet
Testarea eficienţei extractorului de seed-uri şi a împărţirii pe categorii 2.Linkurile extrase, cu scor mai mare de 0.8 Scor : URL: ”computer science” Scor : URL: --”computer software”
28
Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet
Testarea eficienţei extractorului de seed-uri şi a împărţirii pe categorii 3. Testarea relevanţei URL-urilor returnate din baza de date alcătuită prin Crawlarea celor 2 seed-uri relevante Numărul de rezultate returnate pentru aceste categorii a fost de 676 de URL-uri. Am ales un set de 20 de pagini pentru fiecare categorie pentru a calcula relevanţa site-urilor returnate în raport cu scorul obţinut. Computer science: MRR= /20= 0.179 AvP=1 Computer Software: MRR= /20= AvP= 0.95
29
Concluzii
30
Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet
Concluzii cu privire la extragerea de seed-uri şi impărţirea pe categorii Rezultatele foarte bune obţinute (relevante in procent de 99%) prin crawlarea seed- urilor extrase anterior, ne demonstrează că un link ce indică o pagină cu o calitate ridicată, specializată pe un anumit domeniu, ne va conduce spre alte pagini ce au calitate ridicată. Cu cât rangul seed-ului este mai mare, cu atât, paginile spre care va duce vor avea o calitate mai mare.
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.