Conducător ştiinţific: Conf. Dr. ing. Ştefan Stăncescu

Slides:

Advertisements

Similar presentations

SoSBlog Novac Lucian Doncilă Sergiu Rusu Andrei Rusu Alexandru Ţuţurman Andreea Tofan Radu Grupa 1B - subgrupa 3:

Advertisements

Propuneri pentru managementul SPA- urilor in favoarea speciei – m ă suri pentru p ă duri şi m ă suri pentru pajişti Alex Nicoar ă, Tamas Papp „Conservarea.

De ce campaniile de scurt ă durat ă de SEO și PPC eșueaz ă ? Ionut & imunteanu.com.

-Modelul Entitate-Legatura (ER)-

Februarie 2018 ASE Bucuresti

Subinterogări multiple

Prof. Elena Răducanu, Colegiul Naţional Bănăţean,Timişoara

CUPRINS Tastatura Imprimanta Scanner Bibliografie Recapitulare.

Structura unui site Web

IntraShip inovatie, flexibilitate, rapiditate.

Posibilităţi de analiză în timp real a parametrilor de calitate a apei cu ajutorul sistemului informatic de management SIVECO Business Analyzer September.

Căutarea şi regăsirea informaţiei.

SOFTWARE Tipuri de software.

Dispozitive de stocare

Să căutăm eficient cu Prezentare de Stephanie Lichtenauer

Mihai Dumitru, Decembrie ‘09

Cum foloseşti WordPress drept CMS?

Căutarea şi regăsirea informaţiei.

Managementul serviciilor IT

Paxos Made Simple Autor: Puşcaş Radu George

Curs 4: Prelucrarea datelor în SAS

Gestionarea datelor stiintifice

Participarea DTM la dezvoltarea INIS

Retele de calculatoare

Design and implementation of a virtual shop using the joomla CMS

De la calitatea serviciilor la o bună guvernanţă

METODA BACKTRACKING Examenul de bacalaureat 2012

Conducător ştiinţific Prof. Dr. Ing. Radu VASIU

Problema rucsacului lacom

MANAGEMENT EDUCAŢIONAL PERFORMANT Limbajul de programare Borland Pacal

Tipuri structurate Tipul tablou

Search Engine Optimization

Curs 2 1 Sistem de operare-concepte: 2 Apeluri de sistem

Modificarea structurii unei tabele

Curs 6: Introducere în programarea SAS

DETERMINAREA ALCALINITATII SI PH-UL APELOR NATURALE

Algoritm de crawling optimizat pe similaritate în documente HTML

Funcții C/C++ continuare

Riscul de securitate a informației

Office of Assessment and Accountaility

Impulsul mecanic Impulsul mecanic. Teorema conservarii impulsului mecanic.

Sistem de monitorizare şi control prin Internet cu procesor ARM

Citește-mă Acest slide are rolul de a-ți explica modul în care să folosești umătoarele slide-uri. Șterge-l din prezentarea finală. În următoarele slide-uri.

AUTOMOBILUL ELECTRIC UNIVERSITATEA POLITEHNICA

Misiune şi indicatori de performanţă

SOAP Simple Object Access Protocol

Eclipsele de soare si de luna

Forms (Formulare).

Universitatea POLITEHNICA din București - Curs de 16 ore – Curs 11

Îmbunătăţirea serviciilor publice prin intermediul Chartelor de Servicii: Elaborarea şi implementarea Planurilor de Acţiune pentru Îmbunătăţirea Serviciilor.

A great way to create a channel of communication

Sistemul de prognoză atmosferică RapidRefresh - WRF

Cursul 9. SEO (Promovarea site-urilor web)

Functia de documentare

Căutarea şi regăsirea informaţiei

Open Access. Open Source. WEB 2.0

Căutarea paginilor WEB

Algoritmi 2PL şi Send on Demand pentru

Cum să particularizați Microsoft SharePoint Site web online

ARBORI BINARI DE CĂUTARE

Utilizarea Internet in România

Unitatea centrală de prelucrare

Software open source in industria software

ACTIUNEA Programe de Acces Comunitar

Aplicaţii specializate pentru realizarea unei prezentări – PowerPoint

Rezistorul, bobina și condensatorul în curent alternativ

Review blog culianu.wordpress.com

Configurarea metodelor de management al calităţii în sectorul public

- calitatea serviciului de internet -

Despre lamaie.net De ce sunt lamaile acre? Realizatori: Cristina Cazan

Presentation transcript:

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Conducător ştiinţific: Conf. Dr. ing. Ştefan Stăncescu Student: Robu Anca - iulie 2011 -

Sumar World Wide Web şi motoarele de căutare Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Sumar World Wide Web şi motoarele de căutare Componentele unui motor de căutare uzual Mecanismul extragerii seed-urilor Premisele construirii unui extractor de seed-uri Diagrama funcţionării motorului de căutare cu extragere de seed-uri Metode de evaluare a performanţei Rezultate Concluzii

World Wide Web şi motoarele de căutare

World Wide Web şi motoarele de căutare Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet World Wide Web şi motoarele de căutare Un utilizator are acces la site-urile web de pe Internet şi informaţiile conţinute de acestea direct, prin accesarea linkului indirect, prin intermediul unei interfeţe şi a unui server de căutare

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Funcţionarea unui server de căutare se bazează pe existenţa unor algoritmi: de crawl (căutare automată şi parsare a URL-urilor de pe Internet) de search (căutare iniţiată de utilizator pe serverul web) de sortare a URL urilor în ordinea relevanţei pentru utilizator

Componentele unui motor de căutare uzual

Mecanismul extragerii seed-urilor îmbunătăţirile aduse motorului uzual de căutare

Pe internet informaţia nu este repartizată uniform, ci există aşa numite zone de acumulare a informaţiei, cum ar fi directoarele, revistele online de specialitate sau blogurile de specialitate. Pentru a utiliza aceste zone în mecanismul de crawling, în urma filtrării informaţiei acumulate printr-un proces iniţial de crawlare, vom reţine un număr de seed- uri(seminţe) aranjate în ordinea relevanţei pentru anumite categorii de căutare (de ex: categoria computer software, computer hardware, computer programming, arts, sports etc). Vrem să demonstrăm că aceste seed-uri ne vor oferi linkuri mai relevante pentru utilizator la o crawlare ulterioară.

Metode de evaluare a performanţei teste efectuate prin varierea parametrilor algoritmilor folosiţi

Sistemul de testare folosit: Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Sistemul de testare folosit: Server: Apache 2.2 Limbaj de implementare: Python 2.5.4 Modul urllib2 pentru comunicarea crawler-server (deschiderea URL-urilor) Parser: Beautiful Soup Baza de date creata cu SqLite Modul pentru conectarea la baza de date: dbapi2 Staţie de lucru: RAM: 4GB Intel core i5 2.27GHz Pentru testare am construit un director, preluând o parte din paginile www.3schools.com, (467 linkuri unice) păstrând din ele numai conţinutul şi linkurile utile.

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Algoritmi testaţi: Breadth First: am ales acest algoritm deoarece am urmărit extragerea tuturor linkurilor relevante de pe un anumit nivel web, înainte de a merge în adâncime pentru extragerea datelor. Page Rank: am ales acest algoritm deoarece am urmarit sa extrag, din URL-urile crawlate, toate zonele web (pagini, site-uri, directoare) cu cele mai mari aglomerari de linkuri, pentru a furniza crawlerului, pentru update, seedurile cu cele mai multe URL-uri Algoritmi de analiză a textului: Am testat aceşti algoritmi, doarece avem nevoie de seed-uri pentru update, cu un conţinut calitativ ridicat, care sa ofere cai către pagini relevante pentru utilizatori. Algoritmii de analiza ai textului sunt: Frecvenţa cuvintelor cheie căutate în cadrul paginii Localizarea cuvintelor căutate în cadrul paginii Textul linkurilor Distanţa dintre cuvintele cheie regăsite în pagină

Parametrii variaţi pe parcursul testarii: Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Parametrii variaţi pe parcursul testarii: Breadth First: adâncimea crawlării – câte noduri “copil” împreună cu vecini lor va parcurge, după vizitarea vecinului propriu. Page Rank: factorul de dumping, d, din formula (“The Anatomy of a Large-Scale Hypertextual Web Search Engine”, Larry Page, Sergey Brin): PR(u) = (1-d) + d(PR(v1)/L(v1) + ... + PR(vn)/L(vn)) PR(u)= probabilitatea de aparitie a paginii “u” v= numarul paginilor din setul de pagini Bu PR(v)=Probabilitatea existentei unui link catre pagina u din pagina vi L(v)=numarul likurilor din pagina vi catre paginile externe numărul de iteraţii Algoritmi de analiză a textului şi Page Rank: procentul cu care sunt combinate scorurile individuale ale acestor algoritmi in cadrul scorului final

Metode utilizate pentru calcului relevanţei algoritmilor menţionaţi: Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Metode utilizate pentru calcului relevanţei algoritmilor menţionaţi: Calcului Preciziei pentru un set de pagini ales Se pune accent pe calcularea preciziei până la un rang ales „i”. Precizia până la documentul „i” este Pi = Si/i ,unde Si fiind numărul siteurilor relevante până la rangul „i” Rangul mediu reciproc Se foloseşte pentru evaluarea rezultatelor unei căutari ce a avut la bază o meodă de ordonare după scor. Unde Q reprezină numărul de URL-uri din set, iar rank i este rangul URL-ului curent.

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Testare algoritm Best First prin calcularea timpului de procesare a URL-urilor, varierea adâncimii de crawling (10, 25, 50), luând în calcul şi frecvenţa cuvintelor pentru ordonare(f:1)

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Testare algoritm Best First prin varierea adâncimii (10, 25, 50) se ia in calcul şi frecvenţa cuvintelor pentru ordonare(f:1) Se observă că timpul de procesare creşte odată cu adâncimea selectată, URL-urile returnate fiind identice şi afişate în aceeaşi ordine pentru toate cele 4 adâncimi. Pentru testele urmatoare am ales adâncimea:10 deoarece avem un timp de procesare mai mic, dar cu aceleaşi rezultate.

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Testare algoritm Page Rank prin varierea factorului de dumping (0.5, 0.85) şi a numărului de iteraţii (10, 50, 100, 150)

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Testare algoritm Page Rank prin varierea factorului de dumping (0.5, 0.85) şi a numărului de iteraţii (10, 50, 100, 150)

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Testare algoritm Page Rank prin varierea factorului de dumping (0.5, 0.85) şi a numărului de iteraţii (10, 50, 100, 150)

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Testare algoritm Best First prin varierea adâncimii (10, 25, 50) se ia in calcul şi frecvenţa cuvintelor pentru ordonare(f:1) Se observă că rangurile URL-urilor scad, apărând o mai mare departajare între scorurile lor, odată cu introducerea altor metode de evaluare (cum ar fi analiza frecvenţei sau a textului linkurilor). Variaţiile date de factorul de dumping arată ca aprecierea pozitivă(prin acordarea unui scor mai mare) a unui site este influenţată de probabilitatea ca utilizatorul sa nu părăsească acel site şi să navigheze pe linkurile din el. Pentru testele urmatoare am ales d(factorul de dumping) :0.5 deoarece presupunem că există 50% şanse ca utilizatorul sa nu inchidă site-ul curent.

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet In urma calculelor, combinaţiile de algoritmi cu rezultatele cele mai relevante sunt: Nr 15: MRR=2.0833333333333333333333333333333 AvP= 0.4 Parametri: f:0, l:0, lt:0.2, d:0.7, pr:0.1 Nr 22: MRR=2.1944444444444444444444444444444 AVP=0.5 Parametri: f:0.1,l:0.1,lt:0.7,d:0.1

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Testarea tuturor algoritmilor. Observaţii. Combinaţia cea mai bună de parametri este: f:0.1,l:0.1,lt:0.7,d:0.1, ordonarea după numărul linkurilor fiind luată în calcul pentru parametrul ce se referă la textul linkurilor. Motorul de căutare cu numărul 22, prezită cele mai scăzute valori ale rangului comparativ cu celelalte variante, dar si o diferenţiere mai bună a calităţii rezultatelor. Cu toate acestea, pentru a extrage seed-uri (huburi de linkuri dar care să indice spre pagini de bună calitate) avem nevoie de o valoare mai mare pentru page rank. Din acest motiv, pentru testele efectuate asupra mecanismului de extragere al seed-urilor, vom folosi motorul de căutare cu numărul 15 cu parametri: f:0, l:0, lt:0.2, d:0.7, pr:0.1

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Testarea eficienţei extractorului de seed-uri şi a împărţirii pe categorii Am crawlat iniţial directorul http://dir.yahoo.com/ timp de aprox. 3 zile, obţinând o bază de date cu 150 736 de URL-uri unice. Am ales 150 de iteraţii pentru a obţine o rafinare cât mai mare a scorului de page rank şi astfel o diferenţiere mai mare a calităţii paginilor returnate pe primele poziţii. Am presupus ca există sanse de 50% ca un utilizator să continue navigaţia de pe pagina respectivă, deci factorul de dumping:0.5 Pentru o bază de date de asemenea capacitate timpul pentru iterare este mai mare de 5 ore. Daca iteraţiile sunt intrerupte, valorile scorurilor din baza de date nu se modifică, acestea trebuind reluate. Am ales impărţirea URL-urilor unice in categoriile: Computer science Computer software Computer internet Computer security

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Testarea eficienţei extractorului de seed-uri şi a împărţirii pe categorii 1.Testarea relevanţei URL-urilor returnate pe baza de date iniţială, Înaintea extragerii seed-urilor Numărul de rezultate returnate pentru aceste categorii a fost de 676 de URL-uri. Am ales un set de 20 de pagini pentru fiecare categorie pentru a calcula relevanţa site-urilor returnate în raport cu scorul obţinut. Computer science: MRR=2.172557998 /20 = 0.10862 AvP: 0.45 Computer Software: MRR= 2.0409090909090909090909090909091 /20=0.10200

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Testarea eficienţei extractorului de seed-uri şi a împărţirii pe categorii 2.Linkurile extrase, cu scor mai mare de 0.8 Scor : 0.973442 URL: http://dir.yahoo.com/Science/ --”computer science” Scor : 0.929174 URL: http://dir.yahoo.com/Computers_and_Internet/Software/ --”computer software”

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Testarea eficienţei extractorului de seed-uri şi a împărţirii pe categorii 3. Testarea relevanţei URL-urilor returnate din baza de date alcătuită prin Crawlarea celor 2 seed-uri relevante Numărul de rezultate returnate pentru aceste categorii a fost de 676 de URL-uri. Am ales un set de 20 de pagini pentru fiecare categorie pentru a calcula relevanţa site-urilor returnate în raport cu scorul obţinut. Computer science: MRR=3.597739657/20= 0.179 AvP=1 Computer Software: MRR= 3.3442184102/20=0.172109 AvP= 0.95

Concluzii

Mecanisme şi măsuri de performaţă destinate activităţii de crawling pe Internet Concluzii cu privire la extragerea de seed-uri şi impărţirea pe categorii Rezultatele foarte bune obţinute (relevante in procent de 99%) prin crawlarea seed- urilor extrase anterior, ne demonstrează că un link ce indică o pagină cu o calitate ridicată, specializată pe un anumit domeniu, ne va conduce spre alte pagini ce au calitate ridicată. Cu cât rangul seed-ului este mai mare, cu atât, paginile spre care va duce vor avea o calitate mai mare.