Presentation is loading. Please wait.

Presentation is loading. Please wait.

Measuring indeks Quality using Random Walks on the Web Disediakan oleh: Ang Pek Ling A97105 Beh Jin Hong A97110 Chung Yee Mun A97155 Emilee Tan Su-Chin.

Similar presentations


Presentation on theme: "Measuring indeks Quality using Random Walks on the Web Disediakan oleh: Ang Pek Ling A97105 Beh Jin Hong A97110 Chung Yee Mun A97155 Emilee Tan Su-Chin."— Presentation transcript:

1 Measuring indeks Quality using Random Walks on the Web Disediakan oleh: Ang Pek Ling A97105 Beh Jin Hong A97110 Chung Yee Mun A97155 Emilee Tan Su-Chin A97158 Lau Woan Yun A97208

2 Pengenalan  Saiz, kuantiti dan kualiti adalah suatu ukuran yang penting bagi sesuatu enjin gelintar.  Enjin gelintar yang mengindekskan laman yang banyak perlu mencari metodologi yang sesuai untuk menempatkan laman tersebut.  Enjin gelintar yang mempunyai kualiti indeks yang tinggi akan memberi maklumat yang lebih relevan kepada pengguna akhir.  Enjin gelintar yang bersaiz kecil dengan kualiti indeks yang tinggi akan memastikan keperluan kueri pengguna dengan lengkap.

3 Random Walks  Bersifat Markovian.  Digunakan untuk menganggar kualiti indeks di mana setiap laman di laman mewakili satu situasi.  Tidak ada natural stopping point (tanpa henti).

4 'PageRank' Measure  Dikira berdasarkan nombor laman.  Suatu 'PageRank' untuk satu laman adalah tinggi jika ia boleh link ke banyak laman yang berpangkat tinggi.  Boleh digunakan sebagai panduan kepada crawler untuk mengindeks laman yang lebih penting.

5 Menganggar Kualiti Indeks (i) Persampelan Laman Menurut kepada 'PageRank'nya.  Pendekatan pertama : cari bahagian Web yang penting. cari bahagian Web yang penting. tentukan 'PageRank' untuk laman yang telah dicari dengan kaedah berulang. tentukan 'PageRank' untuk laman yang telah dicari dengan kaedah berulang.

6  Masalah : i) ukuran pemberat yang diperolehi mungkin tidak benar-benar menjadi ukuran 'PageRank'. i) ukuran pemberat yang diperolehi mungkin tidak benar-benar menjadi ukuran 'PageRank'. ii) perlukan carian bahagian Web yang besar, simpan maklumat link yang berkaitan dan hitung nilai 'PageRank’. ii) perlukan carian bahagian Web yang besar, simpan maklumat link yang berkaitan dan hitung nilai 'PageRank’.

7 (ii) Pendekatan Persampelan  ‘Random walk’ dilaksanakan dengan pengagihan keseimbangan yang sepadan dengan ukuran ‘PageRank’.  ‘Walk’ lompat ke satu laman yang rawak dengan kebarangkalian d atau ikut satu link yang rawak dengan kebarangkalian 1- d.

8  Dengan laksanakan ‘walk’ dalam suatu tempoh masa panjang yang sesuai,satu turutan sampel dijana.  Tidak perlu simpan bahagian graf Web yang besar.  kekalkan landasan laman web semasa ‘walk’ dan turutan sampel.

9  Masalah laksanakan ‘random walk’ secara langsung : i) tiada kaedah diperkenalkan untuk memilih laman Web dengan seragam secara rawak. i) tiada kaedah diperkenalkan untuk memilih laman Web dengan seragam secara rawak.

10  Penyelesaian :  ‘walk’ pilih satu ‘host’ dengan seragam secara rawak daripada set ‘hosts’ pada ‘walk’ begitu jauh.  Simulasi : tingkatkan penyebaran, kurangkan ‘bias’ terhadap ‘hosts’ dengan banyak laman yang saling bersambung.  Kekalkan landasan URL semua laman yang dilayari.

11 ii) tidak jelas berapa langkah dilaksanakan untuk mengalih ‘bias’ keadaan permulaan - anggar taburan keseimbangan. - anggar taburan keseimbangan.  Tindakan ‘random walk’ pada suatu sub- graf Web yang kecil cukup menangani ‘bias’ permulaan.  Oleh sebab laman sampel dihimpun berdasarkan ‘random walk’, carian kecil yang berkaitan cukup untuk pendekatan ‘random walk’.  Maka, andaian bahawa ‘bias’ adalah kecil,carian kecil akan berkesan

12 Our Random Walks  ‘Random Walks’ menggunakan Mercator.  Apabila suatu ‘walk’ lompat secara rawak ke satu laman yang rawak tanpa mengikut suatu link, ia memilih satu ‘host’ secara seragam.  Kemudian, ia memilih satu laman dalam ‘host’ secara seragam di semua laman dalam ‘host’ tersebut dimana semua ‘host’ dipilih secara rawak.

13 Ini adalah pseudo-code bagi ‘random walk’ algorithm The following variables are shared by all threads: HostSet, the set of host names discovered so far UrlSet(h), the set of URLs discovered so far that belong to host h Samples, a list of URLs representing a sample sequence Their initial values are: HostSet = { www.yahoo.com } UrlSet(www.yahoo.com) = { www.yahoo.com/ } UrlSet(h) = {} for all other hosts h Samples = [ ] All threads execute the following algorithm in parallel: RandomReset: Choose a host h uniformly at random from HostSet. Choose a URL u uniformly at random from UrlSet(h). Download laman p referred to by u. Step: If p contains at least one link: Let h be the host component of u. If h is not in HostSet, add it. If u is not in UrlSet(h), add it. With probability c, add u to Samples. With probability d, go to RandomReset. Let U be the set of derelativized URLs contained in p. While U is non-empty: Choose and remove a URL u uniformly at random from U. Attempt to download laman p referred to by u, following HTTP redirects as necessary. If p could be downloaded and is an HTML document, go to Step. Go to RandomReset. Figure 1: Pseudo-code for the random walk algorithm.

14  ‘Random walk’ boleh melayari banyak laman pada suatu masa.  Ini bermakna laman yang ber’PageRank’ tinggi akan sentiasa dilayari oleh pengguna.

15 Pengujian data dan analisis  Dalam melaksanakan ujian terhadap data dan analisi, keputusan yang didapati adalah berdasarkan ‘random walk’.  Keputusan dibahagi kepada dua iaitu: i) dapat menentusahkan ‘random walk’ yang bersifat kualiti. i) dapat menentusahkan ‘random walk’ yang bersifat kualiti. ii) membandingkan ukuran kualiti indeks enjin gelintar berdasarkan kepada persampelan daripada ‘random walks’. ii) membandingkan ukuran kualiti indeks enjin gelintar berdasarkan kepada persampelan daripada ‘random walks’.

16 Keberkesanan ‘Random Walk’ Table 1: Most frequently hit lamans on the random walks. lamanW2 Freq.W1 Freq. (Rank) www.microsoft.com/31721600 ( 1) www.microsoft.com/windows/ie/default.htm20641045 ( 3) www.netscape.com/1991876 ( 6) www.microsoft.com/ie/19821017 ( 4) www.microsoft.com/windows/ie/download/1915943 ( 5) www.microsoft.com/windows/ie/download/all.htm1696830 ( 7) www.adobe.com/prodindeks/acrobat/readstep.html1634780 ( 8) home.netscape.com/1581695 (10) www.linkexchange.com/1574763 ( 9) www.yahoo.com/15271132 ( 2) home.netscape.com/comprod/mirror/indeks.html1015479 (13) www.lycos.com/982597 (11) search.microsoft.com/default.asp895452 (15) www.microsoft.com/search/default.asp749392 (17) www.microsoft.com/Support/721388 (18) www.adobe.com/homelaman.shtml690361 (19) www.excite.com/678436 (16) www.infoseek.com/676320 (22) www.microsoft.com/misc/cpyright.htm673355 (20) www.microsoft.com/products/default.asp663343 (21)

17 Table 2: Most frequently hit hosts on the random walks. SiteW2 Freq.W1 Freq. (Rank) www.microsoft.com3245216917 ( 1) home.netscape.com2332911084 ( 2) www.adobe.com108845539 ( 3) www.amazon.com101465182 ( 4) www.netscape.com48622307 (10) excite.netscape.com47142372 ( 9) www.real.com44942777 ( 5) www.lycos.com44482645 ( 6) www.zdnet.com40382562 ( 8) www.linkexchange.com37381940 (12) www.yahoo.com34612595 ( 7) www.sun.com26131309 (16) www.hitbox.com25701115 (19) www.excite.com25041644 (14) members.aol.com24501159 (18) www.ibm.com24181807 (13) www.macromedia.com2043971 (23) www.infoseek.com20011005 (22) www.compaq.com19831079 (20) www.digital.com19271034 (21)

18  Table 1 dan 2 menunjukkan kekerapan yang paling tinggi ‘lamans’ dan ‘hosts’ yang dilayari.  W 2 – frekuensi bagi ‘second longer walk’.  W 1 – frekuensi bagi ‘first walk’.  ‘Random walk’ berhubung dengan ‘lamans’ dan ‘hosts’ yang mempunyai hubungan yang tinggi dalam web.  ‘Random walk’ lebih menitikberatkan dalam ‘lamans’ dan ‘hosts’ dimana mempunyai hubungan rangkaian yang lebih kerap.

19 Membandingkan indeks Enjin Gelintar Kita menggunakan kueri yang kuat untuk menentukan sama ada enjin tersebut mempunyai ‘laman’ yang diberi. Kita menggunakan kueri yang kuat untuk menentukan sama ada enjin tersebut mempunyai ‘laman’ yang diberi. Untuk memadankan URL dengan hasil daripada enjin gelintar, kita gunakan 3 ‘matching’ kriteria : Untuk memadankan URL dengan hasil daripada enjin gelintar, kita gunakan 3 ‘matching’ kriteria : i) Exact : satu ‘match’ adalah betul jika enjin gelintar memulangkan URL dalam keadaan yang normal dan sepadan dengan sasaran URL. i) Exact : satu ‘match’ adalah betul jika enjin gelintar memulangkan URL dalam keadaan yang normal dan sepadan dengan sasaran URL.

20 ii) Host : ‘host match’ akan terjadi jika ‘laman’ dengan ‘host’ yang sama apabila sasaran URL pulang. iii) Non-zero : ‘non-zero’ match terjadi jika enjin gelintar memulangkan mana-mana ‘laman’ sebagai hasil kueri yang kuat.

21 Terdapat perbezaan di antara 3 ‘matching’ kriteria. Terdapat perbezaan di antara 3 ‘matching’ kriteria. ‘Non-zero match’ akan membatasi taksiran yang kita anggarkan berbanding dengan ‘host match’ dan ‘exact match’ lebih tepat. ‘Non-zero match’ akan membatasi taksiran yang kita anggarkan berbanding dengan ‘host match’ dan ‘exact match’ lebih tepat. SearchExactHostNon-zeroEst. Size EngineW1W2W1W2W1W2(mill. lamans) AltaVista0.26800.27090.34290.34090.51820.5164125 HotBot0.15170.15820.21280.20820.37640.3691100 Excite0.16750.18360.22270.23550.38920.364545 Infoseek0.10250.11910.13990.13910.23740.224537 Google0.07780.07640.10050.10360.23150.219125 Lycos0.12810.12640.16060.16910.30050.289121

22 Figure 2: the quality scores for various search engine indekses,scaled,in the case of exact matches

23 Figure 3 : the average laman quality for various search engine indekses,scaled,in the case of exact matches

24 kesimpulan Kualiti indeks enjin gelintar. Kualiti indeks enjin gelintar. Kaedah pengukuran berdasarkan ‘PageRank’. Kaedah pengukuran berdasarkan ‘PageRank’. Kaedah untuk menganggarkan indeks enjin gelintar dengan menggunakan ‘random walk’. Kaedah untuk menganggarkan indeks enjin gelintar dengan menggunakan ‘random walk’. ‘Random walk’ bersifat kualiti. ‘Random walk’ bersifat kualiti.


Download ppt "Measuring indeks Quality using Random Walks on the Web Disediakan oleh: Ang Pek Ling A97105 Beh Jin Hong A97110 Chung Yee Mun A97155 Emilee Tan Su-Chin."

Similar presentations


Ads by Google