Measuring indeks Quality using Random Walks on the Web Disediakan oleh: Ang Pek Ling A97105 Beh Jin Hong A97110 Chung Yee Mun A97155 Emilee Tan Su-Chin.

Slides:



Advertisements
Similar presentations
PEMBUATAN DASAR & ANALISIS DASAR.
Advertisements

FCE3900 PENYELIDIKAN PENDIDIKAN
Transmisi Analog -Tranmisi Jalur Asas dan Jalur lebar
Access Point  .
CDPD Celular Digital Packet Data Mhd Farid Naqeeb B. Mhd Amin Nordin A96908 Azfa Abdul Rahman A96865.
Tan Sim Tee A97299 Quah Cheak Seong A97271 Chung Wui Fah A97154 Lee Chun Aik A97212 Ng Wai Mann A97262 Scalable Web Search by Adaptive Online Agents: An.
BAB 3-2 Sifat Robot. Objektif Boleh mengetahui ciri/spesifikasi robot Boleh menerangkan ciri/spesifikasi yang menerangkan kelakuan dan sifat robot Boleh.
Ketidaktentuan –Tidak lengkap –tidak konsisten, –tidakpasti… atau ketiga- tiganya sekali.
PENGENALAN KEPADA SISTEM MULTIMEDIA (WXET 3142) BAB 4 : IMEJ DAN GRAFIK (sambungan)
Model Capaian Maklumat
BAB 5-4 Training Aplikasi Machine Vision. Objektif Boleh mengetahui kepentingan training pada vision system Boleh menghuraikan aplikasi vision system.
Bab 5-3 Image Processing and Analysis. Objektif Boleh mengetahui langkah-langkah yg terlibat di dalam Fungsi II Boleh menghuraikan keperluan dan fungsi.
PCS (Personal Communications Services) – CDMA (Code Division Multiple Access) PCS (Personal Communications Services) PCS merupakan perkhidmatan telefon.
Sebuah alat komunikasi perhubungan melalui “rangkaian pengguna” Digunakan secara meluas di awal era keluaran telefon bimbit iaitu dari tahun 1980 ke 1990.
Mhmh1 Laluan dalam WAN TK3133 Teknologi Rangkaian Komputer.
1 Bab 8 Halatuju dan Kekangan dalam Antaramuka : Multisensori.
PERANCANGAN DAN PENGURUSAN PROJEK
Korelasi dan Regresi Linear mudah
Strategi Algoritma Universitas Ahmad Dahlan
BAB 4 PERSAMPELAN.
STATISTIK PENDIDIKAN EDU5950 SEM
KEPERLUAN KETEPATAN DATA DAN ANALISIS STATISTIK
BAB 2 PLANNING Objektif: Pengenalan kepada perancangan projek
PENGENALAN KEPADA JELMAAN LAPLACE
EDU 5900 KAEDAH PENYELIDIKAN
Pengenalan kepada Teori Perakaunan
Konsep Pengukuran dalam Penyelidikan
Statistik Pentaabiran Berkaitan Dua Populasi
PEMARKAHAN LAPORAN AKNC Anugerah Kualiti Naib Canselor 2014
Perlaksanaan Program Pendidikan Jasmani Suaian
BAB 3 ANALISIS SISTEM Objektif:
ESTIMASI PERMINTAAN METODE DAN ANALISIS ARIES FERNANDO.
STATISTIK PENDIDIKAN EDU5950 SEM
Regresi Sederhana dan Analisis Korelasi
Analisis dan Interpretasi Data
PENGUMPULAN PROJEK DALAM SATU SISTEM APLIKATI
MODEL PENILAIAN OBJECTIVE ORIENTED CIPP SUMMATIVE & FORMATIVE
STATISTIK INFERENSI Populasi Sampel Dapatan.
ASSESSMENT FOR THE SEMINAR & WORKSHOP AsPEN 2002, May 27-30, 2002
EDU 5900 REKA BENTUK PENYELIDIKAN
koc3203 ASAS PERIKLANAN Perancangan Media
Model Rangkaian.
Masalah Pengangkutan.
Statistik untuk Sains Sosial
Masalah Tugasan.
Persampelan Slide 7.
KORELASI.
MODULE 3 : HARDWARE : MONITOR CORRECTIVE MAINTENANCE WORK
STATISTIK INFERENSI ATAU PENTAKBIRAN (Inferential Statistics)
Statistik untuk Sains Sosial
Pengenalan Sistem Automasi Industri
Analisis dan Interpretasi Data
Routing Protokol dan Konsep Routing Protocols and Concepts
Pernyataan if.. Pernyataan switch..
BAB 8 TATASUSUNAN.
STATISTIK PENDIDIKAN EDU5950 SEM
Pengenalan.
Penyelesaian Rangkaian Multimedia
BAB 2(a):PENGENALAN KEPADA JELMAAN LAPLACE
2.4 MOMENTUM Disediakan Oleh : Siti Rohayu Che Hassan.
2.0 PENGALAMATAN RANGKAIAN
Norraimi Syahirah Mohd Nor (A103256) Nor Salwati Che Harun (A103242)
SSQL1113 Statistik Untuk Sains Sosial
MENGGUNAKAN OBJEK VISUAL BASIC 6.0
BAB 2 PLANNING Objektif: Pengenalan kepada perancangan projek
Oleh: Zaihan Abdul Ghani A Sharifah Suhaila Mohd Ramli A103305
Muhamad Shukri Saud PRODUCTION ORGANIZATION
3.4.3 KONFIGURASI DAN UJIAN RANGKAIAN
Penilaian Capaian & Maklumbalas Berkaitan
Keperluan rangkaian bagi aplikasi multimedia
Presentation transcript:

Measuring indeks Quality using Random Walks on the Web Disediakan oleh: Ang Pek Ling A97105 Beh Jin Hong A97110 Chung Yee Mun A97155 Emilee Tan Su-Chin A97158 Lau Woan Yun A97208

Pengenalan  Saiz, kuantiti dan kualiti adalah suatu ukuran yang penting bagi sesuatu enjin gelintar.  Enjin gelintar yang mengindekskan laman yang banyak perlu mencari metodologi yang sesuai untuk menempatkan laman tersebut.  Enjin gelintar yang mempunyai kualiti indeks yang tinggi akan memberi maklumat yang lebih relevan kepada pengguna akhir.  Enjin gelintar yang bersaiz kecil dengan kualiti indeks yang tinggi akan memastikan keperluan kueri pengguna dengan lengkap.

Random Walks  Bersifat Markovian.  Digunakan untuk menganggar kualiti indeks di mana setiap laman di laman mewakili satu situasi.  Tidak ada natural stopping point (tanpa henti).

'PageRank' Measure  Dikira berdasarkan nombor laman.  Suatu 'PageRank' untuk satu laman adalah tinggi jika ia boleh link ke banyak laman yang berpangkat tinggi.  Boleh digunakan sebagai panduan kepada crawler untuk mengindeks laman yang lebih penting.

Menganggar Kualiti Indeks (i) Persampelan Laman Menurut kepada 'PageRank'nya.  Pendekatan pertama : cari bahagian Web yang penting. cari bahagian Web yang penting. tentukan 'PageRank' untuk laman yang telah dicari dengan kaedah berulang. tentukan 'PageRank' untuk laman yang telah dicari dengan kaedah berulang.

 Masalah : i) ukuran pemberat yang diperolehi mungkin tidak benar-benar menjadi ukuran 'PageRank'. i) ukuran pemberat yang diperolehi mungkin tidak benar-benar menjadi ukuran 'PageRank'. ii) perlukan carian bahagian Web yang besar, simpan maklumat link yang berkaitan dan hitung nilai 'PageRank’. ii) perlukan carian bahagian Web yang besar, simpan maklumat link yang berkaitan dan hitung nilai 'PageRank’.

(ii) Pendekatan Persampelan  ‘Random walk’ dilaksanakan dengan pengagihan keseimbangan yang sepadan dengan ukuran ‘PageRank’.  ‘Walk’ lompat ke satu laman yang rawak dengan kebarangkalian d atau ikut satu link yang rawak dengan kebarangkalian 1- d.

 Dengan laksanakan ‘walk’ dalam suatu tempoh masa panjang yang sesuai,satu turutan sampel dijana.  Tidak perlu simpan bahagian graf Web yang besar.  kekalkan landasan laman web semasa ‘walk’ dan turutan sampel.

 Masalah laksanakan ‘random walk’ secara langsung : i) tiada kaedah diperkenalkan untuk memilih laman Web dengan seragam secara rawak. i) tiada kaedah diperkenalkan untuk memilih laman Web dengan seragam secara rawak.

 Penyelesaian :  ‘walk’ pilih satu ‘host’ dengan seragam secara rawak daripada set ‘hosts’ pada ‘walk’ begitu jauh.  Simulasi : tingkatkan penyebaran, kurangkan ‘bias’ terhadap ‘hosts’ dengan banyak laman yang saling bersambung.  Kekalkan landasan URL semua laman yang dilayari.

ii) tidak jelas berapa langkah dilaksanakan untuk mengalih ‘bias’ keadaan permulaan - anggar taburan keseimbangan. - anggar taburan keseimbangan.  Tindakan ‘random walk’ pada suatu sub- graf Web yang kecil cukup menangani ‘bias’ permulaan.  Oleh sebab laman sampel dihimpun berdasarkan ‘random walk’, carian kecil yang berkaitan cukup untuk pendekatan ‘random walk’.  Maka, andaian bahawa ‘bias’ adalah kecil,carian kecil akan berkesan

Our Random Walks  ‘Random Walks’ menggunakan Mercator.  Apabila suatu ‘walk’ lompat secara rawak ke satu laman yang rawak tanpa mengikut suatu link, ia memilih satu ‘host’ secara seragam.  Kemudian, ia memilih satu laman dalam ‘host’ secara seragam di semua laman dalam ‘host’ tersebut dimana semua ‘host’ dipilih secara rawak.

Ini adalah pseudo-code bagi ‘random walk’ algorithm The following variables are shared by all threads: HostSet, the set of host names discovered so far UrlSet(h), the set of URLs discovered so far that belong to host h Samples, a list of URLs representing a sample sequence Their initial values are: HostSet = { } UrlSet( = { } UrlSet(h) = {} for all other hosts h Samples = [ ] All threads execute the following algorithm in parallel: RandomReset: Choose a host h uniformly at random from HostSet. Choose a URL u uniformly at random from UrlSet(h). Download laman p referred to by u. Step: If p contains at least one link: Let h be the host component of u. If h is not in HostSet, add it. If u is not in UrlSet(h), add it. With probability c, add u to Samples. With probability d, go to RandomReset. Let U be the set of derelativized URLs contained in p. While U is non-empty: Choose and remove a URL u uniformly at random from U. Attempt to download laman p referred to by u, following HTTP redirects as necessary. If p could be downloaded and is an HTML document, go to Step. Go to RandomReset. Figure 1: Pseudo-code for the random walk algorithm.

 ‘Random walk’ boleh melayari banyak laman pada suatu masa.  Ini bermakna laman yang ber’PageRank’ tinggi akan sentiasa dilayari oleh pengguna.

Pengujian data dan analisis  Dalam melaksanakan ujian terhadap data dan analisi, keputusan yang didapati adalah berdasarkan ‘random walk’.  Keputusan dibahagi kepada dua iaitu: i) dapat menentusahkan ‘random walk’ yang bersifat kualiti. i) dapat menentusahkan ‘random walk’ yang bersifat kualiti. ii) membandingkan ukuran kualiti indeks enjin gelintar berdasarkan kepada persampelan daripada ‘random walks’. ii) membandingkan ukuran kualiti indeks enjin gelintar berdasarkan kepada persampelan daripada ‘random walks’.

Keberkesanan ‘Random Walk’ Table 1: Most frequently hit lamans on the random walks. lamanW2 Freq.W1 Freq. (Rank) ( 1) ( 3) ( 6) ( 4) ( 5) ( 7) ( 8) home.netscape.com/ (10) ( 9) ( 2) home.netscape.com/comprod/mirror/indeks.html (13) (11) search.microsoft.com/default.asp (15) (17) (18) (19) (16) (22) (20) (21)

Table 2: Most frequently hit hosts on the random walks. SiteW2 Freq.W1 Freq. (Rank) ( 1) home.netscape.com ( 2) ( 3) ( 4) (10) excite.netscape.com ( 9) ( 5) ( 6) ( 8) (12) ( 7) (16) (19) (14) members.aol.com (18) (13) (23) (22) (20) (21)

 Table 1 dan 2 menunjukkan kekerapan yang paling tinggi ‘lamans’ dan ‘hosts’ yang dilayari.  W 2 – frekuensi bagi ‘second longer walk’.  W 1 – frekuensi bagi ‘first walk’.  ‘Random walk’ berhubung dengan ‘lamans’ dan ‘hosts’ yang mempunyai hubungan yang tinggi dalam web.  ‘Random walk’ lebih menitikberatkan dalam ‘lamans’ dan ‘hosts’ dimana mempunyai hubungan rangkaian yang lebih kerap.

Membandingkan indeks Enjin Gelintar Kita menggunakan kueri yang kuat untuk menentukan sama ada enjin tersebut mempunyai ‘laman’ yang diberi. Kita menggunakan kueri yang kuat untuk menentukan sama ada enjin tersebut mempunyai ‘laman’ yang diberi. Untuk memadankan URL dengan hasil daripada enjin gelintar, kita gunakan 3 ‘matching’ kriteria : Untuk memadankan URL dengan hasil daripada enjin gelintar, kita gunakan 3 ‘matching’ kriteria : i) Exact : satu ‘match’ adalah betul jika enjin gelintar memulangkan URL dalam keadaan yang normal dan sepadan dengan sasaran URL. i) Exact : satu ‘match’ adalah betul jika enjin gelintar memulangkan URL dalam keadaan yang normal dan sepadan dengan sasaran URL.

ii) Host : ‘host match’ akan terjadi jika ‘laman’ dengan ‘host’ yang sama apabila sasaran URL pulang. iii) Non-zero : ‘non-zero’ match terjadi jika enjin gelintar memulangkan mana-mana ‘laman’ sebagai hasil kueri yang kuat.

Terdapat perbezaan di antara 3 ‘matching’ kriteria. Terdapat perbezaan di antara 3 ‘matching’ kriteria. ‘Non-zero match’ akan membatasi taksiran yang kita anggarkan berbanding dengan ‘host match’ dan ‘exact match’ lebih tepat. ‘Non-zero match’ akan membatasi taksiran yang kita anggarkan berbanding dengan ‘host match’ dan ‘exact match’ lebih tepat. SearchExactHostNon-zeroEst. Size EngineW1W2W1W2W1W2(mill. lamans) AltaVista HotBot Excite Infoseek Google Lycos

Figure 2: the quality scores for various search engine indekses,scaled,in the case of exact matches

Figure 3 : the average laman quality for various search engine indekses,scaled,in the case of exact matches

kesimpulan Kualiti indeks enjin gelintar. Kualiti indeks enjin gelintar. Kaedah pengukuran berdasarkan ‘PageRank’. Kaedah pengukuran berdasarkan ‘PageRank’. Kaedah untuk menganggarkan indeks enjin gelintar dengan menggunakan ‘random walk’. Kaedah untuk menganggarkan indeks enjin gelintar dengan menggunakan ‘random walk’. ‘Random walk’ bersifat kualiti. ‘Random walk’ bersifat kualiti.