Mercator : A scalable, extensible web crawler TP2433 : Search Engine.

Slides:



Advertisements
Similar presentations
Protokol Rangkaian Bab 6
Advertisements

Access Point  .
CDPD Celular Digital Packet Data Mhd Farid Naqeeb B. Mhd Amin Nordin A96908 Azfa Abdul Rahman A96865.
TERRESTRIAL MICROWAVE INTAN FARAHANA BTE KAMSIN A A NURUL ASYIKIN BTE OTHMAN A A
Pembolehubah dan Pemalar
Tutorial Penggunaan :
BAB 5-4 Training Aplikasi Machine Vision. Objektif Boleh mengetahui kepentingan training pada vision system Boleh menghuraikan aplikasi vision system.
Bab 5-3 Image Processing and Analysis. Objektif Boleh mengetahui langkah-langkah yg terlibat di dalam Fungsi II Boleh menghuraikan keperluan dan fungsi.
PENGURUSAN INGATAN, SISTEM BARU
RANGKA RUJUKAN ROBOT (ROBOT REFERENCE FRAMES)
KOMPUTER Bagaimana?.
PowerPoint Presentation for Dennis & Haley Wixom, Systems Analysis and Design, 2 nd Edition Copyright 2003 © John Wiley & Sons, Inc. All rights reserved.
TK2133 Komunikasi Data Bab 3 Model OSI & TCP/IP. Model OSI (Open System Interconnection) Model yg membenarkan 2 sistem berkomunikasi berdasarkan senibina.
SATELIT LEO (LOW EARTH ORBITING) SHANGARI VELUSAMY A NURUL FATIHAH BT MOHAMED KAMARUDIN A
Mhmh1 Laluan dalam WAN TK3133 Teknologi Rangkaian Komputer.
PEMBANGUNAN ENJIN GELINTAR (TP2433) Ahli Kumpulan: Rozaida bt Md Bashah A96843 Rozaida bt Md Bashah A96843 Arofah bt Zakaria A96862 Arofah bt Zakaria.
1 Bab 8 Halatuju dan Kekangan dalam Antaramuka : Multisensori.
AMPS /D-AMPS ADVANCED MOBILE PHONE SYSTEM/DIGITAL ADVANCED MOBILE PHONE SYSTEM.
GPRS General Packet Radio Service. Perkhidmatan komunikasi tanpa wayar Membenarkan maklumat dihantar dan diterima melalui rangkaian telefon mudah alih.
PENGHANTARAN SISTEM (DELIVERING THE SYSTEM). Pengenalan Menghampiri penghujung fasa pembangunan sistem 2 isu utama yang menentukan kejayaan dalam menghantar.
Mercator: A scalable, extensible Web crawler Allan Heydon and Marc Najork, World Wide Web, Young Geun Han.
Free Space Optics(FSO) Free Space Photonics(FSP) atau Wireless optic Merujuk kepada pemindahan gelombang infrared melalui atmosfera untuk mendapatkan komunikasi.
Allan Heydon and Mark Najork --Sumeet Takalkar. Inspiration of Mercator What is a Mercator Crawling Algorithm and its Functional Components Architecture.
Pernyataan Kawalan Java
Impact Of Society Topic: Virus
BAB 4 PERSAMPELAN.
Kandungan 1 RAID - (Redundant Array of Independent (or Inexpensive) Disks 2 Komputer Pelayan (Server) 3 Perisian Komputer Politeknik Seberang Perai.
ASAS PENGATURCARAAN C++
COPYRIGhT AND PrivACY FROM MORAL LEGAL STANDPOINT
BAB 2 PLANNING Objektif: Pengenalan kepada perancangan projek
Routing Protokol dan Konsep Routing Protocols and Concepts
2. Muzik Dengan Gerakan / Pergerakan Kreatif
Sofirudman Mazuin Asmarul shazila Ainul bariah
Ciri-Ciri Reka Letak Yang Baik
BAB 3 ANALISIS SISTEM Objektif:
Paradigma Pengaturcaraan
Regresi Sederhana dan Analisis Korelasi
KOMPONEN-KOMPONEN LAIN DALAM VB6
MODULE 3 : HARDWARE : MONITOR PREVENTIVE MAINTENANCE WORK
PENGUMPULAN PROJEK DALAM SATU SISTEM APLIKATI
MODUL 3 FILING SYSTEM.
koc3203 ASAS PERIKLANAN Perancangan Media
PERISIAN HAMPARAN ELEKTRONIK
KOMPONEN ASAS VISUAL BASIC 6.0
CABARAN MEDIA YANG BERUBAH
E4161 SISTEM KOMPUTER DAN APLIKASI
Pengenalan Sistem Automasi Industri
Routing Protokol dan Konsep Routing Protocols and Concepts
Pernyataan if.. Pernyataan switch..
BAB 8 TATASUSUNAN.
Pengenalan.
Penyelesaian Rangkaian Multimedia
2.0 PENGALAMATAN RANGKAIAN
SSQL1113 Statistik Untuk Sains Sosial
PENJAMINAN KUALITI MERUPAKAN PIAWAIAN UNTUK MENENTUKAN KUALITI PELAKSANAAN PA DAN PB MENGIKUT GARIS PANDUAN YANG DITETAPKAN.
Mesyuarat Pengurusan Profesional IPGM KPM Bil 1/2015
MENGGUNAKAN OBJEK VISUAL BASIC 6.0
BAB 2 PLANNING Objektif: Pengenalan kepada perancangan projek
Pembolehubah dan Pemalar
Oleh: Zaihan Abdul Ghani A Sharifah Suhaila Mohd Ramli A103305
POLITEKNIK PORT DICKSON E4161 SISTEM KOMPUTER & APLIKASI
Kebolehgunaan Semula Perisian
Prinsip-prinsip Spesifikasi Rekabentuk
Muhamad Shukri Saud PRODUCTION ORGANIZATION
ICT HANDYBOOK SPM LA2 COMPUTER SYSTEMS 2.3 Software.
3.4.3 KONFIGURASI DAN UJIAN RANGKAIAN
WEB 2.0 and E-LEARNING & MOBILE LEARNING
Penilaian Capaian & Maklumbalas Berkaitan
Keperluan rangkaian bagi aplikasi multimedia
Presentation transcript:

Mercator : A scalable, extensible web crawler TP2433 : Search Engine

Web Crawler : 1. Ia juga dikenali sebagai robots, spiders, worms, walkers dan wanderers 2. Mercator-satu web crawler yang ditulis sepenuhnya dalam JAVA.

Ciri-ciri Mercator : 1. Scalable a. Mercator berkebolehan untuk “scale up” keseluruhan web. b. Ia direkabentuk untuk dicapai scalability dengan menggunakan memori yang terhad. c. Kebanyakan struktur data disimpan dalam disk dan sedikit pula disimpan dalam memori untuk kecekapan.

Ciri-ciri Mercator : 2. Extensible a. Mercator adalah direkabentuk dalam “modular way”.Maka ia memudahkan fungsi baru ditambah padanya. b. Ia digunakan untuk mereka satu “snapshot”dalam intranet syarikat,mengumpul pelbagai statistik yang berkenaan dengan web dan menjalankan satu siri “random walks” di web.

Architecture of a scalable web crawler: 1. Web crawler menjalankan algorithm asal dengan mengambil senarai URL sebagai input. 2. Ia akan mengambil alih URL daripada senarai URL,kemudian memastikan IP address serta download dokumen yang sesuai dan extract link yang terdapat dalamnya.

Architecture of a scalabel web crawler: 3. Bagi link yang telah extracted,pastikan ia adalah URL yang sempurna dan tambah kepada URL list untuk download jika ia belum ditemui.

5 basic algorithm komponen: a. URL frontier-untuk menyimpan senarai URL untuk download b. Komponen yang mengubah host names kepada IP address. c. Komponen yang downloading dokumen menggunakan protokol HTTP. d. Komponen yang extracting links daripada HTML dokumen. e. Komponen yang menguji URL sama ada telah ditemui atau belum.

Proses Mercator : Proses Crawling dijalankan oleh multiple worker threads. Setiap worker mengulangi proses berulangkali untuk download dan proses satu dokumen.

Proses Mercator :

1. Langkah pertama dalam gelung ini ialah mengeluarkan satu URL mutlak dari sempadan URL perkongsian(shared URL frontier) untuk downloading.URL mutlak dimulakan dengan satu skim seperti http. 2. Dengan merujuk kepada skim URL,worker memilih satu modul protocol yang sesuai dan menggunakan protocol module’s fetch method untuk download dokumen tersebut dari internet.

Proses Mercator : 3. Dokumen kemudian disimpan ke RIS(RewindInputStream) yang membolehkan kandungan dokumen yang sama dibaca berulangkali. 4. Sebaik sahaja dokumen ditulis ke RIS,worker thread menggunakan content-seen test untuk mengenalpasti sama ada dokumen tersebut pernah dilihat atau belum.Jika pernah,dokumen tersebut tidak akan diproses lagi dan URL yang seterusnya dari frontier diambil.

Proses Mercator : 5. Setiap dokumen yang didownload bersepakat dengan MIME type (Multipurpose Internet Mail Extension) bagi dokumen yang didownload.The worker menggunakan the proses method bagi setiap processing module untuk memproses dokumen tersebut. 6. The proses method extract semua links dari satu HTML page.Setiap link diconvert kepada satu URL sempurna dan diuji oleh URL filter untuk mengenalpasti bahawa dokumen tersebut patut didownload.

Proses Mercator : 7. Jika URL passes the filter, worker mengadakan URL-seen test untuk memeriksa sama ada URL tersebut pernah dilihat atau pernah didownload. 8. Jika URL adalah baru, ia ditambah kepada frontier.

URL frontier : 1. Struktur data yang mengandungi semua URL yang sedia untuk didownload. 2. URL frontier Mercator dilaksanakan oleh satu koleksi FIFO subqueues.

URL frontier : 3. 2 aspek penting bagaimana URL ditambah dan diambil daripada queues: a. Terdapat 1 FIFO subqueue untuk 1 worker thread,setiap worker mengambil alih URLs daripada tepat 1 FIFO subqueues. b. Apabila URL baru ditambah,FIFO subqueue ditempatkan oleh URL’s canonical host name. 4. kedua-dua cara ini membolehkan worker thread download dokumen daripada web server yang diberi.

URL frontier : 5. Mengelakkan daripada overloading suatu web server. 6. Kebanyakan URL disimpan dalam disk.

HTTP protocol module : 1. Membawa dokumen yang bersesuaian dengan URL menggunakan network protocol yang sesuai. 2. Network protocol yang disokong oleh Mercator termasuk HTTP,FTP dan Gopher.

Rewind Input Stream(RIS) : 1. Mengelakkan dokumen dibaca berulang kali, RIS cahce semua dokumen kecil(<=64MB) dalam memori. 2. Dokumen besar ditulis secara sementara dalam backing files. 3. RIS constructor membenarkan pengguna menentukan saiz yang terhad bagi backing file.

Content seen test : 1. Banyak dokumen yang sama disimpan dalam server dan URLs yang berbeza. 2. Ini menyebabkan web crawler download dokumen yang sama berulang kali. 3. Web crawler akan menjalankan content seen test untuk menguji dokumen tersebut telah diproses atau belum.

Content seen test : 4. Content-seen test akan melarang link- extraction dari mirrored pages dan mengurangkan pages yang perlu dimuatturunkan(download). 5. Ia juga membenarkan pengumpulan statistik bagi sebahagian dokumen yang telah dimuatturunkan.

Content seen test : 6. Mercator maintain 1 struktur data dinamakan dokumen fingerprint set yang boleh menyimpan 64 bit checksum(ruang storan) bagi setiap downloaded dokumen. 7. Apabila crawling seluruh web,dokumen fingerprint set adalah terlalu besar untuk disimpan dalam memori.

Content seen test : 8. Oleh itu,mercator meminta 2 set fingerprint yang berdikari : a. a small hash table kept in memory. b. a large sorted list kept in single disk file. 9. Content-seen test akan menguji fingerprint yang terdapat dalam in-memory table dan kemudian menguji disk file.

URL filters : 1. Ia digunakan untuk control set of URL yang telah downloaded. 2. Sebelum menambah URL kpd frontier, worker thread akan menghantarnya kepada URL filters untuk mengambil keputusan sama ada ingin download dokumen/crawl web itu atau tidak. 3. Pengguna boleh membuat perubahan pada filter untuk kesesuaian sendiri.

Domain Name Resolution : Sebelum menghubungi 1 web server, web crawler mesti mengguna Domain Name Service (DNS) untuk mengubah host name kepada IP address.(contoh: )

URL-seen test : 1. Semasa mengekstrakkan penghubung (links), web crawler akan menjumpai penghubung yang berganda dengan dokumen yang sama. 2. Oleh itu, URL seen test digunakan.

URL-seen test : 3. Mercator perlu simpan URL yang dijumpai dalam satu table yang dinamakan URL set. 4. Oleh kerana terlalu banyak, URL disimpan dalam disk. 5. Untuk mengurangkan masa di backing disk file, Mercator mempunyai in-memory cache bagi popular URLs.

Synchronous vs Asynchorous I/O : 1. Google dan Internet Archive crawler menggunakan “single threaded crawling processes” dan asynchronus I/O menjalankan “multiple downloads”dalam bentuk selari. 2. Mercator menggunakan “multi-threaded process” di mana setiap aliran menggunakan synchorous I/O. 3. Kedua-dua ini mempunyai kesan keputusan yang sama. Kelebihan menggunakan “multiple threads”dalam synchonous I/O ialah ia memudahkan struktur program dijalankan. Goggle dan Internet Archive crawler mempunyai kelebihan menskalakan kepada jentera lain yang berganda dalam maklumat.

CheckPointing : 1. Mercator melaksanakan perjalanan web mengambil beberapa minggu. 2. “Checkpoint” dibuat supaya mengelakkan gangguan berlaku. 3. Menulis sebuah “snapshot” dalam disk.

Extensibility Mercator : 1. Boleh ditambahkan fungsi dengan mudah. 2. Boleh diubahsuaikan dengan menggunakan versi yang berbeza bagi kebanyakan komponen yang utama dengan mudah.

Configuring Mercator as a random walker 1. Menjalankan “random walks” dalam web untuk mengumpulkan 1 contoh maklumat dalam halaman web. 2. Bermula dengan halaman web yang dipilih secara rawak daripada 1 set lain(seed). 3. Halaman web kemudian dihantar,iaitu set lain secara rawak daripada sebarang halaman. 4. Proses berulang sehingga tiada set penghubung bagi 1 halaman web tersebut.

Kesimpulan :  Web crawlers adalah komponen penting bagi banyak perkhimatan lamanweb.  Contohnya, Mercator dengan kebanyakan aturcaranya ditulis dalam bentuk JAVA.  Fungsi dalam Mercator termasuk menjalankan “random walk” di web untuk mendapat maklumat dan mengumpulkan statistics tentang web.

Kesimpulan :  Mercator sesuai digunakan,Kebolehan mendapat keputusan adalah digalakkan.  Persembahannya semasa merangkak halaman web adalah baik kerana dilaksanakan dalam aturcara “Java”dengan kualiti yang tinggi,

Sekian, Terima Kasih !