Priagung Khusumanegara 1006661084 Seminar 2014. Hadoop merupakan framework software berbasis Java yang digunakan untuk mengolah data dalam ukuran yang.

Slides:



Advertisements
Similar presentations
Arithmetic and Logic Unit. Arithmetic And Logic Unit Representasi Bilangan ALU 1. Integer Semua bilangan direpresentasikan dengan hanya menggunakan bilangan.
Advertisements

Access Point  .
ANJAK PIUTANG.
CDPD Celular Digital Packet Data Mhd Farid Naqeeb B. Mhd Amin Nordin A96908 Azfa Abdul Rahman A96865.
Sebuah alat komunikasi perhubungan melalui “rangkaian pengguna” Digunakan secara meluas di awal era keluaran telefon bimbit iaitu dari tahun 1980 ke 1990.
1 Bab 8 Halatuju dan Kekangan dalam Antaramuka : Multisensori.
Oleh : Gina Elvira ( ). Komunikasi antarbudaya adalah komunikasi yang terjadi di antara orang-orang yang memiliki kebudayaan yang berbeda (bisa.
Teori Behavioristik Albert Bandura
Pendekatan Konseling Behavioristik Nama : Rheza Azmi Baoka Kelas : 2C.
Universitas Pancasakti Tegal Jl. Halmahera, km 1, kota Tegal
Kelompok 5 ¤ Arista Tulistia ¤ Widi Dwirizki Utoyowibowo ¤ Yosi…
Komunikasi Antar Pribadi Bab III Sistem Komunikasi Antar Pribadi C.Atraksi Antarpribadi Dosen Pengampu : Dra.Naning DSA,M.pd,Kons Nama : Rheza Tadeo Meidiarto.
RANCANG BANGUN SISTEM INFORMASI ABSENSI KARYAWAN BERBASIS RFID MENGGUNAKAN PHP DAN MYSQL PADA PT MUSTIKA RATU.
PERTEMUAN KE-6 LIMIT FUNGSI Oleh : KBK ANALISIS MATA KULIAH BERSAMA FMIPA UGM MATEMATIKA KONTEKSTUAL.
MODEL REGRESI VARIABEL DUMMY A.Sifat Alamiah Variabel-Variabel Dummy Variabel yang diasumsikan nilai 0 dan 1 suatu perangkat untuk menggolongkan data ke.
SKS 1044 RANGKAIAN KOMPUTER
OLEH: RIBKA Y. MANOPO PARADIGMA KEPERAWATAN DAN HUBUNGAN PARADIGMA DENGAN TEORI KEPERAWATAN.
BAB INHERITANCE (Pewarisan)
Impact Of Society Topic: Virus
Monitoring & Evaluation
POMPA & KOMPRESOR) Desain Impeller Marfizal, ST, MT.
Strategi Algoritma Universitas Ahmad Dahlan
INDUSTRIAL DESIGN ! Kelompok : 1.Sri Wulandari( ) 2.Laelati Fatimah ( ) 3.Sudirman Ng ( ) 1 Presentation.
TUGAS AKHIR I SISTEM PENDUKUNG KEPUTUSAN PEMILIHAN STARTING LINE-UP PEMAIN FUTSAL MENGGUNAKAN METODE PROFILE MATCHING DAN K-MEANS CLUSTERING DISUSUN OLEH:
Pengaruh Variasi Beban Terhadap Performa Turbin Gas di Blok 1.3 PLTGU PT. Indonesia Power Grati,Pasuruan OLEH : Muhamad Nafi’ Annur DOSEN PEMBIMBING.
Kandungan 1 RAID - (Redundant Array of Independent (or Inexpensive) Disks 2 Komputer Pelayan (Server) 3 Perisian Komputer Politeknik Seberang Perai.
Penentuan K-optimal Menggunakan Segmentasi K-Nearest Neighbor dengan Validasi Silang Studi Kasus: White Wine
Bermain tidak Membatasi Texas Holdem Poker Online Untuk Bebas.
Struktur CPU.  Central Processing Unit  Merupakan komponen terpenting dari sistem komputer  Komponen pengolah data berdasarkan instruksi yang diberikan.
ESTIMASI PERMINTAAN METODE DAN ANALISIS ARIES FERNANDO.
Kerajinan Bahan Lunak Rifana Maulida VIII-4. Pengertian Bahan Lunak Bahan lunak adalah produk kerajinan yang menggunakan bahan dasar yang bersifat lunak.
KEYSHA SALSABILA ABADI VIII-I PRAKARYA. PENGERTIAN BAHAN LUNAK Bahan lunak, yaitu bahan yang memiliki sifat fisik empuk/lunak sehingga sangat mudah dibentuk.
NAMA : SINDI PERMATASARI KELAS : 81 ABSEN : 33 TUGAS : PRAKARYA PP.
NAMA : SINDI PERMATASARI KELAS : 81 ABSEN : 33 TUGAS : PRAKARYA PP.
KELAS:8-4. Pengertian bahan lunak Kerajinan bahan lunak merupakan produk kerajinan yang menggunakkan bahan dasar yang bersifat lunak yaitu lentur, lembut,
Kerajinan Bahan Lunak Nama ; Dwi Sapto Hidayatulloh Kelas ; VIII-4.
PRAKARYA UMAIYA BALQIS 8-1. BAHAN LUNAK Bahan adalah material yang memiliki sifat tertentu yang dapat mempengaruhi hasil karya yang dibuat dari matertial.
Pengertian Serat Alam Bahan serat adalah suau jenis bahan berupa potongan – potongan komponen yang membentuk jaringan memanjang yang utuh. Menurut kamus.
 Tugas prakarya 8.1 Reza Al Farabi Enjoy !.  Bahan lunak  Bahan adalah material yang memiliki sifat tertentu yang dapat mempengaruhi hasil karya yang.
Bahan serat digolongkan menjadi dua yaitu bahan serat dari tumbuhan dan bahan serat dari hewan. A.Serat dari tumbuhan, serat yang berasal dari bagian-bagian.
Nisa damayanti VIII-2 Tugas prakarya. Kerajinan bahan lunak Kerajinan dari bahan lunak merupakan produk kerajinan yang menggunakan bahan dasar yang bersifat.
Nisa damayanti VIII-2 Tugas prakarya. Kerajinan bahan lunak Kerajinan dari bahan lunak merupakan produk kerajinan yang menggunakan bahan dasar yang bersifat.
Nama : Rahmat Hidayat Kelas :VIII. 2 No.Absen : 26 SMP NEGERI 48 JAKARTA TUGAS PRAKARYA.
Tugas Prakarya (Bahan Lunak) Nama : Hillah Ayniyah Kelas : VIII – 2 No. absen : 12 SMP Negeri 48 Jakarta Nama : Hillah Ayniyah Kelas : VIII – 2 No. absen.
PRAKARYA  NAMA:M.ARIEL MARDIANSYAH(18)  KELAS:VIII-1(81)  GURU MATPEL:AHMAD MUFTI  MATERI:PENGERTIAN,CONTOH,GAMBAR BAHAN LUNAK SMPN 48 JAKARTA PRAKARYA.
Tugas PPT Prakarya tentang Kerajinan Bahan Lunak
Materi Pertemuan ke-2 : PERKEMBANGAN DAN KLASIFIKASI KOMPUTER.
Kerajinan Bahan Lunak adalah suatu produk kerajinan yang mengunakan bahan bersifat lunak sebagai dasar pembuatannya.
PENGANTAR TEKNOLOGI INFORMASI PENGANTAR SISTEM KOMPUTER
PENGANTAR TEKNOLOGI INFORMASI PENGANTAR SISTEM KOMPUTER
MODULE 3 : HARDWARE : MONITOR CORRECTIVE MAINTENANCE WORK
DIODA PENYEARAH Dioda adalah komponen/part elektronik yang hanya menghantarkan listrik pada satu arah, karena itu ada sebutan “dioda penyearah”. Dioda.
A.ERROR Kesalahan adalah perbedaan antara variabel yang diukur dan setpoint. Kesalahan dapat berupa positif atau negatif. Tujuan dari setiap skema kontrol.
“PENTINGNYA PENATAAN & DESAIN RUANG DEMI KENYAMANAN PENGGUNA”
ROUTING PROTOCOL. 1. ROUTING PROTOCOL Routing protocol adalah suatu aturan yang mempertukarkan informasi routing yang akan membentuk sebuah tabel routing.
ROUTING STATIC DAN DINAMIS. STATIC ROUTING Pengertian static routing Static routing adalah jenis routing yang dilakukan admin/pengelola jaringan untuk.
Mesyuarat Pengurusan Profesional IPGM KPM Bil 1/2015
IV.VEKTOR. A.MENJUMLAHKAN VEKTOR a. Menjumlahkan vektor dengan cara jajaran genjang Gambar di bawah vektor F1 dan vektor F2 pada satu titik tangkap yang.
Oleh: Zaihan Abdul Ghani A Sharifah Suhaila Mohd Ramli A103305
ICT HANDYBOOK SPM LA2 COMPUTER SYSTEMS 2.3 Software.
3.4.3 KONFIGURASI DAN UJIAN RANGKAIAN
Ayo Membaca Agar Hidup lebih Bermakna, Bermanfaat dan Bermartabat Bab 7 BERBAHASA PERSUASIF.
1. Sapto M. Suwito 2. Yetti M.M., S.Kom 3. Irni Marnida 4. Fadila Lahay 5. Endah Wahyuningsih 6. Nurlaila.
APLIKASI ENTERPRISE sesi 1: Pengenalan Enterprise Resource Planning (ERP) Aplikasi Pada Industri M JOHAN BUDIMAN
Pemrograman Bilangan Bulat (Integer Programming) Sebuah program linear dengan persyaratan tambahan bahwa semua variabelnya merupakan bilangan bulat Algoritma.
MANAJEMEN & STRATEGI PENGHIMPUNAN DANA LEMBAGA ZAKAT.
Presentation transcript:

Priagung Khusumanegara Seminar 2014

Hadoop merupakan framework software berbasis Java yang digunakan untuk mengolah data dalam ukuran yang besar dan jumlah yang banyak secara terdistribusi. Hadoop menggunakan teknologi yang disebut mapreduce agar dapat mengolah data secara paralel dan terdistribusi. Hadoop memiliki file system sendiri yang disebut dengan HDFS. Data yang tersimpan pada HDFS berupa potongan- potongan data yang disebut dengan block size. Besar block size pada HDFS tersebut dapat disesuaikan dengan keinginan user. Pengaturan besar ukuran block tersebut diharapkan dapat memberikan pengaruh pada proses mapreduce pada hadoop.

Tujuan dari seminar ini adalah untuk mengetahui dan menganalisa apakah dengan mengubah besar block size data pada HDFS dapat mempengaruhi kecepatan proses mapreduce pada hadoop.

Hadoop merupakan framework software berbasis Java dan opensource yang berfungsi untuk mengolah data yang memiliki ukuran yang besar secara terdistribusi dan berjalan diatas cluster yang terdiri dari beberapa komputer yang saling terhubung (parallel computing).

Inti dari hadoop adalah terdiri dari: o HDFS (Hadoop Distribute File System)  Untuk data yang terdistribusi o MapReduce  Framework dari aplikasi yang terdistribusi Gambar 1: Bagian inti hadoop (a) komponen HDFS (b) komponen mapreduce Referensi Gambar : JeongJin Cheon, Tae-Young Choe. Distributed Processing of Snort Alert Log using Hadoop. International Journal of Engineering and Technology (IJET), Gyeongbuk Korea, 2013.

 Mudah untuk di akses Hadoop dapat berjalan pada jumlah cluster yang besar ataupun pada layanan komputasi awan seperti Amazon Elastic Compute Cloud (EC2).  Stabil Hadoop sangat baik dalam menangani sebuah masalah yang muncul ketika sedang memproses sebuah pekerjaan, hal ini dikarenakan dari awalnya hadoop memang ditunjukan untuk di jalankan pada komuditas perangkat keras.  Memiliki skala yang besar Hadoop memiliki jangkauan skala yang besar, sehingga dapat menghandle ketika adanya pertambahan jumlah node dalam sebuah cluster.  Mudah digunakan Hadoop sangat mudah dijalankan dan digunakan pada single node maupun multi node.

HDFS adalah file system berbasis Java yang terdistribusi pada hadoop. Sebagai file system terdistribusi, HDFS berguna untuk menangani data dalam jumlah besar yang disimpan dan tersebar didalam banyak komputer yang berhubungan yang biasa disebut dengan cluster.

HDFS menyimpan suatu data dengan cara membelahnya menjadi potongan- potongan data yang berukuran 64 MB (secara default), dan potongan-potongan data tersebut kemudian disimpan tersebar dalam setiap node yang membentuk clusternya. Potongan-potongan data tersebut didalam HDFS disebut block, dan ukurannya tidak terpaku harus 64 MB, dimana ukuran block tersebut dapat disesuaikan dengan keinginan user.

HDFS memiliki 3 komponen utama berupa : 1. Namenode 2. Datanode 3. Secondary Namenode Gambar 2 : Komponen HDFS Referensi Gambar : Chuck Lam. Hadoop In Action. Mainning Publications Co, Stamford, 2011.

 Namenode Namenode terdapat pada komputer yang bertindak sebagai master yang mengkoordinasi datanode untuk melakukan beberapa tugas (jobs). Namenode ini adalah pusat dari sistem berkas pada HDFS. Gambar 2 : Namenode pada HDFS Namenode membuat sistem direktori dari semua file yang ada di dalam sistem dan dapat mengetahui bagaimana file tersebut di pecah-pecah menjadi beberapa blok-blok data serta mengetahui nodes yang menyimpan blok-blok data tersebut.

 Datanode Datanode adalah salah satu komponen dari HDFS yang berfungsi untuk menyimpan dan mengambil kembali data pada slave node pada setiap permintaan yang dilakukan oleh namenode. Datanode berada pada setiap slave node pada sebuah cluster yang telah dibuat. Selama sistem berjalan, datanode terhubung dengan namenode dan melakukan sebuah handshake. Handshake ini bertujuan untuk melakukan verifikasi terhadap namespace ID dan juga software version pada sebuah datanode.

 Secondary Namenode Secondary namenode adalah daemon yang berfungsi melakukan monitoring keadaan dari cluster HDFS. Sama seperti namenode, pada setiap cluster yang ada terdapat satu secondary namenode, yang berada pada master node. Secondary namenode ini juga berfungsi untuk membantu dalam meminimalkan down time dan hilangnya data yang terjadi pada HDFS. jika terjadi kegagalan yang dilakukan oleh namenode maka dibutuhkan konfigurasi yang dilakukan oleh user untuk menjadikan secondary namenode sebagai namenode yang utama.

Kelebihan dari HDFS adalah adanya kerjasama antara jobtracker dan tasktracker. Jobtracker mengurangi pekerjaan yang dilakukan oleh tasktracker dengan memberitahu lokasi data dan memberikan penjadwalan pekerjaan yang harus dilakukan. Hal ini akan mengurangi intensitas lintas data yang berjalan pada jaringan dan mencegah transfer data yang tidak perlu, sehingga dapat berdampak signifikan terhadap spent time dalam menyelesaikan suatu pekerjaan.

Kekurangan dari HDFS ini adalah master node masih bersifat Single Point of Failure sehingga apabila master node mati maka data akan hilang. Salah satu cara untuk mengantisipasi masalah tersebut adalah dengan membuat cloning dari master node pada server yang berbeda, sehingga apabila master node utama mengalami masalah, maka langsung dapat digantikan dengan cloning lainnya.

MapReduce adalah framework software yang diperkenalkan oleh google dan digunakan untuk melakukan suatu pekerjaan dari komputasi terdistribusi yang dijalankan pada sebuah cluster. Map Reduce ini terdiri dari konsep fungsi map dan reduce yang biasa digunakan pada functional programming.  Proses “Map”: namenode menerima input data, kemudian data tersebut dipecah-pecah menjadi beberapa block yang kemudian didistribusikan kepada datanode. Datanode ini kemudian akan melakukan pemrosesan blok-blok yang diterimanya untuk kemudian apabila proses telah selesai, maka akan dikembalikan ke namenode.  Proses “Reduce”: namenode menerima hasil dari pemrosesan pada setiap block dari masing-masing datanode, kemudian menggabungkan semua blok-blok yang telah di proses menjadi satu kesatuan untuk memperoleh kesimpulan dari hasil pemrosesan.

Keuntungan dari mapreduce ini adalah proses map dan reduce yang dapat diterapkan secara terdistribusi. Pada setiap proses mapping dan proses reducing bersifat independent sehingga proses dapat dijalankan secara paralel pada waktu yang sama, selama output dari proses mapping mengirimkan key value yang sesuai dengan proses reducingnya.

Terdapat 2 komponen utama mamreduce pada hadoop yaitu : 1. Jobtracker 2. Tasktracker

 JobTracker Jobtracker adalah sebuah daemon yang berfungsi untuk memecah permintaan yang diberikan ke HDFS menjadi beberapa pekerjaan yang lebih kecil berdasarkan jumlah slave yang ada. Setelah permintaan tersebut dipecah-pecah menjadi beberapa pekerjaan (jobs), jobtracker ini akan memberikan pekerjaan-pekerjaan tersebut kepada setiap slave node yang terdapat di dalam cluster tersebut.

Gambar 4: Keja jobtracker pada hadoop Referensi Gambar : Interaction between the JobTracker, TaskTracker and the homepage,

 Tasktracker Tasktracker adalah sebuah daemon yang berfungsi untuk menerima pekerjaan yang diberikan oleh jobtracker dan kemudian menjalankan pekerjaan tersebut ke dalam JVM yang terpisah. Gambar 5 : Kerja tasktracker pada setiap node Referensi Gambar : Chuck Lam. Hadoop In Action. Mainning Publications Co, Stamford, 2011.

Percobaan yang akan dilakukan adalah dengan merancang sebuah cluster yang terdiri dari 3 node yang terdapat pada VMWare Workstation 10 untuk menjalankan teknologi mapreduce pada hadoop secara paralel dan menjalankan program wordcount, serta bagaimana cara membagi file menjadi beberapa block pada HDFS dengan ukuran yang berbeda-beda pada setiap percobaan yang dilakukan.

SpesifikasiHostVM 1VM 2VM 3 ProcessorIntel ® Core ™ i One Core RAM4.00 GB1.00 GB System OperationLinux Mint 13CentOS Tabel 1 : Spesifikasi Rancangan

Gambar 6 : Rancangan percobaan

Block Size (MB)CPU Time Spent (ms) Table 2: Hasil percobaan dengan ukuran file 512 MB Gambar 7 : Grafik efek dari HDFS block size pada ukuran file 512 MB

Block Size (MB)CPU Time Spent (ms) Table 3: Hasil percobaan dengan ukuran file 1 GB Gambar 8 : Grafik efek dari HDFS block size pada ukuran file 1 GB

Block Size (MB)CPU Time Spent (ms) Table 4: Hasil percobaan dengan ukuran file 1.5 GB Gambar 9 : Grafik efek dari HDFS block size pada ukuran file 1.5 GB

Block Size (MB)CPU Time Spent (ms) Table 5: Hasil percobaan dengan ukuran file 2 GBGambar 10 : Grafik efek dari HDFS block size pada ukuran file 2 GB

Dari hasil percobaan yang dilakukan pada setiap file terlihat bahwa pengubahan parameter block size pada file tersebut dapat memberikan efek pada kecepatan proses mapreduce pada hadoop yaitu jika semakin besar block size maka kecepatan proses mapreduce semakin cepat. Jika kita memperbesar ukuran block maka file tersebut akan memiliki jumlah block yang lebih sedikit, hal ini dapat dijelaskan sebagai berikut:

File 512 MB dengan ukuran block 64 MB Pada Gambar 11 terlihat bahwa jika file dengan ukuran 512 MB dibagi menjadi beberapa block dengan ukuran masing-masing block 64 MB akan menghasilkan 6 block. Gambar 11 : Ukuran block 64 MB pada file 512 MB

File 512 MB dengan ukuran block 128 MB: Pada Gambar 12 terlihat bahwa jika file dengan ukuran 512 MB dibagi menjadi beberapa block dengan ukuran masing-masing block 64 MB akan menghasilkan 4 block. Jika jumlah block semakin sedikit, maka akan mengurangi ukuran metadata dari namenode sehingga mengurangi kerja dari namenode. Hal ini dapat menjadi pertimbangan penting untuk file system yang sangat besar. Selain itu dengan jumlah block yang lebih sedikit, hal ini akan memudahkan scheduler mapreduce dalam menjadwalkan tugas yang diberikan sehingga dapat mengurangi kerja dari scheduler mapreduce dan namenode. Gambar 12 : Ukuran block 128 MB pada file 512 MB

Dari seluruh percobaan yang telah dilakukan dapat diambil kesimpulan bahwa:  Block size pada HDFS akan mempengaruhi kecepatan proses mapreduce pada hadoop pada saat menjalankan program wordcount. Jika kita memperbesar block size pada HDFS maka akan mempercepat proses mapreduce pada saat menjalankan program wordcount,  Jika memperbesar block size pada HDFS maka jumlah block pada HDFS akan menjadi berkurang sehingga menghasilkan jumlah metadata yang lebih sedikit, hal ini dapat mengurangi kerja dari namenode pada sebuah cluster dan spent time pada CPU pada saat melakukan proses mapreduce.  Jumlah block yang lebih sedikit pada HDFS akan memudahkan scheduler mapreduce dalam menjadwalkan tugas yang diberikan sehingga dapat mengurangi kerja dari scheduler mapreduce dan namenode.

 Chuck Lam. Hadoop In Action. Mainning Publications Co, Stamford,  Tom White. Hadoop: The Definitive Guide. O’Reilly, Scbastopol, California,  Shv, Hairong, SRadia, Chansler. The Hadoop Distributed File System. Sunnyvale, California USA, IEEE,  Intel Corporation. Optimizing Java* and Apache Hadoop* for Intel® Architecture. Intel Corporation, USA,  Apache TM homepage,  JeongJin Cheon, Tae-Young Choe. Distributed Processing of Snort Alert Log using Hadoop. International Journal of Engineering and Technology (IJET), Gyeongbuk Korea,  Aditya B. Patel, Manashvi Birla, Ushma Nair. Addressing Big Data Problem Using Hadoop and Map Reduce. Nirma University International Conference On Engineering, 2012.

 Tutorial Single Node Hadoop. hadoop-on-ubuntu-linux-single-node-cluster/ hadoop-on-ubuntu-linux-single-node-cluster/  Tutorial Multinode Hadoop. hadoop-on-ubuntu-linux-multi-node-cluster/ hadoop-on-ubuntu-linux-multi-node-cluster/  Amit Anand. Configuration Parameters dfs.Block.Size. Hadoop,  Garry Turkington. Hadoop Beginner's Guide. Packt Publishing, Birmingham,  Dima May. Hadoop Distributed File System (HDFS) Overview. coreservlets.com,  Map Reduce.  Interaction between the JobTracker, TaskTracker and the homepage,  Magang Industri--Meruvian.org Cloud Computing