XỬ LÝ DỮ LIỆU SONG SONG & PHÂN TÁN VỚI HADOOP

Slides:



Advertisements
Similar presentations
Giáo viên thực hiện: Lò Thị Nhung Đơn vị công tác: Trường THCS Búng Lao, huyện Mường Ảng, tỉnh Điện Biên. GIÁO ÁN ĐỊA LÍ 7 Chương II: Môi trường đới ôn.
Advertisements

Quản trị Rủi ro thiên tai và Biến đổi khí hậu
Báo cáo Cấu trúc đề thi PISA và Các dạng câu hỏi thi PISA
Sử dụng năng lượng hiệu quả
MỘT SỐ TÁC GIẢ TIÊU BIỂU ( ) Nhóm tự lực văn đoàn và phong trào thơ mới. Ngoài ra còn có các nhóm: Phong hóa, Ngày nay, Hà Nội báo (Huy Thông,
Rainforest Alliance đào tạo cho các nông trại trà ở Việt Nam
L/O/G/O NGUYÊN LÝ KẾ TOÁN Nguyễn Hữu Quy (MBA,CPA,APC)
1 ĐỒNG NAI ĐÁNH GIÁ TÌNH HÌNH VÀ ĐỀ XUẤT ÁP DỤNG HIỆU QUẢ MÔ HÌNH KINH TẾ DƯỢC TẠI BỆNH VIỆN ĐA KHOA ĐỒNG NAI NĂM 2017 Học viên: Nhóm 5 _ PP111.
Thực hiện các cuộc họp quan trọng
PGS. TS. Trần Cao Đệ Bộ môn Công nghệ Thông tin
Sứ Mệnh GoCoast 2020 được thành lập bởi thống đốc Phil Bryant thông qua điều hành để phục vụ như là hội đồng cố vấn chính thức cho việc phân phối quỹ nhận.
QUẢN TRỊ THÀNH TÍCH Performance Management
TẬP HUẤN TÀI CHÍNH CÔNG ĐOÀN NĂM 2015
Ghi chú chung về khóa học
TÌM HIỂU VỀ WEB SERVICES VÀ XÂY DỰNG MỘT WEB SERVICE
Sử dụng PTKT&CN trong dạy học Đại học
Ủy ban Tài chính và Ngân sách của Quốc hội
Big Data GV: TS Võ Đình Hiếu Thực hiện: Phạm Công Thiên Lý
VÀ PHẦN MỀM ỨNG DỤNG – ECUS5VNACCS
Tham gia Intel ISEF 2013 và một số kinh nghiệm chia sẻ
Giới thiệu chương trình trách nhiệm xã hội của doanh nghiệp
KHAI PHÁ DỮ LIỆU (DATA MINING)
THÔNG TIN MÔN HỌC Quản trị chuỗi cung ứng (Supply Chain Management): 45 tiết Tài liệu nghiên cứu Quản lý chuỗi cung ứng –Th.S. Nguyễn Kim Anh, Đại học.
Software testing Kiểm thử phần mềm
BÁO CÁO DỰ ÁN CIBOLA Đo lường mức độ hiệu quả của Media
Hạ Long – Cát Bà Sáng kiến Liên minh Bui Thi Thu Hien
Module 6 – Managing for Sustainability
Hệ Thống Quản Lý An Toàn Thực Phẩm
Internet & Thương Mại Điện Tử
CHẾ ĐỘ PHÁP LÝ VỀ CÔNG TY CỔ PHẦN
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Các kỹ thuật tấn công lỗ hổng website
TRUYỀN THÔNG VỀ PHÒNG CHỐNG BỆNH DO VI RÚT ZIKA 1
Chương 3 Mô hình dữ lịêu quan hệ
Thương mại điện tử HÀ VĂN SANG.
MKTNH Version 3 Giảng viên: ThS. Thái Thị Kim Oanh
E-LEARNING TỪ POWERPOINT
Chương 9 Truyền thông và Mạng
Ngôn ngữ học khối liệu - khoa học liên ngành về ngôn ngữ ứng dụng
Chương 4 Phân tích kiến trúc (Architecture)
PHÁT TRIỂN CHƯƠNG TRÌNH ĐÀO TẠO DỰA TRÊN CHUẨN ĐẦU RA
XÂY DỰNG KẾ HOẠCH VÀ CHIẾN LƯỢC MARKETING
Chiến lược CSR –Là gì và làm thế nào để chúng ta sàng lọc lựa chọn?
UBND TỈNH ĐIỆN BIÊN SỞ GIÁO DỤC VÀ ĐÀO TẠO
LẬP TRÌNH ỨNG DỤNG WINDOW FORM
Hướng dẫn THU THẬP, BẢO QUẢN VÀ VẬN CHUYỂN MẪU BỆNH PHẨM NGHI NHIỄM MERS-CoV PTN các tác nhân virut liên quan đến bệnh truyền từ động vật sang người.
Xây dựng thương hiệu bền vững và tiếp thị cho sự thân thiện môi trường
Quản lý con người Quản lý người làm việc như những cá nhân và theo nhóm.
Đề tài: Mô hình chủ đề ẩn trích xuất thực thể y sinh
Giới Thiệu Tiêu Đề I.
Operators and Expression
(CTV Viện CNTT – ĐHQG Hà Nội)
… nghe kể rằng ... Click.
Trách nhiệm giải trình của doanh nghiệp ở diện rộng
QUYỀN LỰC VÀ MÂU THUẪN TRONG NHÓM
MODULE 5: CÔNG CỤ 5S - QUẢN LÝ VẬN HÀNH CƠ BẢN
Chương 2 Căn bản về Cung và Cầu 1.
Phòng Công nghệ Thông tin
PHÒNG GIÁO DỤC VÀ ĐÀO TẠO
QUẢN TRỊ TÍNH ĐA DẠNG THÔNG QUA NHIỀU HOẠT ĐỘNG KINH DOANH
HƯỚNG DẪN MÃ HÓA BỆNH TẬT, TỬ VONG THEO ICD - 10
OBJECT-ORIENTED ANALYSIS AND DESIGN WITH UML 2.0
Social Network Games PHP DAY
HỌC PHẦN: CÀI ĐẶT VÀ BẢO TRÌ
Trường CĐ CNTT HN Việt Hàn
SEMINAR: MÁY STM (SCANNING TUNNELING MICROSCOPE)
Chương 8 NHỮNG VẤN ĐỀ QUẢN TRỊ CƠ BẢN TRONG THỰC THI CHIẾN LƯỢC
So sánh marketing online & marketing truyền thống
PHÂN TÍCH & THIẾT KẾ HƯỚNG ĐỐI TƯỢNG
Presentation transcript:

XỬ LÝ DỮ LIỆU SONG SONG & PHÂN TÁN VỚI HADOOP Trình bày: Nguyễn Minh Quý Bộ môn: CNPM – Khoa CNTT quyutehy@gmail.com

Đặt vấn đề Bạn từng xử lý dữ liệu có kích thước lớn nhất là bao nhiêu MB/GB? Bạn dùng hệ quản trị cơ sở dữ liệu nào để lưu trữ? Access, SQL, MySQL hay Oracle?. Giới hạn kích thước cơ sở dữ liệu trong SQL Server (Bản SQL Server Express) là bao nhiêu GB? Các công cụ và môi trường bạn biết/làm việc có thể xử lý dữ liệu lên đến hàng ngàn, thậm chí hàng triệu, hàng tỉ GB được không? Copy 1 triệu GB qua mạng LAN Gigabit hết bao lâu? 1 triệu GB = 8 triệu Gb. Copy hết khoảng 3 tháng (sử dụng đường truyền tốc độ cao Gigabit/s

Đặt vấn đề Bạn từng xử lý dữ liệu có kích thước lớn nhất là bao nhiêu MB/GB? Bạn dùng hệ quản trị cơ sở dữ liệu nào để lưu trữ? Access, SQL, MySQL hay Oracle?. Giới hạn kích thước cơ sở dữ liệu trong SQL Server (Bản SQL Server Express) là bao nhiêu GB? Các công cụ và môi trường bạn biết/làm việc có thể xử lý dữ liệu lên đến hàng ngàn, thậm chí hàng triệu, hàng tỉ GB được không? Copy 1 triệu GB qua mạng LAN Gigabit hết bao lâu? Giải quyết?? 1 triệu GB = 8 triệu Gb. Copy hết khoảng 3 tháng (sử dụng đường truyền tốc độ cao Gigabit/s

Nội dung HADOOP Giới thiệu về Hadoop Các thành phần trong Hadoop Cấu hình và chạy Hadoop Demo chương trình đếm từ trong văn bản So sánh tốc độ với chương trình chạy trên máy đơn

Giới thiệu Hadoop Hadoop là một hệ thống lưu trữ, xử lý dữ liệu song song và phân tán. Được Google phát triển từ năm 2002 Hiện có nhiều tổ chức và công ty lớn sử dụng: Yahoo, Google, Facebook,… Năm 2009, Hadoop đã giành chiến thắng khi sắp xếp 1 terabyte (=1000GB) dữ liệu trong vòng 209s, phá kỷ lục trước đó là 297s. Hadoop has been demonstrated on clusters of up to 4000 nodes. Sort performance on 900 nodes is good (sorting 9TB of data on 900 nodes takes around 1.8 hours) and improving using these non-default configuration values: Sort performances on 1400 nodes and 2000 nodes are pretty good too - sorting 14TB of data on a 1400-node cluster takes 2.2 hours; sorting 20TB on a 2000-node cluster takes 2.5 hours. The updates to the above configuration being:

Giới thiệu Hadoop Lưu trữ dữ liệu phân tán trên hệ thống Hadoop Distributed File System (HDFS) Mỗi Block có kích thước 64, 128,… MB

Giới thiệu Hadoop Xử lý song song và phân tán trên các nút Chương trình java sẽ được copy xuống các node và việc xử lý sẽ diễn ra tại node

Kiến trúc của Hadoop

Kiến trúc của HDFS

MapReduce framework Map phase: Chuyển dữ liệu ban đầu thành các cặp <Key, Value> bằng hàm Map Reduce phase: Tổng hợp/tính toán trên danh sách <Key, Value> từ Map phase và tạo ra kết quả cuối cùng. Bằng hàm Reduce

CÀI ĐẶT VÀ CẤU HÌNH HADOOP Cài đặt hadoop Chỉ việc download Hadoop tại địa chỉ (v1.1): http://mirrors.digipower.vn/apache/hadoop/common/hadoop-1.1.0/hadoop-1.1.0.tar.gz Giải nén và copy vào thư mục bất kỳ, ví dụ /home/hadoop Đặt thông số cho các file cấu hình trong thư mục /conf của hadoop, gồm: core-site.xml, mapred-site.xml, hdfs-site.xml, masters, slaves

CÀI ĐẶT VÀ CẤU HÌNH HADOOP Cấu hình các file (Ví dụ có 3 nodes, 1 là nút master: 192.168.1.10, 2 nút còn lại là slaves: 192.168.1.11 và 192.1.12).

Cấu hình cho mô hình Hadoop có 1 master và 2 slaves (node) Master node IP: 192.168.1.10 Slave1 (Data node) IP: 192.168.1.11 Slave2 (Data node) IP: 192.168.1.12

Cấu hình cho mô hình Hadoop có 1 master và 2 slaves (node) Master node IP: 192.168.1.10 Step 1: Sửa file /etc/hosts Trên cả 3 nodes Slave1 (Data node) IP: 192.168.1.11 Slave2 (Data node) IP: 192.168.1.12

Cấu hình cho mô hình Hadoop có 1 master và 2 slaves (node) STEP 2: Master node IP: 192.168.1.10 Slave1 (Data node) IP: 192.168.1.11 Slave2 (Data node) IP: 192.168.1.12 Thêm đường dẫn đến Java trong file /etc/bash.bashrc trên cả 3 nodes export HADOOP_HOME=/home/quynm/hadoop export JAVA_HOME=/usr/lib/jvm export HIVE_HOME=/home/quynm/hive-0.8.1 export PATH=$PATH:$JAVA_HOME/bin export PATH=$PATH:$HADOOP_HOME/bin export PATH=$PATH:$HIVE_HOME/bin

Cấu hình cho mô hình Hadoop có 1 master và 2 slaves (node) Master node IP: 192.168.1.10 Đặt giá trị một số thuộc tính trong file cấu hình ở cả 3 Nodes Core-site.xml <name>fs.default.name</name> <value>hdfs://master:54310</value> Hdfs-site.xml <name>dfs.replication</name> <value>2</value> Mapred-site.xml <name>mapred.job.tracker</name> <value>hdfs://master:54311</value> Masters Master Slaves Slave1 Slave2 Slave1 (Data node) IP: 192.168.1.11 Slave2 (Data node) IP: 192.168.1.12

Chạy chương trình Hadoop Biên dịch chương trình viết trong Java sang file rar. Vd: Chạy chương trình wordcount (có sẵn trong hadoop) B1.Copy file lên server: hadoop dfs -copyFromLocal /home/quynm/hadoop/wordcountdata/ /user/root/ B2.Chạy: hadoop jar /home/quynm/hadoop/hadoop-examples-1.0.0.jar wordcount /user/root/wordcountdata /user/root/wordcount-out

Màn hình chạy Hadoop

Xem tiến trình xử lý trên web

So sánh tốc độ với chương trình chạy trên máy đơn Chạy bộ dữ liệu lớn (lên đến 240 triệu bản ghi) chứa các Flows gói tin trong mạng. Internet LAN WAN Hadoop Data nodes Hadoop Name node Flow export enabled

So sánh (Benchmark) Kết quả thử nghiệm