Hadoop&HDFS 1. OUTLINE Introduction Architecture Hadoop Distribution File System – Architecture of HDFS NameNode DataNode HDFS Client – Replica Management.

Slides:



Advertisements
Similar presentations
網際網路資料庫連結 2004 Php Web Programming. 上完這段課程,你將學會  一般靜態網頁與互動式網頁的區別。  網際網路上大量資料的存取。  資料庫的角色與功能。  Web Server 的角色與功能。  網際網路資料庫的應用。  基本的程式寫作技巧及網頁的應用。
Advertisements

建立使用案例敘述 --Use Case Narrative
EBI European Bioinformatics Institute. EBI The European Bioinformatics Institute (EBI) part of EMBL is a centre for research and services in bioinformatics.
第七章 抽樣與抽樣分配 蒐集統計資料最常見的方式是抽查。這 牽涉到兩個問題: 抽出的樣本是否具有代表性?是否能反應出母體的特徵?
學習C++的基本語法 認識關鍵字與識別字的不同 學習程式碼偵錯的流程 學習如何提高程式的可讀性
資管同學的一些建議 高雄大學資管系 蕭漢威. 資管的生活 打 BBS 玩連線遊戲 上網看電影 聽 MP3 做網頁 唸書、考試 … 畢業時你具備了什麼能力 ?? 是不是還該多學些什麼 ??
 課程網頁 :  講師姓名 : 張苑 ( ㄩㄢˋ ) 瑩  實驗室 : 資電館 734 室 
如何將數字變成可用之資訊 現代化資料處理與應用概念. 如何將數字變成可用之資訊 人最容易接受的訊息是圖像化資訊。 在一堆數字中,要進行比較分析,一般會使用表格形 式計算與分析。 所以一般我們會將數字依關聯性, 轉換成表格計算與分析。 此表格一般稱試算表或稱表格。 再將結果轉換為圖表,進行比較與分析。
目的 「升學調查系統」,幫助某一學校調查並記錄 其歷屆畢業生報考研究所的情況、未來提供給 學弟妹作參考,以及學校推廣之相關工作。 功能需求 紀錄並追蹤歷屆畢業生升學的狀態 協助畢業生做升學輔導 未來提供學弟妹作查詢、參考 計算上榜率、前十大學校上榜率.
Using High and Low Level Communication in Agile Method Presenter: 花金地.
無名哇哇哇 ?. 封包 header & 內文 Form 位置 找到發送 POST 的封包 找到密碼位置.
CH-23 失效原因樹分析 FTA Failure Tree Analysis. 前言 為了提昇系統可靠度,產品在開發階段,利 用類似品管方法之魚骨圖分析手法,找出潛在 缺點,並加以改進,此種分析方法稱之為失效 原因樹分析法 (Failure Tree Analysis)– FTA 。 FTA 是一種系統化的方法,可以有效的找出.
1 Advanced Chemical Engineering Thermodynamics Appendix BK The Generalized van der Waals Partition Function.
嵌入式系統概論 - 以 S3C2440 核心為架構 CH16 、第一個 Linux 程式設計. 嵌入式系統概論 - 以 S3C2440 核心為架構 許永和 大綱  16.1 撰寫第一個 Linux 程式  16.2 利用 minicom 與開發平台做溝通  16.3 利用.
Chapter 0 Computer Science (CS) 計算機概論 教學目標 瞭解現代電腦系統之發展歷程 瞭解電腦之元件、功能及組織架構 瞭解電腦如何表示資料及其處理方式 學習運用電腦來解決問題 認知成為一位電子資訊人才所需之基本條 件 認知進階電子資訊之相關領域.
1.1 電腦的特性 電腦能夠快速處理資料:電腦可在一秒內處理數百萬個 基本運算,這是人腦所不能做到的。原本人腦一天的工 作量,交給電腦可能僅需幾分鐘的時間就處理完畢。 電腦能夠快速處理資料:電腦可在一秒內處理數百萬個 基本運算,這是人腦所不能做到的。原本人腦一天的工 作量,交給電腦可能僅需幾分鐘的時間就處理完畢。
各種線上電子資源的特異功能 STICnet 的 SDI 專題訂閱服務 2003/4/28 修改. 無論校內外皆可使用。連線至
Intelligent Systems Mu-Chun Su Department of Computer Science & Information Engineering National Central University.
1 單元三 查詢結果的引用分析 Web of Science 利用指引 查看出版及被引用情況 在查詢結果的清單中,可以瀏覽近 20 年來查詢主題出版和被引用的情況。
From: BOOKS ONLINE 1 Safari Tech Books Online Safari Business Books Online 電子書資料庫.
JAVA 程式設計與資料結構 第十章 GUI Introdution III. File Chooser  File Chooser 是一個選擇檔案的圖形介面, 無論我們是要存檔還是要開啟檔案,使 用這個物件都會讓我們覺得容易且舒適。
具備人臉追蹤與辨識功能的一個 智慧型數位監視系統 系統架構 在巡邏模式中 ,攝影機會左右來回巡視,並 利用動態膚色偵測得知是否有移動膚色物體, 若有移動的膚色物體則進入到追蹤模式,反之 則繼續巡視。
圖片索引專題 指導教授:陳淑媛 教授 黃伯偉 林育瑄. 動機 & 理念  目前圖像檢索系統中使用的大多都為利用文字 標籤圖像或是圖像輪廓特徵來進行搜尋,然而 輪廓特徵的缺點卻是所有組成圖像的線條都要 逐一處理相當耗時。  所以本研究的目標在於,提出一個以像素點為 特徵的有效率與正確率的圖像檢索演算法實作。
第 1 章 PC 的基本構造. 本章提要 PC 系統簡介 80x86 系列 CPU 及其暫存器群 記憶體: Memory 80x86 的分節式記憶體管理 80x86 的 I/O 結構 學習組合語言的基本工具.
軟體保護技術及其弱點 序列號保護與弱點. 組員名單 資訊三乙 D 吳俊緯 資訊三乙 D 吳俊緯 資訊三乙 D 陳品端 資訊三乙 D 陳品端.
Introduction to Java Programming Lecture 17 Abstract Classes & Interfaces.
智慧藏科技知識庫使 用說明 呂明欣 國立政治大學資訊科學系機器智能實驗室 語言教學研究中心 2006/12/5.
資源整合查詢系統. (2) 找尋資料時面臨的問題 1. 如何取得檢索結果的全文或相關資料 ? Ex: GoogleScholar, ISI SCI? 2. 如何看到參考文獻 (Citation, Reference) 的全文 ? 3. 該從那個資料庫開始查 ? 4. 如何分類儲存查詢結果 ? 5.
最新計算機概論 第 5 章 系統程式. 5-1 系統程式的類型 作業系統 (OS) : 介於電腦硬體與 應用軟體之間的 程式,除了提供 執行應用軟體的 環境,還負責分 配系統資源。
8-1 Chapter 8 技術與流程 組織的技術 製造業的核心技術 服務業的核心技術 非核心技術與組織管理 工作流程的相依性.
Ubiquitous News(Unews) 的設計與實作 指導教授:黃毅然 教授 學生:葉雅琳 系別:資訊工程學系.
1 Netlibrary 電子書 Netlibrary 創始於 1998 年,是世界知名的電子書資 料庫,提供 450 多家出版社所出版近 100,962 ( 止)本的電子書,且以每月 2,000 本的 速度增加中。其中 80% 屬於學術性圖書,其餘 20% 一般圖書, 90% 以上為.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參 資料蒐集的方法.
行政院國家科學委員會工程技術發展處自動化學門 * 試以國立成功大學製造工程研究所 鄭芳田教授 產學合作計畫 : 智慧預測保養系統之設計與實作 成果報告盤點為範例 國科會工程處專題計畫成果典藏 自動化學門成果報告盤點範例.
1 單元四 個人化服務 Web of Science 利用指引. 2 個人化服務 Sign In 登入 My EndNote Web 使用 EndNote Web 者可登入 My Citation Alert 查看或修改先前設定的引用通告 My Saved Searches 查看或更改先前儲存過的檢索.
Unit C: Analysing data characteristics 主要參考資料來源 : KPMG ACL 課程講義資料 PriceWaterHouseCooper ACL 課程講義資料 ACL Training Materials.
1 CHAOYANG UNIVERSITY OF TECHNOLOGY 朝 陽 科 技 大 學 研 究 發 展 處 專案計畫審查辦法說明會 報告人:洪處長弘祈.
生產系統導論 生產系統簡介 績效衡量 現代工廠之特徵 管理機能.
教材名稱:網際網路安全之技術及其應用 (編號: 41 ) 計畫主持人:胡毓忠 副教授 聯絡電話: 教材網址: 執行單位: 政治大學資訊科學系.
Chapter 17 Windows API 程式入門 VC++ 與 WindowsVC++ 與 Windows 建構遊戲設計的舞台 建構遊戲設計的舞台.
6-2 認識元件庫與內建元件庫 Flash 的元件庫分兩種, 一種是每個動畫專 屬的元件庫 (Library) ;另一種則是內建元 件庫 (Common Libraries), 兩者皆可透過 『視窗』功能表來開啟, 以下即為您說明。
1 高等演算法 授課老師 : 陳建源 研究室 : 法 401 網站
1 Introduction to Java Programming Lecture 2: Basics of Java Programming Spring 2008.
Management Abstracts Retrieval System; MARS 檢索操作.
元智大學資訊工程學系 系統實驗室 1 以 Metalogy 的詮釋資料為依據 的跨圖書館搜尋引擎之設計 陳英祥陳哲民楊正仁 元智大學資訊工程學系2001/10/24.
1 Web of Science 利用指引 逢甲大學圖書館 參考服務組 單元六 個人化服務.
Image Interpolation Use SSE 指導教授 : 楊士萱 學 生 : 楊宗峰 日 期 :
演算法 8-1 最大數及最小數找法 8-2 排序 8-3 二元搜尋法.
2010 MCML introduction 製作日期: 2010/9/10 製作人 : 胡名霞.
校園網頁整合平台介紹 電算中心綜合業務組. 大綱 設計理念 功能介紹 實做 FAQ 特殊案例 Q&A.
廣電新聞播報品質電腦化 評估系統之研發 國立政治大學 資訊科學系 指導教授:廖文宏 學生:蘇以暄.
MANAGEMENT INFORMATION SYSTEMS 管理資訊系統. 企業的五大資源 人力 (Personnel) 人力 (Personnel) 資料 (Material) 資料 (Material) 機器設備 (Machines) 機器設備 (Machines) 金錢 (Money) 金錢.
The effect of task on the information-related behaviors of individuals in a work-group environment. The effect of task on the information-related behaviors.
網路介紹及其運用 講師陳炯勳. 5-2 IP 協定 ( 一 ) IP 協定運作 (1) – 網路成員:主機 (Host) 與路由器 (Router) – 路由表 – 電報傳輸運作.
概念性產品企劃書 呂學儒 李政翰.
技術與流程 本章內容 組織的技術 製造業的核心技術 服務業的核心技術 非核心技術與組織管理 工作流程的相依性 Chapter 8
資訊教育 吳桂光 東海大學物理系助理教授 Tel: 3467 Office: ST223 Office hour: Tue, Fri. (10-11am)
1 Introduction to Java Programming Lecture 2: Basics of Java Programming Spring 2009.
ArcINFO &Geodatabase 由 ESRI 產生 1970 ArcINFO 一開始被設計在迷你電 腦上, 後來逐漸發展, 在 UNIX 系統上也能 執行, 直到今天, 已經可以在不同的平台上 運作.
冷凍空調自動控制 - 系統性能分析 李達生. Focusing here … 概論 自動控制理論發展 自控系統設計實例 Laplace Transform 冷凍空調自動控制 控制系統範例 控制元件作動原理 控制系統除錯 自動控制理論 系統穩定度分析 系統性能分析 PID Controller 自動控制實務.
INFORMATION RETRIEVAL AND EXTRACTION 作業: Program 1 第十四組 組員:林永峰、洪承雄、謝宗憲.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 壹 企業研究導論.
Visual C++重點複習.
1 Introduction to Java Programming Lecture 2: Basics of Java Programming Spring 2010.
電機工程系 選課輔導說明會. 選課輔導說明會宗旨 電機系自 95 年開始,同步進行『工程教育 認證』以及『系科本位課程』兩大與學生 課程相關的認證計畫。 電機系自 95 年開始,同步進行『工程教育 認證』以及『系科本位課程』兩大與學生 課程相關的認證計畫。 本系每年至少一次的系教育諮詢委員會, 廣邀產業界、學界、家長、畢業生、在校.
Microsoft Excel.
第12章 團體溝通情境中的領導者.
第 1 章 PC 的基本構造. 本章提要 PC 系統簡介 80x86 系列 CPU 及其暫存器群 記憶體: Memory 80x86 的分節式記憶體管理 80x86 的 I/O 結構 學習組合語言的基本工具.
遠端北風資料庫 公佈時間: 2006/4/26 繳交截止時間: 2006/5/10. 作業目的 實作遠端資料庫瀏覽程式.
Presentation transcript:

Hadoop&HDFS 1

OUTLINE Introduction Architecture Hadoop Distribution File System – Architecture of HDFS NameNode DataNode HDFS Client – Replica Management 2

OUTLINE Introduction Architecture Hadoop Distribution File System – Architecture of HDFS NameNode DataNode HDFS Client – Replica Management 3

What is Hadoop? 4

Hadoop 起源 (2002~2004) 發起人- Doug Cutting Lucene – 用 Java 設計的高效能文件索引引擎 API – 索引文件中的每一字,讓搜尋的效率比傳統逐 字比較還要高的多 Nutch – 開放原始碼的網站搜尋引擎 – 利用 Lucene 函式庫開發 5

Hadoop 轉折點 Nutch 遇到處理大量網站資料的瓶頸 Google 發表三大關鍵技術 – SOSP 2003 : “The Google File System” – OSDI 2004 : “MapReduce : Simplifed Data Processing on Large Cluster” – OSDI 2006 : “Bigtable: A Distributed Storage System for Structured Data” 6

Hadoop 起源 (2004~Now) 參考 Google 提出的技術並先後於 Nutch 上實作 – 分散式檔案系統 Nutch Distributed File System (NDFS) – MapReduce 在 2006 年時, Nutch 把分散式計算 (Distributed Computing) 的部分獨立出來,稱 之為 Hadoop NDFS 改名為 Hadoop Distributed File System (HDFS) 7

Hadoop 的特色 在數據資料沒有相依性的情況下,可以有 效率的平行處理這些資料。 可以透過自動維護資料副本的功能,提供 容錯機制,讓錯誤發生時可自動回復。 可以提供可靠的資料儲存及分析處理的能 力。 8

Linux 9

Hadoop 的架構 (1/3) Hadoop Core HDFS MapReduce HBase Pig Chukwa Hive Avro ZooKeeper Hadoop 專案包含一些相關子專案 10

Hadoop 的架構 (2/3) – Hadoop Core : 核心部分包含一些分散式檔案系統及一般輸出入的重要 元件跟介面。 – Avro : 一個有效率,跨越各種語言的 RPC 的資料序列化系統。 – MapReduce : 一個分散式資料處理模式及執行環境。 – HDFS : 一個分散式檔案系統。 – Pig : 處理大量資料集的資料流語言與執行環境。 11

Hadoop 的架構 (3/3) – HBase : 一個以列 (row) 為導向的分散式資料庫系統。 – ZooKeeper : 一個分散式協同服務,可以提供分散式應用程式的 原始指令。 – Hive : 一個分散式資料倉儲系統,管理 HDFS 上所儲存的資 料,並提供 SQL 為基礎的查詢語言。 – Chukwa : 一個分散式資料收集及分析系統。 12

Google References The Google File System [2003] MapReduce [2004] Bigtable [2006] GoogleHadoop Google File SystemHDFS MapReduceMapReduce Framework BigtableHBase 13

Hadoop 與 Google 架構的不同 開發團隊 GoogleApache 贊助者 GoogleYahoo, Amazon 資源 open documentopen source 作業系統 LinuxLinux / GPL 搜尋引擎 GoogleNutch 程式撰寫模式 MapReduce Hadoop MapReduce 檔案系統 GFSHDFS 資料庫系統 BigtableHBase 特定領域的程式語言 Hive, PigSawzall 協調服務 ZooKeeperChubby 14

OUTLINE Introduction Architecture Hadoop Distribution File System – Architecture of HDFS NameNode DataNode HDFS Client – Replica Management 15

OUTLINE Introduction Architecture Hadoop Distribution File System – Architecture of HDFS NameNode DataNode HDFS Client – Replica Management 16

Architecture of HDFS NN: NameNode DN: DataNode Cluster HDFS Client NNDN 17

File Storing 18 Block 64MB Block 64MB File 100MB File 100MB Temp Block 36MB Temp Block 36MB Tempo Block 64MB Tempo Block 64MB Block 64MB Block 64MB DN DN: DataNode Block 36MB Block 36MB Block 36MB Block 36MB Block 36MB Block 36MB Block 64MB Block 64MB

OUTLINE Introduction Architecture Hadoop Distribution File System – Architecture of HDFS NameNode DataNode HDFS Client – Replica Management 19

Responsibilities of NameNode Maintaining the namespace tree and the mapping of file blocks to DataNodes Replica management 20

Namespace Files and directories are represented by inodes. The inode data and the list of blocks belonging to each file comprise to metadata of the name system called image. The persistent record of the image called checkpoint. The modification log of the image called journal. 21

Namespace Storing NameNode keeps the image in RAM. Checkpoint and journal are stored in the local host’s native files system. 22

Checkpoint & Journal 23 JournalCheckpoint

NameNode’s Version 24

Protecting the Critical Information If ether the checkpoint or the journal is missing, or be corrupt, the namespace will be lost party or entirely. Storing checkpoint and journal in multiple store directories and NFS server Creating periodic checkpoints by either CheckpointNode or BackupNode, and storing checkpoint in it. 25

CheckpointNode Options Downloading checkpoint and journal from NameNode Combining the checkpoint and the journal to create a new checkpoint and an empty journal Returning the new checkpoint back to the NameNode 26

BackupNode BackupNode like a Checkpoint, but in addition maintains an image in memory. 27

OUTLINE Introduction Architecture Hadoop Distribution File System – Architecture of HDFS NameNode DataNode HDFS Client – Replica Management 28

Responsibilities of Each DataNode Storing blocks and theirs metadata Sending block report and heartbeats to the NameNode 29

Blocks &Metadata 30

DataNode’s Version 31

Verification Log 32

Block Report Once an hour Contains block id, generation stamp and the size of each block Is important information for Replica Management 33

Heartbeats Once every three seconds To confirm the block replicas are available Contains total storage capacity, fraction of storage in use and number of data transfers currently in progress NameNode controls the DataNode by replying the heartbeats 34

OUTLINE Introduction Architecture Hadoop Distribution File System – Architecture of HDFS NameNode DataNode HDFS Client – Replica Management 35

Block Writing NN: NameNode DN: DataNode Cluster Request DN List Write HDFS Client NNDN 36

Writing a Block 37

File Appending File Data Appended Data Write Read Client 38

Block Reading NN: NameNode DN: DataNode Cluster Request DN List Read HDFS Client NNDN 39

OUTLINE Introduction Architecture Hadoop Distribution File System – Architecture of HDFS NameNode DataNode HDFS Client – Replica Management 40

Topology Example N00 N01 N02 N10 N11 N12 Rack0 Rack1 41

Read Example N00 N01 N02 N10 N11 N12 Rack0 Rack1 BR Client BR Block Replica Selected Replica 42

Distance Example 1 N00 N01 N02 N10 N11 N12 Rack0 Rack1 BR Client BR Distance is 4 Block Replica BR Selected Replica 43

Distance Example 2 N00 N01 N02 N10 N11 N12 Rack0 Rack1 BR Client BR Distance is 2 Block Replica BR Selected Replica 44

Block Placement N00 N01 N02 N10 N11 N12 Rack0 Rack1 BR Client BR Block Replica 45

Only one replica at one node 46

Most two replicas in the same rack If the number of nodes Is twice the number of racks 47

Replication Management Over-Replicated Under-Replicated 48

Over-Replicated N00 N01 N02 N10 N11 N12 Rack0 Rack1 BR 50% 51% Block Replica Disk Space Utilization 49

Under-Replicated N00 N01 N02 N10 N11 N12 Rack0 Rack1 BR Block Replica BR 50

Under-Replicated N00 N01 N02 N10 N11 N12 Rack0 Rack1 BR Block Replica BR 51

Block Scanner To Verify the blocks 52

Balancer N00 N01 N02 N10 N11 N12 Rack0 Rack1 52% Block Replica Disk Space Utilization 51%50%62% BR Cluster Utilization 51% Threshold Value 10% 40%51% BR 53

Key Requirement N00 N01 N02 N10 N11 N12 Rack0 Rack1 62%52% Block Replica Disk Space Utilization 51%40%51% BR Cluster Utilization 51% Threshold Value 10% 50% NO BLOCK CAN BE MOVED 54