Download presentation
Presentation is loading. Please wait.
1
מגישים תמיר כהן ודניאל גלפרסון
2
פתיחה Big Data Distributed storage and Distributed processing
Apache Hadoop סיכום
3
רקע Big data הוא מונח הבא לתאר כמות ענקית של מידע לא מובנה שחברה מייצרת. מידע שייקח זמן רב ויעלה כסף רב כדי להטעין אותו למבנה נתונים לצרוך ניתוחו. הכוונה בכמות גדולה של מידע מתייחס למידע בסדר גודל של Petabytes וExabytes .
4
דוגמאות ל-Big Data לפייסבוק עולים בכל יום כ350 מיליון תמונות תמונות דבר הדורש Petabytes רבים של אחסון. הבורסה בניו-יורק מייצרת Petabyte של מידע על עברות בבורסה ביום אחד. Ancestry.com האתר הגנאלוגיה מאחסן בסביבות 2.5 Petabyte של מידע.
5
הבעיה בעיבוד Big Data Year Standard Hard Drive Size (in Mb) 1990 1370
2010 Year Data Transfer Rate (Mbps) 1990 4.4 2010 100
6
בהינתן שבזמן קריאת הדיסק לא התקבל כשל
הבעיה בעיבוד Big Data מהירות העברה היא Mb/s 100 הגודל של דיסק סטנדרטי הוא 1 Terabyte הזמן לקריאת כל הדיסק הוא 1000 שניות=3 שעות בהינתן שבזמן קריאת הדיסק לא התקבל כשל
7
הפתרונות האינטואיטיביים
חישוב מבוזר: עיבוד המידע מחולק בין מחשבים עצמאים. כל מחשב מעבד חלק קטן מהמידע. המחשבים מחוברים לאחד לשני דרך הרשת. חסרונות שיטה זו: כשל חומרה\איבוד מידע- שימוש ברכיבי חומרה רבים מעלה את הסיכויים לכשל באחד הרכיבים. שילוב הנתונים לאחר עיבודם ברכיבי החומרה השונים.
8
הפתרון האולטימטיבי Apache Hadoop
פרויקט קוד פתוח של מוסד התוכנה אפאצ'י המגדיר מסגרת תוכנה ליישום מבוזר המעבד כמויות גדולות של נתונים. מאפשר עבודה של אלפי יחידות עיבוד(Nodes) המטפלות בו זמנית במידע בהיקף של פטה-בתים. העבודה היא על קבצים גדולים המבוזרים על פני אשכולות מחשבים תוך שימוש במודל תכנותי פשוט.
9
כיצד Hadoop עונה על הבעיות בחישוב מבוזר
הימנעות אובדן נתונים היא באמצעות שכפול: עותקים יתירים של הנתונים נשמרים על ידי המערכת, כך במקרה של כישלון, יש עותק נוסף זמין. מערכת הקבצים Distributed Hadoop (HDFS) מטפלת בבעיה זו. הבעיה השנייה נפתרת על ידי דגמיMap Reduce , שהיא שיטה ותיקה לעיבוד מקבילי עבור בעיות שמאפשרות חלוקה של בסיס הנתונים. כל המודולים ב- Hadoop נועדו עם הנחת היסוד כי כשלים בחומרה נפוצים צריכים להיות מטופלים באופן אוטומטי על ידי המסגרת.
10
Hadoop Distributed File System (HDFS)
זוהי תשתית האחסון (File System ) המבוזרת של Hadoop. מטרתו לשמור קבצים גדולים ולאפשר כתיבות סדרתיות גדולות וקריאות סדרתיות גדולות בצורה יעילה. מערכת הקבצים שקופה למשתמש.
11
Hadoop Distributed File System (HDFS)
בשיטה זו הקבצים מחולקים לחתיכות בינוניות (ברירת המחדל MB128). חלקי הקבצים מחולקים על פני שרתים רבים. כל חתיכה נשמרת במספר שרתים שונים לצורך שרידות. רכיב ה-Name Node אחראי על תהליך מיפוי חתיכות הקבצים על פני שרתי הנתונים המאכסנים את המידע הנקראים Data Nodes.
14
Hadoop Map/Reduce ממשק תכנותי לכתיבת תוכניות מקביליות.
התשתית מבצעת את כל השלבים לצורך עיבוד מקבילי של זוג הפונקציות על כל קבצי הקלט על מספר רב של שרתים, ומטפלת לבד בתזמון העבודה וטיפול בשגיאות בזמן ריצה.
15
Hadoop Map/Reduce Map(k1,v1) → list(k2,v2)
16
Hadoop Map/Reduce הפונקציה השנייה – Reduce (שלב הצמצום):
בשלב הצמצום מתקבל כקלט מפתח k2 ועבורו כל הנתונים שהתקבלנו בשלב המיפוי. פונקציית הReduce() מורצת פעם יחידה עבור מפתח זה, ומפיקה עבורו פלט. Reduce(k2, list (v2)) → list(v3) מערכת הMapReduce אוספת וממיינת את תוצאות פונקציות הReduce() ומאחדת אותם לפלט המהווה פתרון כולל לבעיה.
17
Hadoop Map/Reduce בהינתן משימה חישובית המערכת מוצאת את חלקי הקבצים שהמשימה מתייחסת אליהם. המשימה מחולקת בין data nodes השונים המכילים את חלקי הקבצים והחישובים מתבצעים באופן מקומי. לאחר עיבוד הנתונים מהdata nodes הפלט נאסף ליחידה אחת שממנה מפיקים את התוצר הסופי. הjob tracker אחראי על חלוקת המשימות, ומחליט באיזה nodes יתבצעו המשימות. הtask tracker אחראים על החישוב המתבצע ב data nodes באמצעות Map Reduce.
19
מבנה Hadoop Cluster מורכבת מ:
(יחיד) Master: המכיל את רכיבי הname node – וה- job tracker. ה - name node אחראי על שכבת ה Distributed storage (HDFS) . ה - job tracker אחראי על שכבת הDistributed Processing . (רבים)Slaves : מכילים את רכיבי הdata node – וה- task tracker. ה - data node קשור לשכבת ה -Distributed storage (HDFS) . ה - task tracker קשור לשכבת ה -Distributed Processing .
21
רכיבים נוספים - Common Hadoop
Common Hadoop מכיל ספריות הכלים הנדרשים על ידי מודולים אחרים ב-Hadoop. Common Hadoop מספק אבסטרקציה ברמה של מערכת קבצים ומערכת הפעלה, מנוע של MapReduce ואת HDFS. הוא מכיל את את הקבצים והסקריפטים שמאפשרים את ההרצה של Hadoop.
22
התפתחות ה-Hadoop עם הזמן, חברות שונות (בעיקר יאהו! ופייסבוק) כתבו בעצמם שכבות תוכנה נוספות מעל HDFS ו-MapReduce שכבות אלו נועדו להקל על הפיתוח והתפעול של הסביבות שלהם או כדי לנצל את התשתית המקבילית כדי לפתור בעיות נוספות. דוגמאות לפרויקטים משלימים: Hive, HBase, Phoenix, Spark,, Cloudera Impala, Flume, Sqoop, Oozie, Storm
23
Apache Pig זוהי שכבת תוכנה שמטרתה לפשט כתיבת תכניותMapReduce שפותחה במקור על ידי Yahoo! היא כוללת שפת High-Level בשםPig Latin להגדרת תכניות ריצה אשר מתורגמות אוטומטית לתוכניות MapReduce. שימושית למשל לכתיבת תכנית מעל Hadoop ומקטינה למינימום את הצורך לכתוב בג'אווה.
24
Apache Hive תשתית של מחסן נתונים שפותחה על ידי פייסבוק במטרה לספק כלים לניתוח וסיכום של מידע. Apache Hive תומכת בניתוח סט רחב של נתונים אשר ממוקם ב- HDFS היא כוללת שפה בסיסית דמויי SQL בשם HiveQL אשר מתורגמת בזמן ריצה לסט תוכניות MapReduce כיום חברות נוספות עושות שימוש ב- Apache Hive כגון Netflix ו- Financial Industry Regulatory Authority
25
Apache HBase שכבת אחסון נתונים מבוזרת של רשומות שנכתבה במקור על ידי Powerset. היא ממומשת ישירות מעל HDFS , ותומכת בעמודות דינמיות (כלומר, אין צורך להגדיר מראש את רשימת העמודות בכל טבלה) באמצעות Hbase ניתן לאחסן כמות קטנה של מידע רלוונטי מתוך כמות גדולה מאוד של מידע. ניתן להשתמש ב- Hbase לצורך הפלט או הקלט של גובים של MapReduce שמורצים ב-Hadoop.
27
פייסבוק משתמשים בHadoop לשמירת העתקים של יומנים (log) וקבצים כמקור לניתוח מידע ולמידה חישובית .
המערכת מחולקת ל2 clusters: - הראשון עם 1100 מכונות, 8800 ליבות ו Petabyte 12 של מידע. - השני עם 300 מכונות, 2400 ליבות ו3 Petabyte של מידע.
28
יאהו משתמשים בHadoop לזיהוי פריצות ומערכת אנטי ספאם למוצרי הפרסום שלהם.
יאהו משתמשת ביותר בלמעלה מ100,000 מעבדים במעל 40,000 מכונות. הcluster הכי גדול כולל 4500 מכונות ומחזיק כ Petabytes 455 של מידע.
29
סיכום בעיות ב- Big Data ו חישוב מבוזר.
Apache Hadoop כפיתרון לחישוב ואחסון מבוזר. התפתחות של Hadoop. שימושים ל Hadoop בעולם האמיתי.
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.