מגישים תמיר כהן ודניאל גלפרסון

Slides:



Advertisements
Similar presentations
ממיבחניםC שאלות ++.
Advertisements

תוכנה 1 סמסטר א ' תשע " ב תרגול מס ' 7 * מנשקים, דיאגרמות וביטים * לא בהכרח בסדר הזה.
1 Formal Specifications for Complex Systems (236368) Tutorial #4 Refinement in Z: data refinement; operations refinement; their combinations.
Map-Reduce Input: a collection of scientific articles on different topics, each marked with a field of science –Mathematics, Computer Science, Biology,
מבוא כללי למדעי המחשב תרגול 1. כתיבת התוכנה כתיבת התוכנית עצמה נעשית ע " י כתיבת קובץ טקסט רגיל אשר תוכנו מקיים את כללי שפת C כתיבת התוכנית עצמה נעשית.
היכרות עם אקסל 1. 2 נושאי המפגש היכרות עם אקסל – אלכסוני הקסם שימושים בהוראה: מחשבון סודי ופעילות לחנוכה שימושים נוספים: ממוצע.
תמחיר תהליך. מערכת תמחיר תהליך מערכת זו נועדה לספק מידע, כמו מערכת תמחיר הזמנה, על עלות המוצרים שיוצרו בתקופה ועל עלות המוצרים שבתהליך הייצור בסוף התקופה.
רקורסיות נושאי השיעור פתרון משוואות רקורסיביות שיטת ההצבה
משטר דינמי המשך – © Dima Elenbogen :55 חידה שכדאי לעבור עליה: 2011/ho/WCFiles/%D7%97%D7%99%D7%93%D7%94%20%D7%A2%D7%9D%20%D7%91%D7%95%D7%A0%D7%95%D7%A1.doc.
חורף - תשס " ג DBMS, Design1 שימור תלויות אינטואיציה : כל תלות פונקציונלית שהתקיימה בסכמה המקורית מתקיימת גם בסכמה המפורקת. מטרה : כאשר מעדכנים.
מכון ויצמן למדע - שמוליק מתוך 8 חישוב מקבילי ומבוזר מה זה יחידה חמישית במדעי המחשב... n ענף מתקדם במדעי המחשב העוסק במערכות ממוחשבות מרובות ישויות.
שאלות חזרה לבחינה. שאלה דיסקים אופטיים מסוג WORM (write-once-read-many) משמשים חברות לצורך איחסון כמויות גדולות של מידע באופן קבוע ומבלי שניתן לשנותו.
ספר סקיצות ספר סקיצות קלאסי עם יכולות ממוחשבות. ספר סקיצות רגיל  יתרונות : נוח לנשיאה, מהיר ונוח לעבודה, עמיד.  חסרונות : הכול ידני, קשה לקבל דיוקים.
חורף - תשס " ג DBMS, צורות נורמליות 1 צורה נורמלית שלישית - 3NF הגדרה : תהי R סכמה רלציונית ותהי F קבוצת תלויות פונקציונליות מעל R. R היא ב -3NF.
Map-Reduce Input: a collection of scientific articles on different topics, each marked with a field of science –Mathematics, Computer Science, Biology,
מערכות הפעלה ( אביב 2008) חגית עטיה © 1 מימוש מערכת הקבצים  תכונות של דיסקים.  מימושים בסיסיים.  קצת על מימושים מתקדמים.  אמינות מערכת הקבצים.
1 Formal Specifications for Complex Systems (236368) Tutorial #5 Refinement in Z: data refinement; operations refinement; their combinations.
א " ב, מילים, ושפות הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 1.
א " ב, מילים, ושפות הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 1.
Formal Specifications for Complex Systems (236368) Tutorial #6 appendix Statecharts vs. Raphsody 7 (theory vs. practice)
1 מבוא למדעי המחשב מבנה של תכנית. 2 מבנה של תכנית – חלוקה לקבצים  תכנית בשפת C הינה אוסף של הגדרות של:  משתנים (חיצוניים)  פונקציות  ניתן לפרוש תכנית.
תכנות תרגול 6 שבוע : תרגיל שורש של מספר מחושב לפי הסדרה הבאה : root 0 = 1 root n = root n-1 + a / root n-1 2 כאשר האיבר ה n של הסדרה הוא קירוב.
1 חישוב ואופטימיזציה של שאילתות חלק 2 Query Evaluation and Optimization Part 2.
מערכות הפעלה ( אביב 2009) חגית עטיה ©1 מערכת קבצים log-structured  ה log הוא העותק היחיד של הנתונים  כאשר משנים בלוק (data, header) פשוט כותבים את הבלוק.
א " ב, מילים, ושפות הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 1.
A. Frank File Organization Various Parameter Issues.
A. Frank File Organization Transfer Time/Rate Parameters.
Data Structures, CS, TAU, Perfect Hashing 1 Perfect Hashing בעיה : נתונה קבוצה S של n מפתחות מתחום U השוואה ל - Hash : * טבלה קבועה (Hash רגיל - דינאמי.
תכנות תרגול 5 שבוע : הגדרת פונקציות return-value-type function-name(parameter1, parameter2, …) הגדרת סוג הערכים שהפונקציה מחזירה שם הפונקציהרשימת.
Remember Remember The 5 th of November. תרגול 2 קובץ סדרתי.
1 Data Structures, CS, TAU, Perfect Hashing בעיה: נתונה קבוצה S של n מפתחות מתחום U השוואה ל- Hash : * טבלה קבועה (Hash רגיל - דינאמי) * רוצים זמן קבוע.
משטר דינמי – © Dima Elenbogen :14. הגדרת cd ו -pd cd - הזמן שעובר בין הרגע שראשון אותות הכניסה יוצא מתחום לוגי עד אשר אות המוצא יוצא מתחום.
מערכים עד היום כדי לייצג 20 סטודנטים נאלצנו להגדיר עד היום כדי לייצג 20 סטודנטים נאלצנו להגדיר int grade1, grade2, …, grade20; int grade1, grade2, …, grade20;
מערכות הפעלה ( אביב 2006) חגית עטיה © 1 סיכום הקורס.
מבוא למדעי המחשב תרגול 3 שעת קבלה : יום שני 11:00-12:00 דוא " ל :
מבוא למדעי המחשב, סמסטר א ', תשע " א תרגול מס ' 1 נושאים  הכרת הקורס  פסאודו - קוד / אלגוריתם 1.
A. Frank File Organization Hardware Size Parameters.
מה היום ? - - חזרה מהירה. - קריאה וכתיבה לקבצים. - בניית תוכנית כתיבה low-level - בניית ערוץ גלובלי והדגמה מול חומרה - low-level DAQ, פולימורפיזם וטריגר.
1 מבוא למדעי המחשב סיבוכיות. 2 סיבוכיות - מוטיבציה סידרת פיבונאצ'י: long fibonacci (int n) { if (n == 1 || n == 2) return 1; else return (fibonacci(n-1)
Points on a perimeter (Convex Hull) קורס – מבוא לעבוד מקבילי מבצעים – אריאל פנדלר יאיר ברעם.
Text to speech In Mobile Phones איתי לוי. הקדמה שימוש בהודעות טקסט על המכשירים הסלולארים היא דרך תקשורת מאוד פופולארית בימינו אשר משתמשים בה למטרות רבות,
11 Introduction to Programming in C - Fall 2010 – Erez Sharvit, Amir Menczel 1 Introduction to Programming in C תרגול
תכנות תרגול 1 שבוע : צור קשר מתרגל – ליעם רודיטי, ביה " ס למדעי המחשב. מתרגל – ליעם רודיטי, ביה " ס למדעי המחשב. דואר אלקטרוני :
CCN CCN Central Control Network Part A presentation Winter & Spring 2002/03 Student : Kormas Tal Guide : Gerber Alex.
SEMINAR ON Guided by: Prof. D.V.Chaudhari Seminar by: Namrata Sakhare Roll No: 65 B.E.Comp.
Yaron Doweck Yael Einziger Supervisor: Mike Sumszyk 1.
שיאון שחוריMilOSS-il מוטיבציה  python זה קל ו C זה מהיר. למה לא לשלב?  יש כבר קוד קיים ב C. אנחנו רוצים להשתמש בו, ולבסס מעליו קוד חדש ב python.
דוח אמצע סמסטר אביב תשס"ב 2002 שם הפרויקט :סביבת בדיקה ל PCIX PCIX environment מנחה : איתי אדר מגישים : שמיל ניסימוב גוילי יואב הטכניון.
© Keren Kalif JDBC קרן כליף.
מספרים אקראיים ניתן לייצר מספרים אקראיים ע"י הפונקציה int rand(void);
Tirgul 12 Trees 1.
Formal Specifications for Complex Systems (236368) Tutorial #1
XML מבוא כללי MCSD Doron Amir
מבוא למדעי המחשב סיבוכיות.
תירגול 14: מבני נתונים דינאמיים
מערכות בסיסי נתונים ספרות Database System Concepts/ Korth, Siberschatz
עבודה עם נתונים באמצעות ADO.NET
פיתוח אפליקציות אסינכרוניות Windows 10
השוואת נתונים למודל הסתברותי - כללית
מציגים: דניאל קרום ורותם איקו סמינר בתקשורת מכללת הדסה
מבוא ל Maven אליהו חלסצ'י תכנות מתקדם תרגול מספר 3
דרכים לאירכוב ושמירה של צילומים (חשובים..)
משימת חקר מכוון ללמידה משמעותית
מנחה אקדמי : ד"ר יובל אלוביץ
תקשורת סריאלית מגיש: דביר דדון מנחה: ד"ר מרטין לנד.
תרגול 11 NP complete.
למה.
Shell Scripts בסביבת UNIX
מבוא למערכות מידע פרק 1.
עקרונות בסיסיים בתכנות Visual Basic
Presentation transcript:

מגישים תמיר כהן ודניאל גלפרסון

פתיחה Big Data Distributed storage and Distributed processing Apache Hadoop סיכום

רקע Big data הוא מונח הבא לתאר כמות ענקית של מידע לא מובנה שחברה מייצרת. מידע שייקח זמן רב ויעלה כסף רב כדי להטעין אותו למבנה נתונים לצרוך ניתוחו. הכוונה בכמות גדולה של מידע מתייחס למידע בסדר גודל של Petabytes וExabytes .

דוגמאות ל-Big Data לפייסבוק עולים בכל יום כ350 מיליון תמונות תמונות דבר הדורש Petabytes רבים של אחסון. הבורסה בניו-יורק מייצרת Petabyte של מידע על עברות בבורסה ביום אחד. Ancestry.com האתר הגנאלוגיה מאחסן בסביבות 2.5 Petabyte של מידע.

הבעיה בעיבוד Big Data Year Standard Hard Drive Size (in Mb) 1990 1370 2010 1000000 Year Data Transfer Rate (Mbps) 1990 4.4 2010 100

בהינתן שבזמן קריאת הדיסק לא התקבל כשל הבעיה בעיבוד Big Data מהירות העברה היא Mb/s 100 הגודל של דיסק סטנדרטי הוא 1 Terabyte הזמן לקריאת כל הדיסק הוא 1000 שניות=3 שעות בהינתן שבזמן קריאת הדיסק לא התקבל כשל

הפתרונות האינטואיטיביים חישוב מבוזר: עיבוד המידע מחולק בין מחשבים עצמאים. כל מחשב מעבד חלק קטן מהמידע. המחשבים מחוברים לאחד לשני דרך הרשת. חסרונות שיטה זו: כשל חומרה\איבוד מידע- שימוש ברכיבי חומרה רבים מעלה את הסיכויים לכשל באחד הרכיבים. שילוב הנתונים לאחר עיבודם ברכיבי החומרה השונים.

הפתרון האולטימטיבי Apache Hadoop פרויקט קוד פתוח של מוסד התוכנה אפאצ'י המגדיר מסגרת תוכנה ליישום מבוזר המעבד כמויות גדולות של נתונים. מאפשר עבודה של אלפי יחידות עיבוד(Nodes) המטפלות בו זמנית במידע בהיקף של פטה-בתים. העבודה היא על קבצים גדולים המבוזרים על פני אשכולות מחשבים תוך שימוש במודל תכנותי פשוט.

כיצד Hadoop עונה על הבעיות בחישוב מבוזר הימנעות אובדן נתונים היא באמצעות שכפול: עותקים יתירים של הנתונים נשמרים על ידי המערכת, כך במקרה של כישלון, יש עותק נוסף זמין. מערכת הקבצים Distributed Hadoop (HDFS) מטפלת בבעיה זו. הבעיה השנייה נפתרת על ידי דגמיMap Reduce , שהיא שיטה ותיקה לעיבוד מקבילי עבור בעיות שמאפשרות חלוקה של בסיס הנתונים. כל המודולים ב- Hadoop נועדו עם הנחת היסוד כי כשלים בחומרה נפוצים צריכים להיות מטופלים באופן אוטומטי על ידי המסגרת.

Hadoop Distributed File System (HDFS) זוהי תשתית האחסון (File System ) המבוזרת של Hadoop. מטרתו לשמור קבצים גדולים ולאפשר כתיבות סדרתיות גדולות וקריאות סדרתיות גדולות בצורה יעילה. מערכת הקבצים שקופה למשתמש.

Hadoop Distributed File System (HDFS) בשיטה זו הקבצים מחולקים לחתיכות בינוניות (ברירת המחדל MB128). חלקי הקבצים מחולקים על פני שרתים רבים. כל חתיכה נשמרת במספר שרתים שונים לצורך שרידות. רכיב ה-Name Node אחראי על תהליך מיפוי חתיכות הקבצים על פני שרתי הנתונים המאכסנים את המידע הנקראים Data Nodes.

Hadoop Map/Reduce ממשק תכנותי לכתיבת תוכניות מקביליות. התשתית מבצעת את כל השלבים לצורך עיבוד מקבילי של זוג הפונקציות על כל קבצי הקלט על מספר רב של שרתים, ומטפלת לבד בתזמון העבודה וטיפול בשגיאות בזמן ריצה.

Hadoop Map/Reduce Map(k1,v1) → list(k2,v2)

Hadoop Map/Reduce הפונקציה השנייה – Reduce (שלב הצמצום): בשלב הצמצום מתקבל כקלט מפתח k2 ועבורו כל הנתונים שהתקבלנו בשלב המיפוי. פונקציית הReduce() מורצת פעם יחידה עבור מפתח זה, ומפיקה עבורו פלט. Reduce(k2, list (v2)) → list(v3) מערכת הMapReduce אוספת וממיינת את תוצאות פונקציות הReduce() ומאחדת אותם לפלט המהווה פתרון כולל לבעיה.

Hadoop Map/Reduce בהינתן משימה חישובית המערכת מוצאת את חלקי הקבצים שהמשימה מתייחסת אליהם. המשימה מחולקת בין data nodes השונים המכילים את חלקי הקבצים והחישובים מתבצעים באופן מקומי. לאחר עיבוד הנתונים מהdata nodes הפלט נאסף ליחידה אחת שממנה מפיקים את התוצר הסופי. הjob tracker אחראי על חלוקת המשימות, ומחליט באיזה nodes יתבצעו המשימות. הtask tracker אחראים על החישוב המתבצע ב data nodes באמצעות Map Reduce.

מבנה Hadoop Cluster מורכבת מ: (יחיד) Master: המכיל את רכיבי הname node – וה- job tracker. ה - name node אחראי על שכבת ה Distributed storage (HDFS) . ה - job tracker אחראי על שכבת הDistributed Processing . (רבים)Slaves : מכילים את רכיבי הdata node – וה- task tracker. ה - data node קשור לשכבת ה -Distributed storage (HDFS) . ה - task tracker קשור לשכבת ה -Distributed Processing .

רכיבים נוספים - Common Hadoop Common Hadoop מכיל ספריות הכלים הנדרשים על ידי מודולים אחרים ב-Hadoop. Common Hadoop מספק אבסטרקציה ברמה של מערכת קבצים ומערכת הפעלה, מנוע של MapReduce ואת HDFS. הוא מכיל את את הקבצים והסקריפטים שמאפשרים את ההרצה של Hadoop.

התפתחות ה-Hadoop עם הזמן, חברות שונות (בעיקר יאהו! ופייסבוק) כתבו בעצמם שכבות תוכנה נוספות מעל HDFS ו-MapReduce שכבות אלו נועדו להקל על הפיתוח והתפעול של הסביבות שלהם או כדי לנצל את התשתית המקבילית כדי לפתור בעיות נוספות. דוגמאות לפרויקטים משלימים: Hive, HBase, Phoenix, Spark,, Cloudera Impala, Flume, Sqoop, Oozie, Storm

Apache Pig זוהי שכבת תוכנה שמטרתה לפשט כתיבת תכניותMapReduce שפותחה במקור על ידי Yahoo! היא כוללת שפת High-Level בשםPig Latin להגדרת תכניות ריצה אשר מתורגמות אוטומטית לתוכניות MapReduce. שימושית למשל לכתיבת תכנית מעל Hadoop ומקטינה למינימום את הצורך לכתוב בג'אווה.

Apache Hive תשתית של מחסן נתונים שפותחה על ידי פייסבוק במטרה לספק כלים לניתוח וסיכום של מידע. Apache Hive תומכת בניתוח סט רחב של נתונים אשר ממוקם ב- HDFS היא כוללת שפה בסיסית דמויי SQL בשם HiveQL אשר מתורגמת בזמן ריצה לסט תוכניות MapReduce כיום חברות נוספות עושות שימוש ב- Apache Hive כגון Netflix ו- Financial Industry Regulatory Authority

Apache HBase שכבת אחסון נתונים מבוזרת של רשומות שנכתבה במקור על ידי Powerset. היא ממומשת ישירות מעל HDFS , ותומכת בעמודות דינמיות (כלומר, אין צורך להגדיר מראש את רשימת העמודות בכל טבלה) באמצעות Hbase ניתן לאחסן כמות קטנה של מידע רלוונטי מתוך כמות גדולה מאוד של מידע. ניתן להשתמש ב- Hbase לצורך הפלט או הקלט של גובים של MapReduce שמורצים ב-Hadoop.

פייסבוק משתמשים בHadoop לשמירת העתקים של יומנים (log) וקבצים כמקור לניתוח מידע ולמידה חישובית . המערכת מחולקת ל2 clusters: - הראשון עם 1100 מכונות, 8800 ליבות ו Petabyte 12 של מידע. - השני עם 300 מכונות, 2400 ליבות ו3 Petabyte של מידע.

יאהו משתמשים בHadoop לזיהוי פריצות ומערכת אנטי ספאם למוצרי הפרסום שלהם. יאהו משתמשת ביותר בלמעלה מ100,000 מעבדים במעל 40,000 מכונות. הcluster הכי גדול כולל 4500 מכונות ומחזיק כ Petabytes 455 של מידע.

סיכום בעיות ב- Big Data ו חישוב מבוזר. Apache Hadoop כפיתרון לחישוב ואחסון מבוזר. התפתחות של Hadoop. שימושים ל Hadoop בעולם האמיתי.