آزمايشگاه سيستمهای هوشمند علی کمالی زمستان 95

Slides:



Advertisements
Similar presentations
Data Management in the Cloud Paul Szerlip. The rise of data Think about this o For the past two decades, the largest generator of data was humans -- now.
Advertisements

Sanjay Ghemawat, Howard Gobioff and Shun-Tak Leung
The google file system Cs 595 Lecture 9.
The Google File System Authors : Sanjay Ghemawat, Howard Gobioff, Shun-Tak Leung Presentation by: Vijay Kumar Chalasani 1CS5204 – Operating Systems.
ITIS 3110 Jason Watson. Replication methods o Primary/Backup o Master/Slave o Multi-master Load-balancing methods o DNS Round-Robin o Reverse Proxy.
Lecture 6 – Google File System (GFS) CSE 490h – Introduction to Distributed Computing, Winter 2008 Except as otherwise noted, the content of this presentation.
Distributed Systems Tutorial 9 – Windows Azure Storage written by Alex Libov Based on SOSP 2011 presentation winter semester,
Google Bigtable A Distributed Storage System for Structured Data Hadi Salimi, Distributed Systems Laboratory, School of Computer Engineering, Iran University.
The Google File System.
7/2/2015EECS 584, Fall Bigtable: A Distributed Storage System for Structured Data Jing Zhang Reference: Handling Large Datasets at Google: Current.
Google File System.
Case Study - GFS.
Inexpensive Scalable Information Access Many Internet applications need to access data for millions of concurrent users Relational DBMS technology cannot.
Google Distributed System and Hadoop Lakshmi Thyagarajan.
Gowtham Rajappan. HDFS – Hadoop Distributed File System modeled on Google GFS. Hadoop MapReduce – Similar to Google MapReduce Hbase – Similar to Google.
Distributed Data Stores – Facebook Presented by Ben Gooding University of Arkansas – April 21, 2015.
Windows Azure SQL Database and Storage Name Title Organization.
Hadoop/MapReduce Computing Paradigm 1 Shirish Agale.
Google’s Big Table 1 Source: Chang et al., 2006: Bigtable: A Distributed Storage System for Structured Data.
1 Dennis Kafura – CS5204 – Operating Systems Big Table: Distributed Storage System For Structured Data Sergejs Melderis 1.
Bigtable: A Distributed Storage System for Structured Data Fay Chang, Jeffrey Dean, Sanjay Ghemawat, Wilson C. Hsieh, Deborah A. Wallach, Mike Burrows,
Data in the Cloud – I Parallel Databases The Google File System Parallel File Systems.
MapReduce and GFS. Introduction r To understand Google’s file system let us look at the sort of processing that needs to be done r We will look at MapReduce.
Presenters: Rezan Amiri Sahar Delroshan
CS 347Lecture 9B1 CS 347: Parallel and Distributed Data Management Notes 13: BigTable, HBASE, Cassandra Hector Garcia-Molina.
The Google File System by S. Ghemawat, H. Gobioff, and S-T. Leung CSCI 485 lecture by Shahram Ghandeharizadeh Computer Science Department University of.
Eduardo Gutarra Velez. Outline Distributed Filesystems Motivation Google Filesystem Architecture The Metadata Consistency Model File Mutation.
GFS. Google r Servers are a mix of commodity machines and machines specifically designed for Google m Not necessarily the fastest m Purchases are based.
CSE 486/586, Spring 2014 CSE 486/586 Distributed Systems Google Chubby Lock Service Steve Ko Computer Sciences and Engineering University at Buffalo.
CSC590 Selected Topics Bigtable: A Distributed Storage System for Structured Data Fay Chang, Jeffrey Dean, Sanjay Ghemawat, Wilson C. Hsieh, Deborah A.
Chapter 7: Consistency & Replication IV - REPLICATION MANAGEMENT By Jyothsna Natarajan Instructor: Prof. Yanqing Zhang Course: Advanced Operating Systems.
Eduardo Gutarra Velez. Outline Distributed Filesystems Motivation Google Filesystem Architecture Chunkservers Master Consistency Model File Mutation Garbage.
Google File System Robert Nishihara. What is GFS? Distributed filesystem for large-scale distributed applications.
Bigtable: A Distributed Storage System for Structured Data
Silberschatz, Galvin and Gagne ©2009 Operating System Concepts – 8 th Edition, Lecture 24: GFS.
Bigtable: A Distributed Storage System for Structured Data Google Inc. OSDI 2006.
Distributed File System. Outline Basic Concepts Current project Hadoop Distributed File System Future work Reference.
Robustness in the Salus scalable block store Yang Wang, Manos Kapritsos, Zuocheng Ren, Prince Mahajan, Jeevitha Kirubanandam, Lorenzo Alvisi, and Mike.
Department of Computer Science, Johns Hopkins University EN Instructor: Randal Burns 24 September 2013 NoSQL Data Models and Systems.
The Google File System Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung Presenter: Chao-Han Tsai (Some slides adapted from the Google’s series lectures)
Bigtable A Distributed Storage System for Structured Data.
From Coulouris, Dollimore, Kindberg and Blair Distributed Systems: Concepts and Design Chapter 3 System Models.
Presenter: Yue Zhu, Linghan Zhang A Novel Approach to Improving the Efficiency of Storing and Accessing Small Files on Hadoop: a Case Study by PowerPoint.
1 CMPT 431© A. Fedorova Google File System A real massive distributed file system Hundreds of servers and clients –The largest cluster has >1000 storage.
Advanced Operating Systems Chapter 6.1 – Characteristics of a DFS Jongchan Shin.
Sanjay Ghemawat, Howard Gobioff, Shun-Tak Leung
Amit Ohayon, seminar in databases, 2017
REPLICATION & LOAD BALANCING
Data Management with Google File System Pramod Bhatotia wp. mpi-sws
HBase Mohamed Eltabakh
Large-scale file systems and Map-Reduce
Google File System.
CSE-291 (Cloud Computing) Fall 2016
NOSQL.
Gowtham Rajappan.
Google Filesystem Some slides taken from Alan Sussman.
Google File System CSE 454 From paper by Ghemawat, Gobioff & Leung.
The Google File System Sanjay Ghemawat, Howard Gobioff and Shun-Tak Leung Google Presented by Jiamin Huang EECS 582 – W16.
GARRETT SINGLETARY.
EECS 498 Introduction to Distributed Systems Fall 2017
EECS 498 Introduction to Distributed Systems Fall 2017
IS 651: Distributed Systems Distributed File Systems
Cloud scale storage: The Google File system
Cloud Computing Storage Systems
CMSC Cluster Computing Basics
THE GOOGLE FILE SYSTEM.
by Mikael Bjerga & Arne Lange
Chapter 21: Parallel and Distributed Storage
Presentation transcript:

آزمايشگاه سيستمهای هوشمند علی کمالی زمستان 95 داده های عظیم Big Data آزمايشگاه سيستمهای هوشمند علی کمالی زمستان 95 آزمایشگاه سیستم های هوشمند 95

آزمایشگاه سیستم های هوشمند 95 مقدمه یکی از عواملی که باعث بزرگ شدن سیستم می شود، حجم داده های آن می باشد. چه حجمی از داده ها باعث بزرگ شدن می شود؟ میزان حجمی که با سیستم های فعلی قابل ذخیره، بازیابی، پرس و جو و نمایش نباشد. در ادامه با مشخصات داده های عظیم آشنا خواهیم شد. آزمایشگاه سیستم های هوشمند 95

آزمایشگاه سیستم های هوشمند 95 دنیای داده ها آزمایشگاه سیستم های هوشمند 95

آزمایشگاه سیستم های هوشمند 95 مشخصات دادههای عظیم آزمایشگاه سیستم های هوشمند 95

آزمایشگاه سیستم های هوشمند 95

V چهارم - Veracity

:Veracity صحت یا قابلیت اعتماد وجود منابع مختلف عدم امکان اعتماد به تمام اطلاعات آزمایشگاه سیستم های هوشمند 95

آزمایشگاه سیستم های هوشمند 95 دیگر مشخصات Validity : اعتبار: داده های صحیح اما ناکارآمد برای برخی کاربردها Volatility نوسان: سرعت تغییر ارزش داده ها در طول زمان Visualization نمایش: نمایش اطلاعات از کارهای مشکل در حوزه داده های عظیم Value ارزش: ارزش داده ها در قبال نگهداری آنها آزمایشگاه سیستم های هوشمند 95

مشکلات موجود در داده های عظیم امنیت و حفظ حریم شخصی مسائل قانونی، اطلاعات شخصی و عدم کنترل دقیق بر روی داده ها بی نام سازی داده ها دسترسی به داده ها و اشتراک اطلاعات زمان حیاتی در دسترسی به داده ها ذخیره سازی داده ها عدم ظرفیت لازم جهت ذخیره سازی انتقال داده ها هزینه و زمان زیاد انتقال داده ها برای ذخیره در جای دیگر(ابر) انتقال داده ها از محل ذخیره شده به محل پردازش آزمایشگاه سیستم های هوشمند 95

مشکلات موجود در داده های عظیم پردازش داده ها حجم عظیم داده ها و نیاز به یک پردازش بهینه؟ آنالیز داده ها تشخیص داده های مهم تعیین بخش های داده ای مناسب پردازش داده های غیرهمگن (Data Staging) آزمایشگاه سیستم های هوشمند 95

ذخیره سازی داده های بزرگ Flat Datacenter Storage Google File System (GFS) Hadoop Distributed File System (HDFS) Dynamo Amazoon Cassandra Azure Microsoft TAO Facebook BigTable Spanner آزمایشگاه سیستم های هوشمند 95

Flat Datacenter Storage آزمایشگاه سیستم های هوشمند 95

TLT Example Row Version Number Replica 1 Replica 2 Replica 3 1 234 A F 235 C L 3 567 E D G 4 13 T H 5 67 6 123 7 86 V 8 23

آزمایشگاه سیستم های هوشمند 95 Failure Recovery آزمایشگاه سیستم های هوشمند 95

Google File System (GFS) فایل سیستم گوگل در سال 2003 تولید شد یک فایل سیستم توزیع شده می باشد. گوگل در تمامی سرویس های خود از این سیستم فایل استفاده می کند. همچنين داده مورد نياز براي موتور جستجوي گوگل و ساير برنامه‌هاي شرکت را فراهم مي‌کند این سیستم برای یک شبکه توزیع شده از سرور ها طراحی شده است برای نصب بر روی یک سرویس مناسب نیست! سرعت دسترسی بسیار مهم تر از بقیه جنبه های داده است. از استاندارد ACID پیروی نمیکند. یک مدل ساده تر برای خود در نظر گرفته است. در صورت عدم دسترسی به داده های جدید، نسخه های قدیمی تر آن را ارائه میدهد. ACID (Atomicity, Consistency, Isolation, Durability) آزمایشگاه سیستم های هوشمند 95

آزمایشگاه سیستم های هوشمند 95 معماری GFS آزمایشگاه سیستم های هوشمند 95

آزمایشگاه سیستم های هوشمند 95 نحوه نوشتن داده Client asks master for all chunkservers (including all secondaries) Master grants a new lease on chunk, increases the chunk version number, tells all replicas to do the same. Replies to client. Client no longer has to talk to master Client pushes data to all servers, not necessarily to primary first Once data is acked, client sends write request to primary. Primary decides serialization order for all incoming modifications and applies them to the chunk After finishing the modification, primary forwards write request and serialization order to secondaries, so they can apply modifications in same order. (If primary fails, this step is never reached.) All secondaries reply back to the primary once they finish the modifications Primary replies back to the client, either with success or error If write succeeds at primary but fails at any of the Secondaries, then we have inconsistent state → error returned to client Client can retry steps (3) through (7) آزمایشگاه سیستم های هوشمند 95

Hadoop Distributed File System (HDFS) زبان برنامه‌نويسي جاوا و به صورت یک پروژه منبع باز توسط بنياد آپاچي طراح دوگ‌‌کاتينگ Doug Cutting در سال 2004 این سیستم‌فایل از GFS الهام گرفته‌است. دسترسی به داده ها فقط از طریق API به طور پيش‌فرض هر بلاک داده، سه بار کپي مي‌شود آدرسی از کپی برگردانده مي‌شود که کمترين فاصله را تا محل درخواست داده داشته ‌باشد سلامت هر يک از DataNodeها توسط پروتکل heartbeat کپی فایل بسیار کند انجام می شود يک کپي همزمان شده از متاديتاي NameNode را در حافظه نگه‌داري مي‌کند آزمایشگاه سیستم های هوشمند 95

آزمایشگاه سیستم های هوشمند 95 There are two (and a half) types of machines in a HDFS cluster NameNode :– is the heart of an HDFS filesystem, it maintains and manages the file system metadata. E.g; what blocks make up a file, and on which datanodes those blocks are stored. DataNode :- where HDFS stores the actual data, there are usually quite a few of these. آزمایشگاه سیستم های هوشمند 95

آزمایشگاه سیستم های هوشمند 95 نحوه خواندن داده آزمایشگاه سیستم های هوشمند 95

آزمایشگاه سیستم های هوشمند 95 نحوه نوشتن داده آزمایشگاه سیستم های هوشمند 95

آزمایشگاه سیستم های هوشمند 95 Dynamo سیستمی که توسط شرکت آمازون جهت بهره برداری در ابر تولید شده است سال 2012 اجازه استفاده مستقیم از آن به مشتریان عمومی نیز داده شد این سیستم برای تعداد داده های زیاد با حجم کم بهینه شده است سازگاری داده ها از سرعت دسترسی به آنها مهم تر می باشد. کاملا معکوس معماری GFS است امنیت در این سیستم مطرح نیست. هر دیتا توسط یک کلید مشخص می شود. مشابه سيستم‌های Peer to Peer تا master-slave Cassandra یک سیستم فایل با الهام از Dynamo است. آزمایشگاه سیستم های هوشمند 95

آزمایشگاه سیستم های هوشمند 95 معماری پلتفرم آمازون آزمایشگاه سیستم های هوشمند 95

آزمایشگاه سیستم های هوشمند 95 نحوه ذخیره سازی داده ها آزمایشگاه سیستم های هوشمند 95

آزمایشگاه سیستم های هوشمند 95 Cassandra آزمایشگاه سیستم های هوشمند 95

سيستم فایلی ‌توزيع شده Azure پلتفرم مایکروسافت بر اساس تکنیک های استفاده شده گوگل و آمازون چهار نوع داده ای اصلی: Blob ، Table ،Queue و File فرآیند نوشتن سختگیرانه تر بوده و زمانی فرمان نوشتن موفقیت آمیز است که در همه سرور ها ثبت شده باشد. این سیستم با سه هدف: ماندگاری ،دسترسی و مقیاس پذیری بالا طراحی شده است. دسترسی به فایل ها به کمک آدرس دهی اسمی NameSpace Binary Large OBject (BLOB) آزمایشگاه سیستم های هوشمند 95

Inter-stamp (Geo) replication نحوه ذخیره سازی داده ها Access blob storage via the URL: http://<account>.blob.core.windows.net/ Storage Location Service Data access LB Storage Stamp LB Partition Layer Front-Ends DFS Layer Intra-stamp replication Storage Stamp Front-Ends a stamp is representing scale units (networking, storage, compute) and managed by Virtual Machine Manager. Partition Layer Inter-stamp (Geo) replication DFS Layer Intra-stamp replication آزمایشگاه سیستم های هوشمند 95

TAO : Facebook’s Distributed Data Store for the Social Graph امکان دسترسی به گره ها و اتصال های بین گرافی که مدام در حال تغییر هستند ذخیره به صورت توزیع شده استفاده بهینه از cache بر روی بستر MySql هر گره یک کلید یکتا دارد هر رابطه میان دو گره نیز به صورت جداگانه ذخیره می شود. هر گره همیشه روی یک سرور منطقی ذخیره می شود آزمایشگاه سیستم های هوشمند 95

مثالی از نحوه تبدیل یک ارتباط به صورت گراف آزمایشگاه سیستم های هوشمند 95

آزمایشگاه سیستم های هوشمند 95 نحوه ذخیره سازی داده ها MySQL databases → durability Leader cache → coordinates writes to each object Follower caches → serve reads but not writes آزمایشگاه سیستم های هوشمند 95

آزمایشگاه سیستم های هوشمند 95 BigTable توسط کمپانی گوگل تهیه شده است یک پایگاه داده نیست بلکه یک آرایه توزیع شده، ماندگار، مرتب شده و قابل اشتراک پذیری (associative) است. قابلیت استفاده تا حد داده های پتابایت را دارد. قابل توزیع در سرویس های بسیار زیاد می باشد. بر بستر سیستم فایل GFS ساخته شده است. آزمایشگاه سیستم های هوشمند 95

جداول رابطه ای به صورت زیر هستند آزمایشگاه سیستم های هوشمند 95

ساختار داده ها در BigTable آزمایشگاه سیستم های هوشمند 95

آزمایشگاه سیستم های هوشمند 95 نحوه جست و جو داده ها Chubby, a lock service for loosely coupled distributed systems Bigtable uses Chubby to ensure at most one active master exists to store bootstrap location of Bigtable data to discover tablet servers to store Bigtable schema information (column family info for each table) to store access control lis Tablet : a row range is the unit of distribution and load balancing reads of short row ranges are efficient, as stay within a single tablet usually آزمایشگاه سیستم های هوشمند 95

آزمایشگاه سیستم های هوشمند 95 Spanner دیتابیس توزیع شده گوگل به صورت جغرافیایی آزمایشگاه سیستم های هوشمند 95