Advanced Topics in Storage Systems

Slides:



Advertisements
Similar presentations
An Analysis of Data Corruption in the Storage Stack Lakshmi N. Bairavasundaram Andrea C. Arpaci-Dusseau Remzi H. Arpaci-Dusseau University of Wisconsin-Madison.
Advertisements

RAID Oh yes Whats RAID? Redundant Array (of) Independent Disks. A scheme involving multiple disks which replicates data across multiple drives. Methods.
Distributed Systems Major Design Issues Presented by: Christopher Hector CS8320 – Advanced Operating Systems Spring 2007 – Section 2.6 Presentation Dr.
Introduction to Storage Area Network (SAN) Jie Feng Winter 2001.
Network Storage and Cluster File Systems Jeff Chase CPS 212, Fall 2000.
Availability in Globally Distributed Storage Systems
1 Toward I/O-Efficient Protection Against Silent Data Corruptions in RAID Arrays Mingqiang Li and Patrick P. C. Lee The Chinese University of Hong Kong.
This courseware is copyrighted © 2011 gtslearning. No part of this courseware or any training material supplied by gtslearning International Limited to.
RAID Technology. Use Arrays of Small Disks? 14” 10”5.25”3.5” Disk Array: 1 disk design Conventional: 4 disk designs Low End High End Katz and Patterson.
Latent Sector Errors In Disk Drives Ahmet Salih BÜYÜKKAYHAN Spring.
Storage area Network(SANs) Topics of presentation
1 Recap (RAID and Storage Architectures). 2 RAID To increase the availability and the performance (bandwidth) of a storage system, instead of a single.
Computer ArchitectureFall 2007 © November 28, 2007 Karem A. Sakallah Lecture 24 Disk IO and RAID CS : Computer Architecture.
6/5/ TRAP-Array: A Disk Array Architecture Providing Timely Recovery to Any Point-in-time Authors: Qing Yang,Weijun Xiao,Jin Ren University of Rhode.
Parity Lost and Parity Regained Andrew Krioukov, Lakshmi N. Bairavasundaram, Andrea C. Arpaci-Dusseau, Remzi H. Arpaci-Dusseau University of Wisconsin.
Storage Area Network (SAN)
© 2009 IBM Corporation Statements of IBM future plans and directions are provided for information purposes only. Plans and direction are subject to change.
Amin Kazempour Long Yunyan XU
Silberschatz, Galvin and Gagne ©2009 Operating System Concepts – 8 th Edition, Chapter 12: Mass-Storage Systems.
Secondary Storage Unit 013: Systems Architecture Workbook: Secondary Storage 1G.
RAID-x: A New Distributed Disk Array for I/O-Centric Cluster Computing Kai Hwang, Hai Jin, and Roy Ho.
Storage System: RAID Questions answered in this lecture: What is RAID? How does one trade-off between: performance, capacity, and reliability? What is.
Redundant Array of Inexpensive Disks (RAID). Redundant Arrays of Disks Files are "striped" across multiple spindles Redundancy yields high data availability.
Object-based Storage Long Liu Outline Why do we need object based storage? What is object based storage? How to take advantage of it? What's.
Lecture 13 Fault Tolerance Networked vs. Distributed Operating Systems.
Parity Logging O vercoming the Small Write Problem in Redundant Disk Arrays Daniel Stodolsky Garth Gibson Mark Holland.
1 Fault Tolerance in the Nonstop Cyclone System By Scott Chan Robert Jardine Presented by Phuc Nguyen.
IMPROUVEMENT OF COMPUTER NETWORKS SECURITY BY USING FAULT TOLERANT CLUSTERS Prof. S ERB AUREL Ph. D. Prof. PATRICIU VICTOR-VALERIU Ph. D. Military Technical.
School of EECS, Peking University Microsoft Research Asia UStore: A Low Cost Cold and Archival Data Storage System for Data Centers Quanlu Zhang †, Yafei.
CSE 451: Operating Systems Section 10 Project 3 wrap-up, final exam review.
Storage Systems Market Analysis Dec 04. Storage Market & Technologies.
1/14/2005Yan Huang - CSCI5330 Database Implementation – Storage and File Structure Storage and File Structure.
Redundant Array of Independent Disks.  Many systems today need to store many terabytes of data.  Don’t want to use single, large disk  too expensive.
Chapter 12 – Mass Storage Structures (Pgs )
Resilience at Scale: The importance of real world data Bianca Schroeder Computer Science Department University of Toronto.
1 Taxonomy and Trends Dan Siewiorek Carnegie Mellon University June 2012.
Slide 1 What Happens Before A Disk Fails? Randi Thomas, Nisha Talagala
1/11 T13/e05125r1 16 June 2005 SATA Tunneling over Fibre Channel Ken Hirata Emulex Corporation.
EMC Proven Professional. Copyright © 2012 EMC Corporation. All Rights Reserved. NAS versus SAN NAS – Architecture to provide dedicated file level access.
SATA In Enterprise Storage Ron Engelbrecht Vice President and General Manager Engineering and Manufacturing Operations September 21, 2004.
Database CNAF Barbara Martelli Rome, April 4 st 2006.
1 CEG 2400 Fall 2012 Network Servers. 2 Network Servers Critical Network servers – Contain redundant components Power supplies Fans Memory CPU Hard Drives.
© 2006 EMC Corporation. All rights reserved. Section 2 – Storage Systems Architecture Introduction.
Distributed File System. Outline Basic Concepts Current project Hadoop Distributed File System Future work Reference.
Enhanced Availability With RAID CC5493/7493. RAID Redundant Array of Independent Disks RAID is implemented to improve: –IO throughput (speed) and –Availability.
RAID Technology By: Adarsha A,S 1BY08A03. Overview What is RAID Technology? What is RAID Technology? History of RAID History of RAID Techniques/Methods.
System Components Operating System Services System Calls.
Silberschatz, Galvin and Gagne ©2013 Operating System Concepts – 9 th Edition Chapter 10: Mass-Storage Systems.
CSCE 385: Computer Architecture Spring 2014 Dr. Mike Turi I/O.
Chapter 10: Mass-Storage Systems
A Case for Redundant Arrays of Inexpensive Disks (RAID) -1988
Video Security Design Workshop:
Vladimir Stojanovic & Nicholas Weaver
CS 554: Advanced Database System Notes 02: Hardware
Chapter 12: Mass-Storage Structure
NetApp Certified Implementation Engineer - SAN E-Series
Storage Virtualization
Introduction I/O devices can be characterized by I/O bus connections
RAID RAID Mukesh N Tekwani
Chapter 12: Mass-Storage Systems
Storage Networks and Storage Devices
Fault Tolerance Distributed Web-based Systems
EECS 498 Introduction to Distributed Systems Fall 2017
Module 10: Physical Storage Systems
Bridging the Information Gap in Storage Protocol Stacks
RAID RAID Mukesh N Tekwani April 23, 2019
DBMS Module III DBMS
Chapter 11: Mass-Storage Systems
CS 295: Modern Systems Storage Technologies Introduction
Improving performance
Presentation transcript:

Advanced Topics in Storage Systems Storage Failures FAST ‘08: L.N. Bairavasundaram, G. R. Goodson, B. Schroeder, A. C. Arpaci-Dusseau and R. H. Arpaci-Dusseau: An Analysis of Data Corruption in the Storage Stack. W. Jiang, C. Hu, A. Kanevsky, and Y.Zhou: Are Disks the Dominant Contributor for Storage Failures? A Comprehensive Study of Storage Subsystem Failure Characteristics Dvir Olansky Advanced Topics in Storage Systems Spring 2013

Outline Problem Addressed Main Findings Storage System Architecture Results Conclusions and Implications

Problem Addressed Storage failures from a system perspective: Silent Data Corruptions. Failures of storage system components besides disks. Statistical properties of storage system failures. רוב המחקרים הקודמים עסקו בכשלים ברכיב הליבה של מערכת האחסון – הדיסק, ולא יחסו חשיבות לרכיבים אחרים. כמו כן, הכשלים אשר נחקרו היו כאלה שהדיסקים יכלו לדווח עליהם, כמו latent sector error. Silent data corruption – דיסקים ו-Controllers עכשוויים מכילים מאות אלפי שורות קוד של low level firmware, יחד עם ממשקים אל קוד ברמות גבוהות יותר. למערכת זו של שורות קוד פוטנציאל להכיל באגים אשר גורמים לשגיאות במידע ללא אינדיקציה מהדיסק. מצב זה עלול לגרום לאבדן מידע ברמת המערכת בסבירות גבוהה יותר מ-latent sector errors כיוון ששגיאות אינן מזוהות או מתוקנות על ידי הדיסק. מערכות אחסון של ימינו הופכות גדולות ומורכבות ומכילות רכיבים רבים אשר עוטפים את הדיסקים כמו חיבורים פיסיים, מדפים, protocol stacks, כבלים, ועוד. נשאלת השאלה האם לשאר הרכיבים משקל משמעותי בכשלים של מערכת אחסון.

Main Findings Disk failures contribute to only 20-55% of storage system failures. Storage failures are not independent. Storage failures show strong spatial and temporal locality. תכנון מנגנון ה-RAID, ומחקרים רבים נוספים, מניחים חוסר תלות בין כשלים, כל שההסתברות לכשל נתונה ע"פ ה-MTTF המפורסם ע"י הצרכן והזמן בין כשלים מפולג אקספוננציאלית.

Storage System Architecture EMC Symetrix DMX-4 מה להדגיש: בצד אחד ניתן לראות את ה-Host Attach, לכאן יתחברו המחשבים המשתמשים ב-Storage בסוגי פרוטוקולים שונים. בצד שני ניתן לראות את הדיסקים עצמם (FC Disks). ניתן להתרשם ממטריצת החיבורים המכילה זיכרונות גלובליים של 64GB, מיחידת הקירור, אספקת המתח, UPS, יחידת ה-Processing.

Storage System Architecture להדגיש: Shelf Enclosure – מתח, קירור, וחיבוריות פנימית בין הדיסקים שהוא מכיל. FC Cables – קישוריות בין המדפים השונים ואל ה-Hosts של המערכת. בחלק מהמקרים קיימת יתירות בחיבורים אלה.

Nearline Vs. Enterprise Disks Enterprise Disks– Fiber Channel Interface Disks. Low-end, Med-Range, High-end. Nearline Disks – ATA Interface (mostly SATA). ATA – Advanced Technology Attachment עבור Med-Range ועבור High-Range

Corruption Detection Mechanisms Storage system does not knowingly propagate corrupt data to the user under any circumstance. Data Integrity Segments in each File System block. על מנת לגלות Silent Data Corruptions מוסיפים לכל בלוק של File Sys. Data חלק של Integrity. בתוך ה-Integrity של בלוק מופיע Checksum אשר נבדק ברמת מערכת האחסון בכל קריאה של קובץ ובמהלך Scrubbing – תהליך מחזורי שנועד לזהות שגיאות במערכת האחסון.

NetApp AutoSupport Database Built-in, low-overhead mechanism to log important system events to a central repository. Over 1.5M disks included in about 39,000 storage systems for a period of over 40 months. Unprecedented sample size. Both papers rely on this database. מערכת לוגים המיועדת בעיקר לתמיכה בלקוחות שחווים כשלים במערכת האחסון.

Results Nearline Enterprise CM – Checksum mismatch ניתן לראות שההסתברות ל-CM גבוהה בסדר גודל עבור Nearline לעומת Enterprise. בנוסף, ניתן להבחין בשוני משמעותי בין יצרן ליצרן בתוך כל מחלקה.

Results בנוסף ל-Disk Failures ניתן לראות כי כשלים בחיבורים פיסיים מהווים 27-68% מכשלי מערכת האחסון, וכמו כן כשלי Protocol ו-Performance מהווים חלק ניכר מכשלי המערכת. משמעות: כשלי דיסקים אינם החלק הדומיננטי בכשלי מערכת אחסון ולכן מחקר לאמינות מערכת אחסון לא יכול להתבסס על דיסקים בלבד. בנוסף לשגיאות בדיסקים קיימים שלושה גורמים משמעותיים נוספים לכשל במערכות אחסון: חיבורים פיסיים – כשלים ברשת המחברת בין כלל הדיסקים, העלולים להיגרם עקב בעיות פיסיות בכבלים, נפילות מתח למדפי דיסקים, שגיאות בחיבורים הפנימיים במדפי דיסקים (backplane), שגיאות ב-Disk Driver שבמדף. כשלים מסוג זה גורמים לדיסקים "להיעלם" מהמערכת. פרוטוקולים – שגיאות הנגרמות במערכת שורות הקוד שתוארה קודם. כשלים מסוג זה גורמים לכך שלמרות שהדיסקים מופיעים כזמינים במערכת תגובתם לבקשות I/O יהיו שגויות. ביצועים – אף אחת מהשגיאות הקודמות לא קרתה, ומערכת האחסון מזהה כי דיסק מסוים לא משרת בקשות I/O בזמן סביר. הגורם העיקרי למצב זה הוא כשלים חלקיים, כמו קישוריות לא יציבה או עיסוק כבד של דיסק ב-recovery. כמו כן, ניתן לראות שלמרות שדיסקים מסוג Nearline מציגים את ה-AFR (Annual Failure Rate) הגבוה ביותר, מערכות האחסון המבוססות עליהם לא מציגות את ה-AFR הגבוה ביותר. לכן, ה-AFR של הדיסקים במערכת אינו מעיד על ה-AFR של המערכת כולה. ניתן לראות שנתוני ה-Disk Failure, עבור ES פחות מ-1% ועבור NL פחות מ-2% מתאימים לנתוני היצרן, בשונה ממה שטוענים מחקרים קודמים, זאת מכיוון שכעת יש לנו מבט מ-System Perspective.

Results רב הדיסקים מפתחים מספר מעט של CM’s, אולם מעט דיסקים מפתחים מספר גדול מאד של CM’s – חציון של 3, אך ממוצע של 78. מתוך הדיסקים שפיתחו לפחות שגיאת CM אחת, דיסקים מסוג Enterprise מפתחים יותר שגיאות מדיסקים מסוג Nearline. אפשר לראות את זה מהעליות החדות ב-NL שמשמעותן היא שרב הדיסקים מפתחים מעט שגיאות, לעומת העליות המתונות יותר ב-ES. Corrupt ES disks develop many more checksum mismatches than corrupt NL disks.

Results Checksum mismatches within the same disk are not independent:

Results חישוב תיאורטי ל-N שגיאות בלתי תלויות בזמן T

Results דיסקים באותו Shelf Enclosure – ניתן לראות שהתוצאות האמפיריות בוודאות גבוהה מאד אינן תואמות לתיאוריה ולכן המסקנה היא ששגיאות מכל הסוגים אינן בלתי תלויות

Results הגרף מציג את הסיכוי ל-CM נוסף ע"פ רדיוס בבלוקים באותו דיסק (בלוקים של 4K). חשוב לציין שנלקחו רק דיסקים עם בין 2-10 שגיאות. Much if the observed spatial locality is due to consecutive disk blocks developing corruption.

Results Theoretical

Conclusions and Implications Employ redundancy mechanisms to tolerate storage system component failures – Not only disks! f.e. physical interconnect multipathing reduce AFR by 30-40%

Conclusions and Implications Redundant data structures should be stored distant from each other. Same disk, close sectors Same disk, far sectors Different Disks, same shelf Different shelves

Conclusions and Implications Temporal and spatial locality can be leveraged for smarter scrubbing. Trigger a scrub before it’s next scheduled time, when probability of corruption is high. Selective scrubbing of an area of the disk that’s likely to be affected.

Conclusions and Implications Replacing ES disk on the first detection of corruption makes sense. Replacement cost may not be a huge factor since the probability of the first corruption is low.

Thank You