Presentation is loading. Please wait.

Presentation is loading. Please wait.

Mohammad J. Mansourzadeh

Similar presentations


Presentation on theme: "Mohammad J. Mansourzadeh"— Presentation transcript:

1 Mohammad J. Mansourzadeh
Big Data Mohammad J. Mansourzadeh

2

3 Big Data What is Big Data? Analog starage vs digital.
The FOUR V’s of Big Data. Who’s Generating Big Data The importance of Big Data. Optimization HDFC بیگ دیتا چیست؟ ذخیره سازی آنالوگ در برابر دیجیتال چهار V در بیگ دیتا چه کسانی بیگ دیتا را تولید می کنند؟ اهمیت بیگ دیتا بهینه سازی

4 Definition Big data is the term for a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications. The challenges include capture, curation, storage,  search, sharing, transfer, analysis, and visualization. بیگ دیتا مجموعه ای از داده های بزرگ و پیچیده است که پردازش آن با ابزارهای مدیریت پایگاه داده و نرم افزارهای پردازش داده سنتی مشکل است. چالش های این حوزه شامل ضبط، گزینش و سازماندهی، جستجو، اشتراک، تجزیه و تحلیل، انتقال و مصورسازی داده هاست.

5

6 The FOUR V’s of Big Data From traffic patterns and music downloads to web history and medical records, data is recorded, stored, and analyzed to enable that technology and services that the world relies on every day. But what exactly is big data be used? According to IBM scientists big data can be break into four dimensions: Volume, Velocity, Variety and Veracity. چهار V در بیگ دیتا حجم، سرعت، تنوع، صحت

7 The FOUR V’s of Big Data

8 The FOUR V’s of Big Data Volume. Many factors contribute to the increase in data volume. Transaction-based data stored through the years. Unstructured data streaming in from social media. Increasing amounts of sensor and machine-to-machine data being collected. In the past, excessive data volume was a storage issue. But with decreasing storage costs, other issues emerge, including how to determine relevance within large data volumes and how to use analytics to create value from relevant data. حجم: فاکتورهای بسیاری به افزایش حجم داده ­ها کمک می­ کند. داده­ های بر پایه تراکنش ذخیره شده در طی  سالیان، داده ­های غیرساختارمند سرازیر شده از رسانه ­های اجتماعی؛ مقدار در حال افزایش داده­ های ماشین-به-ماشین و سنسور جمع ­آوری شده. در گذشته، حجم انبوه داده یک مسئله ذخیره کردن بود. اما با کاهش هزینه ­های ذخیره، مسائل دیگری سر بر می ­آورند؛ شامل چگونگی تعیین ارتباط در حجم زیاد داده­ ها و چگونگی استفاده از علم تجزیه و تحلیل به منظور ایجاد ارزش از داده ­های مرتبط.

9

10 The FOUR V’s of Big Data

11 The FOUR V’s of Big Data Variety. Data today comes in all types of formats. Structured, numeric data in traditional databases. Information created from line-of-business applications. Unstructured text documents, , video, audio, stock ticker data and financial transactions. Managing, merging and governing different varieties of data is something many organizations still grapple with. تنوع: داده­ ها به شکل­ های گوناگونی وارد می­ شوند. داده ­های عددی ساختاریافته در پایگاه­ های داده سنتی؛  اطلاعات ایجاد شده از برنامه­ های کاربردی کسب ­و­کار؛ اسناد متنی غیرساختاریافته، ایمیل، صدا و تراکنش­ های مالی. مدیریت، ادغام و حاکمیت بر انواع گوناگون داده، چیزی است که بسیاری از سازمان­ ها هنوز با آن درگیرند.

12 The FOUR V’s of Big Data

13 The FOUR V’s of Big Data Velocity. Data is streaming in at unprecedented speed and must be dealt with in a timely manner. RFID tags, sensors and smart metering are driving the need to deal with torrents of data in near-real time. Reacting quickly enough to deal with data velocity is a challenge for most organizations. سرعت: داده­ ها با سرعتی بی ­سابقه وارد شده و باید در زمان مناسب به سراغ آن­ها رفت. تگ­ های RFID، سنسورها و اندازه­ گیری هوشمند، نیاز به سر و کله زدن با جریانات داده را در اولین زمان نزدیک به اکنون را ایجاد می­ کنند. واکنش سریع به کار با سرعت داده ­ها، چالشی برای بیشتر سازمان­ هاست.

14 The FOUR V’s of Big Data

15 The FOUR V’s of Big Data Veracity - Big Data Veracity refers to the biases, noise and abnormality in data. Is the data that is being stored, and mined meaningful to the problem being analyzed. Veracity in data analysis is the biggest challenge when compares to things like volume and velocity. In scoping out your big data strategy you need to have your team and partners work to help keep your data clean and processes to keep ‘dirty data’ from accumulating in your systems. صحت: صحت به خطاها، نوفه و داده های غیرنرمال اشاره دارد. آیا داده هایی که ذخیره و استخراج می شوند برای مسئله مورد تحلیل معنی دار است؟ صحت در تحلیل داده ها بزرگترین چالش در مقایسه با چالش های دیگر ماندد حجم و سرعت است.

16 Who’s Generating Big Data
Social media and networks (all of us are generating data) Scientific instruments (collecting all sorts of data) Mobile devices (tracking all objects all the time) Sensor technology and networks (measuring all kinds of data) The progress and innovation is no longer hindered by the ability to collect data But, by the ability to manage, analyze, summarize, visualize, and discover knowledge from the collected data in a timely manner and in a scalable fashion 16

17 The importance of Big Data
The real issue is not that you are acquiring large amounts of data. It's what you do with the data that counts. The hopeful vision is that organizations will be able to take data from any source, harness relevant data and analyze it to find answers that enable: Cost reductions Time reductions New product development and optimized offerings Smarter business decision making مسئله واقعی این نیست که مقدار زیادی داده به دست آورید؛ این است که با آن چه می­ کنید. دیدگاه امیدوارانه این است که سازمان­ ها قادر به تحصیل داده از هر منبعی بوده، داده­ های مرتبط را تهیه کرده و آن را تحلیل کنند تا پاسخ سؤالاتی را بیابند که 1) کاهش هزینه­ ها، 2) کاهش زمان، 3) توسعه محصولات جدید و پیشنهادات جدید، و 4) تصمیم ­گیری هوشمندانه ­تر کسب ­وکار را مقدور می ­سازند.

18 The importance of Big Data
 For instance, by combining big data and high-powered analytics, it is possible to: Determine root causes of failures, issues and defects in near-real time, potentially saving billions of dollars annually. Optimize routes for many thousands of package delivery vehicles while they are on the road. Analyze millions of SKUs to determine prices that maximize profit and clear inventory. Generate retail coupons at the point of sale based on the customer's current and past purchases. Send tailored recommendations to mobile devices while customers are in the right area to take advantage of offers. Recalculate entire risk portfolios in minutes. Quickly identify customers who matter the most. Use clickstream analysis and data mining to detect fraudulent behavior برای مثال، با ترکیب Big Data و تحلیل­ های  قوی، این امکان وجود دارد تا: علت های اصلی شکست ها، مسائل و نقوص را در لحظه تعیین کرد تا سالانه تا میلیاردها دلار صرفه­ جویی کرد. مسیر وسیله ­های حمل بسته­ های تحویلی را زمانی که هنوز در جاده هستند، بهینه کرد. در چند دقیقه تمام سبد ریسک را دوباره حساب کرد. سریعاً مشتریانی که بیشترین اهمیت را دارند، شناسایی کرد.

19 Applications Science Data bases from astronomy, genomics, environmental data, transportation data, … Humanities and Social Sciences Scanned books, historical documents, social interactions data, new technology like GPS … Business & Commerce Corporate sales, stock market transactions, census, airline traffic, … Entertainment Internet images, Hollywood movies, MP3 files, … Medicine MRI & CT scans, patient records, …

20

21 HDFS / Hadoop Data in a HDFS cluster is broken down into smaller pieces (called blocks) and distributed throughout the cluster. In this way, the map and reduce functions can be executed on smaller subsets of your larger data sets, and this provides the scalability that is needed for big data processing. The goal of Hadoop is to use commonly available servers in a very large cluster, where each server has a set of inexpensive internal disk drives.

22 PROS OF HDFS Scalable – New nodes can be added as needed, and added without needing to change data formats, how data is loaded, how jobs are written, or the applications on top. Cost effective – Hadoop brings massively parallel computing to commodity servers. The result is a sizeable decrease in the cost per terabyte of storage, which in turn makes it affordable to model all your data. Flexible – Hadoop is schema-less, and can absorb any type of data, structured or not, from any number of sources. Data from multiple sources can be joined and aggregated in arbitrary ways enabling deeper analyses than any one system can provide. Fault tolerant – When you lose a node, the system redirects work to another location of the data and continues processing without missing a beat.

23

24 Thank you for your attention.
Authors: Tomasz Wis Krzysztof Rudnicki


Download ppt "Mohammad J. Mansourzadeh"

Similar presentations


Ads by Google