כריית נתונים, מחסני נתונים ד"ר גלעד רביד ד"ר גלעד רביד2005 “The significant problem we face cannot be solved by the same level of thinking that created.

Slides:



Advertisements
Similar presentations
Supporting End-User Access
Advertisements

Data Mining Glen Shih CS157B Section 1 Dr. Sin-Min Lee April 4, 2006.
Overview of Data Mining & The Knowledge Discovery Process Bamshad Mobasher DePaul University Bamshad Mobasher DePaul University.
modified by Marius Bulacu
1 ACCTG 6910 Building Enterprise & Business Intelligence Systems (e.bis) Introduction to Data Mining Olivia R. Liu Sheng, Ph.D. Emma Eccles Jones Presidential.
Data Mining Knowledge Discovery in Databases Data 31.
Dr. Tahar Kechadi Dr. Joe Carthy
Data Mining By Archana Ketkar.
Knowledge Discovery Centre: CityU-SAS Partnership 1 Speakers: Prof Y V Hui, CityU Dr H P Lo, CityU Dr Sammy Yuen, CityU Dr K W Cheng, SAS Institute Mr.
Data Mining – Intro.
CS157A Spring 05 Data Mining Professor Sin-Min Lee.
Advanced Database Applications Database Indexing and Data Mining CS591-G1 -- Fall 2001 George Kollios Boston University.
Business Intelligence: Essential of Business
DASHBOARDS Dashboard provides the managers with exactly the information they need in the correct format at the correct time. BI systems are the foundation.
Data Mining: A Closer Look
Data Mining.
CIT 858: Data Mining and Data Warehousing Course Instructor: Bajuna Salehe Web:
TURKISH STATISTICAL INSTITUTE INFORMATION TECHNOLOGIES DEPARTMENT (Muscat, Oman) DATA MINING.
Data Mining By Andrie Suherman. Agenda Introduction Major Elements Steps/ Processes Tools used for data mining Advantages and Disadvantages.
Data Mining: Concepts & Techniques. Motivation: Necessity is the Mother of Invention Data explosion problem –Automated data collection tools and mature.
OLAM and Data Mining: Concepts and Techniques. Introduction Data explosion problem: –Automated data collection tools and mature database technology lead.
10 Data Mining. What is Data Mining? “Data Mining is the process of selecting, exploring and modeling large amounts of data to uncover previously unknown.
Shilpa Seth.  What is Data Mining What is Data Mining  Applications of Data Mining Applications of Data Mining  KDD Process KDD Process  Architecture.
Chapter 1. Introduction Motivation: Why data mining?
Data Mining Techniques As Tools for Analysis of Customer Behavior
Data Mining Chun-Hung Chou
Data Management Turban, Aronson, and Liang Decision Support Systems and Intelligent Systems, Seventh Edition.
Data Mining Techniques As Tools for Analysis of Customer Behavior Lecture 2:
3 Objects (Views Synonyms Sequences) 4 PL/SQL blocks 5 Procedures Triggers 6 Enhanced SQL programming 7 SQL &.NET applications 8 OEM DB structure 9 DB.
Chapter 1 Introduction to Data Mining
INTRODUCTION TO DATA MINING MIS2502 Data Analytics.
Datawarehouse Objectives
2015年10月18日星期日 2015年10月18日星期日 2015年10月18日星期日 Introduction to Data Mining 1 Chapter 1 Introduction to Data Mining Chen. Chun-Hsien Department of Information.
Fox MIS Spring 2011 Data Mining Week 9 Introduction to Data Mining.
1 Reviewing Data Warehouse Basics. Lessons 1.Reviewing Data Warehouse Basics 2.Defining the Business and Logical Models 3.Creating the Dimensional Model.
Data Mining – Intro. Course Overview Spatial Databases Temporal and Spatio-Temporal Databases Multimedia Databases Data Mining.
CS157B Fall 04 Introduction to Data Mining Chapter 22.3 Professor Lee Yu, Jianji (Joseph)
6.1 © 2010 by Prentice Hall 6 Chapter Foundations of Business Intelligence: Databases and Information Management.
Advanced Database Course (ESED5204) Eng. Hanan Alyazji University of Palestine Software Engineering Department.
CRM - Data mining Perspective. Predicting Who will Buy Here are five primary issues that organizations need to address to satisfy demanding consumers:
Chapter 5: Business Intelligence: Data Warehousing, Data Acquisition, Data Mining, Business Analytics, and Visualization DECISION SUPPORT SYSTEMS AND BUSINESS.
Data Mining BY JEMINI ISLAM. Data Mining Outline: What is data mining? Why use data mining? How does data mining work The process of data mining Tools.
Introduction to Data-Mining Marko Grobelnik Institut Jozef Stefan.
MIS2502: Data Analytics Advanced Analytics - Introduction.
Conclusions. Why Data Mining? -- Potential Applications Database analysis and decision support – Market analysis and management target marketing, customer.
Academic Year 2014 Spring Academic Year 2014 Spring.
Data Mining. Overview the extraction of hidden predictive information from large databases Data mining tools predict future trends and behaviors, allowing.
Chapter 2 Data, Text, and Web Mining. Data Mining Concepts and Applications  Data mining (DM) A process that uses statistical, mathematical, artificial.
Data Warehousing/Mining 1. 2 Chapter 1. Introduction v Motivation: Why data mining? v What is data mining? v Data Mining: On what kind of data? v Data.
Copyright © 2011 Pearson Education, Inc. Publishing as Pearson Addison-Wesley Chapter 28 Data Mining Concepts.
2016年6月12日星期日 2016年6月12日星期日 2016年6月12日星期日 Introduction to Data Mining 1 Chapter 1 Introduction to Data Mining Chen. Chun-Hsien Department of Information.
Introduction.  Instructor: Cengiz Örencik   Course materials:  myweb.sabanciuniv.edu/cengizo/courses.
Chapter 3 Building Business Intelligence Chapter 3 DATABASES AND DATA WAREHOUSES Building Business Intelligence 6/22/2016 1Management Information Systems.
CS570: Data Mining Spring 2010, TT 1 – 2:15pm Li Xiong.
Data Mining.
Data Mining – Intro.
Data Mining Motivation: “Necessity is the Mother of Invention”
MIS2502: Data Analytics Advanced Analytics - Introduction
DATA MINING © Prentice Hall.
Chapter 13 The Data Warehouse
Introduction C.Eng 714 Spring 2010.
Datamining : Refers to extracting or mining knowledge from large amounts of data Applications : Market Analysis Fraud Detection Customer Retention Production.
Data Warehousing and Data Mining
Data Mining: Concepts and Techniques
Supporting End-User Access
Data Mining: Concepts and Techniques
Data Mining Concepts and Techniques
Data Mining Techniques As Tools for Analysis of Customer Behavior
Data Mining: Concepts and Techniques
Data Mining: Concepts and Techniques
Presentation transcript:

כריית נתונים, מחסני נתונים ד"ר גלעד רביד ד"ר גלעד רביד2005 “The significant problem we face cannot be solved by the same level of thinking that created them.” Albert Einstein

המוטיבציה: "הצורך הוא אם ההמצאה" “Necessity is the Mother of Invention”  הבעיות בפיצוח נתונים: כלי איסוף נתונים אוטומטיים ו בסיסי נתונים בוגרים. הטכנולוגיה גרמה לכמויות נתונים עצומות הנשמרות בבסיסי נתונים, מחסני נתונים ומאגרי נתונים אחרים. כלי איסוף נתונים אוטומטיים ו בסיסי נתונים בוגרים. הטכנולוגיה גרמה לכמויות נתונים עצומות הנשמרות בבסיסי נתונים, מחסני נתונים ומאגרי נתונים אחרים.  אנחנו טובעים בנתונים, אך משוועים לידע!

ניהול נתונים: CSF  בעיות ניהול נפח גדל של נתונים נפח גדל של נתונים נתונים הם מפוזרים וקשים לאיסוף נתונים הם מפוזרים וקשים לאיסוף נתונים מאוחסנים במקומות שונים ובצורות שונות נתונים מאוחסנים במקומות שונים ובצורות שונות רק חלק קטן מהנתונים הם רלוונטיים רק חלק קטן מהנתונים הם רלוונטיים אבטחת מידע אבטחת מידע שלמות מידע שלמות מידע  מסקנה: ניהול נתונים הוא הכרחי לאורך כל "מחזור חיי הנתונים"

From data to knowledge Data mining: the core of knowledge discovery process. Data mining: the core of knowledge discovery process. Data Cleaning Data Integration Databases Data Warehouse Task-relevant Data Selection Data Mining Pattern Evaluation

Data Life Cycle  שלושת סוגי הנתונים פנימי פנימי אישי אישי חיצוני חיצוני

איכות הנתונים  איכות הנתונים קובעת את מידת מועילותם ולכן את איכות ההחלטה שנסמכת עליהם איכות עצמית: דיוק, אובייקטיביות, יכולת הבנה איכות עצמית: דיוק, אובייקטיביות, יכולת הבנה איכות נגישותית: נגישות ואבטחת מידע איכות נגישותית: נגישות ואבטחת מידע איכות ההקשר: רלוונטיות, שלמות, בזמן איכות ההקשר: רלוונטיות, שלמות, בזמן איכות הייצוג: בעל אפשרות ניתוח, ייצוג אחיד איכות הייצוג: בעל אפשרות ניתוח, ייצוג אחיד  שלמות הנתונים דורשת שהנתונים יהיו מדוייקים, נגישים ומעודכנים

רב ממדיות של נתונים  נתונים זהים יכולים להצפות בצורה שונה. נתונים מודרניים הם בעלי מספר מדדים 20 Produc t Location LA SFNY 2000 Time Skateboard Snowboard Surfboard 2001

מחסן נתונים  עיבוד נתונים בארגון יכול להיות עסקתי או אנליטי  שתי האפשרויות לביצוע עיבוד אנליטי עבודה ישירה עם המערכת התפעולית "בוא נראה מה יש לנו" עבודה ישירה עם המערכת התפעולית "בוא נראה מה יש לנו" דורש כמות קטנה של משתמשים המבצעים שאילתות ומבצע עיבוד אנליטידורש כמות קטנה של משתמשים המבצעים שאילתות ומבצע עיבוד אנליטי דורש ידע גבוהה בבסיסי נתוניםדורש ידע גבוהה בבסיסי נתונים מחסני נתונים מחסני נתונים יוצר מאגר נתונים המנגיש את הנתונים התפעוליים לצורה קריאה לניתוחים אנליטייםיוצר מאגר נתונים המנגיש את הנתונים התפעוליים לצורה קריאה לניתוחים אנליטיים

מאפייני מחסן נתונים  ארגון לפי נושא לפי נושא במקום מרכזי במקום מרכזי  עקביות  תלוי זמן עכשווי והיסטורי עכשווי והיסטורי  לא נדיף  בעל יחסים

מחסן נתונים

מתי? היכן?  מחסן נתונים מתאים ביותר לארגונים כאשר יש צורך בגישה לכמות גדולה של נתונים יש צורך בגישה לכמות גדולה של נתונים מידע תפעולי נשמר במקומות שונים ובצורות שונות מידע תפעולי נשמר במקומות שונים ובצורות שונות יש כמות גדולה ומגוונת של לקוחות יש כמות גדולה ומגוונת של לקוחות המידע נשמר בצורה מאוד טכנית המקשה על הפענוח המידע נשמר בצורה מאוד טכנית המקשה על הפענוח

מרכז נתונים מול מחסן נתונים  מרכז נתונים הוא פתרון זול, פשוט יותר למחסן נתונים  שני סוגי מרכז נתונים Replicated (dependent) data marts Replicated (dependent) data marts Standalone data marts Standalone data marts

ניתוח נתונים ו OLAP  נתונים הנשמרים במחסני נתונים ובמרכזי נתונים יכולים להיות בשימוש ל: שאילתות לגופו של עניין שאילתות לגופו של עניין Online Analytical Processing (OLAP) Online Analytical Processing (OLAP) מציאת ידע מציאת ידע  OLAP משתמש בתצוגה רבת מימדים של נתונים מקובצים למציאה מהירה של מידע אסטרטגי לניתוחים עתידיים.

כריית נתונים  כריית נתונים או מציאת מידע בבסיסי נתונים (KDD), הוא שליפה לא טבעית של מידע מרומז, לא ידוע מראש ובפוטנציאל שימושי מנתונים "" Tell me something interesting about the data "" Tell me something interesting about the data “ Describe the data ” “ Describe the data ”  יכולות חיזוי מגמות חיזוי מגמות גילוי תבניות לא ידועות מראש גילוי תבניות לא ידועות מראש

כריית נתונים II  פעילויות כריית נתונים קישור וסידור קישור וסידור מיון מיון קיבוץ קיבוץ חיזוי חיזוי  מתודולוגיות: שיטות סטטיסטיות, הסקת מסקנות, אינדוקציות חוקים, עצי החלטה, אלגוריתמים גנטיים, למידת מכונה, רשתות נוירונים וכו'...

Defining Data Mining  The automated extraction of predictive information from large databases  Automated  Extraction  Predictive  (Large) Databases  Implicit is a statistical methodology

Data Mining Is… Decision Trees Decision Trees Neural Networks Neural Networks Rule Induction Rule Induction Nearest Neighbor Nearest Neighbor Genetic Algorithms Genetic Algorithms If..... Then...

Data Mining is Not...  Data warehousing  Ad Hoc Query / Reporting  Online Analytical Processing (OLAP)  Data Visualization  Software Agents

דוגמאות ליישומי כריית נתונים  Cellular phone companies Stop churn Stop churn  Financial service firms Portfolio and risk management Portfolio and risk management  Credit card companies Fraud detection, price setting Fraud detection, price setting  Mail catalogs Lift response rates Lift response rates  Retailers Market basket analysis, direct marketing Market basket analysis, direct marketing

רעיונות נוספים  כריית טקסט ו כריית אינטרנט נתוני clicks נתוני clicks  תצוגת נתונים מתייחס לתצוגת נתונים בצורת תמונה,טבלה רבת ממדים, גרפים, אנימציות וכו'..  מערכות מידע גיאוגרפיות (GIS) היא מערכת מבוססת מחשב ללכידה, אחסון, בדיקה,איחוד, שינוי והצגת נתונים אשר נמצאים בשימוש מפות דיגיטאליות האובייקטים מזוהים על ידי מיקומם הגיאוגרפי האובייקטים מזוהים על ידי מיקומם הגיאוגרפי

משפחות יישומים  ניתוח בסיסי נתונים ותמיכה בקבלת החלטות ניתוח וניהול שוק ניתוח וניהול שוק ניתוח וניהול שוק ניתוח וניהול שוק ניתוח וניהול סיכונים ניתוח וניהול סיכונים ניתוח וניהול סיכונים ניתוח וניהול סיכונים גילוי וניהול הונאות גילוי וניהול הונאות גילוי וניהול הונאות גילוי וניהול הונאות אחרים אחרים אחרים  ניתוח טקסט – כריית טקסט  ניתוח אינטרנט – כריית אינטרנט  מערכת שאילתות חכמה

ניתוח וניהול שוק  מהם מקורות הנתונים לניתוח? תנועות כרטיסי אשראי, כרטיסי מועדון, קופונים, תלונות לקוחות, מחקרי אורח חיים תנועות כרטיסי אשראי, כרטיסי מועדון, קופונים, תלונות לקוחות, מחקרי אורח חיים  ייעוד המערכת: מציאת קבוצות של לקוחות המשתפים תכונות משותפות: תחומי עניין, הכנסה, הוצאות, מנהגים וכו' מציאת קבוצות של לקוחות המשתפים תכונות משותפות: תחומי עניין, הכנסה, הוצאות, מנהגים וכו'  קביעת תבניות הקנייה של לקוחות לאורך זמן

Analysis and Risk Management  Finance planning and asset evaluation: cash flow analysis and prediction cash flow analysis and prediction time series analysis (trend analysis, etc.) time series analysis (trend analysis, etc.)  Resource planning: summarize and compare the resources and spending summarize and compare the resources and spending  Competition: Monitor competitors and market directions Monitor competitors and market directions Set pricing strategy in a highly competitive market Set pricing strategy in a highly competitive market

Fraud Detection and Management  Use historical data to build models of fraudulent behavior and use data mining to help identify similar instances  Examples application: Auto Insurance: detect a group of people who stage accidents to collect on insurance Auto Insurance: detect a group of people who stage accidents to collect on insurance Money Laundering: detect suspicious money transactions Money Laundering: detect suspicious money transactions Detecting telephone fraud: detecting suspicious patterns (generate call model - destination, time, duration) Detecting telephone fraud: detecting suspicious patterns (generate call model - destination, time, duration)

Other Areas of application  Sports Analysis of game in NBA (eg., detect the opponent’s strategy) Analysis of game in NBA (eg., detect the opponent’s strategy)  Astronomy discovery and classification of new objects discovery and classification of new objects  Internet analysis of Web access logs, discovery of user behavior patterns, analyzing effectiveness of Web marketing, improving Web site organization analysis of Web access logs, discovery of user behavior patterns, analyzing effectiveness of Web marketing, improving Web site organization  Text news analysis, medical record analysis, automatic sorting and filtering, automatic document categorization news analysis, medical record analysis, automatic sorting and filtering, automatic document categorization

Main steps of KDD  Learning the application domain: relevant prior knowledge and goals of application relevant prior knowledge and goals of application  Data cleaning and preprocessing: (may take 60% of effort!): creating a target data set: data selection creating a target data set: data selection find useful features, generate new features, map feature values, discretization of values find useful features, generate new features, map feature values, discretization of values  Choosing data mining tools/algorithms summarization, classification, regression, association, clustering. summarization, classification, regression, association, clustering.  Data mining: search for patterns of interest  Interpretation: analysis of results. visualization, transformation, removing redundant patterns, etc. visualization, transformation, removing redundant patterns, etc.  Use of discovered knowledge.

Data Mining and Business Intelligence Increasing potential to support business decisions End User Business Analyst Data Analyst DBA Making Decisions Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration OLAP, MDA Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts Data Sources Paper, Files, Information Providers, Database Systems, OLTP

Data mining algorithms (I)  Association: Association: finding rules like “if the customer bought item A, then in X% of transactions she/he also bought item B”. This holds for Y% of all transactions finding rules like “if the customer bought item A, then in X% of transactions she/he also bought item B”. This holds for Y% of all transactions  Classification and Prediction: Classification and Prediction: Classification and Prediction: classify data based on the values in a classifying attribute, e.g., classify countries based on climate, or classify cars based on gas mileage classify data based on the values in a classifying attribute, e.g., classify countries based on climate, or classify cars based on gas mileage predict some unknown or missing attribute values based on other information predict some unknown or missing attribute values based on other information

Data mining algorithms (II)  Clustering: Clustering: group data to form new classes, e.g., find groups of customers with similar behavior group data to form new classes, e.g., find groups of customers with similar behavior  Time-series analysis: trend and deviation analysis: find and characterize evolution trend, sequential patterns, similar sequences, and deviation data, e.g., stock analysis. trend and deviation analysis: find and characterize evolution trend, sequential patterns, similar sequences, and deviation data, e.g., stock analysis. similarity-based pattern-directed analysis: find and characterize user-specified patterns in large databases. similarity-based pattern-directed analysis: find and characterize user-specified patterns in large databases. cyclicity/periodicity analysis: find segment-wise or total cycles or periodic behaviors in time-related data. cyclicity/periodicity analysis: find segment-wise or total cycles or periodic behaviors in time-related data.  Other pattern-directed or statistical analysis

Association rules  Finding associations or correlations among a set of items  Applications: basket data analysis, cross-marketing,… basket data analysis, cross-marketing,…  Example: buying beer and chips -> ketchup [0.5%,60%] buying beer and chips -> ketchup [0.5%,60%] rule form:LHS ®  RHS [support, confidence] rule form:LHS ®  RHS [support, confidence]

Classification  Finding rules that describe given groups of objects  Applications: credit approval, target marketing, medical diagnosis, treatment effectiveness analysis,...  Example: based on the past symptoms and diagnoses of patients generate a model describing influence of symptoms to disease to be used for classification of future test data and better understanding of each class  Methods: decision-trees (e.g., ID3, C5), statistics, neural networks,...

Clustering methods  partitioning a set of data into a set of classes, called clusters, such that the members of each class are sharing some interesting common properties.  h igh quality clusters if the intra-class similarity is high and the inter-class similarity is low  Important is distance measure

Data-Mining tools  Main producers of Data-Mining software: IBM – Intelligent Miner, extender for DB2 IBM – Intelligent Miner, extender for DB2 SAS – Enterprise Miner SAS – Enterprise Miner SPSS – Clementine SPSS – Clementine Microsoft – Analysis Server (…part of SQL Server 2000) Microsoft – Analysis Server (…part of SQL Server 2000) …many more smaller producers …many more smaller producers

Business User Data Mart Data Warehouse Customer Data Mining Action Response Ideal World

Business Intelligence (Technologies) Users Business Process Applications Data Warehouse OLAP Engine DM Tools Other Engines SQl Engines Web servers Data Warehouse OP DB Image Library Video Library Data Feeds

Evolution of Information Systems

Total Data in Gbytes (Today vs 3 Years - sectors) Note the Log Scale

Ask not “What” But “Why”, “What If”   Monitoring business results on a monthly basis isn't good enough anymore. What you need is a real-time tool to define and explore the elements of your success. That is, a capability to slice, dice, drill down and an ability to learn the details at the desktop.   On-Line-Analytical-Processing enables discovering details and asking ad-hoc questions and a sequence of questions.   Report may tell “sales exceed forecast in Northeast”   OLAP will tell “it is Boston driving these results…it is the old-line and not the new-line that is doing well…and similar results are seen for last 2 months…   I.e., You can slice, dice...

BI: A Typical Architecture Extract Transform Load Refresh Data Sources Operational dbs External sources Serve Analysis Query/ Reporting Data Mining OLAP servers Data warehouse Data Marts

Decision Support, OLAP and Data Warehousing  Data Warehousing  OLAP (On-Line Analytical Processing) Multidimensional Data Model Multidimensional Data Model OLAP queries OLAP queries OLAP implementation techniques OLAP implementation techniques ROLAP versus MOLAP ROLAP versus MOLAP High-Performance issues High-Performance issues

Data Mining Philosophy  A powerful enabler of competitive advantage.  Data mining is driven from business knowledge.  Data mining is about enabling people to discover actionable information about their business.  Return of profit isn’t about algorithms

Data Mining Process Collecting relevant dataModel building Understanding of business Problem identification Business strategy and evaluation Learning Action