כריית נתונים.

Slides:



Advertisements
Similar presentations
Data Mining: What? WHY? HOW?
Advertisements

Supporting End-User Access
1. Abstract 2 Introduction Related Work Conclusion References.
1 DATA MINING: DEFINITIONS AND DECISION TREE EXAMPLES Emily Thomas Director of Planning and Institutional Research.
Shipi Kankane Prashanth Nakirekommula.  Applying analytics and risk- management capabilities to health insurance through LexisNexis data platforms. 
An overview of The IBM Intelligent Miner for Data By: Neeraja Rudrabhatla 11/04/1999.
Clementine Server Clementine Server A data mining software for business solution.
02 -1 Lecture 02 Agent Technology Topics –Introduction –Agent Reasoning –Agent Learning –Ontology Engineering –User Modeling –Mobile Agents –Multi-Agent.
DataMining By Guan Hang Su CS157A section 2 fall 2005.
Neural Networks in Data Mining “An Overview”
Gavin Russell-Rockliff BI Technical Specialist Microsoft BIN305.
Enterprise systems infrastructure and architecture DT211 4
Peter Myers Bitwise Solutions Pty Ltd. Predictive Analytics PresentationExplorationDiscovery Passive Interactive Proactive Business Insight Canned.
1 Chapter 1: Introduction 1.1 Introduction to SAS Enterprise Miner.
Chapter 1: Introduction
『 Data Mining 』 By Jung, hae-sun. 1.Introduction 2.Definition 3.Data Mining Applications 4.Data Mining Tasks 5. Overview of the System 6. Data Mining.
Data Mining. 2 Models Created by Data Mining Linear Equations Rules Clusters Graphs Tree Structures Recurrent Patterns.
Data Mining Dr. Chang Liu. What is Data Mining Data mining has been known by many different terms Data mining has been known by many different terms Knowledge.
Data Mining Techniques As Tools for Analysis of Customer Behavior
Copyright R. Weber Machine Learning, Data Mining ISYS370 Dr. R. Weber.
Forecast Anything! The Seven Data Mining Models Andy Cheung ISV Developer Evangelist Microsoft Hong Kong.
Chapter 13 Genetic Algorithms. 2 Data Mining Techniques So Far… Chapter 5 – Statistics Chapter 6 – Decision Trees Chapter 7 – Neural Networks Chapter.
Introduction To Data Mining. What Is Data Mining? A toolA tool Extraction of interesting (non-trivial, implicit, previously unknown and potentially useful)
Using Neural Networks in Database Mining Tino Jimenez CS157B MW 9-10:15 February 19, 2009.
Overview of Data Mining Methods Data mining techniques What techniques do, examples, advantages & disadvantages.
INTRODUCTION TO DATA MINING MIS2502 Data Analytics.
Data Mining Overview. Lecture Objectives After this lecture, you should be able to: 1.Explain key data mining tasks in your own words. 2.Draw an overview.
Zhangxi Lin ISQS Texas Tech University Note: Most slides are from Decision Tree Modeling by SAS Lecture Notes 5 Auxiliary Uses of Trees.
Banking on Analytics Dr A S Ramasastri Director, IDRBT.
Chapter 11 Business Intelligence Copyright © 2013 Pearson Education, Inc. Publishing as Prentice Hall 11-1.
Fox MIS Spring 2011 Data Mining Week 9 Introduction to Data Mining.
IT Management Case # 8 - A Case on Decision Tree: Customer Churning Forecasting and Strategic Implication in Online Auto Insurance using Decision Tree.
Business Intelligence and Decision Modeling Week 9 Customer Profiling Decision Trees (Part 2) CHAID CRT.
Data Mining In contrast to the traditional (reactive) DSS tools, the data mining premise is proactive. Data mining tools automatically search the data.
Chapter 5: Business Intelligence: Data Warehousing, Data Acquisition, Data Mining, Business Analytics, and Visualization DECISION SUPPORT SYSTEMS AND BUSINESS.
1 STAT 5814 Statistical Data Mining. 2 Use of SAS Data Mining.
Finding Hidden Intelligence with Predictive Analysis of Data Mining Rafal Lukawiecki Strategic Consultant, Project Botticelli Ltd
Overview of Methods Data mining techniques What techniques do, examples, advantages & disadvantages.
Acct 6910 Building Business Intelligence Systems Class Introduction – From Data to Knowledge.
Prediction as Data Mining Task Definition and business-related examples Prepared by Huan Truong Omer Demir.
MIS2502: Data Analytics Advanced Analytics - Introduction.
Data Mining. Overview the extraction of hidden predictive information from large databases Data mining tools predict future trends and behaviors, allowing.
Preparing for the Future with Decision Support Systems Copyright © 2001 by Harcourt, Inc. All rights reserved.
Data Mining Copyright KEYSOFT Solutions.
Miloš Kotlar 2012/115 Single Layer Perceptron Linear Classifier.
Monday, February 22,  The term analytics is often used interchangeably with:  Data science  Data mining  Knowledge discovery  Extracting useful.
Institute of Automation and Control Systems KTU BS/2 Conference, Vilnius, 2008 June 13 Intelligent systems in banking industry: survey and future Rimvydas.
Chapter 3 Building Business Intelligence Chapter 3 DATABASES AND DATA WAREHOUSES Building Business Intelligence 6/22/2016 1Management Information Systems.
Data Mining is the process of analyzing data and summarizing it into useful information Data Mining is usually used for extremely large sets of data It.
Supplemental Chapter: Business Intelligence Information Systems Development.
How Text Mining Helps To Find Fradulent Buyers. Text analytics can help companies discover true market perceptions, but only if the analysis is done in.
Data Mining, Machine Learning, Data Analysis, etc. scikit-learn
Data Based Decision Making
Decision Trees in Analytical Model Development
MIS2502: Data Analytics Advanced Analytics - Introduction
DATA MINING © Prentice Hall.
Data Mining CAS 2004 Ratemaking Seminar Philadelphia, Pa.
Business Analytics Applications in Budget Modelling
Introduction to Data Mining
RESEARCH APPROACH.
Data Mining Techniques So Far…
Knowledge Discovery Systems: Systems That Create Knowledge
Computers and Data Collection
TechEd /28/ :48 AM © 2013 Microsoft Corporation. All rights reserved. Microsoft, Windows, and other product names are or may be registered.
Supporting End-User Access
Classification Boundaries
Data Mining, Machine Learning, Data Analysis, etc. scikit-learn
Data Mining, Machine Learning, Data Analysis, etc. scikit-learn
Welcome! Knowledge Discovery and Data Mining
Data Mining Overview.
Presentation transcript:

כריית נתונים

כריית נתונים אנטיליגנציה עסקית (BI) סטטיסטיקה יישום חשוב של מחסן אלגוריתמים לומדים

מטרת כלי ה- Data mining המטרה: * גילוי קשרים, הקבצות, מגמות, חוקים * רכישת ידע על מנת: * הפיכת ידע להחלטה עסקית * רכישת יתרון אסטרטגי

כריית נתונים כמו בכריית זהב - הקשרים קיימים אך נסתרים

טכנולוגיות מחשוביות ואלגוריתמים שיטה אחת לכל הצרכים ? טכניקות שונות - לבעיות שונות אתגר – הבנה והתאמה

- BI השגת ידע - Knowledge לא רק הבנה (מה קורה ) צעד אחד קדימה חיזוי קדימה

BI השגת ידע - Knowledge מי הם הלקוחות הפוטנציאלים למוצר החדש ? בחירה לפי תיעדוף איך לפרסם? באיזה אמצעי מכירה לנקוט ?

BI השגת ידע - Knowledge UPA Understand Predict Act ONLINE – REAL TIME

EFM–Enterprise Feedback Management Approach ארגון ממוקד לקוח מיקוד על ערך המגע עם הלקוח הלקוח שותף להחלטות הארגון תקשורת דו-כיוונית - * מהנתונים לכיוון הלקוח * מהלקוח לבסיס הנתונים (השלמת נתונים)

EFM–Enterprise Feedback Management לאחר ביקור בתחנת שירות – מחכה אימייל הלקוח נשאל על טיב השירות תובנות הלקוח מצורפות לתמונת לקוח תשובותיו לסקרים מצורפות לתמונת לקוח

EFM–Enterprise Feedback Management נשמרים: "נתונים קשים" וכן נתונים "רכים" "קשים" - נתוני פעילות עסקית "רכים" - מחשבות/השקפות/דעות נתונים "רכים" יותר יציבים וקבועים יתכן שארעה נטישה בגלל מעבר דירה אבל השקפה והעדפה - אינן משתנות

דוגמא: בנק מי שנכנס לאתר – נשאל שאלות בפעם הבאה כשיכנס לאתר יקבל הצעות ספציפיות הצעות המתאימות לתמונת הלקוח

דוגמא: Yamaha Motors רצון הלקוח קובע את תכונות האופנוע הבא בעזרת סקרים מתכננים - * כידון * אגזוז * צבע * מראה

סוגי בעיות בעיות חיזוי Predictive Analytics, Classification / Forecasting בעיות פילוח לפי אשכולות – Clustering מציאת רצף פעילויות – Association Analysis

הנתונים שבמחסן נתונים מטויבים טיוב - ? נתונים לא איכותיים - * מסקנות מוטעות * החלטות שגויות

תהליך ניתוח מבוסס גילוי אין הנחות בסיס נתונים גדול הצפת - קשרים, הקבצות, תבניות וחוקים

דוגמא מטרה: הגדרת אוכלוסיית לקוחות למבצע מכירות גילוי הקבצות שונות אין הנחה מי הקבוצה המתאימה למבצע בסיום - ההחלטה

יישומים, טכניקות, ואלגוריתמים

יישומים תחום המכירות

יישומים פילוח לקוחות (Customer Profiling): * פרופיל הלקוחות - - זיהוי ? - הגדרה ? * טכניקה ? * מטרה - ?

ניתוח נטישה (Churn Management) זיהוי סיבות הנטישה יישומים ניתוח נטישה (Churn Management) קשרים בין נתוני פעילות ובין נטישה זיהוי סיבות הנטישה זיהוי תכונות לקוח נוטש

ניתוח נטישה מה ניתן לעשות ? עלות שימור – עלות גיוס מידת הצ'יפור כפונקציה של ההסתברות לנטישה דוגמא: ? טכניקה ?

יישומים ניתוח סל קניות (Market Basket Analysis) ניתוח הרגלי הקנייה של לקוחות המטרה: * מוצרים – לקוח לאורך זמן * מוצרים הנרכשים יחד ההבנה מסייעת: ?

ניתוח סל קניות ההבנה מסייעת: * קביעת רמות מלאי * תכנון שטח המדפים * הצגת מוצרים על מדפים טכניקה: ?

שיווק ממוקד המטרה: ? יישומים (Targeted Marketing) ניתוח צורות שונות של אמצעי שיווק שהביאו בעבר לבצוע קניה המטרה: ?

שיווק ממוקד - מטרות התאמת אמצעי השיווק לסוגי הלקוחות * דיוור ישירים * קטלוגים * תכנון אתר הבית * תכנון מספר סוכנים * זיהוי תכונות של ?

יישומים איתור הונאות (Fraud Detection) תחומים: בנקאות, מסחר בניירות ערך, טלקומוניקציה, ביטוח, ושירותי בריאות יישומים: ?

איתור הונאות יישומים: * כרטיסי אשראי * שיחות טלפון * מונה חשמל * מונה מים

יישומים דירוג אשראי-ניהול סיכוני אשראי (Credit Scoring) תקנות רגולטוריות באזל 2 זיהוי סיכונים במתן אשראי זיהוי לקוחות העומדים לשנות את דירוג האשראי שלהם

יישומים ההסתברות תוחלת התביעה פרמיית הוגנת יישומי ביטוח ובריאות (Insurance and Health Care) ניתוח תביעות מבוטחים ההסתברות תוחלת התביעה פרמיית הוגנת

יישומי ביטוח ובריאות זיהוי טיפולים רפואיים המתבצעים ביחד זיהוי טפולים מוצלחים למצבי מחלה מסוימת

יישומים בקרת איכות (Quality Control) ניתוח תקלות בקווי הייצור חיזוי גורמים לתקלות

טכניקות הצגה ויזואלית של הנתונים (Visualization) גרפים - תרשימים גרפים - תרשימים צבעים - הצגה תלת-מימדית טכניקה נפוצה - דיאגרמת פיזור (Scatter Diagram) דיאגראמת דו מימדית המציגה פיזור הנתונים לפי שני פרמטרים

דוגמא לדיאגרמת פיזור מה ניתן ללמוד?

טכניקות מציאת רצף של פעילויות (Association Rules) זיהוי נתונים הקשורים עם נתונים אחרים הצגת חוקיות הסתברותית 80% מרכישות בהן נרכשה גבינת צאן כללו גם רכישת מעדן חלב דל שומן עוד ? מתאימה לבעיות מסוג ניתוח סל הקניות

מציאת רצף של פעילויות (Association Rules) 92% מהלקוחות להם מנוי לעיתון "גלובס" ומנוי העוסק במוסיקה - יש להם גם מנוי לירחון העוסק במכוניות

טכניקות ניתוח סדר הופעה Sequence Based Analysis הבנת סדר ביצוע העסקאות על ציר הזמן מטרה: ? לדוגמא: ?

מטרה הבנת תבנית ההתנהגות לגבי קרות אירוע מסוים (רכישת מוצר באינטרנט) כדי לצפות מראש קרות האירוע בעתיד

דוגמאות מסלול מנצח של לינקים המביא לביצוע קניה בפועל

דוגמאות איתור תהליכי טיפול מוצלחים למחלה זיהוי הסתבכויות ממתן תרופות "אם ניתן טיפול x אזי ההסתברות להופעת דלקת y לאחר חודש הינה p%" "אם מניה x עולה ביותר מ- 20% בעוד מדד המניות יורד אזי מניה y תעלה כעבור שבוע בהסתברות p%"

טכניקות ניתוח אשכולות (Cluster Analysis) פילוח אוכלוסייה לאוסף אשכולות דמיון בין אובייקטים השייכים לכל אשכול המטרה: ?

הבנת תוצאות ההקבצה מחייבת הבנה בנתונים תהליך בניית האשכולות אלגוריתם - * מגדיר דפוס התנהגות * בונה אשכולות * משייך לקוחות * מזהה מאפיינים הבנת תוצאות ההקבצה מחייבת הבנה בנתונים

תהליך בניית האשכולות

טכניקות סיווג (Classification) נפוץ תהליך חיזוי מודל סיווג ע"פ היסטוריה הקבצות ידועות יישומים: ?

סיווג (Classification) יישומים: * כשל אשראי * כשל תהליך ייצור * הונאות * נטישה

סיווג (Classification) סוגי אלגוריתמים - * רגרסיה איזה ? * עצי החלטות * רשתות עצביות

עצי החלטה ( Decision Tree) אלגוריתמים עצי החלטה ( Decision Tree) העיקרון: * זיהוי גורמים * ז"א: חיפוש תכונה/פרמטר המנבאת התנהגות * מיון ע"פ חשיבות * הצגה - עץ

אוסף של כללי החלטה Rules for 1 - contains 4 rule(s) Rule 1 for 1 if AGE = 2 and PAY_WEEK = 2.0 then 1 Rule 2 for 1 if CLASS = 1 Rules for 0 - contains 2 rule(s) Rule 1 for 0 if PAY_WEEK = 1.0 then 0 Rule 2 for 0 if AGE = 1

שלבים בשימוש בעצי החלטות בנית העץ (Decision Tree Induction) - סיווג לקוחות פוטנציאלים * שהפכו * שלא הפכו - האלגוריתם בונה עץ החלטות

שלבים בשימוש בעצי החלטות בדיקת סבירות ופישוט העץ (Tree Pruning) – - איחוד ענפים כיצד? - פיצול ענפים כיצד?

שלבים בשימוש בעצי החלטות ביצוע ע"י מומחים - * מכירים נתוני האימון * מסוגלים לבדוק איכות התוצאות

שלבים בשימוש בעצי החלטות הפעלת המודל על מדגם נוסף הסיבה ?

שלבים בשימוש בעצי החלטות קבלת החלטות (Decision making) * הפעלת המודל לגבי כל לקוח פוטנציאלי * ניתוח הסיכויים שלא יחזיר אשראי

עצי החלטה – יתרונות וחסרונות יתרונות: * נוחים וקלים להבנה * רמת דיוק גבוהה (לפעמים..) * זמן קצר לבניית העץ (אלגוריתם פשוט) חסרונות: * עץ מסועף הדורש פישוט

עצי החלטה - אלגוריתמים המקור: מחקר שבוצע באוניברסיטת משיגן ונקרא: AID (Automatic Interaction Detection) CHAID – Chi Squared AID ID5 C5.0 GINI

אלגוריתמים ומודלים - רשתות עצביות רשתות עצביות (Neural Networks) ענף חדש של אינטליגנציה מלאכותית לפתרון בעיות סיווג מבוסס על מבנה מתמטי בעלי יכולת לימוד עצמי המוח הינו רשת עצבית המורכבת ממספר ענק של נוירונים המחוברים אחד עם השני באמצעות סינפסות (Synapses) וכך מתקבלת רשת עצבית ענקית מנגנון זה מאפשר מורכבות: למידה

נוירון טבעי

רשת עצבית

רשתות עצביות המבנה שימש חוקרים לבניית מכונות בעלות יכולת למידה מבוסס על אוסף צמתים המחולקים ל- * צמתי קלט המזרימים את נתוני הקלט * צמתי ביניים המשתתפים בתהליך פתרון הבעיה * צמתי פלט המציגים התוצאות הצמתים המחוברים ביניהם ברשת גדולה

שלבים בשימוש ברשת השימוש ברשת מורכב משני שלבים: * שלב האימון בו מציגים לרשת אוסף דוגמאות מהעבר ומאמנים הרשת לפתור בעיות סיווג * שלב הפענוח בו מציגים מקרים חדשים ומסווגים אותם (מבצעים בהם פעולות חיזוי)

F

נוירון מלאכותי עוצמת ההפעלה של הנוירון - הסכום המשוקלל של כל הקלטים פונקצית הפעלה (Activation Function) - ערך עוצמת ההפעלה מוזן לפונקצית ההפעלה שבבסיס כל נוירון הפלט של הנוירון - תוצאת פונקצית ההפעלה הפלט של כל נוירון נורה קדימה ומוזן כקלט לכל אחד מהנוירונים בשכבה הבאה של הרשת השכבה הבאה יכולה להיות: * שכבת חישוב (ביניים) * שכבת פלט

עוצמת הפעלה

פונקצית הפעלה מסוג מדרגה (Step) מעבירה 0 אם עוצמת ההפעלה קטנה מערך מסוים משקל שלילי של סינפסה מציין השפעה מעכבת של נוירון מסוים על הבא אחריו

בחירת פונקצית הפעלה קיים אלגוריתמים הקובעים את פונקצית ההפעלה שבבסיס כל נוירון ברשת הקביעה על סמך: * מספר יחידות הקלט *סוג יחידות הקלט * התוצאות המתקבלות בקבוצת האימון על פני ציר הזמן אם נקבע פונקצית מדרגה – ערכי ה-T (ערכי סף) נקבעים אף הם על פי אלגוריתמים מתאימים

מימוש אופרטורים בוליאנים בעזרת פונקצית מדרגה

היישום הראשון ברשת עצבית - רשת Perceptron אין לה שכבות ביניים רק שכבת קלט ושכבת פלט

רשת עם שכבות ביניים (Hidden Layers) בשנות ה-80 החלו לפתח רשתות המבוססות על * שכבות ביניים (שכבות נסתרות) * אלגוריתם Back Propagation

רשתות עם "שכבות נסתרות” רשת המכילה בנוסף לשכבת הפלט שכבות נסתרות (Hidden Layers) בכל שכבה קיים נוירון אחד או מספר נוירונים משמשות לעיבוד פנימי של המידע בתוך הרשת נוירוני שכבת הפלט, השכבות הנסתרות ויחידות הקלט מחוברים ביניהם מוסיף לכח החישוב (החיזוי) של הרשת