כריית נתונים
כריית נתונים אנטיליגנציה עסקית (BI) סטטיסטיקה יישום חשוב של מחסן אלגוריתמים לומדים
מטרת כלי ה- Data mining המטרה: * גילוי קשרים, הקבצות, מגמות, חוקים * רכישת ידע על מנת: * הפיכת ידע להחלטה עסקית * רכישת יתרון אסטרטגי
כריית נתונים כמו בכריית זהב - הקשרים קיימים אך נסתרים
טכנולוגיות מחשוביות ואלגוריתמים שיטה אחת לכל הצרכים ? טכניקות שונות - לבעיות שונות אתגר – הבנה והתאמה
- BI השגת ידע - Knowledge לא רק הבנה (מה קורה ) צעד אחד קדימה חיזוי קדימה
BI השגת ידע - Knowledge מי הם הלקוחות הפוטנציאלים למוצר החדש ? בחירה לפי תיעדוף איך לפרסם? באיזה אמצעי מכירה לנקוט ?
BI השגת ידע - Knowledge UPA Understand Predict Act ONLINE – REAL TIME
EFM–Enterprise Feedback Management Approach ארגון ממוקד לקוח מיקוד על ערך המגע עם הלקוח הלקוח שותף להחלטות הארגון תקשורת דו-כיוונית - * מהנתונים לכיוון הלקוח * מהלקוח לבסיס הנתונים (השלמת נתונים)
EFM–Enterprise Feedback Management לאחר ביקור בתחנת שירות – מחכה אימייל הלקוח נשאל על טיב השירות תובנות הלקוח מצורפות לתמונת לקוח תשובותיו לסקרים מצורפות לתמונת לקוח
EFM–Enterprise Feedback Management נשמרים: "נתונים קשים" וכן נתונים "רכים" "קשים" - נתוני פעילות עסקית "רכים" - מחשבות/השקפות/דעות נתונים "רכים" יותר יציבים וקבועים יתכן שארעה נטישה בגלל מעבר דירה אבל השקפה והעדפה - אינן משתנות
דוגמא: בנק מי שנכנס לאתר – נשאל שאלות בפעם הבאה כשיכנס לאתר יקבל הצעות ספציפיות הצעות המתאימות לתמונת הלקוח
דוגמא: Yamaha Motors רצון הלקוח קובע את תכונות האופנוע הבא בעזרת סקרים מתכננים - * כידון * אגזוז * צבע * מראה
סוגי בעיות בעיות חיזוי Predictive Analytics, Classification / Forecasting בעיות פילוח לפי אשכולות – Clustering מציאת רצף פעילויות – Association Analysis
הנתונים שבמחסן נתונים מטויבים טיוב - ? נתונים לא איכותיים - * מסקנות מוטעות * החלטות שגויות
תהליך ניתוח מבוסס גילוי אין הנחות בסיס נתונים גדול הצפת - קשרים, הקבצות, תבניות וחוקים
דוגמא מטרה: הגדרת אוכלוסיית לקוחות למבצע מכירות גילוי הקבצות שונות אין הנחה מי הקבוצה המתאימה למבצע בסיום - ההחלטה
יישומים, טכניקות, ואלגוריתמים
יישומים תחום המכירות
יישומים פילוח לקוחות (Customer Profiling): * פרופיל הלקוחות - - זיהוי ? - הגדרה ? * טכניקה ? * מטרה - ?
ניתוח נטישה (Churn Management) זיהוי סיבות הנטישה יישומים ניתוח נטישה (Churn Management) קשרים בין נתוני פעילות ובין נטישה זיהוי סיבות הנטישה זיהוי תכונות לקוח נוטש
ניתוח נטישה מה ניתן לעשות ? עלות שימור – עלות גיוס מידת הצ'יפור כפונקציה של ההסתברות לנטישה דוגמא: ? טכניקה ?
יישומים ניתוח סל קניות (Market Basket Analysis) ניתוח הרגלי הקנייה של לקוחות המטרה: * מוצרים – לקוח לאורך זמן * מוצרים הנרכשים יחד ההבנה מסייעת: ?
ניתוח סל קניות ההבנה מסייעת: * קביעת רמות מלאי * תכנון שטח המדפים * הצגת מוצרים על מדפים טכניקה: ?
שיווק ממוקד המטרה: ? יישומים (Targeted Marketing) ניתוח צורות שונות של אמצעי שיווק שהביאו בעבר לבצוע קניה המטרה: ?
שיווק ממוקד - מטרות התאמת אמצעי השיווק לסוגי הלקוחות * דיוור ישירים * קטלוגים * תכנון אתר הבית * תכנון מספר סוכנים * זיהוי תכונות של ?
יישומים איתור הונאות (Fraud Detection) תחומים: בנקאות, מסחר בניירות ערך, טלקומוניקציה, ביטוח, ושירותי בריאות יישומים: ?
איתור הונאות יישומים: * כרטיסי אשראי * שיחות טלפון * מונה חשמל * מונה מים
יישומים דירוג אשראי-ניהול סיכוני אשראי (Credit Scoring) תקנות רגולטוריות באזל 2 זיהוי סיכונים במתן אשראי זיהוי לקוחות העומדים לשנות את דירוג האשראי שלהם
יישומים ההסתברות תוחלת התביעה פרמיית הוגנת יישומי ביטוח ובריאות (Insurance and Health Care) ניתוח תביעות מבוטחים ההסתברות תוחלת התביעה פרמיית הוגנת
יישומי ביטוח ובריאות זיהוי טיפולים רפואיים המתבצעים ביחד זיהוי טפולים מוצלחים למצבי מחלה מסוימת
יישומים בקרת איכות (Quality Control) ניתוח תקלות בקווי הייצור חיזוי גורמים לתקלות
טכניקות הצגה ויזואלית של הנתונים (Visualization) גרפים - תרשימים גרפים - תרשימים צבעים - הצגה תלת-מימדית טכניקה נפוצה - דיאגרמת פיזור (Scatter Diagram) דיאגראמת דו מימדית המציגה פיזור הנתונים לפי שני פרמטרים
דוגמא לדיאגרמת פיזור מה ניתן ללמוד?
טכניקות מציאת רצף של פעילויות (Association Rules) זיהוי נתונים הקשורים עם נתונים אחרים הצגת חוקיות הסתברותית 80% מרכישות בהן נרכשה גבינת צאן כללו גם רכישת מעדן חלב דל שומן עוד ? מתאימה לבעיות מסוג ניתוח סל הקניות
מציאת רצף של פעילויות (Association Rules) 92% מהלקוחות להם מנוי לעיתון "גלובס" ומנוי העוסק במוסיקה - יש להם גם מנוי לירחון העוסק במכוניות
טכניקות ניתוח סדר הופעה Sequence Based Analysis הבנת סדר ביצוע העסקאות על ציר הזמן מטרה: ? לדוגמא: ?
מטרה הבנת תבנית ההתנהגות לגבי קרות אירוע מסוים (רכישת מוצר באינטרנט) כדי לצפות מראש קרות האירוע בעתיד
דוגמאות מסלול מנצח של לינקים המביא לביצוע קניה בפועל
דוגמאות איתור תהליכי טיפול מוצלחים למחלה זיהוי הסתבכויות ממתן תרופות "אם ניתן טיפול x אזי ההסתברות להופעת דלקת y לאחר חודש הינה p%" "אם מניה x עולה ביותר מ- 20% בעוד מדד המניות יורד אזי מניה y תעלה כעבור שבוע בהסתברות p%"
טכניקות ניתוח אשכולות (Cluster Analysis) פילוח אוכלוסייה לאוסף אשכולות דמיון בין אובייקטים השייכים לכל אשכול המטרה: ?
הבנת תוצאות ההקבצה מחייבת הבנה בנתונים תהליך בניית האשכולות אלגוריתם - * מגדיר דפוס התנהגות * בונה אשכולות * משייך לקוחות * מזהה מאפיינים הבנת תוצאות ההקבצה מחייבת הבנה בנתונים
תהליך בניית האשכולות
טכניקות סיווג (Classification) נפוץ תהליך חיזוי מודל סיווג ע"פ היסטוריה הקבצות ידועות יישומים: ?
סיווג (Classification) יישומים: * כשל אשראי * כשל תהליך ייצור * הונאות * נטישה
סיווג (Classification) סוגי אלגוריתמים - * רגרסיה איזה ? * עצי החלטות * רשתות עצביות
עצי החלטה ( Decision Tree) אלגוריתמים עצי החלטה ( Decision Tree) העיקרון: * זיהוי גורמים * ז"א: חיפוש תכונה/פרמטר המנבאת התנהגות * מיון ע"פ חשיבות * הצגה - עץ
אוסף של כללי החלטה Rules for 1 - contains 4 rule(s) Rule 1 for 1 if AGE = 2 and PAY_WEEK = 2.0 then 1 Rule 2 for 1 if CLASS = 1 Rules for 0 - contains 2 rule(s) Rule 1 for 0 if PAY_WEEK = 1.0 then 0 Rule 2 for 0 if AGE = 1
שלבים בשימוש בעצי החלטות בנית העץ (Decision Tree Induction) - סיווג לקוחות פוטנציאלים * שהפכו * שלא הפכו - האלגוריתם בונה עץ החלטות
שלבים בשימוש בעצי החלטות בדיקת סבירות ופישוט העץ (Tree Pruning) – - איחוד ענפים כיצד? - פיצול ענפים כיצד?
שלבים בשימוש בעצי החלטות ביצוע ע"י מומחים - * מכירים נתוני האימון * מסוגלים לבדוק איכות התוצאות
שלבים בשימוש בעצי החלטות הפעלת המודל על מדגם נוסף הסיבה ?
שלבים בשימוש בעצי החלטות קבלת החלטות (Decision making) * הפעלת המודל לגבי כל לקוח פוטנציאלי * ניתוח הסיכויים שלא יחזיר אשראי
עצי החלטה – יתרונות וחסרונות יתרונות: * נוחים וקלים להבנה * רמת דיוק גבוהה (לפעמים..) * זמן קצר לבניית העץ (אלגוריתם פשוט) חסרונות: * עץ מסועף הדורש פישוט
עצי החלטה - אלגוריתמים המקור: מחקר שבוצע באוניברסיטת משיגן ונקרא: AID (Automatic Interaction Detection) CHAID – Chi Squared AID ID5 C5.0 GINI
אלגוריתמים ומודלים - רשתות עצביות רשתות עצביות (Neural Networks) ענף חדש של אינטליגנציה מלאכותית לפתרון בעיות סיווג מבוסס על מבנה מתמטי בעלי יכולת לימוד עצמי המוח הינו רשת עצבית המורכבת ממספר ענק של נוירונים המחוברים אחד עם השני באמצעות סינפסות (Synapses) וכך מתקבלת רשת עצבית ענקית מנגנון זה מאפשר מורכבות: למידה
נוירון טבעי
רשת עצבית
רשתות עצביות המבנה שימש חוקרים לבניית מכונות בעלות יכולת למידה מבוסס על אוסף צמתים המחולקים ל- * צמתי קלט המזרימים את נתוני הקלט * צמתי ביניים המשתתפים בתהליך פתרון הבעיה * צמתי פלט המציגים התוצאות הצמתים המחוברים ביניהם ברשת גדולה
שלבים בשימוש ברשת השימוש ברשת מורכב משני שלבים: * שלב האימון בו מציגים לרשת אוסף דוגמאות מהעבר ומאמנים הרשת לפתור בעיות סיווג * שלב הפענוח בו מציגים מקרים חדשים ומסווגים אותם (מבצעים בהם פעולות חיזוי)
F
נוירון מלאכותי עוצמת ההפעלה של הנוירון - הסכום המשוקלל של כל הקלטים פונקצית הפעלה (Activation Function) - ערך עוצמת ההפעלה מוזן לפונקצית ההפעלה שבבסיס כל נוירון הפלט של הנוירון - תוצאת פונקצית ההפעלה הפלט של כל נוירון נורה קדימה ומוזן כקלט לכל אחד מהנוירונים בשכבה הבאה של הרשת השכבה הבאה יכולה להיות: * שכבת חישוב (ביניים) * שכבת פלט
עוצמת הפעלה
פונקצית הפעלה מסוג מדרגה (Step) מעבירה 0 אם עוצמת ההפעלה קטנה מערך מסוים משקל שלילי של סינפסה מציין השפעה מעכבת של נוירון מסוים על הבא אחריו
בחירת פונקצית הפעלה קיים אלגוריתמים הקובעים את פונקצית ההפעלה שבבסיס כל נוירון ברשת הקביעה על סמך: * מספר יחידות הקלט *סוג יחידות הקלט * התוצאות המתקבלות בקבוצת האימון על פני ציר הזמן אם נקבע פונקצית מדרגה – ערכי ה-T (ערכי סף) נקבעים אף הם על פי אלגוריתמים מתאימים
מימוש אופרטורים בוליאנים בעזרת פונקצית מדרגה
היישום הראשון ברשת עצבית - רשת Perceptron אין לה שכבות ביניים רק שכבת קלט ושכבת פלט
רשת עם שכבות ביניים (Hidden Layers) בשנות ה-80 החלו לפתח רשתות המבוססות על * שכבות ביניים (שכבות נסתרות) * אלגוריתם Back Propagation
רשתות עם "שכבות נסתרות” רשת המכילה בנוסף לשכבת הפלט שכבות נסתרות (Hidden Layers) בכל שכבה קיים נוירון אחד או מספר נוירונים משמשות לעיבוד פנימי של המידע בתוך הרשת נוירוני שכבת הפלט, השכבות הנסתרות ויחידות הקלט מחוברים ביניהם מוסיף לכח החישוב (החיזוי) של הרשת