Costs and Filters Dr. Avi Rosenfeld Department of Industrial Engineering Jerusalem College of Technology

Slides:



Advertisements
Similar presentations
כריית מידע -- Clustering
Advertisements

Class Imbalance vs. Cost-Sensitive Learning
1 Formal Specifications for Complex Systems (236368) Tutorial #4 Refinement in Z: data refinement; operations refinement; their combinations.
חוקי Association ד " ר אבי רוזנפלד. המוטיבציה מה הם הדברים שהולכים ביחד ? –איזה מוצרים בסופר שווה לשים ביחד –מערכות המלצה – Recommendation Systems שבוע.
חיפוש בינה מלאכותית אבי רוזנפלד. סוגי חיפוש כלליים UNINFORMED SEARCH -- חיפושים לא מיודעים במרחי מצבים – BFS – DFS INFORMED SEARCH – חיפושים מיודעים –
Cross Validation False Negatives / Negatives
לבופר המיקמק הכי יפה וחתיך ! הכנתי משהו בשבילך כדי שתיסלח לי ! קדימה !
מצגת מיקמק מבית nolamik הפקות.
לא רק תחת הפנס: דרכים חדשניות לחיפוש ואחזור מידע איכותי Taly Sharon and Ariel Frank INFO April 2008.
RSS. על מה נדבר מה זה RSS ולמה צריך את זה היסטוריה ותקנים איך כותבים איך קוראים.
תרגול 5 רקורסיות. רקורסיה קריאה של פונקציה לעצמה –באופן ישיר או באופן עקיף היתרון : תכנות של דברים מסובכים נעשה ברור ונוח יותר, מכיוון שזו למעשה צורת.
מה החומר למבחן ? כל החומר שנלמד בהרצאות ובתרגולים. לגבי backtracking: לא תידרשו לממש אלגוריתם, אך כן להבין או להשלים מימוש נתון. אחת משאלות המבחן מבוססת.
A. Frank File Organization Indexed-Sequential File Introduction Thanks to Tamar Barnes.
1 Formal Specifications for Complex Systems (236368) Tutorial #5 Refinement in Z: data refinement; operations refinement; their combinations.
שאילת שאלות שאלת חקר המפתח למנעול 1. שאילת שאלות – שאלת חקר מה ניתן לשנות ? :  בתנאים : טמפ ' או לחץ או הכלים, או הציוד  בחומרים : איכות או כמות או.
Formal Specifications for Complex Systems (236368) Tutorial #6 appendix Statecharts vs. Raphsody 7 (theory vs. practice)
מבני בקרה מבוא לתכנות למנע " ס - שבוע מספר 3 - מאיר קומר - סמסטר ב ' - תשס " ו הסתעפות “ אם השמאל ואימנה ואם הימין ואשמאילה ”
משחק מכף לכף כבסיס לסיעור מוחין משותף אביגיל אורן תמי זייפרט דוד מיודוסר
The Cyclic Multi-peg Tower of Hanoi מעגלי חד-כווני סבוכיות הפתרון בגרסאות עם יותר מ-3 עמודים.
מודל הלמידה מדוגמאות Learning from Examples קלט: אוסף של דוגמאות פלט: קונסיסטנטי עם פונקציה f ב- C ז"א קונסיסטנטי עם S ז"א מודל הלמידה מדוגמאות Learning.
עקרון ההכלה וההדחה.
תכנות מונחה עצמים Object Oriented Programming (OOP) אתגר מחזור ב' Templates תבניות.
A. Frank File Organization Introduction to Pile File.
ROC & AUC, LIFT ד"ר אבי רוזנפלד.
Safari On-line books. מה זה ספארי ספארי זו ספריה וירטואלית בנושא מחשבים היא כוללת יותר מ כותרים כל הספרים הם בטקסט מלא ניתן לחפש ספר בנושא מסוים.
Points on a perimeter (Convex Hull) קורס – מבוא לעבוד מקבילי מבצעים – אריאל פנדלר יאיר ברעם.
CSCI 347 / CS 4206: Data Mining Module 06: Evaluation Topic 07: Cost-Sensitive Measures.
Evaluating Classifiers
מבוא לאחזור מידע Information Retrieval בינה מלאכותית אבי רוזנפלד.
A Study of the Behavior of Several Methods for Balancing Machine Learning Training Data Author: Gustavo E. A. Batista Presenter: Hui Li University of Ottawa.
מערכות המלצה / Collaborative Filtering ד " ר אבי רוזנפלד.
Evaluation – next steps
הערכת טיב המודל F-Measure, Kappa, Costs, MetaCost ד " ר אבי רוזנפלד.
איחזור מידע אלגוריתמי חיפוש PageRank ד " ר אבי רוזנפלד.
Write-N-Cite הוספת הפניות ביבליוגרפיות בתוך מסמכי Word © 2012 All rights reserved to the Mechanical Engineering Library, Technion – Israel Institute of.
פיתוח מערכות מידע Class diagrams Aggregation, Composition and Generalization.
Practice session 3 תחביר ממשי ( קונקרטי ) ותחביר מופשט ( אבסטרקטי ) שיטות חישוב : Applicative & Normal Evaluation Partial Evaluation.
Practice session 3.  תחביר ממשי ( קונקרטי ) ותחביר מופשט ( אבסטרקטי )  שיטות חישוב : Applicative & Normal Evaluation.
מחסנית ותור Stacks and Queues. מחסנית Stack מחסנית - Stack ADT סוג של מערך מוגבל מהיר מאוד ותופס מעט זיכרון שימוש ב LIFO – LIFO (Last In, First Out)
N. Gagunashvili (UNAK & MPIK) Methods of multivariate analysis for imbalance data problem Under- and Oversampling Techniques Nikolai Gagunashvili (UNAK.
Class Imbalance Classification Implementation Group 4 WEI Lili, ZENG Gaoxiong,
The Simple Past What?When?How? ©MJH_teacher. MJH_teacher Read the following texts. Pay special attention to the form of the verbs.
Data Mining Practical Machine Learning Tools and Techniques By I. H. Witten, E. Frank and M. A. Hall Chapter 5: Credibility: Evaluating What’s Been Learned.
Class Imbalance in Text Classification
שיאון שחוריMilOSS-il מוטיבציה  python זה קל ו C זה מהיר. למה לא לשלב?  יש כבר קוד קיים ב C. אנחנו רוצים להשתמש בו, ולבסס מעליו קוד חדש ב python.
Chapter 5: Credibility. Introduction Performance on the training set is not a good indicator of performance on an independent set. We need to predict.
A Brief Introduction and Issues on the Classification Problem Jin Mao Postdoc, School of Information, University of Arizona Sept 18, 2015.
Intelligent Database Systems Lab 國立雲林科技大學 National Yunlin University of Science and Technology Advisor : Dr. Hsu Presenter : Chien-Shing Chen Author: Gustavo.
Evaluation of Learning Models Evgueni Smirnov. Overview Motivation Metrics for Classifier’s Evaluation Methods for Classifier’s Evaluation Comparing Data.
2011 Data Mining Industrial & Information Systems Engineering Pilsung Kang Industrial & Information Systems Engineering Seoul National University of Science.
Defect Prediction using Smote & GA 1 Dr. Abdul Rauf.
בגיל 9 למדתי שהמורה שלי שאלה אותי רק כאשר לא ידעתי את התשובהבגיל 9 למדתי שהמורה שלי שאלה אותי רק כאשר לא ידעתי את התשובה בגיל 10 למדתי שאפשר להיות מאוהב.
קשר לוגי : סיבה ותוצאה. במשפט – דוגמות קלות בגלל הגשם החלטנו לא לנסוע לטיול לחיפה. הרצון שלי להצליח הניע אותי להשקיע בלימודים. ציפורים נודדות בין יבשות.
Great Workshop La Palma -June 2011 Handling Imbalanced Datasets in Multistage Classification Mauro López Centro de Astrobiología.
Balancing Techniques Gretel Fernández.
Lecture Notes for Chapter 4 Introduction to Data Mining
Data Mining Classification: Alternative Techniques
Features & Decision regions
ממשקים - interfaces איך לאפשר "הורשה מרובה".
משימת חקר מכוון ללמידה משמעותית
Marina Kogan Sadetsky –
Shell Scripts בסביבת UNIX
מחסנית ותור Stacks and Queues.
CSCI N317 Computation for Scientific Applications Unit Weka
Model Evaluation and Selection
Data Mining Class Imbalance
Assignment 1: Classification by K Nearest Neighbors (KNN) technique
COSC 4368 Intro Supervised Learning Organization
Presentation transcript:

Costs and Filters Dr. Avi Rosenfeld Department of Industrial Engineering Jerusalem College of Technology

מושגים בהרצה  Minority Class Problem  Underfitting  Overfitting  Feature Selection Correlation Feature Selection Smote  Cost Based Learning Metacost 2

Under-fitting / Over-fitting  Underfitting: דיוק גורע בתוך הTEST DATA בגלל שהמודל לא התאים לנתונים של הTRAINING. אולי אתה חייב יותר DATA במספר השורות (instances) אולי אתה חייב יותר DATA במספר העמודות (מאפיינים)  Overfitting: דיוק גרוע בתוך הTEST DATA בגלל שהמודל בתוך הTRAINING היה יותר מדי טוב (!) היכולת של המודל לנבא מה יקרה בDATA עתידי לא טוב! הTRAINING תפס דברים לא חשובים 3

הבעיה הכללי Minority Class Problem  מה עושים אם המידע לא מאוזן  פתרון פשוט אבל לא הגיוני– תתעלם מה MINORITY  דוגמא: אם יש לך 99% מהאנשים בלי סרטן ו1% עם סרטן מה יהיה הדיוק של ZERO?  מה יהיה ה PRECISION וRECALL וכל קטגוריה?  האם זה קרוב יותר ל Underfitting או Overfitting? 4

Quick Overview of Feature Selection Dr. Jaume Bacardit (now at Newcastle) Topic 2: Data Preprocessing Lecture 3: Feature and prototype selection

פתרון אפשרי ל OVERFITTING Feature Selection  Transforming a dataset by removing some of its columns A1A2A3A4CA2A4C

Feature Selection  Great article: An Introduction to Variable and Feature Selection (Guyon and Elisseeff, 2003)  Three basic approaches: Filters, wrappers, and embedded methods  בשיעור שלנו נעשה פילטר וגם WRAPPER 7 Dataset Filter Classification method

איך בוחרים מה להוריד?  ENTROPY / INFOGAIN מורידים אפיינים בלי INFOGAIN מעל סף מסויים  מורידים מאפיינים שקרובים אחד לשני אפשרות אחת: CFS (Correlation Feature Selection) "Good feature subsets contain features highly correlated with the classification, yet uncorrelated to each other“ רוצים מאפיינים שונים וגם טובים 8

כדי לפתור את הMINORITY, אני צריך: Cost-Sensitive Learning  מוסיפים עלות לכל סוג של סיווג  בדרך כלל, אלגוריתמים לא מפרידים בין קטגוריות  אבל יש ה-ר-ב-ה יישומים שזה חשוב: אבחון סרטן אבחון סיכונים (התקפות מחשב, זיוף, וכו')

Class Imbalance vs. Asymmetric Misclassification costs  Class Imbalance: one class occurs much more often than the other  Asymmetric misclassification costs: the cost of misclassifying an example from one class is much larger than the cost of misclassifying an example from the other class.  לפי הניסיון שלי : שני המוסגים בדרך כלל באים ביחד  גם הפתרונות דומות  דוגמאות : תוריד שורות מה MAJORITY CLASS תוסיף שורות ל MINORITY CLASS תוסיף Filter ל DATA-- SMOTE תוסיף עלות ל MINORITY -- METACOST

איזה מצב יותר טוב??? PN P2010 N3090 Predicted Actual PN P02 N10 Confusion matrix 2 Cost matrix PN P1020 N15105 Predicted Actual Confusion matrix 1 FN FP Error rate: 40/150 Cost: 30x1+10x2=50 Error rate: 35/150 Cost: 15x1+20x2=55 FN

Making Classifier Balanced with Changing the Data (Filter)  Baseline Methods Random over-sampling Random under-sampling  Under-sampling Methods Tomek links Condensed Nearest Neighbor Rule One-sided selection CNN + Tomek links Neighborhood Cleaning Rule  Over-sampling Methods Smote  Combination of Over-sampling method with Under-sampling method Smote + Tomek links Smote + ENN

MetaCost  By wrapping a cost-minimizing procedure, “meta- learning” stage, around the classifier  תתייחס לסוג הלמידה כ " קופסה שחורה "  אפשר לשנות את ה COST ולהשפיע על התוצאות

דוגמא: מתי אנשים מפעילים CRUISE CONTROL

מתוך WEKA Metacost בלי תוספת עלות

מתוך WEKA Metacost עם עלות

הכנה לקראת התרגיל... 17

AUC (Area under ROC) 18

Lift: Note top Left 19

Attribute Selection and Smote 20

MetaCost 21

בחירה בשיטת למידה וCOST 22