Presentation is loading. Please wait.

Presentation is loading. Please wait.

Feature Selection Presented by: Nafise Hatamikhah

Similar presentations


Presentation on theme: "Feature Selection Presented by: Nafise Hatamikhah"— Presentation transcript:

1 Feature Selection Presented by: Nafise Hatamikhah hatamikhah@chmail.ir
Winter 2014

2 Presentation Outline 4 3 2 1 My Paper
Categorize and Describe Various Algorithms for Feature Selection 2 Feature Selection 1 A Short View on the Dimension Reduction

3 A SHORT View on the Dimension Reduction

4 Dimension (Feature or Variable)
Who is it?

5 Dimension (Feature or Variable)
A measurement of a certain aspect of an object Two feature of person: weight hight

6 The curse of dimensionality
As the number of dimensions increases, a fix data sample becomes exponentially sparse Figure (a) shows a plot of data generated from a uniform distribution between 0 and 2 with 25 instances in one dimension. Figure (b) shows a plot of the same data in two dimensions. Figure (c) displays the data in three dimensions. (a) 12 samples that fall inside the unit-sized box (b) 7 samples in box (C) 2 samples in box Observe that the data become more and more sparse in higher dimensions Effective solution to the problem of “curse of dimensionality” is: Dimensionality reduction

7 General objectives of dimensionality reduction:
Dimension Reduction The study of methods for reducing the number of dimensions describing the object General objectives of dimensionality reduction: Improve the quality of data for efficient data-intensive processing tasks Reduce the computational cost and avoid data over-fitting

8 Grouping of dimension reduction methods
Dimensionality reduction approaches include : Feature Selection Feature Extraction Feature Selection Or Feature Extraction It is depend on the problem. Example: Pattern recognition: problem of dimensionality reduction is to extract a small set of features that recovers most of the variability of the data. Text mining: problem is defined as selecting a small subset of words or terms (not new features that are combination of words or terms).

9 Grouping of dimension reduction methods
Feature Extraction: Create new feature based on transformations or combinations of the original feature set. N: Number of original features M: Number of extracted features M<N

10 Grouping of dimension reduction methods
Feature Selection: the problem of choosing a small subset of features that ideally are necessary and sufficient to describe the target concept. یك انتخاب ویژگی مناسب می تواند كارآیی یك مدل استنتاجی(Inference model) را افزایش دهد. Liu و Motoda در سال 1998 نشان دادند كه تاثیرات انتخاب ویژگی عبارتند از: 1. برای بهبود كارآیی (سرعت آموزش، دقت پیش بینی یا سادگی قواعد) 2. برای متصور كردن داده (Visualize the data)برای انتخاب مدل و 3. برای كاهش ابعاد(Reduce dimensionality) و حذف نویز(مساله انتخاب ویژگی می‌تواند ناشی از زیادی نویز و وارد شدن ویژگی‌های نامربوط و اضافی در مجموعه داده باشد). حذف نکردن این ویژگی­ها مشکلی از لحاظ اطلاعاتی ایجاد نمی­کند ولی بار محاسباتی را برای کاربرد موردنظر بالا می­برد. و علاوه بر این باعث می­شود که اطلاعات غیر مفید زیادی را به همراه داده­های مفید ذخیره کنیم. N: Number of original features M: Number of selected features M<N

11 Feature Selection

12 Feature Selection Applications of Feature Selection
Information explosive 80% information stored in text documents: journals, web pages, s... Difficult to extract special information Current technologies...

13 Goodness Reducing dimensionality Improving learning efficiency
Dimension (Feature or Variable) A measurement of a certain aspect of an object Goodness Reducing dimensionality Improving learning efficiency Increasing predicative accuracy Reducing complexity of learned results

14 Irrelevant OR Relevant
Parts of Feature Set Irrelevant OR Relevant Goal: Classification Two Class : {Lion and Deer} We use some feature to classify a new instance To which class does this animal belong

15 Irrelevant OR Relevant
Parts of Feature Set Irrelevant OR Relevant Goal: Classification Two Class : {Lion and Deer} We use some feature to classify a new instance So, number of legs is irrelevant feature Feature 1: Number of legs Q: Number of legs? A: 4

16 Irrelevant OR Relevant
Parts of Feature Set Irrelevant OR Relevant Goal: Classification Two Class : {Lion and Deer} We use some feature to classify a new instance So, Color is irrelevant feature Feature 1: Number of legs Feature 2: Color Q: What is its color? A:

17 Irrelevant OR Relevant
Parts of Feature Set Irrelevant OR Relevant Goal: Classification Two Class : {Lion and Deer} We use some feature to classify a new instance So, Feature 3 is relevant feature Feature 1: Number of legs Feature 2: Color Feature 3: Type of food Q: What does it eat? A: Grass

18 Approaches : Subset Evaluation (Feature Subset Selection )
Feature selection Approaches : Subset Evaluation (Feature Subset Selection ) Framework of feature selection via subset evaluation

19 Subset Generation - Subset search method
Feature selection Subset Generation - Subset search method Three ways in how the feature space is examined : Complete Search Heuristic Search Random Search Las Vegas Randomized Quick Sort (A well known example) Las Vegas: always output a correct answer, but may require a long time to execute یک مثال از این دسته Randomized Quick Sort است که در این مسأله pivot point به صورت تصادفی انتخاب میشود. اثبات می شود که در بدترین حالت زمان O(n log n)می باشد. Monte Carlo: May output an incorrect answer with small probability, but always complete execution quickly. Monte Carlo

20 Validation Feature selection Stopping Criterion 1 2 Generation
Based on Generation Pre-defined number of features Pre-defined number of iterations Based on Evaluation Function: whether addition or deletion of a feature does not produce a better subset whether optimal subset based on some evaluation function is achieved 1 Original Feature Set 2 Generation Subset Evaluation Goodness of the subset Stopping Criterion No Yes Validation 3 4

21 Validation Feature selection Result Validation 1 2 Generation
Original Feature Set Generation Subset Evaluation Basically not part of the feature selection process itself - compare results with already established results or results from competing feature selection methods Goodness of the subset Stopping Criterion No Yes Validation 3 4

22 Approaches : Subset Evaluation (Feature Subset Selection )
Feature selection Approaches : Subset Evaluation (Feature Subset Selection ) The existing feature selection algorithms, based on criterion functions used in searching for informative features can be generally categorized as: Filter model Wrapper model Embedded methods

23 Ignored effect of selected subset on the performance of classifier
Feature selection Filter Method The filter approach utilizes the data alone to decide which features should be kept, without running the learning algorithm. Ignored effect of selected subset on the performance of classifier Wrapper Method Evaluation function based on the error rate classifier the performance of a learning algorithm is used to evaluate the goodness of selected feature subsets

24 Feature selection Embeded Method Train SVM Train SVM Train SVM Train
Eliminate useless feature(s) Eliminate useless feature(s) Eliminate useless feature(s) Eliminate useless feature(s) Eliminate useless feature(s) All Features Performance degradation? Yes, stop! No, continue… Embedded feature search and the learning algorithm (e.g., classifier) into a single optimization problem formulation.

25 Weka Software: What we can do with ?
Feature selection Weka Software: What we can do with ? Weka is a piece of software, written in Java, that provides an array of machine learning tools, many of which can be used for data mining Pre-processing data Features selection Features extraction Regression Classify data Clustering data Associate rules More functions Create random data set Connect data sets in other formats Visualize data ……. نرم­افزار WEKA یکی از ابزارهای معروف داده کاوی می باشد که الگوریتم های معروف زیادی را برای طبقه­بندی ، خوشه بندی ، استخراج قوانین انجمنی و .. به صورت آماده مهیای استفاده می­نماید. به این دلیل است که از weka می توان علاوه بر داده کاوی در کاربرد های تشخیص الگو نیز استفاده نمود، با استفاده از الگوریتم مناسب در weka می توان مدلی را برای استفاده در آینده ساخت. نرم­ افزار WEKA در دانشگاه وایکاتو در نیوزیلند پیاده سازی شده است در نرم­افزار WEKA ما از یکی از محیط های گرافیکی آن به نام Explorer استفاده کردیم که خود شامل 6 بخش است. Preprocess---Classify---Cluster---Associate---Select Attribute---Visualize --- در این مبحث قصد نداریم که به شکل کامل به نرم­افزار WEKA بپردازیم. درخلال کار قسمتهای مورد استفاده توضیح داده خواهد شد . جهت آشنایی با این نرم­افزار و الگوریتم­های مختلف آن به کتاب زیر که در مراجع موجود است مراجعه نمایید. Data Mining Practical Machine Learning Tools and Techniques 2d ed - Morgan Kaufmann

26 Weka Software: What we can do with ?
Feature selection Weka Software: What we can do with ?

27 categorize and describe various algorithms for feature selection

28 Feature selection Methods

29 Relief Feature selection Methods
Generation procedure : Heuristic Search Evaluation function : Distance Measures Relief Nearest Hit Nearest Miss uses Euclid distance

30 B&B Feature selection Methods Generation procedure : Complete Search
Evaluation function : Distance Measures B&B (Branch and Bound)

31 Decision tree Feature selection Methods
Generation procedure : Heuristic Search Evaluation function : Information Measures Decision tree

32 MDLM Feature selection Methods Generation procedure : Complete Search
Evaluation function : Information Measures MDLM Minimum Description Length Method

33 Focus Compatibility with the least number of features
Feature selection Methods Generation procedure : Complete Search Evaluation function : Consistency Measures Focus Compatibility with the least number of features Search tree --- > BFS

34 LVF Feature selection Methods Generation procedure : Random Search
Evaluation function : Consistency Measures LVF Las Vegas Filter Searches for a minimal subset of features N: Number of feature (attribute) M: number of Samples (examples) Evaluation Criterion: inconsistency tmax: predetermined number of iteration

35 SFS SBS plus-l-take-away-r SFFS SBFS
Feature selection Methods Generation procedure : Heuristic Search Evaluation function : Classifier Error Rate Measures SFS (Sequential Forward Selection) SBS (Sequential Backward Selection) Nesting Effect plus-l-take-away-r SFFS (Sequential forward Floating Search) SBFS (Sequential Backward Floating Search)

36 GA SA RMHC-PF1 Feature selection Methods
Generation procedure : Random Search Evaluation function : Classifier Error Rate Measures GA (Genetic Algorithm) Crossover Mutation SA (Simulated Annealing) RMHC-PF1 (Random Mutation Hill Climbing-Prototype and Feature selection) find sets of prototypes for nearest neighbor classification is a Monte Carlo method can be converted to a Las Vegas algorithm by running the many times.

37 A Reinforcement Learning Based Method for
Feature Selection on the Imbalanced Datasets My Study on The Paper

38 Defining the problem as a game
Three methods commonly used in feature selection : Filter model --- > not consider interrelationship between the features Wrapper model --- > High Complexity Embedded methods Feature redundancy Failure to select the appropriate number of features Imbalanced Datasets : it contains many more samples from one class than from the rest of the classes اخیرا روشهایی برای بهبود این روشهای کلاسیک ارائه شده است که ما را به نتایج بهتری هدایت میکند. یکی از این روشها تعریف مسأله به صورت یک بازی است. Defining the problem as a game

39 Problem as a One-Player Game
Defining the problem as a Markov Decision Process Scan environment by Reinforcement Learning Methods Feature selection Method : to consider the interrelationship between the features Upper Confidence Graph Method خاصیت مارکوف... اگر حالتی دارای خاصیت مارکوف باشد بدان معنا است که حالت فعلی تمام اطلاعات مربوط به گذشته و حال که جهت ادامه یادگیری نیاز است را در خود دارد. به عنوان مثال چیدمان مهره ها روی صفحه شطرنج دارای خاصیت مارکوف است. گرچه این چیدمان به ما نمی گوید که از اول بازی تا کنون چه حرکت هایی انجام شده است اما تمام اطلاعات مورد نیاز جهت ادامه بازی را در اختیار ما می گذارد. به مساله یادگیری که خاصیت مارکوف برای حالت های آن برقرار باشد« فرآیند تصمیم گیری مارکوف (MDP) می گویند. بدین منظور هر زیرمجموعه از کل ویژگیها را به عنوان یک وضعیت از فضای حالت و افزودن هر ویژگی به مجموعه به عنوان یک عمل در نظر گرفته میشود که ما را از یک وضعیت به وضعیت جدید انتقال میدهد. بنابراین محیط به صورت یک بازی تک نفره تعریف شده است و میتوان از مزایای یادگیری تقویتی در این محیط بهره گرفت. The UCT algorithm is a best-first search method that is able to learn an evaluation function by repeatedly playing or simulating game episodes. Most Monte-Carlo tree search algorithms, in particular UCT, can be applied to game AI under a simple common structure. A game played from start to finish constitutes one episode. A tree is built incrementally from each experienced or simulated episode, and the whole procedure consists in repeating the following four steps: -1Selection: starting at the root (either the starting state or the cur- rent game state), recursively pick actions until a previously unseen state is encountered. -2Simulation: from the new state onward, take actions according to a default policy (e.g. random policy) until a terminal state is reached (end of the game). -3 Expansion: add one or more newly found states to the tree. -4Backpropagation: propagate the result back to all visited states during the episode. When the random player is in a situation s already in the UCT tree, then its choices depend on the statistics: number of wins and number of losses in previous games, for each legal move in s.

40 Reinforcement Learning
The main algorithms : Dynamic programming Monte Carlo Method Temporal Difference Learning یادگیری تقویتی در یک مسئله یادگیری تقویتی با عاملی روبرو هستیم که از طریق سعی و خطا با محیط تعامل کرده و یاد میگیرد تا عملی بهینه را برای رسیدن به هدف انتخاب نماید. یادگیری تقویتی از اینرو مورد توجه است که راهی برای آموزش عاملها برای انجام یک عمل از طریق دادن پاداش و تنبیه است بدون اینکه لازم باشد نحوه انجام عمل را برای عامل مشخص نمائیم. عامل در محیط حرکت کرده و حالتها و پاداشهای مربوطه را به خاطر می سپارد. عامل سعی میکند طوری رفتار کند که تابع پاداش را ماکزیمم نماید. دلیل استفاده از یادگیری تقویتی : در بسیاری از موارد چیزی به عنوان بهترین حرکت وجود ندارد بلکه زنجیره ای از حرکات خوب است که منجر به برد در بازی می گردد و تنها بازخورد در پایان بازی، برد و باخت است. سه الگوریتم اصلی برای حل مسائل یادگیری تقویتی : برنامه ریزی پویا (Dynamic programming ) روشهایی مبتنی بر مدل هستند از نظر محاسباتی دقیق ولی پر هزینه می باشند. تخمین کنونی را بر اساس تخمین های یادگیری شده به دست می آورد. یک روش پایین به بالا است. ابتدا نمونه های کوچکتر را حل کرده و نتایج را ذخیره کرده و سپس هرگاه به هرکدام از آنها نیاز داشتیم به جای محاسبه دوباره کافی است آن را بازیابی کنیم. روش مونت کارلو روشهایی مبتنی بر تجربه هستند از نظر محاسباتی نادقیق ولی سریع می باشند. همه محاسبات را به پایان مرحله واگذار میکند. یادگیری تفاوت زمانی اصلی ترین روش یادگیری تقویتی است که ترکیب موثری از دو روش قبلی ارائه می دهد. روش تفاوت زمانی ترکیبی از ایده های مونت کارلو و برنامه ریزی پویا است. البته برخلاف روش برنامه ریزی پویا نیازی به دانستن شرایط محیط نداریم و با نمونه گیری از محیط می توان مراحلی تولید کرد و در آنها اطلاعات موردنیاز را بررسی نمود. برخلاف روش مونت کارلو که همه محاسبات را به پایان مرحله واگذار میکند، از جمع شدن محاسبات جلوگیری میکند و در هر وضعیت محاسبات مورد نظر را انجام می دهد. روش تفاوت زمانی یک روش تکرار شونده می باشد. در هر تکرار، کار خود را از یک وضعیت بدون ویژگی شروع میکند و با انتخاب یک ویژگی از بین ویژگی های انتخاب نشده به وضعیت بعدی انتقال پیدا میکند و به همین ترتیب کار را ادامه می دهد تا به شرایط توقف دراین مرحله برسد. سپس وارد تکرار بعدی میشود و به همین ترتیب کار را ادامه میدهد. در ابتدای کار که محیط ناشناخته است و اطلاعاتی از خوب یا بد بودن ویژگی ها در دسترس نیست بیشتر از فاز جستجو استفاده میشود و به جمع آوری اطلاعات در مورد محیط و ویژگیها پرداخته می شود. با پیشروی مساله و جمع آوری اطلاعات زمان بهره برداری از آنها فرا رسیده است. پس هرگاه وارد وضعیتی شویم که قبلا آنجا بوده ایم از اطلاعات به دست آمده در مراحل قبل بهره برداری می کند و مساله را به سمت نواحی امید بخش تر میبرد. یعنی در هر مرحله ویژگی انتخاب می شود که تاکنون در این وضعیت دیده نشده و در مراحل قبلی نیز بیشترین امتیاز را کسب نموده است و به نظر می رسدکه مسأله را به سمت وضعیت های بهتری هدایت میکند.

41 Temporal Difference Learning
The best policy possible in the situation f Subset of features each allowed action reward that have already achieved یک classifier مشخص میکند که داده ها چقدر خوب طبقه بندی میشوند. بعنوان یک classifier قوی در این مقاله از روش svm استفاده شده است. The whole set of features

42 The proposed method Stop the algorithm
Average score collected by this feature The number of times that this feature is selected Stop the algorithm

43 Number of samples per class Other methods for comparing
Benchmarks UCI Datasets Dataset Number of Features Number of samples per class IONOSPHERE 34 225126 SONAR 60 11197 Other methods for comparing WEKA Software Information Gain CHI-squared statistic Feature Asseeement by Sliding Threshold(FAST)

44 IONOSPHERE

45 SONAR

46 Thanks for your attention
Any Question? May 2013


Download ppt "Feature Selection Presented by: Nafise Hatamikhah"

Similar presentations


Ads by Google