Instructor : Saeed Shiry

Slides:



Advertisements
Similar presentations
Evaluating Classifiers
Advertisements

Assessing and Comparing Classification Algorithms Introduction Resampling and Cross Validation Measuring Error Interval Estimation and Hypothesis Testing.
Model Evaluation Metrics for Performance Evaluation
1 Lecture 5: Automatic cluster detection Lecture 6: Artificial neural networks Lecture 7: Evaluation of discovered knowledge Brief introduction to lectures.
CS 8751 ML & KDDEvaluating Hypotheses1 Sample error, true error Confidence intervals for observed hypothesis error Estimators Binomial distribution, Normal.
Evaluating Classifiers Lecture 2 Instructor: Max Welling Read chapter 5.
Evaluating Hypotheses
Evaluating Classifiers Lecture 2 Instructor: Max Welling.
Performance Evaluation: Estimation of Recognition rates J.-S. Roger Jang ( 張智星 ) CSIE Dept., National Taiwan Univ.
Experimental Evaluation
Lehrstuhl für Informatik 2 Gabriella Kókai: Maschine Learning 1 Evaluating Hypotheses.
Statistical Comparison of Two Learning Algorithms Presented by: Payam Refaeilzadeh.
On Comparing Classifiers: Pitfalls to Avoid and Recommended Approach Published by Steven L. Salzberg Presented by Prakash Tilwani MACS 598 April 25 th.
1 Machine Learning: Lecture 5 Experimental Evaluation of Learning Algorithms (Based on Chapter 5 of Mitchell T.., Machine Learning, 1997)
1 Machine Learning: Experimental Evaluation. 2 Motivation Evaluating the performance of learning systems is important because: –Learning systems are usually.
Error estimation Data Mining II Year Lluís Belanche Alfredo Vellido.
Evaluating Hypotheses Reading: Coursepack: Learning From Examples, Section 4 (pp )
Objectives Define and use imaginary and complex numbers.
Experimental Evaluation of Learning Algorithms Part 1.
Learning from Observations Chapter 18 Through
 2003, G.Tecuci, Learning Agents Laboratory 1 Learning Agents Laboratory Computer Science Department George Mason University Prof. Gheorghe Tecuci 5.
1 CS 391L: Machine Learning: Experimental Evaluation Raymond J. Mooney University of Texas at Austin.
CLASSIFICATION: Ensemble Methods
ANOVA Assumptions 1.Normality (sampling distribution of the mean) 2.Homogeneity of Variance 3.Independence of Observations - reason for random assignment.
CpSc 881: Machine Learning Evaluating Hypotheses.
Kansas State University Department of Computing and Information Sciences CIS 732: Machine Learning and Pattern Recognition Friday, 29 February 2008 William.
Machine Learning Chapter 5. Evaluating Hypotheses
1 CSI5388 Current Approaches to Evaluation (Based on Chapter 5 of Mitchell T.., Machine Learning, 1997)
Chapter5: Evaluating Hypothesis. 개요 개요 Evaluating the accuracy of hypotheses is fundamental to ML. - to decide whether to use this hypothesis - integral.
1 Evaluation of Learning Models Literature: Literature: T. Mitchel, Machine Learning, chapter 5 T. Mitchel, Machine Learning, chapter 5 I.H. Witten and.
Ensemble Learning  Which of the two options increases your chances of having a good grade on the exam? –Solving the test individually –Solving the test.
Experimentally Evaluating Classifiers William Cohen.
Validation methods.
CS 8751 ML & KDDComputational Learning Theory1 Notions of interest: efficiency, accuracy, complexity Probably, Approximately Correct (PAC) Learning Agnostic.
Factorial Design of Experiments. An Economy of Design Two or more levels of each factor (variable) are administered in combination with the two or more.
Empirical Evaluation (Ch 5) how accurate is a hypothesis/model/dec.tree? given 2 hypotheses, which is better? accuracy on training set is biased – error:
Evaluating Classifiers. Reading for this topic: T. Fawcett, An introduction to ROC analysis, Sections 1-4, 7 (linked from class website)
Bias-Variance Analysis in Regression  True function is y = f(x) +  where  is normally distributed with zero mean and standard deviation .  Given a.
7. Performance Measurement
PSY 626: Bayesian Statistics for Psychological Science
Evaluating Hypotheses
Evaluating Classifiers
Introduction to Monte Carlo Method
Parameter Estimation and Fitting to Data
National Taiwan University
Evaluating Classifiers
Empirical Evaluation (Ch 5)
PSY 626: Bayesian Statistics for Psychological Science
Function Notation A function is a ‘job’.
Linear-Time Selection
دانشگاه صنعتی امیرکبیر Instructor : Saeed Shiry & Bishop Ch. 1
Learning Algorithm Evaluation
Evaluating Hypotheses
INTRODUCTION TO Machine Learning
Nonparametric Kernel Density Estimation
Nonparametric Kernel Density Estimation Background Modeling
Performance Evaluation and Hypothesis Testing add hints on how to evaluate with unbalanced data, see howtosvm.pdf.
Lecture 5. Learning (II) Sampling
Cross-validation Brenda Thomson/ Peter Fox Data Analytics
Model generalization Brief summary of methods
Chapter 13: Inferences about Comparing Two Populations
Where does the error come from?
9. Data Fitting Fitting Experimental Spectrum
Evaluating Hypothesis
Nonparametric Statistics
Nonparametric Kernel Density Estimation Background Modeling
Lecture 16. Classification (II): Practical Considerations
Do Now: Find all extrema of
Support Vector Machines 2
Machine Learning: Lecture 5
Presentation transcript:

Instructor : Saeed Shiry ارزیابی فرضیه ها Instructor : Saeed Shiry

مقدمه یک الگوریتم یادگیری با استفاده از داده های آموزشی فرضیه ای را بوجود میآورد . قبل از استفاده از این فرضیه ممکن است که لازم شود تا دقت این فرضیه مورد ارزیابی قرار گیرد. اینکار از دو جهت اهمیت دارد: دقت فرضیه را برای مثالهای نادیده حدس بزنیم. گاهی اوقات ارزیابی فرضیه جزئی از الگوریتم یادگیری است: مثل حرس کردن درخت تصمیم. Data Learning Hypothesis Algorithm Performance Assessment

روشهای آماری در این فصل سعی میشود تا روشهای آماری مناسب برای حدس زدن دقت فرضیه ها معرفی گردند. مبنای کار در جهت پاسخگوئی به سه سوال زیر است: اگر دقت یک فرضیه برای داده های محدودی معلوم باشد دقت آن برای سایر مثالها چه قدر خواهد بود؟ اگر یک فرضیه برای داده های محدودی بهتر از فرضیه دیگری عمل کند احتمال اینکه این وضعیت در حالت کلی نیز صادق باشد چقدر است؟ وقتی که داده آموزشی اندکی موجود باشد بهترین راه برای اینکه هم فرضیه را یاد بگیریم و هم دقت آنرا اندازه گیری کنیم چیست؟

کمی داده های آموزشی وقتی که داده آموزشی محدود باشد این امکان وجود دارد که این مثالها نشان دهنده توزیع کلی داده ها نباشند

مشکل کمی داده وقتی که یادگیری با استفاده از داده های محدودی انجام میشود دو مشکل ممکن است رخ دهند: Bias in the estimate دقت یک فرضیه بر روی مثالهای آموزشی تخمین مناسبی برای دقت آن برای مثالهای نادیده نیست. زیرا فرضیه یاد گرفته شده بر اساس این داده ها برای مثالهای آتی بصورت optimistic عمل خواهد نمود. برای رهائی از این امر میتوان از مجموعه داده ها ی تست استفاده کرد. Variance in the estimate حتی با وجود استفاده از مجموعه تست این امکان وجود دارد که خطای اندازه گیری شده با خطای واقعی اختلاف داشته باشد

Bias and Variance in the Estimate sample size accuracy Estimated Accuracy True accuracy Variance Bias

تخمین دقت فرضیه در یک مثال یادگیری میتوان برای فضای مثالهای ورودی یک تابع توزیع احتمال نامعلوم D در نظر گرفت که احتمال رخداد هر نمونه x را با p(x) مشخص مینماید. در اینصورت با دو سوال زیر مواجه هستیم: اگر فرضیه h و تعداد n نمونه داشته باشیم که بصورت تصادفی از مثالهائی با توزیع D انتخاب شده باشند، بهترین تخمین برای دقت h برای مثالهائی با همان توزیع چیست؟ خطای احتمالی در این تخمین دقت چقدر است؟ Input Space X p(X)

خطای نمونه و خطای واقعی خطای نمونه عبارت است از خطای فرضیه روی مجموعه مثالهای موجود ) آموزشی و یا تست( خطای نمونه فرضیه h نسبت به تابع هدف f و داده نمونه s بصورت زیر بیان میشود: errors(h)= 1/n xS(f(x),h(x)) که در ان n تعداد مثالهای s ومقدار (f(x),h(x)) برابر با 1 است اگر f(x)  h(x)و در غیر اینصورت برابر با 0 است.

errorD(h)= PrxD[f(x)  h(x)] خطای نمونه و خطای واقعی خطای واقعی عبارت است از خطای فرضیه روی مجموعه تمام مثالهای با توزیع نامعلوم D و برابر است با احتمال اینکه یک نمونه تصادفی به غلط دسته بندی شود. خطای واقعی فرضیه h نسبت به تابع هدف f و داده با توزیع D بصورت زیر بیان میشود: errorD(h)= PrxD[f(x)  h(x)] آنچه که در دست داریم خطای نمونه است در حالیکه آنچه که به دنبال آن هستیم خطای واقعی است. در اینصورت باید به این سوال پاسخ دهیم که خطای نمونه تا چه حد ی میتواند تخمین خوبی برای خطای واقعی باشد؟

مثال یک مجموعه داده6 تائی با توزیع احتمال زیر وجود دارد: P(X1) = 0.2 P(X4) = 0.1 P(X2) = 0.1 P(X5) = 0.2 P(X3) = 0.3 P(X6) = 0.1 فرضیه h برای مجموعه نمونه {X1, X2, X3, X4}میتواند X1, X2, X3 را بدرستی دسته بندی کند ولی قادربه دسته بندی صحیح X4 نیست. دراین صورت خطای نمونه برابر است با: ¼ (0 + 0 + 0 + 1) = ¼ = 0.25 اگر این فرضیه برای X6 صحیح و برای X5نادرست باشد در اینصورت خطای واقعی برابر است با: 0.2(0) + 0.1(0) + 0.3(0) + 0.1(1) + 0.2(1) + 0.1(0) = 0.3

فاصله اطمینان برای فرضیه های با مقادیر گسسته اگرشرایط زیر برقرار باشند: نمونه S دارای n مثال باشد که مستقل از یکدیگر و مستقل از h برپایه توزیع احتمال D انتخاب شده باشند و n  5 باشد و فرضیه h منجر به r خطا برروی این مثالها گردد errorS(h)=r/n تحت این شرایط میتوان بر پایه قضایای آماری ادعا نمود که اگر اطلاعات بیشتری موجود نباشد، محتملترین مقدار برای errorD(h) برابر با errorS(h) خواهد بود با احتمال 95% خطای واقعی بین فاصله زیر قرار دارد:

مثال فرض کنید که s دارای n=40 مثال بوده و فرضیه h منجر به r=12 خطا بر روی این داده شود. در اینصورت: خطای نمونه برابر است با errorS(h)=12/40=.30 اگر این آزمایش را بارها و بارها برای 40 نمونه جدید تکرار کنیم متوجه خواهیم شد که در 95% مواقع خطای محاسبه شده در فاصله زیر قرار خواهد داشت:

فاصله اطمینان برای فرضیه های با مقادیر گسسته عبارت فوق را میتوان بجای فاصله اطمینان 95% برای هر فاصله دیگری نظیر N% نیز ذکر نمود: مقدار ثابت ZN برای درصدهای مختلف را میتوان از جدول زیر بدست آورد: این تقریب زمانی بهترین نتیجه را دارد که: n errorS(h)(1 - errorS(h))  5

مقدمه ای بر تئوری نمونه برداری مروری بر بحثهای زیر میانگین واریانس توزیع دوجمله ای توزیع نرمال فواصل یک طرفه و دو طرفه

تخمین خطا سوال: تاثیر اندازه داده های نمونه بر اختلاف بین خطای نمونه و خطای واقعی چیست؟ در واقع پاسخ این سوال را متخصصین آمار داده اند! میتوان اندازه گیری خطای نمونه را به آزمایشی با نتیجه تصادفی تشبیه کرد. اگر به دفعات n نمونه با توزیع احتمال D بصورت تصادفی انتخاب و خطای نمونه برای هر کدام اندازه گیری شود، بعلت متفاوت بودن نمونه ها مقدار خطا نیز متفاوت خواهد بود. نتیجه حاصل از هر آزمایش یک متغیر تصادفی خواهد بود. چنین آزمایشی را میتوان با استفاده از توزیع دو جمله ای توصیف نمود.

توزیع دوجمله ای توزیع دو جمله ای برای آزمایشاتی استفاده میشود که دارای خواص زیر باشند: آزمایش به تعداد n دفعه تکرار شود، n مقداری ثابت و ازقبل دانسته است. هر آزمایش دارای دو نتیجه درست و یا غلط باشد. آزمایشات مستقل از همدیگر باشند، به نحویکه نتیجه یک آزمایش تاثیری بر سایر آزمایشات نداشته باشد. احتمال وقوع نتیجه درست برای تمام آزمایشات ثابت باشد.

مثال در پرتاب یک سکه به تعداد 8 دفعه: n=8 آزمایش دارای دو نتیجه شیر یا خط است نتیجه هر پرتاب سکه مستقل از پرتاب های قبلی است احتمال آمدن شیر برای هر پرتاب p=1/2 است

احتمال دوجمله ای احتمال وقوع r موفقیت در N بار تکرار یک آزمایش از رابطه زیر محاسبه میشود: که در آن p احتمال وقوع موفقیت در هر بار تکرار آزمایش است. 0 10 20 30 40 توزیع دوجمله ای برای n=40, p=.3

مثال احتمال آمدن 6 خط در 8 بار پرتاب یک سکه چقدر است؟

خطای نمونه برداری این خطا را میتوان با پرتاب سکه مقایسه نمود: پرتاب سکه و دیدن یک خط انتخاب یک نمونه از D و تعیین اینکه آیا h آنرا غلط ارزیابی میکند یا نه احتمال اینکه در یک پرتاب واحد یک خط داشته باشیم احتمال اینکه یک نمونه غلط ارزیابی شود دیدن تعداد r خط در N بار پرتاب سکه  تعداد ارزیابی های غلط از بین N نمونه انتخاب شده

میانگین مقدارمیانگین ) و یا (Expected Value یک متغیر تصادفی Y که ممکن است مقادیر y1,...,yn را داشته باشد عبارت است از: E[Y] = i=1n yi Pr(Y=yi) برای یک متغیر تصادفی با توزیع دوجمله ای این مقدار برابر است با: E[Y] = np

واریانس واریانس گستردگی توزیع احتمال و فاصله متغیر تصادفی از مقدار میانگین را مشخص میکند. واریانس یک متغیر تصادفی Y عبارت است از: Var[Y] = E[(Y-E[Y])2] ریشه دوم واریانس انحراف معیار نامیده میشود. برای یک متغیر تصادفی با توزیع دوجمله ای این مقادیر برابراند با:

بایاس تخمین errorS(h) = r/n and errorD(h) = p که p احتمال دسته بندی غلط یک نمونه انتخاب شده از D است متخصصین آمار errorS(h) را یک تخمین زننده (estimator)مینامند. اختلاف بین مقدار تخمین زده شده و مقدار واقعی بایاس تخمین نامیده میشود E[Y] – p اگر مقدار بایاس صفر باشد، تخمین زننده بدون بایاس نامیده میشود.

انحراف معیار خطای نمونه اگر در یک نمونه n عضوی تعداد r خطا داشته باشیم، انحراف معیار خطای نمونه برابر است با این مقدار را میتوان بصورت زیر تقریب زد:

فاصله اطمینان برای یک توزیع دوجمله ای مقدار میانگین برابر با errorD(h) و مقدارانحراف معیار برابر است با از اینرو برای بدست آوردن فاصله اطمینان 95% میبایست فاصله ای حول میانگین پیدا کینم که 95% احتمال را در بر داشته باشد. از آنجائیکه برای توزیع دوجمله ای محاسبه این مقدار مشکل بوده و از طرفی از آنجائیکه برای نمونه های زیاد توزیع دوجمله ای به توزیع نرمال نزدیک میشود، میتوان برای محاسبه فاصله اطمینان از توزیع نرمال بهره گرفت.

تقریب با توزیع نرمال برای توزیع نرمال با میانگین m و واریانس s فاصله اطمینان N% بصورت زیر است: از اینرو تقریب ما بصورت زیر خواهد بود: برای بدست آوردن این رابطه دو تقریب زده شده است: در محاسبه انحراف معیار بجای errorD(h) از errors(h) استفاده شده است توزیع دوجمله ای با توزیع نرمال تقریب زده شده است.

حدود یکطرفه و دوطرفه فاصله بدست آمده در مثال فوق یک فاصله دوطرفه است. گاهی لازم میشود که این فاصله بصورت یکطرفه بیان شود: احتمال اینکه errorD(h) حداکثر U باشد چقدر است؟ با توجه به اینکه توزیع نرمال حول میانگین متقارن است، میتوان یک فاصله اطمینان دوطرفه را به فاصله اطمینان یک طرفه معادلی با دو برابر اطمینان تبدیل نمود. [ L 100(1-a/2)% [ L U] 100(1-a)% U] 100(1-a/2)%

اختلاف خطای فرضیه ها حالتی را در نظر بگیرید که دو فرضیه h1, h2 موجود باشند: h1بر روی مجموعه s1 که شامل n1 عضو است تست شده و h2بر روی مجموعه s2 که شامل n2 عضو بوده و دارای همان توزیع است تست گردیده است. میخواهیم بدانیم اختلاف خطای واقعی این دوفرضیه چیست؟

تخمین زننده برای تخمین مقدار d از یک تخمین زننده استفاده میکنیم:

انحراف معیار از آنجائیکه برای مقادیر بزرگ نمونه توزیع احتمال errors2(h2) و errors1(h1) تقریبا نرمال است ، لذا توزیع احتمال را نیزمیتوان بصورت نرمال در نظر گرفت: به همین ترتیب فاصله اطمینان این تقریب بصورت زیر خواهد بود.

مقایسه الگوریتم های یادگیری چگونه میتوان عملکرد دو الگوریتم یادگیری مختلف ) مثل شبکه عصبی و درخت تصمیم ( را مقایسه کرد؟ LA LB Type B Type A

مقایسه الگوریتم های یادگیری روشهای مختلفی برای اینکار معرفی شده ولی هنوز روشی که بتواند اتفاق آرا را کسب کند ارائه نگردیده است! یک روش عبارت است از مقایسه میانگین عملکرد دو الگوریتم بر روی تمامی مجموعه های آموزشی با اندازه n که بصورت تصادفی از نمونه با توزیع D انتخاب میشوند. بعبارت دیگر میخواهیم مقدار اختلاف مورد انتظار درخطای آندو را تخمین بزنیم. ESD [errorD(LA(S))-errorD(LB(S))]

مشکل کمی داده در عمل فقط تعدا کمی داده نمونه برای مقایسه دو الگوریتم وجود دارد. در چنین حالتی داده موجود به دو مجموعه داده آموزشی S0 ومجموعه داده تست T0 تقسیم میشود.از داده آموزشی برای آموزش هر دو الگوریتم استفاده شده و داده تست نیز برای ارزیابی هر دو الگوریتم استفاده میشود. در اینصورت مقدار زیر برای مقایسه دو الگوریتم بکار میرود. errorT0(LA(S0))-errorT0(LB(S0)) ایراد این کاراینجاست که بجای استفاده از تمامی مجموعه های موجود در D فقط خطای موجود در مجموعه آموزشی مورد استفاده قرار میگیرد.

k-Fold Cross-Validation یک راه حل استفاده از الگوریتم زیر است: 1. Partition the available data D0 into k disjoint subsets T1, T2, …, Tk of equal size, where this size is at least 30. 2. For i from 1 to k, do use Ti for the test set, and the remaining data for training set Si Si <- {D0 - Ti} hA <- LA(Si) hB <- LB(Si) i <- errorTi(hA)-errorTi(hB) 3. Return the value avg(), where . avg() = 1/k i=1k i

فاصله اطمینان مقدار تقریبی فاصله اطمینان N% برای تخمین ESD0[errorD(LA(S))-errorD(LB(S))] عبارت است از: avg()tN,k-1savg() که در آن tN,k-1مقداری شبیه به ZN بوده و مقادیر آن از جدول 5-6 بدست میآید، savg() تخمینی از انحراف معیار مربوط به توزیع avg() میباشد: savg())=1/k(k-1) i=1k (i -avg())2

Paired Test اگر تست دو فرضیه یادگیری با استفاده ازمجموعه مثالهای یکسانی انجام شود paired test نامیده میشود. نتیجه چنین آزمایشاتی معمولا منجر به فواصل اطمینان بسته تری میگردد زیرا اختلاف مشاهده شده در خطا مربوط به اختلاف بین فرضیه هاست در حالیکه وقتی فرضیه ها با استفاده از مجموعه داده های متفاوتی تست میشوند امکان تاثیر گذاری اختلاف بین دو مجموعه داده زیاد میشود.