Instructor : Saeed Shiry & Mitchell Ch. 6

Slides:



Advertisements
Similar presentations
Naïve Bayes. Bayesian Reasoning Bayesian reasoning provides a probabilistic approach to inference. It is based on the assumption that the quantities of.
Advertisements

Bayesian Learning Provides practical learning algorithms
Hands on Classification with Learning Based Java Gourab Kundu Adapted from a talk by Vivek Srikumar.
Lecture 5 Bayesian Learning
Ling 570 Day 9: Text Classification and Sentiment Analysis 1.
Naïve Bayes based Model Billy Doran “If the model does what people do, do people do what the model does?”
Incorporating Machine Learning in your application: Text classification Vivek Srikumar.
Probabilistic inference
Assuming normally distributed data! Naïve Bayes Classifier.
Bayes Rule How is this rule derived? Using Bayes rule for probabilistic inference: –P(Cause | Evidence): diagnostic probability –P(Evidence | Cause): causal.
1 Chapter 12 Probabilistic Reasoning and Bayesian Belief Networks.
2D1431 Machine Learning Bayesian Learning. Outline Bayes theorem Maximum likelihood (ML) hypothesis Maximum a posteriori (MAP) hypothesis Naïve Bayes.
Introduction to Bayesian Learning Bob Durrant School of Computer Science University of Birmingham (Slides: Dr Ata Kabán)
1 SIMS 290-2: Applied Natural Language Processing Preslav Nakov October 6, 2004.
. Multivariate Information Bottleneck Noam Slonim Princeton University Lewis-Sigler Institute for Integrative Genomics Nir Friedman Naftali Tishby Hebrew.
1er. Escuela Red ProTIC - Tandil, de Abril, Bayesian Learning 5.1 Introduction –Bayesian learning algorithms calculate explicit probabilities.
Introduction to Bayesian Learning Ata Kaban School of Computer Science University of Birmingham.
Rutgers CS440, Fall 2003 Introduction to Statistical Learning Reading: Ch. 20, Sec. 1-4, AIMA 2 nd Ed.
Bayes Classification.
CS Bayesian Learning1 Bayesian Learning. CS Bayesian Learning2 States, causes, hypotheses. Observations, effect, data. We need to reconcile.
WordSieve: Learning Task Differentiating Keywords Automatically Travis Bauer Sandia National Laboratories (Research discussed today was done at Indiana.
Midterm Review Rao Vemuri 16 Oct Posing a Machine Learning Problem Experience Table – Each row is an instance – Each column is an attribute/feature.
Machine Learning CS 165B Spring Course outline Introduction (Ch. 1) Concept learning (Ch. 2) Decision trees (Ch. 3) Ensemble learning Neural Networks.
Text Classification, Active/Interactive learning.
Naive Bayes Classifier
Machine Learning Chapter 6. Bayesian Learning Tom M. Mitchell.
Kansas State University Department of Computing and Information Sciences CIS 730: Introduction to Artificial Intelligence Lecture 25 Wednesday, 20 October.
机器学习 陈昱 北京大学计算机科学技术研究所 信息安全工程研究中心. 课程基本信息  主讲教师:陈昱 Tel :  助教:程再兴, Tel :  课程网页:
TEXT CLASSIFICATION USING MACHINE LEARNING Student: Hung Vo Course: CP-SC 881 Instructor: Professor Luo Feng Clemson University 04/27/2011.
CS464 Introduction to Machine Learning1 Bayesian Learning Features of Bayesian learning methods: Each observed training example can incrementally decrease.
Computing & Information Sciences Kansas State University Wednesday, 22 Oct 2008CIS 530 / 730: Artificial Intelligence Lecture 22 of 42 Wednesday, 22 October.
Kansas State University Department of Computing and Information Sciences CIS 730: Introduction to Artificial Intelligence Lecture 25 of 41 Monday, 25 October.
Naïve Bayes Classifier. Red = Yellow = Mass = Volume = Apple Sensors, scales, etc… 8/29/03Bayesian Classifier2.
CS Bayesian Learning1 Bayesian Learning A powerful and growing approach in machine learning We use it in our own decision making all the time – You.
1 Chapter 12 Probabilistic Reasoning and Bayesian Belief Networks.
Chapter 6 Bayesian Learning
Review: Probability Random variables, events Axioms of probability Atomic events Joint and marginal probability distributions Conditional probability distributions.
1 Bayesian Learning. 2 Bayesian Reasoning Basic assumption –The quantities of interest are governed by probability distribution –These probability + observed.
Naïve Bayes Classifier Christina Wallin, Period 3 Computer Systems Research Lab Christina Wallin, Period 3 Computer Systems Research Lab
Bayesian Learning Provides practical learning algorithms
Naïve Bayes Classification Christina Wallin Computer Systems Research Lab
Document Classification with Naïve Bayes -- How to Build Yahoo Automatically Andrew McCallum Just Research & CMU Joint work with.
1 Machine Learning: Lecture 6 Bayesian Learning (Based on Chapter 6 of Mitchell T.., Machine Learning, 1997)
Bayesian Learning Bayes Theorem MAP, ML hypotheses MAP learners
Naïve Bayes Classifier April 25 th, Classification Methods (1) Manual classification Used by Yahoo!, Looksmart, about.com, ODP Very accurate when.
BAYESIAN LEARNING. 2 Bayesian Classifiers Bayesian classifiers are statistical classifiers, and are based on Bayes theorem They can calculate the probability.
CS Ensembles and Bayes1 Ensembles, Model Combination and Bayesian Combination.
Bayesian Learning Evgueni Smirnov Overview Bayesian Theorem Maximum A Posteriori Hypothesis Naïve Bayes Classifier Learning Text Classifiers.
Bayesian Learning. Probability Bayes Rule Choosing Hypotheses- Maximum a Posteriori Maximum Likelihood - Bayes Concept Learning Maximum Likelihood of.
Naive Bayes Classifier. REVIEW: Bayesian Methods Our focus this lecture: – Learning and classification methods based on probability theory. Bayes theorem.
Bayesian Learning. Uncertainty & Probability Baye's rule Choosing Hypotheses- Maximum a posteriori Maximum Likelihood - Baye's concept learning Maximum.
1 1)Bayes’ Theorem 2)MAP, ML Hypothesis 3)Bayes optimal & Naïve Bayes classifiers IES 511 Machine Learning Dr. Türker İnce (Lecture notes by Prof. T. M.
Text Classification and Naïve Bayes Formalizing the Naïve Bayes Classifier.
Intro to Bayesian Learning Exercise Solutions Ata Kaban The University of Birmingham.
Machine Learning and Data Mining – Adaptive Agents
Bayesian and Markov Test
Naive Bayes Classifier
Bayesian Rule & Gaussian Mixture Models
Computer Science Department
Bayes Rule Which is shorthand for: 10 Mar 2004 CS Uncertainty.
Lecture 15: Text Classification & Naive Bayes
Data Mining Lecture 11.
Machine Learning Bayes Learning Bai Xiao.
CSE P573 Applications of Artificial Intelligence Bayesian Learning
Machine Learning: Lecture 6
Machine Learning: UNIT-3 CHAPTER-1
Naive Bayes Classifier
Logistic Regression [Many of the slides were originally created by Prof. Dan Jurafsky from Stanford.]
Presentation transcript:

Instructor : Saeed Shiry & Mitchell Ch. 6 یادگیری بیزی Instructor : Saeed Shiry & Mitchell Ch. 6

مقدمه استدلال بیزی روشی بر پایه احتمالات برای استنتاج کردن است استدلال بیزی روشی بر پایه احتمالات برای استنتاج کردن است اساس این روش بر این اصل استوار است که برای هر کمیتی یک توزیع احتمال وجود دارد که با مشاهده یک داده جدید و استدلال در مورد توزیع احتمال آن میتوان تصمیمات بهینه ای اتخاذ کرد.

اهمیت یادگیری بیزی در برخی کاربردها )نظیر دسته بندی متن (استفاده از روشهای یادگیری بیزی )نظیر دسته بندی کننده بیزی ساده( توانسته است راه حلهای عملی مفیدی را ارائه کند. نشان داده شده است که کارائی این روش قابل مقایسه با درخت تصمیم و شبکه عصبی بوده است. مطالعه یادگیری بیزی به فهم سایر روشهای یادگیری که بطور مستقیم از احتمالات استفاده نمیکنند کمک میکند.

نگرش بیزی به یادگیری ماشین نگرش بیزی به یادگیری ماشین ) و یا هر فرایند دیگر(بصورت زیر است: دانش موجود در باره موضوع را بصورت احتمالاتی فرموله میکنیم برای اینکار مقادیر کیفی دانش را بصورت توزیع احتمال، فرضیات استقلال و غیره مدل مینمائیم. این مدل دارای پارامترهای ناشناخته ای خواهد بود. برای هر یک از مقادیر ناشناخته، توزیع احتمال اولیه ای در نظر گرفته میشود که بازگو کننده باور ما به محتمل بودن هر یک ازاین مقادیر بدون دیدن داده است. داده را جمع آوری مینمائیم با مشاهده داده ها مقدار توزیع احتمال ثانویه را محاسبه میکنیم با استفاده از این احتمال ثانویه: به یک نتیجه گیری در مورد عدم قطعیت میرسیم با میانگین گیری روی مقادیر احتمال ثانویه پیش بینی انجام میدهیم برای کاهش خطای ثانویه مورد انتظار تصمیم گیری میکنیم

ویژگیهای یادگیری بیزی مشاهده هر مثال میتواند بصورت جزئی باعث افزایش و یا کاهش احتمال درست بودن یک فرضیه گردد. برای بدست آوردن احتمال یک فرضیه میتوان دانش قبلی را با مثال مشاهده شده ترکیب کرد.این دانش قبلی به دو طریق بدست میاید: احتمال قبلی برای هر فرضیه موجود باشد برای داده مشاهده شده توزیع احتمال هر فرضیه ممکن موجود باشد روشهای بیزی فرضیه هائی ارائه میدهند که قادر به پیش بینی احتمالی هستند) مثل بیمار به احتمال 93% بهبود می یابد( مثالهای جدید را میتوان با ترکیب وزنی چندین فرضیه دسته بندی نمود. حتی در مواردی که روشهای بیزی قابل محاسبه نباشند، میتوان از آنها به عنوان معیاری برای ارزیابی روشهای دیگر استفاده کرد

مشکلات عملی نیاز به دانش اولیه در مورد تعداد زیادی مقادیراحتمال دارد. وقتی که این اطلاعات موجود نباشند اغلب ناگزیر به تخمین زدن آن هستیم. برای این کار از اطلاعات زمینه، داده هائیکه قبلا جمع آوری شده اند، و فرضیاتی در مورد توزیع احتمال استفاده میشود. محاسبه فرضیات بهینه بیزی بسیار هزینه بر است ) تعداد فرضیه های کاندید خطی است(

ساختار این فصل معرفی تئوری بیز، ML , MAP روشهای یادگیری بیزی شامل: Optimal classifier, Gibbs alg., Naive Bayes learning Bayesian belief network learning رابطه تئوری بیز و سایر روشهای یادگیری

تئوری بیز در یادگیری ماشین معمولا در فضای فرضیه H بدنبال بهترین فرضیه ای هستیم که درمورد داده های آموزشی D صدق کند. یک راه تعیین بهترین فرضیه، این است که بدنبال محتمل ترین فرضیه ای باشیم که با داشتن داده های آموزشی D و احتمال قبلی در مورد فرضیه های مختلف میتوان انتظار داشت. تئوری بیز چنین راه حلی را ارائه میدهد.این روش راه حل مستقیمی است که نیازی به جستجو ندارد.

تئوری بیز: تعریف مفاهیم اولیه فرض کنید که فضای فرضیه H و مجموعه مثالهای آموزش D موجود باشند. مقادیر احتمال زیر را تعریف میکنیم: =P(h) احتمال اولیه ای که فرضیه h قبل از مشاهده مثال آموزشیD داشته است (prior probablity) .اگر چنین احتمالی موجود نباشد میتوان به تمامی فرضیه ها احتمال یکسانی نسبت داد. =P(D) احتمال اولیه ای که داده آموزشی D مشاهده خواهد شد. =P(D|h) احتمال مشاهده داده آموزشی D به فرض آنکه فرضیه h صادق باشد. در یادگیری ماشین علاقه مند به دانستن P(h|D) یعنی احتمال اینکه با مشاهده داده آموزشی D فرضیه h صادق باشد، هستیم. این رابطه احتمال ثانویه (posterior probablity) نامیده میشود. توجه شود که احتمال اولیه مستقل از داده آموزشی است ولی احتمال ثانویه تاثیر داده آموزشی را منعکس میکند.

تئوری بیز سنگ بنای یادگیری بیزی را تئوری بیز تشکیل میدهد. این تئوری امکان محاسبه احتمال ثانویه را بر مبنای احتمالات اولیه میدهد: Likelihood Prior probability Posterior probability Evidence

تئوری بیز همانطور که مشاهده میشود با افزایش P(D) مقدار P(h|D) کاهش می یابد. زیرا هر چه احتمال مشاهده D مستقل از h بیشتر باشد به این معنا خواهد بود که D شواهد کمتری در حمایت از hدر بر دارد.

Maximum A Posteriori (MAP) hypothesis در مسایلی که مجموعه ای از فرضیه های H وجود داشته و بخواهیم محتملترین فرضیه را از میان آنان انتخاب بکنیم، فرضیه با حداکثر احتمال Maximum A Posteriori (MAP) hypothesis نامیده میشود و از رابطه زیر بدست می آید. در این رابطه مقدار P(D) مستقل از h بوده و حذف میشود

Maximum likelihood (ML) hypothesis در مواقعی که هیچ اطلاعی در مورد P(h) وجود نداشته باشد میتوان فرض کرد که تمام فرضیه های H دارای احتمال اولیه یکسانی هستند. در اینصورت برای محاسبه فرضیه با حداکثر احتمال میتوان فقط مقدار P(D | h) را در نظر گرفت. این مقدار liklihood داده D با فرض h نامیده میشود و هر فرضیه ای که مقدار آنرا ماکزیمم کند فرضیه maximum liklihood (ML) نامیده میشود: hML=argmaxhH P(D | h)

مثال:تشخیص بیماری در یک مسئله تشخیص بیماری با دو فرصیه روبرو هستیم: -1 بیمار دارای سرطان است -2 بیمار سالم است داداهای آزمایشگاهی نشان میدهد که 0.008 جمعیت دارای این بیماری هستند. بعلت نادقیق بودن تست های آزمایشگاهی نتایج آن بصورت زیر است: در 98% مواقعی که شخص واقعا بیمار است نتیجه صحیح مثبت حاصل میشود. در 97% مواقعی که بیمار سالم است نتیجه صحیح منفی حاصل میشود. P(cancer)=0.008, P(+|cancer)=0.98, P(+|~cancer)=0.03, P(~cancer)=0.992, P(-|cancer)=0.02, P(-|~cancer)=0.97

مثال:تشخیص بیماری حال اگر بیمار جدیدی مشاهده شود که جواب آزمایشگاه مثبت باشد، آیا باید بیمار را مبتلا به سرطان بدانیم؟ احتمال ابتلای بیمار به سرطان عبارت است از: P(cancer|+) = P(+|cancer) P(cancer) / P(+) = (0.98)(0.008) / P(+) = 0.0078 / P(+) احتمال نداشتن سرطان عبارت است از: P(~cancer|+) = P(+|~cancer) P(~cancer) / P(+) = (0.03)(0.992) / P(+) = 0.0298 / P(+) لذا فرضیه MAP عبارت خواهد بود از: hmap=~cancer

Brute-force MAP Learning میتوان با استفاده از تئوری بیزی الگوریتمی برای یادگیری مفهوم ارائه نمود که بتواند فرضیه با بیشترین احتمال را بدست دهد: Brute-force MAP Learning Algorithmَ برای هر فرضیه h موجود در Hمقدار احتمال ثانویه را حساب میکنیم. فرضیه h MAP را که بیشترین احتمال ثانویه را دارد مشخص میکنیم.

دسته بندی کننده بیزی بهینه Bayes Optimal Classifier الگوریتم Brute-Force MAP learning در پی پاسخگوئی به این سوال است: محتملترین فرضیه برای مجموعه داده آموزشی چیست؟ در حالیکه اغلب دنبال یافتن پاسخ این سوال هستیم:محتملترین دسته بندی یک نمونه مشاهده شده چیست؟ اگر چه به نظر میرسد که پاسخ سوال دوم را میتوان با اعمال فرضیه MAP به نمونه مورد نظر بدست آورد، روش بهتری برای اینکار وجود دارد: در عمل محتملترین دسته بندی برای یک نمونه جدید از ترکیب پیش بینی تمامی فرضیه ها بدست میاید. مقدار پیش بینی هر فرضیه در احتمال ثانویه آن ضرب شده و حاصل آنها با هم ترکیب میشود.

مثال فرض کنید 3 فرضیه h1,h2,h3 برای داده های آموزشی دارای احتمال ثانویه زیر باشند: P(h1|D) = 0.4, P(h2|D) = 0.3, P(h3|D) = 0.3 در نتیجه h1 فرضیه MAP میباشد. اگربه نمونه جدیدی مثل x بربخوریم که P(h1) = +, P(h2) = - and P(h3) = - در اینصورت احتمال مثبت بودن x برابر با .4 و احتمال منفی بودن آن .6 است در اینصورت دسته بندی x چیست؟

دسته بندی کننده بیزی بهینه Bayes Optimal Classifier در عمل محتملترین دسته بندی برای یک نمونه جدید از ترکیب وزنی پیش بینی تمامی فرضیه ها بدست میاید. اگر دسته بندی مثال جدید بتواند هر مقدار vj از مجموعه V را داشته باشد در اینصورت احتمال اینکه مثال جدید دسته بندی Vj را داشته باشد برابر است با: مقدار ماکزیمم رابطه فوق دسته بندی بهینه این نمونه را مشخص خواهد نمود: Bayes Optimal Classification

دسته بندی بهینه Optimal Classification برای مثال فوق دسته بندی بهینه بیزی بصورت زیر خواهد بود. P(h1|D) = 0.4 P(-|h1) = 0 P(+|h1) = 1 P(h2|D) = 0.3 P(-|h2) = 1 P(+|h2) = 0 P(h3|D) = 0.3 P(-|h3) = 1 P(+|h3) = 0 لذا Σi P( + | hi ) P (hi | D) = 0.4 and Σi P( - | hi ) P (hi | D) = 0.6 در نتیجه این نمونه بصورت منفی دسته بندی خواهد شد. . استفاده از این روش برای فضاهای فرضیه های بزرگ غیرعملی است

Naive Bayes Classifier یک روش یادگیری بسیار عملی روش Naive Bayes learner است. در کاربردهائی نظیر دسته بندی متن و تشخیص پزشکی این روش کارائی قابل مقایسه ای با شبکه های عصبی و درخت تصمیم دارد. این روش در مسایلی کاربرد دارد که: نمونه x توسط ترکیب عطفی ویژگیها قابل توصیف بوده و این ویژگیها بصورت شرطی مستقل از یکدیگر باشند. تابع هدفf(x) بتواند هر مقداری را از مجموعه محدود v داشته باشد. مجموعه مثالهای آموزشی نسبتا زیادی در دست باشد

Naive Bayes Classifier تابع هدف زیر را در نظر بگیرید f : X  V که در آن هر نمونه x توسط ویژگی زیر مشخص میشود (a1,…an) صورت مسئله: برای یک نمونه مشاهده شده مقدار تابع هدف یا بعبارت دیگر دسته بندی آنرا مشخص کنید. در روش بیزی برای حل مسئله محتملترین مقدار هدف vmapمحاسبه میشود: این رابطه با استفاده از تئوری بیز بصورت زیر نوشته میشود:

Naive Bayes Classifier در رابطه فوق مقدار P(vj) با شمارش دفعاتی که vj در مثالهای آموزشی مشاهده شده است محاسبه میشود. اما محاسبه P(a1,…an | vj) چندان عملی نیست مگر اینکه مجموعه داده آموزشی بسیار بسیار بزرگی در دست باشد. روش یادگیری Naive Bayes Classifierبر پایه این فرض ساده (Naive) عمل میکند که: مقادیر ویژگیها بصورت شرطی مستقل هستند در اینصورت برای یک مقدار هدف مشخص احتمال مشاهده ترکیب عطفی(a1,…an) برابر است با حاصلضرب احتمال تک تک ویژگیها. در اینصورت رابطه فوق بصورت زیر در میآید: Naive Bayes Classifier

Naive Bayes Classifier خلاصه: در روش یادگیری Naive Bayes Classifierمقادیر مختلف P(vj) و P(ai| vj) با استفاده از دفعات تکرار آنها تخمین زده میشود مجموعه این تخمین ها فرضیه ای را تشکیل میدهد که با استفاده از رابطه زیر برای دسته بندی داده جدید بکار میرود: در این روش هیچگونه عمل جستجوی آشکاری وجود ندارد.

مثال اعمال دسته بندی کننده ساده بیزی به مسئله دسته بندی روزها بر اساس اینکه بازی تنیس در آن انجام خواهد شد با نه؟ داده های این مثال در جدول زیر نشان داده شده است:

مثال میخواهیم با این روش دسته مثال زیر را مشخص کنیم: x:(Outl=Sunny, Temp=Cool, Hum=High,Wind=strong) با اعمال رابطه دسته بندی کننده ساده بیزی داریم: برای محاسبه این مقدار باید تعداد 10 مقدار احتمال را تخمین بزنیم.

مثال اینکار با شمارش دفعات تکرار در مثالهای آموزشی انجام میشود:

تخمین مقادیر احتمال در مثال قبل مقدار احتمالات بر اساس نسبت تعداد مشاهده شده یک مقدار به تعداد کل حالات ممکن محاسبه گردید nc/n اگرچه این مقدار مشاهده شده میتواند تخمین خوبی از مقدار احتمال باشد بااین وجود اگر مقدارnc خیلی کوچک و یا صفر باشد میتواند منجر به نتایج غلطی شود. اگر برای دسته vj مقدارaiهرگزمشاهده نشود،مقدار P(ai|vj)=0شده و در نتیجه کل حاصلضرب صفر خواهد شد. برای جلوگیری از این مشکل از روشی به نام m-estimate استفاده میشود. که در آن nc و n همان مقادیر قبلی بوده و p تخمین اولیه از مقدار احتمالی است که بدنبال آن هستیم وm تعداد مثالهای مجازی است. معمولا مقدار p بصورت یکنواخت در نظر گرفته شده و برابر با p=1/k در نظر گرفته میشود که k تعداد مقادیر ممکن برای ویژگیهاست. m-estimate of probablity

دسته بندی متن مثالهائی از دسته بندی متن: تعیین مقاله ها ی مورد علاقه یک شخص دسته بندی صفحات وب بر اسا س موضوع برای چنین کاربردهائی دسته بندی کننده ساده بیزی میتواند بسیار موثرعمل کند .اگرچه در عمل شرط استقلال ویژگیها برقرار نیست ) مثلا احتمال دیدن کلمه ماشین بعد از کلمه یادگیری زیاد است(

دسته بندی متن در طراحی یک راه حل برای چنین مسئله ای با دو نکته مواجه هستیم تصمیم گیری در مورد اینکه یک متن دلخواه را چگونه بصورت مقادیر ویژگی نشان دهیم. تصمیم گیری در مورد اینکه مقادیر احتمال مورد نیاز را چگونه تخمین بزنیم.

نشان دادن یک متن بصورت مقادیر ویژگی دو راه برای اینکار امتحان شده است: موقعیت هر کلمه در متن بصورت یک ویژگی در نظر گرفته میشود. مثلا متنی که 100 کلمه دارد دارای 100 ویژگی نیز خواهد بود. هر کلمه موجود در فرهنگ لغات به عنوان یک ویژگی در نظر گرفته شده ) حدود (50000 و تعداد تکرار آنها در متن شمارش میشود.

نمایش متن در روش اول هر متن به برداری ازکلمات تبدیل شده و بازای موقعیت هر کلمه یک ویژگی نسبت داده میشود. که مقدار آن ویژگی برابر با آن کلمه خواهد بود . doc = (a1=w1, ai=wk, … , an=wn) برای مثال فرض کنید که از تعداد 1000 متن آموزشی تعداد 700 متن بصورت dislike و 300 متن بصورت like دسته بندی شده باشند. در اینصورت برای دسته بندی یک متن جدید با 100 کلمه میتوان رابطه دسته بندی کننده ساده بیزی را بصورت زیر بکار برد: .

یک اشکال اساسی استفاده از فرض استقلال بیزی در این مثال بوضوح غلط است یعنی نمیتوان فرض کرد که احتمال بودن یک کلمه در یک محل مستقل از کلماتی است که در سایر محل ها قرار گرفته اند. با این وجود چون چاره دیگری نداریم ناگزیر از استفاده از این فرض هستیم. در عمل نشان داده شده که علیرغم این فرض نادرست، استفاده از دسته بندی کننده بیزی ساده نتایج خوبی داشته است.

محاسبه مقادیراحتمال برای محاسبه P(vj) تعداد هر کلاس درداده آموزشی شمارش میشود. برای محاسبه P(ai=wk|vj) باید تعداد بسیار زیادی مقدار احتمال محاسبه شود که عملی ناشدنی است. از اینرو در عمل فرض میشود که احتمال مشاهده یک کلمه مشخص wk مستقل از محل قرار گرفتن آن باشد. بعبارت دیگر کل مجموعه P(a1=wk|vj), P(a2=wk|vj),... با P(wk|vj) تخمین زده میشود که معادل با محاسبه تقریبا 2*50000 مقدار احتمال خواهد بود. همچنین برای محاسبه مقدار احتمال از روش m-estimate استفاده خواهد شد.

الگوریتم یادگیری LEARN_NAIVE_BAYES_TEXT( Examples, V ) 1. collect all words and other tokens that occur in Examples • Vocabulary  all distinct words and other tokens in Examples 2. calculate the required P( vj) and P( wk| vj) probability terms • For each target value vj in V do – docsj  subset of Examples for which the target value is vj – P( vj)  |docsj|/| Examples| – Textj  a single document created by concatenating all members of docsj – n  total number of words in Textj (counting duplicate words multiple times) – for each word wk in Vocabulary • nk number of times word wk occurs in Textj • P( wk| vj) ( nk + 1) / ( n + | Vocabulary|)

الگوریتم دسته بندی CLASSIFY_NAIVE_BAYES_TEXT ( Doc) • positions  all word positions in Doc that contain tokens found in Vocabulary • Return vNB, where vNB = argmax vj in V P( vj) Pi in positions P( ai| vj)

نتایج تجربی: یادگیری news group هدف: تعین اینکه یک مقاله مورد بررسی به کدام یک از 20 گروه خبری زیر اختصاص دارد: داده آموزشی: تعداد 1000 متن به همراه گروه خبری مربوطه نتیجه دسته بندی 89 % : دقت در دسته بندی حاصل گردید comp.graphics misc.forsale comp.os.ms-windows.misc rec.autos comp.sys.ibm.pc.hardware rec.motorcycles comp.sys.mac.hardware rec.sport.baseball comp.windows.x rec.sport.hockey alt.atheism sci.space sci.med soc.religion.christian sci.crypt talk.religion.misc sci.electronics talk.politics.mideast talk.politics.misc talk.politics.guns در این مثال 100 کلمه متداول نظیر the از مجموعه لغات حذف شده است.همجنین کلماتی که تعداد تکرار آنها از 3 کمتر بوده نیز حذف گردیده است. در مجموع تعدا 38500 کلمه در لغتنامه وجود داشته است.

منحنی یادگیری