Presentation is loading. Please wait.

Presentation is loading. Please wait.

دانشگاه صنعتی امیرکبیر Instructor : Saeed Shiry &

Similar presentations


Presentation on theme: "دانشگاه صنعتی امیرکبیر Instructor : Saeed Shiry &"— Presentation transcript:

1 دانشگاه صنعتی امیرکبیر Instructor : Saeed Shiry &
Logistic Regression Instructor : Saeed Shiry &

2 ایده اصلی دسته بندی کننده بیزی برای محاسبه P(Y|X) لازم دارد تا مقادیر P(Y) و P(X|Y) را یاد بگیرد. چرا مستقیما P(Y|X) یاد گرفته نشود؟ لجستیک رگراسیون مقدار احتمال فوق را محاسبه میکند. دسته بندی کننده بیزی یک دسته بندی مولد است در حالیکه لجستیک رگراسیون یک دسته بندی کننده discriminative است.

3 مقدمه بر خلاف نامش این روش برای دسته بندی مورد استفاده قرار میگیرد نه رگراسیون. برای حالت K = 2 این مدل بسیار ساده بوده و از یک تابع خطی بهره می جوید. بردار ورودی بصورت < X1 … Xn > و بردارخروجی Y بولین در نظر گرفته میشود. تمام Xi ها از Y مستقل فرض شده و مقدار P(Xi | Y = yk) گوسی در نظر گرفته میشود. N(μik,σi) همچنین توزیع P(Y) بصورت برنولی در نظر گرفته میشود.

4 مقایسه با رگراسیون خطی برای مدل کردن متغیرهائی که مقادیر محدودی به خود میگیرند بهتر از رگراسیون خطی عمل میکند زیرا مدل خطی هر مقداری را در خروجی تولید میکند درحالی که برای چنین متغیرهائی مقادیر محدودی مورد نیاز است. در رگراسیون خطی مقدار متغیر مورد نظر از ترکیب خطی متغیرهای مستقل بدست می آید در حالیکه در لجستیک رگراسیون از ترکیب خطی تابع logit استفاده میشود. در رگراسیون خطی پارامترها به روش least squares بدست می آیند در حالیکه این روش برای لجستیک رگراسیون فاقد کارائی بوده و از روش maximum likelihood estimation برای پیدا کردن پارامترها استفاده میشود.

5 logistic function مقدار این تابع و مشتق آن توسط روابط زیر تعریف میشود:

6 احتمال تعلق به دسته ها احتمال تعلق به هر دسته را میتوان بصورت تابع لجستيک در نظر گرفت: ضرایب w با استفاده از gradient ascent تعیین میشود.

7 احتمال تعلق به دسته ها برای مقادیر پیوسته رابطه بصورت زیر است

8 فرضیات رابطه قبل برای بدست آوردن رابطه فوق از فرض گوسی بودن توزیع احتمال استفاده شده است:

9 سایر نتایج

10 Discriminant functions
مدل LR یک مرز خطی بین دو دسته تعیین میکند. برای مرز دو دسته داریم: از اینرو خواهیم داشت:

11 برای حالت چند کلاسه

12 بدست آوردن وزنها فرض میشود که تعداد L داده آموزشی داشته باشیم.
برای بدست آوردن وزنها میتوان ازmaximum likelihood estimate استفاده کرد: باید وزنهای W=<w0, ... wn> طوری انتخاب شوند که مقدار درستنمائی داده ماکزیمم شود. بجای رابطه فوق از درست نمائی شرطی استفاده میشود:

13 Expressing Conditional Log Likelihood
با فرض اینکه Y فقط یکی از دو مقدار 0 یا 1 را دارد خواهیمداشت:

14 Maximizing Conditional Log Likelihood
هیچ راه حل بسته ای برای ماکزیمم کردن درست نمائی شرطی وجود ندارد. استفاده از تکنیک نزول گرادیان یکی از راه حل های موجود است:

15 Maximize Conditional Log Likelihood: Gradient Ascent
تغییرات وزن تا زمانی ادامه می یابد که مقدار آن خیلی ناچیز شود. توجه شود که عبارت داخل پرانتز بسادگی اختلاف بین مقدار هدف و مقدار تابع احتمال آن است مقادیر اولیه وزنها صفر در نظر گرفته میشود و مقادیر نهائی از تکرار عبارت زیر بدست می آید

16 مشکلات استفاده از ML به خاطر ماهیت concave بودن تابع l(W) رابطه فوق حتما ماکزیمم global را پیدا خواهد کرد. استفاده از ML می تواند برای داده های جدا پذیر خطی به over fitting شدید منجر شود. دلیل این امر این است که راه حل ML وقتی اتفاق می افتد که σ = 0.5 و یا wTφ =0 شده و منجر به بزرگ شدن وزنها میشود. این امر حتی وقتی که تعداد داده ها نسبت به تعداد پارامترها زیاد باشد روی خواهد داد.

17 Regularization in Logistic Regression
برای پرهیز از over fitting میتوان از عبارت رگولاریزیشن استفاده نمود. این جمله طوری اضافه میشود که وزنهای بزرگ را جریمه نماید: با افزودن این جمله تابع هدفی که باید ماکزیمم شود بصورت MAP در می آید زیرا تخمین MAP بردار وزن دارای فرم کلی زیر است. که در آن P(W) دارای توزیع گوسی با میانگین صفر و واریانس است. میزان تاثیر جمله جریمه را تعیین میکند

18 استفاده از MAP با افزودن ترم جریمه میتوان مطابق حالت قبل عمل یافتن وزنها را با مشتق گیری و روش صعود گرادیان انجام داد: modified gradient descent rule:

19 دانشگاه صنعتی امیرکبیر
MLE vs MAP دو روش MlE و MAP هر یک از روابط زیر برای پیدا کردن وزنها استفاده میکنند. and if P(W) is a zero mean Gaussian distribution, then lnP(W) yields a term proportional to ||W||2.

20 Logistic Regression for functions with Many Discrete Values
در نتیجه قانون تغییر وزنها بصورت زیر در می آید مشاهده میشود که حالت بولین حالت خاصی از روابط فوق است.

21 Generative Classifiers
در اغلب مسایل عملی بدلیل پیچیدگی زیاد و یا وجود عدم قطعیت نمی توان مدل ریاضی مشخصی را بدست آورد. در چنین شرایطی می توان از مدل های احتمالاتی استفاده نمود که در آنها دانش اولیه بصورت تابع چگالی احتمال مدل شده و با مشاهده داده مقدار احتمال ثانویه محاسبه میشود. نمونه هائی از مدلهای مولد: hidden Markov models Bayesian networks mixture model

22 Use Naïve Bayes or Logisitic Regression?
لاجستیک رگراسیون مستقیما مقدار P(Y|X) را محاسیه میکند درحالیکه بیزین ساده، ابتدا مقادیر P(Y) and P(X|Y) را محاسبه میکند. نشان داده میشود که وقتی تعداد داده های آموزشی زیاد باشد و شرایط Gaussian Naive Bayes هم برقرار باشد لاجستیک رگراسیون و Gaussian Naive Bayes در حالت حدی به دسته بندی مشابهی میرسند. در حالیتکه شرط Gaussian Naive Bayes برقرار نباشد لاجستیک رگراسیون نتایج بهتری بوجود می آورد. همگرایی لاجستیک رگراسیون کند تر است. در لاجستیک رگراسیون باید تعداد نمونه ها زیاد باشد ( 50 نمونه بازای هر دسته) when conditional independence assumptions incorrect • LR is less biased – does not assume cond indep. • therefore expected to outperform GNB when both given infinite training data Number of parameters: • NB: 4n +1 • LR: n+1 convergence rate of parameter estimates – how many training examples needed to assure good estimates? • GNB order log n (where n = # of attributes in X) • LR order n GNB converges more quickly to its (perhaps less accurate) asymptotic estimates

23 آیا دسته بندی کننده بیزی خطی است؟
وقتی بردار X دارای ویژگی های گسسته باشد الگوریتم بیز را میتوان بصورت یک دسته بندی کننده خطی در نظر گرفت. برای حالت پیوسته نیز اگر واریانس هر ویژگی مستقل از کلاس در نظر گرفته شود میتوان آنرا خطی در نظر گرفت. (i.e., if sik = si)

24 Probabilistic Generative Models
در نگرش بیزین احتمال شرطی p(x|Ck) و احتمال اولیه p(Ck) از روی داده های آموزشی یادگرفته شده و برای ساختن احتمال ثانویه p(Ck|x) بکار میروند. برای ورودی های پیوسته تابع چگالی احتمال شرطی کلاسی بصورت گوسی فرض میشود:

25 Probabilistic Generative Models
برای حالت دو کلاسه داریم: در این رابطه با فرض اینکه تمامی کلاسها ماتریس کوواریانس یکسانی دارند جملات مرتبه 2 از x حذف شده و رابطه بصورت خطی در می آید.


Download ppt "دانشگاه صنعتی امیرکبیر Instructor : Saeed Shiry &"

Similar presentations


Ads by Google