Binomial and Multinomial Logistic Regression

Binomial and Multinomial Logistic Regression
Alireza Afshari Safavi

گاهی متغیر پاسخ کیفی اسمی است ایست قلبی ابتلا به زخم پای دیابت
Logistic Regression هدف هر تحلیل رگرسیونی یافتن مدلی است با بهترین برازش و کمترین پیشگو جهت تشریح ارتباط بین یک متغیر پاسخ و یک یا چند متغیر پیشگو. گاهی متغیر پاسخ کیفی اسمی است ایست قلبی ابتلا به زخم پای دیابت ابتلا به سرطان بازگشت به فعالیت های روزانه پس از حمله قلبی انتخاب شغل آینده عادات غذایی افراد استراتژی های درمان سرطان

تفاوت این دو مدل را با مثالی مشخص می کنیم.
Logistic Regression ایده ی لجستیک از کجا آمد؟ تفاوت عمده بین رگرسیون لجستیک و رگرسیون خطی در شکل مدل و فرضیات آنهاست در سایر موارد اصولی که در اجرای رگرسیون لجستیک بکار می رود کم و بیش مشابه رگرسیون خطی می باشد. تفاوت این دو مدل را با مثالی مشخص می کنیم.

Logistic Regression ایده ی لجستیک از کجا آمد؟ مثال: در مطالعه ای که با هدف شناسایی عوامل خطر (Risk factors) بیماری عروق کرونر قلب (CHD) به انجام رسید. تعداد 100 نفر مورد ارزیابی قرار گرفتند. در این مثال می خواهیم ارتباط بین سن (AGE) افراد را با ابتلا به CHD بررسی نماییم. متغیر پاسخ یعنی CHD یک متغیر اسمی دوحالتی است که با کد 0 به نشانه ی عدم ابتلا و 1 به نشانه ی ابتلا به بیماری مشخص شده است. جدول 1-1 خلاصه ای از این داده ها را نشان می دهد.

Logistic Regression ایده ی لجستیک از کجا آمد؟

Logistic Regression ایده ی لجستیک از کجا آمد؟ همچون رگرسیون خطی برای شناسایی ماهیت و شدت هرگونه ارتباطی بین متغیر پاسخ و پیشگو نمودار scatterplot را رسم می کنیم.

Logistic Regression ایده ی لجستیک از کجا آمد؟

Logistic Regression ایده ی لجستیک از کجا آمد؟ این نمودار هیچ تصویری از ماهیت ارتباط بین CHD و AGE نشان نمی دهد. جز اینکه فراوانی عدم ابتلا به بیماری های قلبی در افرادی با سن کمتر و فراوانی ابتلا به بیماری های قلبی برای افراد مسن بیشتر است. با این حال تغییرپذیری در CHD برای تمام سنین زیاد می باشد. یک راه برای حذف تغییرپذیری بگونه ای که ارتباط بین پاسخ و پیشگو حفظ شود دسته بندی متغیر مستقل و محاسبه ی میانگین پاسخ در هر گروه می باشد.

Logistic Regression ایده ی لجستیک از کجا آمد؟ برای این منظور متغیر سن را رده بندی و فراوانی و درصد CHD برای هر گروه را مشخص می کنیم. این کار تصویر شفاف تری از ارتباط بین سن و CHD ارائه می کند. با افزایش سن، میانگین (نسبت) افراد دارای بیماری قلبی افزایش می یابد.

Logistic Regression ایده ی لجستیک از کجا آمد؟ شکل 2-1 نمودار درصد افراد دارای CHD را در مقابل رده های سنی نشان می دهد. این نمودار تصویری شفاف از ارتباط بین دو متغیر را نشان می دهد.

Logistic Regression ایده ی لجستیک از کجا آمد؟ اکنون بایست فرم تابعی نمودار2-1 را مشخص کرد. این روش دقیقا مشابه کاری است که در مورد رگرسیون انجام دادیم، البته با تفاوت هایی جزئی در هر تحلیل رگرسیون کمیت کلیدی میانگین متغیر پاسخ به شرط متغیر مستقل می باشد که به آن میانگین شرطی گفته می شود، یا مقدار مورد انتظار Y به شرط x. در رگرسیون خطی فرض بر این است که این میانگین می تواند بصورت یک معادله خطی از x بیان شود.

Logistic Regression ایده ی لجستیک از کجا آمد؟ این امید شرطی همانند x می تواند هر مقداری از منفی تا مثبت بی نهایت بگیرد. در مثال مورد بررسی، ستون مربوط به Mean در جدول شماره 2-1 برآوردی از می باشد. همانطور که از این جدول پیداست و در تمام حالاتی که با پاسخ های اسمی دوسطحی روبرو هستیم، مقدار این امید بین صفر و یک تغییر می کند.

Logistic Regression ایده ی لجستیک از کجا آمد؟ همانطور که در شکل 2-1 دیدیم منحنی شکل فوق یک منحنی s شکل است که مشابه توزیع تجمعی یک متغیر تصادفی پیوسته است. لذا جای تعجب نخواهد بود اگر از یک توزیع تجمعی شناخته شده برای مدل کردن استفاده کرد، هنگامی که پاسخ بصورت دودویی است.

یکی از این توزیع ها لجستیک است
Logistic Regression ایده ی لجستیک از کجا آمد؟ یکی از این توزیع ها لجستیک است

Logistic Regression ایده ی لجستیک از کجا آمد؟ مدل های مختلف دیگری هم وجود دارد، اما به دو دلیل لجستیک بهتر است از نقطه نظر ریاضی بسیار منعطف است و کار با آن بسیار راحت. پارامترهای مدل به لحاظ مفاهیم بالینی دارای جذابیت هستند

Logistic Regression ایده ی لجستیک از کجا آمد؟ تابع توزیع لجستیک به فرم زیر خواهد بود اگر از کمیت برای بیان میانگین شرطی Y زمانی که از توزیع لجستیک استفاده می شود، بهره ببریم، آنگاه مدل رگرسیون لجستیک به فرم زیر خواهد بود

Logistic Regression ایده ی لجستیک از کجا آمد؟ با استفاده از تبدیل لوجیت بر روی خواهیم داشت، اهمیت این تبدیل در این است که g(x) دارای بسیاری از ویژگی های مدل رگرسیون خطی می باشد. - بصورت خطی با پارامترها در ارتباط است - می تواند پیوسته باشد - و می تواند دامنه ای از منفی تا مثبت بی نهایت داشته باشد

Logistic Regression ایده ی لجستیک از کجا آمد؟ یکی دیگر از اختلافات مهم بین لجستیک و رگرسیون خطی این است که، در رگرسیون خطی فرض بر این است که هر مقدار مشاهده شده ی متغیر پاسخ را می توان به فرم بیان کرد. فرض متداول این است که از توزیع نرمال با میانگین صفر و واریانسی که در بین تمام سطوح متغیر پیشگو ثابت می باشد، آمده است. این مسئله منجر می شود به اینکه توزیع شرطی پاسخ ها نیز نرمال باشند

Logistic Regression ایده ی لجستیک از کجا آمد؟ با این حال هنگامی که با پاسخ های کیفی سروکار داریم، مقادیر متغیر پاسخ را به شرط x می توان به فرم زیر بیان کرد در این حالت تنها دو مقدار اختیار خواهد کرد، لذا دارای توزیعی با میانگین صفر و واریانس خواهند بود. یعنی پذیره نرمال بودن آنها و ثابت بودن واریانس ها برقرار نخواهد بود.

Logistic Regression ایده ی لجستیک از کجا آمد؟ در نتیجه توزیع شرطی متغیر پاسخ، از یک توزیع برنولی با احتمال پیروی می کند و کلیه تحلیل ها بر اساس همین توزیع انجام می شود.

Logistic Regression برآورد پارامتر های مدل برآورد پارامتر ها در رگرسیون لجستیک بر اساس روش ماکزیمم درستنمایی امکان پذیر خواهد بود. تابع درستنمایی در این حالت

آماره نسبت درستنمایی (LR) آماره والد (Wald) آماره امتیاز (Score)
Logistic Regression آزمون معناداری ضرایب آماره نسبت درستنمایی (LR) آماره والد (Wald) آماره امتیاز (Score)

Logistic Regression آزمون معناداری ضرایب

Logistic Regression آزمون معناداری ضرایب - آماره والد برای آزمون های تک متغیره ساده تر از نسبت درستنمایی انجام می شود. - برای والد می توان آزمون های یکطرفه را انجام داد یا حتی مقایسه با یک مقدار ثابت غیر صفر را. - زمانی که قدر مطلق ضرایب بزرگ است آماره والد به اندازه نسبت درستنمایی پرتوان نخواهد بود. - آماره نسبت درستنمایی همواره حاوی اطلاعات بیشتری نسبت به دو آماره ی دیگر است.

Logistic Regression آزمون معناداری ضرایب - نسبت درستنمایی همواره نیاز به برآورد دو مدل دارد و همواره هدفش مقایسه ی درستنمایی دو مدل است. در حالیکه والد و امتیاز تنها نیاز به برآورد یک مدل دارند. - هدف والد این است که ببیند پارامترهای برآورد شده تا چه اندازه از صفر دور هستند یا هر مقدار دیگری تحت فرض صفر. - فرق امتیاز با والد این است که مدل برآورد شده، شامل پارامترهای مورد علاقه نمی باشد. - والد و امتیاز بطور مجانبی معادل درستنمایی هستند، یعنی اگر حجم نمونه بطور نامحدود بزرگ شود این آماره ها به آماره درستنمایی نزدیک می شوند

Logistic Regression آزمون معناداری ضرایب - آماره امتیاز، بیانگر میزان تغییرات مورد انتظار در آماره ی کای اسکوئر مدل به شرط اضافه کردن متغیر یا مجموعه ای از متغیر ها می باشد. این آماره میزان بهبودی مدل را در صورت اضافه شدن متغیرها نشان می دهد. که برای هر متغیر یک score به همراه p-value نشان می دهد یا برای ورود توام آنها. که در صورت معنادار بودن نشان می دهد اضافه کردن این متغیر ها می تواند مدل را بهبود ببخشد. - وقتی مدل خطی باشد این ارتباط وجود دارد که والد < درستنمایی < امتیاز

Logistic Regression تفسیر ضرایب رگرسیونی

Logistic Regression نیکویی برازش مدل مناسبت مدل رگرسیون لجستیک برازش داده شده قبل از پذیرش آن برای استفاده و تحلیل نیاز است. نیکویی برازش یک اندازه ی کلی از برازش مدل را ارائه می کند. - ممکن است چند مشاهده دارای مقادیر مشابه برای تمام پیشگوها باشند. که در این حالت دو آماره Pearson Chi-square و Deviance استفاده می شود. - برای داده هایی که فاقد تکرار هستند یا تعداد تکرارهای آنها کم است از آماره آزمون Hosmer–Lemeshow استفاده می شود.

Logistic Regression نیکویی برازش مدل آزمون نیکویی برازش خی دو پیرسون مشاهدات Y مستقل و تکرار در داده ها وجود دارد. این آزمون می تواند انحرافات جدی از تابع لجستیک را کشف کند، اما به انحرافات کوچک حساس نیست. آزمون نیکویی برازش Deviance آزمون نیکویی برازش Deviance بر اساس آماره نسبت درستنمایی است. مقادیر بزرگ Deviance نشان می دهد مدل لجستیک برازش داده شده مناسب نیست. که با مقدار خی دو مقایسه می گردد.

Logistic Regression نیکویی برازش مدل آزمون نیکویی برازش هاسمر- لمشو بر اساس فراوانی های مشاهده شده و مورد انتظار در گروه هاست و با مقدار خی دو مقایسه می گردد

Logistic Regression معیارهای انتخاب مدل

Logistic Regression مباحث تشخیصی (diagnostics) در مدل های رگرسیونی

Logistic Regression پیش فرض های مدل اول اینکه نیازی نیست بین متغیر پاسخ و متغیرهای مستقل ارتباط خطی وجود داشته باشد. با توجه به اینکه از تبدیل غیر خطی لگاریتم برای پیش بینی نسبت شانس ها استفاده می کند باید ارتباط خطی بین لگاریتم شانس متغیر پاسخ و متغیرهای مستقل بررسی شود که این تست با استفاده از آزمون Box-Tidwell امکان پذیر است. (پیشنهاد Andy Fields در کتاب Discovering Statistics Using SPSS, اضافه کردن جمله X*Ln(X) به مدل و بررسی معناداری اثر این جمله می باشد) دوم اینکه نیازی نیست خطاها نرمال چند متغیره باشند سوم اینکه نیازی به همگنی واریانس ها بین سطوح مختلف متغیرهای مستقل نیست

Logistic Regression پیش فرض های مدل در مقابل، چون فرض می شود که p(Y=1) احتمال رخداد رویداد است، بنابراین لازم است کد بندی ها بصورت درست انجام بگیرد و سطح 1 به مشاهده ی رویداد مورد نظر اختصاص یابد. مدل باید به درستی برازش داده شود. نه بیش برازشی و کم برازشی نباید اتفاق بیافتد و تنها متغیرهای مهم باید در مدل وارد شوند. خطاها باید مستقل باشند. مدل باید فاقد همخطی چندگانه باشد.

Logistic Regression پیش فرض های مدل متغیرهای مستقل باید بصورت خطی با لگاریتم شانس ها مرتبط باشند. اگر اینگونه نباشد آزمون دچار کم برازشی می شود و ارتباطات خیلی کوچک را رد می کند (فرض صفر را رد نمی کند)، یعنی زمانی که باید معنادار باشد، اعلام می کند معنادار نیست. یک راه حل برای این مسئله رده بندی کردن متغیرهای مستقل کمی است. و اینکه نیاز به حجم نمونه ی زیاد است. چون برآوردهای ماکزیمم درستنمایی کم توان تر از حداقل مربعات هستند. حداقل به ازای هر متغیر مستقل نیاز به 10 مشاهده می باشد.

Logistic Regression رگرسیون لجستیک اسمی چند رده ای

Binomial and Multinomial Logistic Regression

Similar presentations

Presentation on theme: "Binomial and Multinomial Logistic Regression"— Presentation transcript:

Similar presentations

About project

Feedback

Log in

Auth with social network:

Binomial and Multinomial Logistic Regression

Similar presentations

Presentation on theme: "Binomial and Multinomial Logistic Regression"— Presentation transcript:

Similar presentations

About project

Feedback