Binomial and Multinomial Logistic Regression

Slides:



Advertisements
Similar presentations
Copyright , SPSS Inc. 1 Practical solutions for dealing with missing data Rob Woods Senior Consultant.
Advertisements

Continued Psy 524 Ainsworth
Two-sample tests. Binary or categorical outcomes (proportions) Outcome Variable Are the observations correlated?Alternative to the chi- square test if.
Correlation, Reliability and Regression Chapter 7.
© Department of Statistics 2012 STATS 330 Lecture 32: Slide 1 Stats 330: Lecture 32.
Lecture Data Mining in R 732A44 Programming in R.
A Model to Evaluate Recreational Management Measures Objective I – Stock Assessment Analysis Create a model to distribute estimated landings (A + B1 fish)
732G21/732G28/732A35 Lecture computer programmers with different experience have performed a test. For each programmer we have recorded whether.
# of people per square kilometer # of assaults SCATTERPLOT OF ASSAULTS BY # OF PEOPLE PER SQUARE KILOMETER.
© Copyright 2000, Julia Hartman 1 An Interactive Tutorial for SPSS 10.0 for Windows © by Julia Hartman Binomial Logistic Regression Next.
1 Experimental design and analyses of experimental data Lesson 6 Logistic regression Generalized Linear Models (GENMOD)
Table 3 Predicting Time 3 Religiosity from Time 1 Religiosity and College Major at Time 1 LISREL Models (Z – ratios in parentheses)
BIOST 536 Lecture 18 1 Lecture 18 – Multinomial and Ordinal Regression Models.
An Introduction to Logistic Regression
Linear statistical models 2009 Count data  Contingency tables and log-linear models  Poisson regression.
Logistic Regression In logistic regression the outcome variable is binary, and the purpose of the analysis is to assess the effects of multiple explanatory.
Chapter 9 Correlational Research Designs
ABS Tablebuilder and DataAnalyser Session 7 UNECE Work Session on Statistical Data Confidentiality October 2013 Daniel Elazar
1 G Lect 11W Logistic Regression Review Maximum Likelihood Estimates Probit Regression and Example Model Fit G Multiple Regression Week 11.
A journal article from the American Association on Intellectual and Developmental Disabilities Presented by Dave Bertleff Youngstown State University.
Logistic Regression Pre-Challenger Relation Between Temperature and Field-Joint O-Ring Failure Dalal, Fowlkes, and Hoadley (1989). “Risk Analysis of the.
Proc freq: Five secrets* *Okay, well, lesser known facts.
APPLICATION OF MULTIVARIATE ANALYSES TO FIND PREDICTORS OF MULTIPLE GESTATIONS FOLLOWING IN VITRO FERTILIZATION Krisztina Boda and Péter Kovács Department.
Forecasting Choices. Types of Variable Variable Quantitative Qualitative Continuous Discrete (counting) Ordinal Nominal.
Sigmoidal Response (knnl558.sas). Programming Example: knnl565.sas Y = completion of a programming task (1 = yes, 0 = no) X 2 = amount of programming.
Logistic Regression Analysis Gerrit Rooks
1 Say good things, think good thoughts, and do good deeds.
Dependent Variable Discrete  2 values – binomial  3 or more discrete values – multinomial  Skewed – e.g. Poisson Continuous  Non-normal.
Testing Significance of coefficients Usually, first examination of model Does the model including the independent variable provide significantly more information.
Logistic Regression An Introduction. Uses Designed for survival analysis- binary response For predicting a chance, probability, proportion or percentage.
Statistics 3502/6304 Prof. Eric A. Suess Chapter 3.
Correlations: Linear Relationships Data What kind of measures are used? interval, ratio nominal Correlation Analysis: Pearson’s r (ordinal scales use Spearman’s.
Regression Examples. Extending examples from the text Question (p. 361): Determinants of national birth rates (y) by Literacy (x1) and Economic.
DEMONSTRATION OF USING SPSS Logistic Regression Models for Prediction 2016/11/71.
Distributions of Nominal Variables
BINARY LOGISTIC REGRESSION
Advanced Quantitative Techniques
International Conférence on Questionnaire Design, Development Evaluation, and Testing (QDET2) Assessing knowledge and attitude on usage of software for.
Dr. Siti Nor Binti Yaacob
An Interactive Tutorial for SPSS 10.0 for Windows©
Advanced Quantitative Techniques
Multivariate Analysis
©2004 by Pearson Education. ©2004 by Pearson Education.
Examining the Relationship Between Two Variables
The 1st National Health Sciences Students Congress
Distributions of Nominal Variables
Linear Regression Prof. Andy Field.
©2004 by Pearson Education. ©2004 by Pearson Education.
Statistics for the Social Sciences
Chapter 9 Correlational Research Designs
Statistical tools for hypothesis testing:
Introduction to Logistic Regression
Chapter 8 – Linear Regression
SPSS STATISTICAL PACKAGE FOR SOCIAL SCIENCES
دانشکده اقتصاد و مديريت
Prof. Eric A. Suess Chapter 3
Applied Statistical Analysis
ביצוע רגרסיה לוגיסטית. פרק ה-2
Examining the Relationship Between Two Variables
Performing a regression analysis
ADVANCED DATA ANALYSIS IN SPSS AND AMOS
Chapter 10: Nonparametric Techniques
APIC Chapter 123 August 26, 2016.
Common Statistical Analyses Theory behind them
Bonus Slide!!! Things to “Carefully Consider”
Descriptive statistics Pearson’s correlation
Modeling Ordinal Associations Bin Hu
© The Author(s) Published by Science and Education Publishing.
© The Author(s) Published by Science and Education Publishing.
Chi - square.
Presentation transcript:

Binomial and Multinomial Logistic Regression Alireza Afshari Safavi

گاهی متغیر پاسخ کیفی اسمی است ایست قلبی ابتلا به زخم پای دیابت Logistic Regression هدف هر تحلیل رگرسیونی یافتن مدلی است با بهترین برازش و کمترین پیشگو جهت تشریح ارتباط بین یک متغیر پاسخ و یک یا چند متغیر پیشگو. گاهی متغیر پاسخ کیفی اسمی است ایست قلبی ابتلا به زخم پای دیابت ابتلا به سرطان بازگشت به فعالیت های روزانه پس از حمله قلبی انتخاب شغل آینده عادات غذایی افراد استراتژی های درمان سرطان

تفاوت این دو مدل را با مثالی مشخص می کنیم. Logistic Regression ایده ی لجستیک از کجا آمد؟ تفاوت عمده بین رگرسیون لجستیک و رگرسیون خطی در شکل مدل و فرضیات آنهاست در سایر موارد اصولی که در اجرای رگرسیون لجستیک بکار می رود کم و بیش مشابه رگرسیون خطی می باشد. تفاوت این دو مدل را با مثالی مشخص می کنیم.

Logistic Regression ایده ی لجستیک از کجا آمد؟ مثال: در مطالعه ای که با هدف شناسایی عوامل خطر (Risk factors) بیماری عروق کرونر قلب (CHD) به انجام رسید. تعداد 100 نفر مورد ارزیابی قرار گرفتند. در این مثال می خواهیم ارتباط بین سن (AGE) افراد را با ابتلا به CHD بررسی نماییم. متغیر پاسخ یعنی CHD یک متغیر اسمی دوحالتی است که با کد 0 به نشانه ی عدم ابتلا و 1 به نشانه ی ابتلا به بیماری مشخص شده است. جدول 1-1 خلاصه ای از این داده ها را نشان می دهد.

Logistic Regression ایده ی لجستیک از کجا آمد؟

Logistic Regression ایده ی لجستیک از کجا آمد؟ همچون رگرسیون خطی برای شناسایی ماهیت و شدت هرگونه ارتباطی بین متغیر پاسخ و پیشگو نمودار scatterplot را رسم می کنیم.

Logistic Regression ایده ی لجستیک از کجا آمد؟

Logistic Regression ایده ی لجستیک از کجا آمد؟ این نمودار هیچ تصویری از ماهیت ارتباط بین CHD و AGE نشان نمی دهد. جز اینکه فراوانی عدم ابتلا به بیماری های قلبی در افرادی با سن کمتر و فراوانی ابتلا به بیماری های قلبی برای افراد مسن بیشتر است. با این حال تغییرپذیری در CHD برای تمام سنین زیاد می باشد. یک راه برای حذف تغییرپذیری بگونه ای که ارتباط بین پاسخ و پیشگو حفظ شود دسته بندی متغیر مستقل و محاسبه ی میانگین پاسخ در هر گروه می باشد.

Logistic Regression ایده ی لجستیک از کجا آمد؟ برای این منظور متغیر سن را رده بندی و فراوانی و درصد CHD برای هر گروه را مشخص می کنیم. این کار تصویر شفاف تری از ارتباط بین سن و CHD ارائه می کند. با افزایش سن، میانگین (نسبت) افراد دارای بیماری قلبی افزایش می یابد.

Logistic Regression ایده ی لجستیک از کجا آمد؟ شکل 2-1 نمودار درصد افراد دارای CHD را در مقابل رده های سنی نشان می دهد. این نمودار تصویری شفاف از ارتباط بین دو متغیر را نشان می دهد.

Logistic Regression ایده ی لجستیک از کجا آمد؟ اکنون بایست فرم تابعی نمودار2-1 را مشخص کرد. این روش دقیقا مشابه کاری است که در مورد رگرسیون انجام دادیم، البته با تفاوت هایی جزئی در هر تحلیل رگرسیون کمیت کلیدی میانگین متغیر پاسخ به شرط متغیر مستقل می باشد که به آن میانگین شرطی گفته می شود، یا مقدار مورد انتظار Y به شرط x. در رگرسیون خطی فرض بر این است که این میانگین می تواند بصورت یک معادله خطی از x بیان شود.

Logistic Regression ایده ی لجستیک از کجا آمد؟ این امید شرطی همانند x می تواند هر مقداری از منفی تا مثبت بی نهایت بگیرد. در مثال مورد بررسی، ستون مربوط به Mean در جدول شماره 2-1 برآوردی از می باشد. همانطور که از این جدول پیداست و در تمام حالاتی که با پاسخ های اسمی دوسطحی روبرو هستیم، مقدار این امید بین صفر و یک تغییر می کند.

Logistic Regression ایده ی لجستیک از کجا آمد؟ همانطور که در شکل 2-1 دیدیم منحنی شکل فوق یک منحنی s شکل است که مشابه توزیع تجمعی یک متغیر تصادفی پیوسته است. لذا جای تعجب نخواهد بود اگر از یک توزیع تجمعی شناخته شده برای مدل کردن استفاده کرد، هنگامی که پاسخ بصورت دودویی است.

یکی از این توزیع ها لجستیک است Logistic Regression ایده ی لجستیک از کجا آمد؟ یکی از این توزیع ها لجستیک است

Logistic Regression ایده ی لجستیک از کجا آمد؟ مدل های مختلف دیگری هم وجود دارد، اما به دو دلیل لجستیک بهتر است از نقطه نظر ریاضی بسیار منعطف است و کار با آن بسیار راحت. پارامترهای مدل به لحاظ مفاهیم بالینی دارای جذابیت هستند

Logistic Regression ایده ی لجستیک از کجا آمد؟ تابع توزیع لجستیک به فرم زیر خواهد بود اگر از کمیت برای بیان میانگین شرطی Y زمانی که از توزیع لجستیک استفاده می شود، بهره ببریم، آنگاه مدل رگرسیون لجستیک به فرم زیر خواهد بود

Logistic Regression ایده ی لجستیک از کجا آمد؟ با استفاده از تبدیل لوجیت بر روی خواهیم داشت، اهمیت این تبدیل در این است که g(x) دارای بسیاری از ویژگی های مدل رگرسیون خطی می باشد. - بصورت خطی با پارامترها در ارتباط است - می تواند پیوسته باشد - و می تواند دامنه ای از منفی تا مثبت بی نهایت داشته باشد

Logistic Regression ایده ی لجستیک از کجا آمد؟ یکی دیگر از اختلافات مهم بین لجستیک و رگرسیون خطی این است که، در رگرسیون خطی فرض بر این است که هر مقدار مشاهده شده ی متغیر پاسخ را می توان به فرم بیان کرد. فرض متداول این است که از توزیع نرمال با میانگین صفر و واریانسی که در بین تمام سطوح متغیر پیشگو ثابت می باشد، آمده است. این مسئله منجر می شود به اینکه توزیع شرطی پاسخ ها نیز نرمال باشند

Logistic Regression ایده ی لجستیک از کجا آمد؟ با این حال هنگامی که با پاسخ های کیفی سروکار داریم، مقادیر متغیر پاسخ را به شرط x می توان به فرم زیر بیان کرد در این حالت تنها دو مقدار اختیار خواهد کرد، لذا دارای توزیعی با میانگین صفر و واریانس خواهند بود. یعنی پذیره نرمال بودن آنها و ثابت بودن واریانس ها برقرار نخواهد بود.

Logistic Regression ایده ی لجستیک از کجا آمد؟ در نتیجه توزیع شرطی متغیر پاسخ، از یک توزیع برنولی با احتمال پیروی می کند و کلیه تحلیل ها بر اساس همین توزیع انجام می شود.

Logistic Regression برآورد پارامتر های مدل برآورد پارامتر ها در رگرسیون لجستیک بر اساس روش ماکزیمم درستنمایی امکان پذیر خواهد بود. تابع درستنمایی در این حالت

آماره نسبت درستنمایی (LR) آماره والد (Wald) آماره امتیاز (Score) Logistic Regression آزمون معناداری ضرایب آماره نسبت درستنمایی (LR) آماره والد (Wald) آماره امتیاز (Score)

Logistic Regression آزمون معناداری ضرایب

Logistic Regression آزمون معناداری ضرایب - آماره والد برای آزمون های تک متغیره ساده تر از نسبت درستنمایی انجام می شود. - برای والد می توان آزمون های یکطرفه را انجام داد یا حتی مقایسه با یک مقدار ثابت غیر صفر را. - زمانی که قدر مطلق ضرایب بزرگ است آماره والد به اندازه نسبت درستنمایی پرتوان نخواهد بود. - آماره نسبت درستنمایی همواره حاوی اطلاعات بیشتری نسبت به دو آماره ی دیگر است.

Logistic Regression آزمون معناداری ضرایب - نسبت درستنمایی همواره نیاز به برآورد دو مدل دارد و همواره هدفش مقایسه ی درستنمایی دو مدل است. در حالیکه والد و امتیاز تنها نیاز به برآورد یک مدل دارند. - هدف والد این است که ببیند پارامترهای برآورد شده تا چه اندازه از صفر دور هستند یا هر مقدار دیگری تحت فرض صفر. - فرق امتیاز با والد این است که مدل برآورد شده، شامل پارامترهای مورد علاقه نمی باشد. - والد و امتیاز بطور مجانبی معادل درستنمایی هستند، یعنی اگر حجم نمونه بطور نامحدود بزرگ شود این آماره ها به آماره درستنمایی نزدیک می شوند

Logistic Regression آزمون معناداری ضرایب - آماره امتیاز، بیانگر میزان تغییرات مورد انتظار در آماره ی کای اسکوئر مدل به شرط اضافه کردن متغیر یا مجموعه ای از متغیر ها می باشد. این آماره میزان بهبودی مدل را در صورت اضافه شدن متغیرها نشان می دهد. که برای هر متغیر یک score به همراه p-value نشان می دهد یا برای ورود توام آنها. که در صورت معنادار بودن نشان می دهد اضافه کردن این متغیر ها می تواند مدل را بهبود ببخشد. - وقتی مدل خطی باشد این ارتباط وجود دارد که والد < درستنمایی < امتیاز

Logistic Regression تفسیر ضرایب رگرسیونی

Logistic Regression تفسیر ضرایب رگرسیونی

Logistic Regression تفسیر ضرایب رگرسیونی

Logistic Regression تفسیر ضرایب رگرسیونی

Logistic Regression نیکویی برازش مدل مناسبت مدل رگرسیون لجستیک برازش داده شده قبل از پذیرش آن برای استفاده و تحلیل نیاز است. نیکویی برازش یک اندازه ی کلی از برازش مدل را ارائه می کند. - ممکن است چند مشاهده دارای مقادیر مشابه برای تمام پیشگوها باشند. که در این حالت دو آماره Pearson Chi-square و Deviance استفاده می شود. - برای داده هایی که فاقد تکرار هستند یا تعداد تکرارهای آنها کم است از آماره آزمون Hosmer–Lemeshow استفاده می شود.

Logistic Regression نیکویی برازش مدل آزمون نیکویی برازش خی دو پیرسون مشاهدات Y مستقل و تکرار در داده ها وجود دارد. این آزمون می تواند انحرافات جدی از تابع لجستیک را کشف کند، اما به انحرافات کوچک حساس نیست. آزمون نیکویی برازش Deviance آزمون نیکویی برازش Deviance بر اساس آماره نسبت درستنمایی است. مقادیر بزرگ Deviance نشان می دهد مدل لجستیک برازش داده شده مناسب نیست. که با مقدار خی دو مقایسه می گردد.

Logistic Regression نیکویی برازش مدل آزمون نیکویی برازش هاسمر- لمشو بر اساس فراوانی های مشاهده شده و مورد انتظار در گروه هاست و با مقدار خی دو مقایسه می گردد

Logistic Regression نیکویی برازش مدل آزمون نیکویی برازش هاسمر- لمشو بر اساس فراوانی های مشاهده شده و مورد انتظار در گروه هاست و با مقدار خی دو مقایسه می گردد

Logistic Regression معیارهای انتخاب مدل

Logistic Regression معیارهای انتخاب مدل

Logistic Regression مباحث تشخیصی (diagnostics) در مدل های رگرسیونی

Logistic Regression مباحث تشخیصی (diagnostics) در مدل های رگرسیونی

Logistic Regression مباحث تشخیصی (diagnostics) در مدل های رگرسیونی

Logistic Regression مباحث تشخیصی (diagnostics) در مدل های رگرسیونی

Logistic Regression مباحث تشخیصی (diagnostics) در مدل های رگرسیونی

Logistic Regression پیش فرض های مدل اول اینکه نیازی نیست بین متغیر پاسخ و متغیرهای مستقل ارتباط خطی وجود داشته باشد. با توجه به اینکه از تبدیل غیر خطی لگاریتم برای پیش بینی نسبت شانس ها استفاده می کند باید ارتباط خطی بین لگاریتم شانس متغیر پاسخ و متغیرهای مستقل بررسی شود که این تست با استفاده از آزمون Box-Tidwell امکان پذیر است. (پیشنهاد Andy Fields در کتاب Discovering Statistics Using SPSS, اضافه کردن جمله X*Ln(X) به مدل و بررسی معناداری اثر این جمله می باشد) دوم اینکه نیازی نیست خطاها نرمال چند متغیره باشند سوم اینکه نیازی به همگنی واریانس ها بین سطوح مختلف متغیرهای مستقل نیست

Logistic Regression پیش فرض های مدل در مقابل، چون فرض می شود که p(Y=1) احتمال رخداد رویداد است، بنابراین لازم است کد بندی ها بصورت درست انجام بگیرد و سطح 1 به مشاهده ی رویداد مورد نظر اختصاص یابد. مدل باید به درستی برازش داده شود. نه بیش برازشی و کم برازشی نباید اتفاق بیافتد و تنها متغیرهای مهم باید در مدل وارد شوند. خطاها باید مستقل باشند. مدل باید فاقد همخطی چندگانه باشد.

Logistic Regression پیش فرض های مدل متغیرهای مستقل باید بصورت خطی با لگاریتم شانس ها مرتبط باشند. اگر اینگونه نباشد آزمون دچار کم برازشی می شود و ارتباطات خیلی کوچک را رد می کند (فرض صفر را رد نمی کند)، یعنی زمانی که باید معنادار باشد، اعلام می کند معنادار نیست. یک راه حل برای این مسئله رده بندی کردن متغیرهای مستقل کمی است. و اینکه نیاز به حجم نمونه ی زیاد است. چون برآوردهای ماکزیمم درستنمایی کم توان تر از حداقل مربعات هستند. حداقل به ازای هر متغیر مستقل نیاز به 10 مشاهده می باشد.

Logistic Regression رگرسیون لجستیک اسمی چند رده ای

Logistic Regression رگرسیون لجستیک اسمی چند رده ای

Logistic Regression رگرسیون لجستیک اسمی چند رده ای

Logistic Regression رگرسیون لجستیک اسمی چند رده ای

Logistic Regression رگرسیون لجستیک اسمی چند رده ای

Logistic Regression رگرسیون لجستیک اسمی چند رده ای