Др Наташа Папић-Благојевић Предавања 5 Др Наташа Папић-Благојевић
Вишеструка регресиона анализа Модел регресије који укључује више од једне независне променљиве назива се вишеструки регресиони модел. Вишеструки регресиони модел са зависном променљивом (Y) и независним променљивим (X1,X2, ... Xn) приказује се у следећем облику: 𝑌= 𝛽 0 + 𝛽 1 𝑋 1 + 𝛽 2 𝑋 2 +…+ 𝛽 𝑛 𝑋 𝑛 +𝜀 где 𝛽 0 представља одсечак или константу, 𝛽 1 , 𝛽 2 ,…, 𝛽 𝑛 су коефицијенти нагиба или регресиони параметри, а 𝜀 случајна грешка вишеструког регресионог модела.
Вишеструки регресиони модел описује линерану зависност између зависне променљиве и независних променљивих n. Модел претпоставља да нема интеракције између независних променљивих, што у пракси није увек случај. Константа 𝛽 0 представља вредност зависне променљиве Y када су вредности свих независних променљивих једнаке нули. Коефицијенти 𝛽 1 , 𝛽 2 ,…, 𝛽 𝑛 називају се парцијални регресиони коефицијенти, стварни регрeсиони коефицијенти или параметри регресионог модела основног скупа.
Позитивна вредност коефицијента 𝛽 𝑖 указује на позитивну зависност променљиве Y од променљиве 𝑋 𝑖 . Део 𝛽 0 + 𝛽 1 𝑋 1 + 𝛽 2 𝑋 2 +…+ 𝛽 𝑛 𝑋 𝑛 назива се детерминистички део, а 𝜀 је стохастички део.
Регресиони модел се оцењују на основу података из узорка, па узорачка регресиона једначина гласи: 𝑌 = 𝑏 0 + 𝑏 1 𝑋 1 + 𝑏 2 𝑋 2 +…+ 𝑏 𝑛 𝑋 𝑛 где су вредности 𝑏 1 , 𝑏 2 ,…, 𝑏 𝑛 статистике узорка које престављају одговарајуће тачкасте оцене регресионих параметара основног скупа 𝛽 1 , 𝛽 2 ,…, 𝛽 𝑛 . У моделу 𝑌= 𝛽 0 + 𝛽 1 𝑋 1 + 𝛽 2 𝑋 2 +…+ 𝛽 𝑛 𝑋 𝑛 +𝜀, 𝑌 представља стварну вредност зависне променљиве. У моделу 𝑌 = 𝑏 0 + 𝑏 1 𝑋 1 + 𝑏 2 𝑋 2 +…+ 𝑏 𝑛 𝑋 𝑛 , 𝑌 представља оцењену вредност зависне променљиве. Разлика између 𝑌 и 𝑌 представља резидуал.
Претпоставке вишеструког регресионог модела Средња вредност случајне грешке 𝜀 једнака је нули, односно Е(𝜀)=0 Случајне грешке за различите опсервације су међусобно независне (некорелисане). Случајне грешке су нормално распоређене и имају константну стандардну девијацију. Независне променљиве нису међусобно линеарно зависне. Када је ова претпоставка испуњена значи да не постоји проблем мултиколинеарности. Између независне променљиве 𝑋 𝑖 и случајне грешке 𝜀 не постоји корелациона веза.
Стандардна девијација случајне грешке Стандардна девијација случајне грешке ( 𝜎 𝜀 ) представља меру дисперзије случајне грешке. Стандардна девијација случајне грешке оцењује се на основу стандардне грешке регресије Ѕ: 𝑆= 𝑆𝐾𝑅 𝑛−𝑘−1 где је SKR сума квадрата резидуала и израчунава се: 𝑆𝐾𝑅= 𝑌− 𝑌 2
Коефицијент вишеструке детерминације Коефицијент вишеструке детерминације R2 показује колико је учешће објашњеног варијабилитета у укупном, односно колики је део варијација зависне променљиве објашњен вишеструким регресионим моделом. R2 представља меру валидности регресионог модела, односно показује да ли изабране независне променљиве добро објашњавајау варијације зависне променљиве. 0 ≤ R2 ≤ 1
Вредност R2 се повећава са додавањем нових променљивих, без обзира да ли оне значајно објашњавају варијације зависне променљиве. У циљу елиминисања овог недостатка коефицијента R2, користи се кориговани коефицијент: 𝑅 2 =1− 1− 𝑅 2 𝑛−1 𝑛−𝑘−1 Коефицијент може да се повећа, смањи или остане исти са додавањем нових објашњавајућих променљивих. 𝑅 2 може бити негативан.
Вишеструка регресиона анализа употребом Excel-a Пример: На основу датих података, оценити регресиони модел и испитати да ли и у којој мери искуство возача (изражено бројем година) и бројем саобраћајних прекршаја у току једне године утиче на висину премије ауто осигурања (изражено у €). Табела 1. Годишња премија Возачко искуство Број прекршаја 148 5 2 76 14 100 6 1 126 10 3 194 4 110 8 114 11 86 16 198 92 9 70 19 120 13
У првом кораку неопходно је дефинисати променљиве: Y – годишња премија ауто осигурања (у €); 𝑋 1 - возачко искуство у годинама; 𝑋 2 - број саобраћајних прекршаја возача у току једне године. Потребно је оценити регресиони модел: 𝑌= 𝛽 0 + 𝛽 1 𝑋 1 + 𝛽 2 𝑋 2 +𝜀 Користи се функција LINEST. Једначина гласи: 𝑦= 𝑚 1 𝑥 1 + 𝑚 2 𝑥 2 +…+𝑏
Синтакса: LINEST(poznati_y, [poznati_x], [konstanta], [statistika]) poznati_y – интервал y-вредности које су познате; poznati_x – интервал познатих променљивих; konstanta - логичка променљива (true) statistika - логичка вредност (true)
Табела 2. Број прекршаја Возачко искуство Годишња премија x2 x1 y 2 5 148 14 76 1 6 100 3 10 126 4 194 8 110 11 114 16 86 198 9 92 19 70 13 120
Добијени су следећи резултати: Табела 3. 𝑌 = 𝑏 0 + 𝑏 1 𝑋 1 + 𝑏 2 𝑋 2 Оцењена једначина гласи: 𝑌 =110,28−2,75 𝑋 1 +16,11 𝑋 2 x1 x2 b -2,7472723 16,10612 110,27607 SE coef 0,97700617 2,61332 14,618649 r2 0,93116748 12,14592 #N/A F 60,8760765 9 SS 17961,2895 1327,71
Вредност 𝑏 0 =110,28 показује вредност 𝑌 за 𝑋 1 =0 и 𝑋 2 =0 (Возач без искуства и саобраћајних прекршаја, у просеку годишње плаћа премију у висини од 110,28 €). Вредност 𝑏 1 = -2,75 показује промену 𝑌 при повећању 𝑋 1 за јединицу, када је 𝑋 2 константно (Возачи са једном годином више возачког искуства, а са истим бројем саобраћајних прекршаја, плаћају у просеку 2,75 € мање годишњу премију-негативна веза). Вредност 𝑏 2 =16,11 показује промену 𝑌 при повећању 𝑋 2 за јединицу, када је 𝑋 1 константно (Возачи са једним прекршајем више, а са истим бројем година возачког искуства, плаћају у просеку 16,11 € већу годишњу премију-позитивна веза).
У Табели 3. приказани су и следећи резултати: Стандардна грешка регресије Ѕ=12,14592 Коефицијент вишеструке детерминације R2 = 93,12% Стандардна грешка оцене 𝑏 1 = 0,9770 Стандардна грешка оцене 𝑏 2 = 2,61332 Стандардна грешка оцене 𝑏 = 14,6186
Коришћењем Add-Ins Regression добијају се следећи резулатати: Regression Statistics Multiple R 0,964970197 R Square 0,931167481 Adjusted R Square 0,915871366 Standard Error 12,14592045 Observations 12 ANOVA Df-broj stepeni slobode SS-suma kvadrata MS-varijansa F-tablična vrednost Regression 2 17961,28955 8980,644774 60,87607647 Residual 9 1327,710451 147,5233835 Total 11 19289 Coefficients t Stat P-value Intercept 110,2760721 14,61864892 7,543520106 3,52827E-05 Iskustvo -2,747272266 0,977006167 -2,811929299 0,02031295 Prekršaji 16,10612084 2,613319665 6,163088678 0,000166078
Коришћењем Add-Ins Regression добијају се следећи резулатати:
Литература: Prem, S. Mann (2009). Uvod u statistiku, šesto izdanje. CID Ekonomskog fakulteta u Beogradu, Beograd.