Download presentation
Presentation is loading. Please wait.
1
Selecţia modelului de regresie lineară multiplă Norbert Petrovici @yahoo.com
2
Ipoteza: Venitul asteptat per membru de familie este dependent de Educaţie Gen Consum Vârstă Mediu de rezidenţă regresie multiplă
3
Variabila Dependenta: □ Venitul aşteptat per membru de familie (se măsoară în milioane ROL) Variabile Independente dummy: □ Mediu de rezidenţă poate lua valoarea 0: rural 1: urban □ Nivel de educaţie 0: nivel de educaţie primar sau mediu 1: nivel de educaţie superior (colegiu sau facultate) □ Gender poate lua valoare 0: femeie 1: bărbat Variabile independente cantitative: □ Suma totală cheltuită pe membru de gospodărie (se măsoară în milioane ROL). □ Vârsta se măsoară în ani împliniţi (se măsoară în ani). Surse date: Barometrul de Opinie Publică, 2004oct (pentru a vedea cum au fost create aceste variabile vezi la sfârsitul prezentării) variabilele din model
4
Cosnum + Mediu + Educ + Gender + Vârstă -> Venit asteptat R 2 ajustat penalizează modelul dacă are mai multe variabile independente (5 in cazul nostru), luând în calcul mărimea eşantionului. Este mai adecvat pentru regresia multipla Dreapta de regresie nestand. Y* = 2.975 + 2,724*X 1 - 0,011*X 2 + 0,438*X 3 - 0,007*X 4 + 1,382*X 5 Sau standardizat Y* = 0.226*X 1 + 0,001*X 2 + 0.321*X 3 -0.033*X 4 + 0.189*X 5 Modelul este generalizabil de la eşantion la populaţie Acesti coefinecţi nu sunt semnificativi. Valorile b nu difera seminficativ de 0, aceste diferenţe pot fi puse pe seama erorilor de eşantioanre regresie multiplă
5
Interpretarea coeficientului b Nivelul de educaţie (dihotomică): Venitul aşteptat creşte în medie cu 2.714 mii lei în cazul unui absolvent (valoarea “1”) de facultate raportat la un non-absolvent (valoarea “0”)de facultate dacă ţinem constante toate celelalte variabile (admiţând că între cele două variabile există o dependenţă lineară). Consum (cantitativă): Venitul aşteptat creşte în medie cu 438 mii lei cu fiecare milion de lei consumat dacă ţine constante toate celelalte variabile (admiţând că între cele două variabile există o dependenţă lineară). Interpretarea coeficientului a În condiţiile în care toate variabilele independente sunt egale cu “0” atunci venitul aşteptat este de 2 975 mii lei. Adică: dacă cineva este femeie (Gender = “0”), rurală (Mediu = “0”), fără facultate (Educ = “0”) şi în a cărei gospodăriei consumul per mebru de familie a fost nul, şi avea vârsta de zero ani, atunci venitul aşteptat în medie este de 2 975 mii lei (admiţând că între cele două variabile există o dependenţă lineară) [ceea ce este absurd!!] Coeficientului β Utilitatea lui vine atunci când vrem să comparăm coeficienţii, pentru a stabili care variabilă are efectul cel puternic. Coeficienţii b nu pot fi folosiţi în acest scop datorită faptului că păstrează unitatea de măsură a variabilelor. Coeficienţii β în schimb sunt măsuraţi în aceeaşi unitate de măsură: abateri standard. În cazul nostru cea mai importantă variabilă în cazul nostru este Educaţia β Consum = 0.321 regresie multiplă interpretare
6
Venit aşteptat Educaţie Gender Consum Varsta Mediu 0.226 -0.001 0.321 -0.033 0.189 Coeficientului β Indică intensitatea efectului direct pe care o are o var. indep. asupra unei unei var. depend. În cazul nostru două dintre efecte sunt foarte mici β Gender = -0.001 şi β Vârstă = - 0.033. De aceea ne întrebăm dacă aceşti coeficienţi pot fi generalizaţi la întreaga populaţie de pe eşantion Adică ne întrebăm dacă faptul că sunt diferiţi de 0 nu cumva se datorează distorsiunilor de eşantion (=erorilor de eşantionare) Testul t ne spune că într- adevă aceste două valori nu sunt semnificative. Excluderea valorilor β nesemnificative Atunci când o valoare este nesemnificativă putem să încercăm să o excludem din analiză, simplificând modelul. Excluderea însă este legitimă numai dacă: efectele indirecte nu sunt mari efecte directe
7
Venit aşteptat Educaţie Gender Consum Varsta Mediu 3.726 0.298 1.629 Efectele indirecte Atunci când excludem din model o variabillă atunci ea nu mai este ţinută constantă când se evaluează relaţiile dintre variabila dependentă si celelalte variabile independente Prin excludere variabila ea nu este neutralizată – deci este introdusă in model indirect, prin efectele indirecte asupra variabilelor independente Dacă efectele indirecte sunt mari atunci coeficieţii β ai variabilelor independente vor creşte în acest nou model simplificat efecte indirecte
8
R 2 ajustat a rămas constant, în ciuda faptului că avem mai puţine variabile. Lucru acesta indică că am putea avea un model mai care este la fel de adecvat, dar mai simplu Dreapta de regresie nestand. Y* = 2.621 + 2,734*X 1 + 0,438*X 2 + 1,399*X 3 Sau standardizat Y* = 0.228*X 1 + 0,320*X 2 + 0.1991*X 3 Modelul este generalizabil de la eşantion la populaţie Toti coeficienţii b şi β au crescut, ceea ce indică efecte indirecte, dar au crescut foarte puţin (câteva zecimi), ceea ce indică efecte indirecte mici! Cosnum + Mediu + Educ + Gender + Vârstă -> Venit asteptat regresie multiplă simplificată
9
Atunci când decidem care din modele de regresie păstrăm ne uităm la schimbările - coeficienţiilor β (pentru a vedea daca există efecte indirecte) - şi la coeficientul R 2 (pentru a vedea cine explică mai multă variaţă) Şi aceasta pentru că vrem ca modelul nostru să fie: 1. Adecvat (principiul adecvării) model să explice cât mai mult din variabila dependentă (din realitate/ din fenomenul studiat) simplitate (principiul simplităţii) dar această explicaţie să fie cât mai simplă. Adică cât mai puţine variabile model cu atât mai bine. Însă fără a sacrifica prea mult din adecvare (varianţa explicată sa nu scadă şi nici să nu introducem involuntar variabilele în model prin intermediul efectelor indirecte) care model de regresie? principii
10
În acest caz al doilea model este mai bun pentru că : 1. este mai adecvat -Coeficientul de determinaţie ajustat R 2 indică o proporţie identică de varianţă explicată -Excluderea variabilelor nesemnificative nu au produs efecte indirecte asupra celorlalte variabile, (ştim asta pentru că valorile β ale variabilelor rămase în model au crescut foarte puţin) 2. este mai simplu -Conţine mai puţine variabile care model de regresie? selecţie
11
În acest caz valorile R 2 ajustate sunt identice. Însă cum decidem dacă avem o creştere mare sau mică a lui R 2. Adică: - Dorim să ştim fără dubiu care model de regresie explică mai mult din varianţa variabilei de regresie. - respectiv dacă există diferenţe semnificative între diferitele R 2. Putem să facem acest lucru cu ajutorul unui test F aplicat coeficienţiilor de determinaţie a diferitelor modele care model de regresie? coeficientul de determinaţie
12
R 2 diferit semnificativ cum facem? Pasul 1: - Specificăm primul modelul cu mai puţine variabile independente (educatie, consum şi mediu) - Apăsăm pe butonul NEXT pentru a specifica modelul cu mai multe variabile
13
R 2 diferit semnificativ cum facem? Pasul 2: - Specificăm al doilea model cu mai multe variabile (educatie, gen, consum, varsta şi mediu) - Apăsăm pe butonul Statistics si de aici solicităm în noua căsută de dialog apărută afisarea R square change
14
Ni se indică atât valorile R 2 si R 2 ajustat pentru cele două modele comparate. Ni se indică Schimbările survenite în mărimea valorilor R2. - Modelul 1 s-a schimbat la 0.284 (faţă de un model fără variabile independete, adică doar dacă am estima cu media varianţa variabilei dependente) - Modelul 2 s-a schimbat cu 0.001 (faţă de un modelul 1) Testul F indică dacă sunt semnificative schimbările: - Modelul 1 s-a schimbat semnificativ, nivelul de semnificaţie este 0.000, mai mic decât pragul de 0.050 (acest test este chiar testul ANOVA, valorile fiind identice cu un test anova) Informatia esenţială: - Modelul 2 nu a adus schimb[ri semnificative în ceea ce priveste valoarea lui R 2, nivelul de semnificatie fiin 0.327 (mult mai mare decât 0.050, pragul de semnificaţie pentru 95%) R 2 diferit semnificativ cum interpretăm? De vreme ce Modelul 2 nu explică mai mult din varianţă vom merge pe criteriul simplităţii si vom păstra modelul cu mai puţine variabile (dar asta doar dacă efectele indirecte ale variabilelor excluse nu sunt mari)
15
R 2 diferit semnificativ cum interpretăm? Coeficienţii din modeul 1 cu mai puţine variable Coeficienţii din modeul 2 cu mai multe variable. Putem observa că pentru variabilele comune coeficienţii b sau β sunt foarte apropiaţi. Cele două modele se numesc modele încuibărite (nested) pentru că cel mai complex îl conţine pe celălalt. Testul F de schimbare a lui R 2 se poate aplica doar modelelor încuibărite
16
Variabile cantitative : Venit = venit aşteptat per membru de familie miss val incdec nrmem (“98.0”, “99.0”). /* setam valorile lipsa NS si NR pentru variabilele INCDEC si NRMEM comp venit = incdec/nrmem. /* creăm variabila venit aşteptat împărţind venitul aştepat al gospodăriei (INCDEC) la numărul de membrii din gospodăriei (NRMEM) miss val venit (“120.0”). /* după ce am explorat noua variabila creata cu un grafic boxplot constatăm că există o valoare extremă de 120 milioane lei pe lună si o excludem setând-o ca missing. Consum = consum per membru de familie miss val chel nrmem (“98.0”, “99.0”). /* setam valorile lipsa NS si NR pentru variabilele chel si nrmem comp consum = chel/nrmem. /* creăm variabila consum împărţind cheltuielile pe luna trecută (chel) la numărul de membrii din gospodăriei (nrmem) miss val consum (“100.0”). /* dupa ce am explorat noua variabila creata cu un grafic boxplot constatăm că există o valoare extremă de 100 milioane lei pe lună si o excludem setând-o ca missing. p0 _ age = vârsta subiectului Cum codăm variabile din analiză
17
Variabile dummy: Educatie = venit gospodărie per membru de familie miss val p0_scoal ("99.0"). /* setăm valorile missing la variabila P0_SCOAL care înregistrează educaţia. if (p0_scoal >= 10) educatie = 1. /* cu ajutorul comenzii IF punem condiţia că dacă cineva a urmat cel puţin colegiu, atunci să se creeze o nouă variabilă EDUCATIE care să ia în aceste condiţii valoarea 1. if (p0_scoal < 10) educatie = 0. /* cu aceeaşi comandă IF mai punem condiţia că dacă cineva are o diplomă mai mică decât cea de colegiu, variabilă EDUCATIE care să ia valoarea 0. Gen = gender (0=femeie; 1=bărbat) recode p0_sex (1=1) (2=0) into gen. /* vairabila P0_SEX este o variabila dihotomică cu valori 1 pentru bărbaţi şi 2 pentru femei. O transformăm într-o variabilă dummy recodând valoarea femeile în 0 (2=0), iar bărbaţii rămân 1 (1=1). Recodarea se face într-o nouă variabilă numită GEN. Mediu = tip localitate (0=rural; 1=urban) Cum codăm variabile din analiză
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.