Selecţia modelului de regresie lineară multiplă Norbert

Slides:



Advertisements
Similar presentations
Prof.Briciu Daniela Sc.cu cls. I-VIII Luna de Sus
Advertisements

Prof.coord. IOANA KADAR Elev. CRISTIAN ADRIAN. Apa o sursa de viata pentru animale Apa o sursa de viata pentru animale.
Adobe photoshop.  De multe ori ne facem fotografii si unele nu le facem publice pentru ca ori am avut un cos in acel moment sau un alt aspect negativ.
7 Flori pentru coala mea. “Flori pentru coala mea” este o activitate în cadrul Concursului Implic ă -te, fii voluntar!
Z IDURILE SECOLULUI XX Ziduri politice Bariere comerciale Ziduri in domeniul transporturilor Ziduri in zona comunicarii si comunicatiilor.
Noua generaţie de clienţi. Noua generaţie de clienţi este aici.
MODELUL DE REGRESIE.
1 Am pornit in realizarea materialului nostru de la lectiile din manualul de Stiinte ale naturii si din cel de Geografie. 2.
În general exist ă 2 forme mari de conservare : “in situ” şi “ex situ” 1. Conservarea “ in situ” Aceast ă metod ă de conservare const ă în.
Page 1 O echipă, un curs, un succes!. Page 2 Echipa: Formatori din Bibliotecile Judeene - Regiunea Oltenia Arge Gorj Dolj Vâlcea.
Batalia sexelor O lume dominata de barbati vs o lume dominata de femei.
1 const #define DIMENSIUNE 1000 const int DIMENSIUNE = 1000; Utilizarea valorilor constante este importantă, de exemplu, în declararea tablourilor de date.
Present Perfect Continuous prezentare. schema Afirmativ: S + have/has + been + V-ing… Negativ: S + have/has + not + been + V-ing… Interogativ: have/has.
Acum câteva zile, când mă plimbam pe Strada Vieţii am observat un magazin pe care era scris: “ Magazinul Raiului ”.
(passive voice) -prezentare -
DOAR FEMEILE POT INTELEGE! Am privit 2 emisiuni recente, care insistau ca varsta de 50 de ani este o varsta buna pentru femei....
POSTA ELECTRONICA Ana-Maria Tache Ioana Cristina Ciufu.
-Modelul Entitate-Legatura (ER)-
ACTIVITATEA 1 -,, PROFESOR IT LA PAPI’’
Subinterogări multiple
Subinterogari.
Oracle Academy Lead Adjunct
Funcţii Excel definite de utilizator (FDU) în VBA
Dispozitive de stocare
IF Clause prezentare.
Ai stiut ca… Muschii inimei tale au puterea sa-ti stropeasca sangele tau la o inaltime de 10 metri in aer?
Despre Topologie Ciprian Manolescu UCLA
Paxos Made Simple Autor: Puşcaş Radu George
Gindeste ……...
CURSUL 4 ECONOMETRIE TESTUL HI PATRAT.
Retele de calculatoare
Sistemul de salarizare pentru funcţionarii publici şi cele mai recente tendinţe ale reformei Germania.
Reflexia luminii.
METODA BACKTRACKING Examenul de bacalaureat 2012
Amplificatoare operationale Functia de transfer Laplace
Algoritmi de combatere a congestiei
Avem nevoie de un proiect nou.
Recapitulare La Logica si argumentare
WebSite Social Tema 2 WebSite Social.
Tipuri structurate Tipul tablou
SUBNETAREA.
Grasu leonard ionut Trifu gabriel
Programarea calculatoarelor şi limbaje de programare I Capitolul 8
Web Form BuilDer Coffee Cup.
Modificarea structurii unei tabele
Totul despre: Valentine’s day.
original creator unknown
Formatarea paragrafului
Funcții C/C++ continuare
Erorile de tip I şi II, puterea si marimea esantionului
prof. mrd. Negrilescu Nicolae Colegiul National Vlaicu Voda
Impulsul mecanic Impulsul mecanic. Teorema conservarii impulsului mecanic.
Gindeste ……...
Eclipsele de soare si de luna
Forms (Formulare).
original creator unknown
A great way to create a channel of communication
Functia de documentare
Raspunsul la frecventa
Administrarea reţelelor de calculatoare
Folosirea de către companii a Twitter, Facebook şi LinkedIn
Gindeste ……...
Software open source in industria software
PARE IMPOSIBIL! GENERALUL DWIGHT D. EISENHOWER A AVUT
Refracţia luminii.
Configurarea metodelor de management al calităţii în sectorul public
XIII. Regimurile politice postbelice
De unde vine; în ce se transformă
Harti de imagini, Cadre, Stiluri
Despre lamaie.net De ce sunt lamaile acre? Realizatori: Cristina Cazan
Presentation transcript:

Selecţia modelului de regresie lineară multiplă Norbert

Ipoteza: Venitul asteptat per membru de familie este dependent de Educaţie Gen Consum Vârstă Mediu de rezidenţă regresie multiplă

Variabila Dependenta: □ Venitul aşteptat per membru de familie (se măsoară în milioane ROL) Variabile Independente dummy: □ Mediu de rezidenţă poate lua valoarea  0: rural  1: urban □ Nivel de educaţie  0: nivel de educaţie primar sau mediu  1: nivel de educaţie superior (colegiu sau facultate) □ Gender poate lua valoare  0: femeie  1: bărbat Variabile independente cantitative: □ Suma totală cheltuită pe membru de gospodărie (se măsoară în milioane ROL). □ Vârsta se măsoară în ani împliniţi (se măsoară în ani). Surse date: Barometrul de Opinie Publică, 2004oct (pentru a vedea cum au fost create aceste variabile vezi la sfârsitul prezentării) variabilele din model

Cosnum + Mediu + Educ + Gender + Vârstă -> Venit asteptat R 2 ajustat penalizează modelul dacă are mai multe variabile independente (5 in cazul nostru), luând în calcul mărimea eşantionului. Este mai adecvat pentru regresia multipla Dreapta de regresie nestand. Y* = ,724*X 1 - 0,011*X 2 + 0,438*X 3 - 0,007*X 4 + 1,382*X 5 Sau standardizat Y* = 0.226*X 1 + 0,001*X *X *X *X 5 Modelul este generalizabil de la eşantion la populaţie Acesti coefinecţi nu sunt semnificativi. Valorile b nu difera seminficativ de 0, aceste diferenţe pot fi puse pe seama erorilor de eşantioanre regresie multiplă

Interpretarea coeficientului b  Nivelul de educaţie (dihotomică): Venitul aşteptat creşte în medie cu mii lei în cazul unui absolvent (valoarea “1”) de facultate raportat la un non-absolvent (valoarea “0”)de facultate dacă ţinem constante toate celelalte variabile (admiţând că între cele două variabile există o dependenţă lineară).  Consum (cantitativă): Venitul aşteptat creşte în medie cu 438 mii lei cu fiecare milion de lei consumat dacă ţine constante toate celelalte variabile (admiţând că între cele două variabile există o dependenţă lineară). Interpretarea coeficientului a  În condiţiile în care toate variabilele independente sunt egale cu “0” atunci venitul aşteptat este de mii lei. Adică: dacă cineva este femeie (Gender = “0”), rurală (Mediu = “0”), fără facultate (Educ = “0”) şi în a cărei gospodăriei consumul per mebru de familie a fost nul, şi avea vârsta de zero ani, atunci venitul aşteptat în medie este de mii lei (admiţând că între cele două variabile există o dependenţă lineară) [ceea ce este absurd!!] Coeficientului β  Utilitatea lui vine atunci când vrem să comparăm coeficienţii, pentru a stabili care variabilă are efectul cel puternic. Coeficienţii b nu pot fi folosiţi în acest scop datorită faptului că păstrează unitatea de măsură a variabilelor. Coeficienţii β în schimb sunt măsuraţi în aceeaşi unitate de măsură: abateri standard.  În cazul nostru cea mai importantă variabilă în cazul nostru este Educaţia β Consum = regresie multiplă interpretare

Venit aşteptat Educaţie Gender Consum Varsta Mediu Coeficientului β  Indică intensitatea efectului direct pe care o are o var. indep. asupra unei unei var. depend.  În cazul nostru două dintre efecte sunt foarte mici β Gender = şi β Vârstă = De aceea ne întrebăm dacă aceşti coeficienţi pot fi generalizaţi la întreaga populaţie de pe eşantion  Adică ne întrebăm dacă faptul că sunt diferiţi de 0 nu cumva se datorează distorsiunilor de eşantion (=erorilor de eşantionare)  Testul t ne spune că într- adevă aceste două valori nu sunt semnificative. Excluderea valorilor β nesemnificative  Atunci când o valoare este nesemnificativă putem să încercăm să o excludem din analiză, simplificând modelul.  Excluderea însă este legitimă numai dacă: efectele indirecte nu sunt mari efecte directe

Venit aşteptat Educaţie Gender Consum Varsta Mediu Efectele indirecte  Atunci când excludem din model o variabillă atunci ea nu mai este ţinută constantă când se evaluează relaţiile dintre variabila dependentă si celelalte variabile independente  Prin excludere variabila ea nu este neutralizată – deci este introdusă in model indirect, prin efectele indirecte asupra variabilelor independente  Dacă efectele indirecte sunt mari atunci coeficieţii β ai variabilelor independente vor creşte în acest nou model simplificat efecte indirecte

R 2 ajustat a rămas constant, în ciuda faptului că avem mai puţine variabile. Lucru acesta indică că am putea avea un model mai care este la fel de adecvat, dar mai simplu Dreapta de regresie nestand. Y* = ,734*X 1 + 0,438*X 2 + 1,399*X 3 Sau standardizat Y* = 0.228*X 1 + 0,320*X *X 3 Modelul este generalizabil de la eşantion la populaţie Toti coeficienţii b şi β au crescut, ceea ce indică efecte indirecte, dar au crescut foarte puţin (câteva zecimi), ceea ce indică efecte indirecte mici! Cosnum + Mediu + Educ + Gender + Vârstă -> Venit asteptat regresie multiplă simplificată

Atunci când decidem care din modele de regresie păstrăm ne uităm la schimbările - coeficienţiilor β (pentru a vedea daca există efecte indirecte) - şi la coeficientul R 2 (pentru a vedea cine explică mai multă variaţă) Şi aceasta pentru că vrem ca modelul nostru să fie: 1. Adecvat (principiul adecvării) model să explice cât mai mult din variabila dependentă (din realitate/ din fenomenul studiat) simplitate (principiul simplităţii) dar această explicaţie să fie cât mai simplă. Adică cât mai puţine variabile model cu atât mai bine. Însă fără a sacrifica prea mult din adecvare (varianţa explicată sa nu scadă şi nici să nu introducem involuntar variabilele în model prin intermediul efectelor indirecte) care model de regresie? principii

În acest caz al doilea model este mai bun pentru că : 1. este mai adecvat -Coeficientul de determinaţie ajustat R 2 indică o proporţie identică de varianţă explicată -Excluderea variabilelor nesemnificative nu au produs efecte indirecte asupra celorlalte variabile, (ştim asta pentru că valorile β ale variabilelor rămase în model au crescut foarte puţin) 2. este mai simplu -Conţine mai puţine variabile care model de regresie? selecţie

În acest caz valorile R 2 ajustate sunt identice. Însă cum decidem dacă avem o creştere mare sau mică a lui R 2. Adică: - Dorim să ştim fără dubiu care model de regresie explică mai mult din varianţa variabilei de regresie. - respectiv dacă există diferenţe semnificative între diferitele R 2. Putem să facem acest lucru cu ajutorul unui test F aplicat coeficienţiilor de determinaţie a diferitelor modele care model de regresie? coeficientul de determinaţie

R 2 diferit semnificativ cum facem? Pasul 1: - Specificăm primul modelul cu mai puţine variabile independente (educatie, consum şi mediu) - Apăsăm pe butonul NEXT pentru a specifica modelul cu mai multe variabile

R 2 diferit semnificativ cum facem? Pasul 2: - Specificăm al doilea model cu mai multe variabile (educatie, gen, consum, varsta şi mediu) - Apăsăm pe butonul Statistics si de aici solicităm în noua căsută de dialog apărută afisarea R square change

Ni se indică atât valorile R 2 si R 2 ajustat pentru cele două modele comparate. Ni se indică Schimbările survenite în mărimea valorilor R2. - Modelul 1 s-a schimbat la (faţă de un model fără variabile independete, adică doar dacă am estima cu media varianţa variabilei dependente) - Modelul 2 s-a schimbat cu (faţă de un modelul 1) Testul F indică dacă sunt semnificative schimbările: - Modelul 1 s-a schimbat semnificativ, nivelul de semnificaţie este 0.000, mai mic decât pragul de (acest test este chiar testul ANOVA, valorile fiind identice cu un test anova) Informatia esenţială: - Modelul 2 nu a adus schimb[ri semnificative în ceea ce priveste valoarea lui R 2, nivelul de semnificatie fiin (mult mai mare decât 0.050, pragul de semnificaţie pentru 95%) R 2 diferit semnificativ cum interpretăm? De vreme ce Modelul 2 nu explică mai mult din varianţă vom merge pe criteriul simplităţii si vom păstra modelul cu mai puţine variabile (dar asta doar dacă efectele indirecte ale variabilelor excluse nu sunt mari)

R 2 diferit semnificativ cum interpretăm? Coeficienţii din modeul 1 cu mai puţine variable Coeficienţii din modeul 2 cu mai multe variable. Putem observa că pentru variabilele comune coeficienţii b sau β sunt foarte apropiaţi. Cele două modele se numesc modele încuibărite (nested) pentru că cel mai complex îl conţine pe celălalt. Testul F de schimbare a lui R 2 se poate aplica doar modelelor încuibărite

Variabile cantitative : Venit = venit aşteptat per membru de familie miss val incdec nrmem (“98.0”, “99.0”). /* setam valorile lipsa NS si NR pentru variabilele INCDEC si NRMEM comp venit = incdec/nrmem. /* creăm variabila venit aşteptat împărţind venitul aştepat al gospodăriei (INCDEC) la numărul de membrii din gospodăriei (NRMEM) miss val venit (“120.0”). /* după ce am explorat noua variabila creata cu un grafic boxplot constatăm că există o valoare extremă de 120 milioane lei pe lună si o excludem setând-o ca missing. Consum = consum per membru de familie miss val chel nrmem (“98.0”, “99.0”). /* setam valorile lipsa NS si NR pentru variabilele chel si nrmem comp consum = chel/nrmem. /* creăm variabila consum împărţind cheltuielile pe luna trecută (chel) la numărul de membrii din gospodăriei (nrmem) miss val consum (“100.0”). /* dupa ce am explorat noua variabila creata cu un grafic boxplot constatăm că există o valoare extremă de 100 milioane lei pe lună si o excludem setând-o ca missing. p0 _ age = vârsta subiectului Cum codăm variabile din analiză

Variabile dummy: Educatie = venit gospodărie per membru de familie miss val p0_scoal ("99.0"). /* setăm valorile missing la variabila P0_SCOAL care înregistrează educaţia. if (p0_scoal >= 10) educatie = 1. /* cu ajutorul comenzii IF punem condiţia că dacă cineva a urmat cel puţin colegiu, atunci să se creeze o nouă variabilă EDUCATIE care să ia în aceste condiţii valoarea 1. if (p0_scoal < 10) educatie = 0. /* cu aceeaşi comandă IF mai punem condiţia că dacă cineva are o diplomă mai mică decât cea de colegiu, variabilă EDUCATIE care să ia valoarea 0. Gen = gender (0=femeie; 1=bărbat) recode p0_sex (1=1) (2=0) into gen. /* vairabila P0_SEX este o variabila dihotomică cu valori 1 pentru bărbaţi şi 2 pentru femei. O transformăm într-o variabilă dummy recodând valoarea femeile în 0 (2=0), iar bărbaţii rămân 1 (1=1). Recodarea se face într-o nouă variabilă numită GEN. Mediu = tip localitate (0=rural; 1=urban) Cum codăm variabile din analiză