Modele de regresie pentru date de tip panel Facultatea de CSIE, Master Statistică Curs 4 ianuarie 2011 Conf.univ.dr. Cristina BOBOC Notă: Această prezentare a fost realizată după cursul lui Bernhard Boockmann, Institute for Applied Economic Research, Germany
Sumar Date de tip panel Regresia prin metoda celor mai mici pătrate grupată (POLS – Pooled ordinary least squares) Modelul de regresie cu efecte fixe Modelul de regresie cu efecte aleatoare Testul Hausman
Structura datelor de tip panel Unităţi transversale aranjate într-o perioadă de timp (date longitudinale) Numărul de observaţii este N x T dimensiunea transversală (N) ar trebui să fie mai mare decât dimensiunea timpului (T) Exemplu: 11 ţări pe 10 ani fiecare 50 de firme pe câte 4 perioade de timp
Notaţie generală YNT XN3 T N YNt XNt … Y31 XN1 1 Yi3 Xi3 Yi2 Xi2 Yi1 Y1T X1T Y1t X1t Y11 X11 Variabila 2 Yit Variabila 1 Xit Timp Numărul unităţii
Avantajele structurii de tip panel Datele de tip panel fac posibilă estimarea relaţiilor în dinamică chiar dacă datele sunt disponibile pentru o perioadă scurtă de timp: prin creşterea numărului observaţiilor (N x T) Încorporează dimensiunea timp pentru datele în secţiune transversală şi dimensiunea spaţiu pentru serii temporale Eficienţă sporită a estimărilor modelelor de regresie prin mărimea eşantionului, creşterea heterogenităţii, reducerea colinearităţii Capacitatea de a controla efectele individuale fixe – ceea ce este comun unui individ de-a lungul timpului, dar care poate varia între indivizi Abilitatea de a modela efectele temporale fără deplasarea datorată agregării
Probleme privind datele de tip panel Termenul eroare include întotdeauna toţi factorii neobservabili care determină variabila rezultativă Y Termenul eroare într-un model de regresie pe date de tip panel are 3 componente: αi capturează impactul variabilelor neobservate constante în timp pentru un anumit individ, dar care variază între indivizi: calitatea managementului (firma), sexul (individ), calitatea instituţiilor (ţări) μt capturează impactul variabilelor neobservate care afectează în acelaşi fel toţi indivizii într-o anumită perioadă de timp, însă variază în timp: modificări de politică, rata de schimb, schimbarea valorilor în societate εit capturează impactul variabilelor neobservate care variază atât între indivizi cât şi în timp: norocul, starea de bine, etc Efect neobservat specific individului Efect neobservat specific timpului Efect neobservat specific individului şi timpului
Termenul eroare Dacă de face o secţiune transversală (se observă N indivizi la un moment de timp t, de exemplu t = 1995)
Secţiune transversală Există o singură observaţie pentru fiecare individ => variaţia dintre rezultate provine de la variaţia dintre indivizi În acest caz nu există deosebire între efectele neobservate specifice individului şi efectele neobservate specifice individului şi timpului
Date de tip panel Observaţii repetate în diverse momente de timp pentru acelaşi individ
Metoda celor mai mici pătrate Una din ipotezele metodei celor mai mici pătrate este: Cov(Xi, Ui)=0 Se presupune că toate cele trei componente sunt independente între ele şi cu variabila X Descompunerea termenului eroare indică faptul că una dintre presupunerile metodei celor mai mici pătrate nu va fi respectată: "Două observaţii ale aceluiaşi individ vor fi mai asemănătoare comparativ cu două observaţii provenind de la doi indivizi diferiţi"
Metoda celor mai mici pătrate grupată (Pooled ordinary least squares) Este cea mai simplă abordare Combină într-o singură mulţime ambele dimensiuni Renunţă la structura temporală şi transversală Exemplu: Se estimează parametrii ecuaţiei de regresie liniară unde i este individul iar t este timpul
Metoda celor mai mici pătrate grupată (Pooled ordinary least squares) Metoda celor mai mici pătrate grupată va furniza estimatori ai parametrilor constanţi fără diferenţiere între indivizi şi timp Din cauza componentei efectului neobservat specific indivizilor una din ipotezele pe care se bazează metoda celor mai mici pătrate poate fi nerespectată: . Presupunerea că fiecare eroare în fiecare perioadă de timp, pentru fiecare persoană este necorelată cu variabilele şi efectele pentru fiecare persoană şi de-a lungul timpului, poate să nu fie respectată Structura de tip panel are dimensiunea timp, deci corelaţia dintre erori succesive poate să conducă la violarea ipotezei privind non autocorelarea erorilor Estimatorii obţinuţi nu vor fi deplasaţi însă vor fi neeficienţi (informaţia cu privire la autocorelarea erorilor poate fi folosită pentru obţinerea de estimatori mai buni)
Metode specifice datelor de tip panel permit diferenţierea comportamentului între indivizi şi în perioade diferite de timp sub forma: Efectelor fixe: atunci când există corelaţie între X şi i Efectelor aleatoare: atunci când corelaţia între X şi i este zero
Model cu efecte fixe şi pentru Ipotezele privind termenul eroare : zgomot alb (ca în regresia liniară): media zero a erorilor dispersia erorilor constantă non-autocorelarea erorilor Efectul individual este un parametru fix => model cu termeni liberi individuali: Ipotezele privind efectele individuale : media zero a erorilor dispersia erorilor constantă non-autocorelarea erorilor Ipoteză: Nu există corelaţie între efectul individual şi termenul eroare : Dar poate exista corelaţie între efectul individual şi variabilele explicative:
Model cu efecte fixe Cum poate fi estimat acest model? Modelul pentru o singură observaţie: Modelul pentru individul i: resp. Modelul pentru toate observaţiile: Variabilă dummy pentru individul i Cum poate fi estimat acest model?
Model cu efecte fixe Estimarea folosind metoda celor mai mici pătrate cu variabile dummy: Estimatorul lui ß este BLUE (atâta timp cât este zgomot alb) DAR: calcule complexe dacă N este mare dimensiunea mare a vectorului coeficienţilor poate conduce la estimări imprecise pierdere mare a gradelor de libertate de multe ori nu suntem interesaţi de toţi parametrii i dacă N este mare! Scop: Eliminarea efectului individual, adică Transformarea prin diferenţe de ordinul I Transformarea în interiorul perioadelor de timp (toate observaţiile se măsoară în deviaţie faţă de media în timp a fiecărui individ)
Model cu efecte fixe unde unde etc. Modelul transformat: Transformarea în interiorul perioadelor de timp: unde etc. Modelul transformat: Observăm că parametrii α nu mai apar în ecuaţie aceştia sunt consideraţi neimportanţi şi nu vor mai fi estimaţi Prin aplicarea metodei celor mai mici pătrate clasică ecuaţiei transformate va rezulta estimatorul obţinut prin metoda celor mai mici pătrate cu variabile dummy (Cameron / Trivedi p. 733) numit Within Estimator: unde
Model cu efecte fixe Estimatorul modelului cu efecte fixe pentru : nedeplasat consistent în toate cele trei cazuri (N mare & T fix, T mare & N fix, N & T mari efficient asimptotic normal distribuit
Model cu efecte fixe Estimarea termenilor liberi individuali: Dacă modelul iniţial include o constantă , atunci este estimat efectul compus i+ (interpretare diferită a lui i ). Nu este posibilă identificarea efectelor individuale decât în cazul în care se face o presupunere suplimentară, adică: Estimatorii pentru i : nu sunt consistenţi pentru N mare: numărul parametrilor creşte odată cu creşterea lui N
Model cu efecte aleatoare şi Ipotezele privind termenul eroare : zgomot alb (ca în regresia liniară): media zero a erorilor dispersia erorilor constantă non-autocorelarea erorilor Ipotezele privind efectele individuale : distribuţia constantă de6a lungul lui i media zero a erorilor dispersia erorilor constantă non-autocorelarea erorilor Ipoteză: Nu există corelaţie între efectul individual şi termenul eroare : Ipoteză: Nu există corelaţie între efectul individual şi variabilele explicative: Model cu efecte aleatoare
Model cu efecte aleatoare Cum poate fi implementat estimatorul modelului cu efecte aleatoare? Estimator RE Se face următoarea transformare pentru fiecare observaţie: unde (σε2 este dispersia lui ε şi σα2 este dispersia lui α)
Model cu efecte aleatoare Estimarea ecuaţiei transformate se va face cu metoda celor mai mici pătrate. Acesta este estimatorul obţinut prin metoda celor mai mici pătrate generalizată şi se numeşte estimator RE (Random Effects). Estimatorul BE: este consistent este eficient dacă modelul pentru componentele erorilor este adevărat
Model cu efecte aleatoare Estimator BE : Putem scrie: (Transformarea dintre perioadele de timp) Se calculează estimatorul prin metoda celor mai mici pătrate pentru acest model transformat, numit Estimator BE (Between Estimator) Estimatorul BE: Este consistent, dacă efectele individuale şi X sunt necorelate Nu este eficient (ţine cont doar de variaţia dintre indivizi)
Model cu efecte aleatoare Estimatorul RE este o sumă ponderată a estimatorilor Within şi Between: Cazuri speciale:
Aplicarea modelului RE Modelul clasic de regresie liniară: Alte modele: 1) Modelul iniţial general: 2) Modelul transformat Between: 2) Modelul transformat Within: 4) Modelul transformat RE:
Aplicarea modelului RE Calitatea modelului FE: R2 din modelul Within Potrivirea modelului Between cu estimatori FE Potrivirea generală a modelului cu estimatori FE BE: Potrivirea modelului Within cu estimatori BE R2 din modelul Between Potrivirea generală a modelului cu estimatori BE RE: Potrivirea modelului Within cu estimatori RE Potrivirea modelului Between cu estimatori RE Potrivirea generală a modelului cu estimatori RE
Testarea pentru efecte fixe individuale Există efecte fixe individuale? Testul F H0: nu există efecte fixe individuale (= modelul grupat) H1: există efecte fixe individuale Testul statistic: Regula de decizie: Se respinge ipoteza nulă (şi deci modelul grupat) dacă FT este mai mare decât valoarea critică (adică dacă p-value < un nivel de semnificaţie dat , în general 0.05).
Testarea pentru efecte aleatoare Există efecte aleatoare? Testul Multiplicatorului Lagrange Breusch-Pagan H0: nu există efecte aleatoare: H1: Testul statistic: Modelul grupat sub ipoteza H0 este U sunt rezidual-urile din modelul grupat Regula de decizie: Se respinge ipoteza nulă (adică a efectelor aleatoare), dacă LM este mai mare decât valoarea critică (sau dacă p-value < o valoare dată a nivelului de semnificaţie , în general 0.05).
Testarea pentru efecte aleatoare versus efecte fixe Dacă se respinge modelul grupat: Se foloseşte modelul cu efecte fixe sau aleatoare? Testul Hausman-Wu Se testează dacă efectele individuale aleatoare sunt corelate cu variabilele explicative (FE) sau nu (RE) Ideea generală a testului Hausman-Wu Compară un estimator care este consistent şi eficient sub ipoteza nulă şi inconsistent în ipoteza alternativă cu un estimator care este consistent în ambele alternative H0: no există corelaţie: FE consistent RE consistent şi eficient Estimatorii FE şi RE sunt similari H1: corelatie: FE consistent RE inconsistent Estimatorii FE şi RE sunt diferiţi
Testarea pentru efecte aleatoare versus efecte fixe Testul statistic: sub ipoteza H0 este χ2k unde k este numărul de coloane în X Regula de decizie: Se respinge ipoteza nulă dacă HW este mai mare decât valoarea critică (sau dacă p-value < o valoare dată a nivelului de semnificaţie , în general 0.05).