REGRESIJSKE ANALIZE in VEČNIVOJSKO MODELIRANJE Psihologija - magistrski študij Metodologija psihološkega raziskovanja 2003/04 Gregor Sočan Katedra za psihološko metodologijo
Regresija: napovedovanje, opis odnosov Korelacija: opis velikosti povezanosti (stopnja prileganja modela) Osnovni model multiple linearne regresije:
multipli R (mera korelacije - variira med 0 in 1), PARAMETRI: multipli R (mera korelacije - variira med 0 in 1), b koeficienti (nagibi) in regresijska konstanta, koeficienti (mere pomembnosti posameznih prediktorjev). Parametre navadno računamo po načelu najmanjših kvadratov.
Kaj vpliva na multiplo korelacijo? korelacije prediktorjev s kriterijem () korelacije med prediktorji (), vplivne točke (/), napaka merjenja (), variabilnost vzorca (/). Stabilnost (SE) modela odvisna od: korelacij med prediktorji (), velikosti vzorca (), vplivnih točk ().
N = 100 r = 0,09 N = 101 r = 0,31
N = 100 r = 0,81 N = 101 r = 0,74
Nekaj pogostih zablod: mešanje statistične in praktične pomembnosti; “stat. nepomemben r korelacije ni”; mešanje korelacije in vzročnosti; ignoriranje “nazadovanja proti povprečju”.
Statistična pomembnost: t-test (b, r); Fisherjev z test (razlika med dvema neodvisnima r); F-test (R, razlika med dvema vgnezdenima R). Intervali zaupanja odvisni od: višine korelacije, velikosti vzorca in oddaljenosti osebe od povprečja prediktorjev.
Vzorčni multipli R je pristranska ocena populacijskega. priporočljiva ukrepa: 1. Izračun popravljenega (adjusted) R. 2. Vsaj 20-30 oseb na prediktor (če prediktorji visoko korelirani, potreben večji N!).
1. naključno vzorčenje (neodvisnost opazovanj): REGRESIJSKE PREDPOSTAVKE: 1. naključno vzorčenje (neodvisnost opazovanj): “Vsaka oseba ima enako verjetnost, da bo izbrana v vzorec.” Najpogosteje kršena pri večstopenjskem vzorčenju. Kršitev resno vpliva na inferenčne teste.
2. linearnost “Povezanost lahko najbolje opišemo s premico.” Ugotavljanje: F-test, rezidualni graf. Kršitev vpliva tudi na interpretacijo korelacijskih in regresijskih koeficientov.
Primer rezidualnega grafa pri nelinearni povezanosti:
3. homoscedastičnost Standardna napaka napovedi je enaka na celotnem razponu X. Heteroscedastičnost je lahko posledica neustreznega združevanja skupin. Ugotavljanje: rezidualni graf. Kršitev vpliva tudi na interpretacijo korelacijskih in regresijskih koeficientov.
Primer rezidualnega grafa pri heteroscedastičnosti:
4. normalnost porazdelitve rezidualov (implikacija: OS je intervalna) Preverjanje: histogram / P-P graf rezidualov. Kršitev vpliva na inferenčne teste in na pravilnost intervalov zaupanja za Y’.
Kako poročati o regresijski analizi?
Pri postopnem vključevanju prediktorjev:
Analiza poti Metoda preverjanja vzročnih odnosov med več opazovanimi spremenljivkami hkrati (poseben primer strukturnega modeliranja). Določimo lahko multiple korelacije za posamezne spremenljivke; neposredne in posredne vplive; stopnjo prileganja celotnega modela.
Standardized Indirect Effects of starost on Analiza poti Squared Multiple Correlations for Structural Equations kajenje: 0.20 alkohol: 0.43 droge: 0.48 Standardized Total Effects of starost on Y kajenje: 0.44 alkohol: 0.56 droge: 0.57 Standardized Indirect Effects of starost on kajenje - - alkohol: 0.17 droge: 0.27
Kategorični prediktorji: uvedemo dihotomne indikatorske spremenljivke. nelinearna pretvorba; nelinearni člen kot nov prediktor (tudi pri interakciji); iterativno ocenjevanje parametrov; če odnos monoton: neparametrična regresija (na temelju rangov). Kategorični prediktorji: uvedemo dihotomne indikatorske spremenljivke. Robustna regresija: opazovanja obtežimo glede na odstopanje od večine točk. Nelinearni odnosi:
Hierarhično linearno modeliranje (večnivojsko modeliranje, multilevel modeling) Težave pri večstopenjskem vzorčenju: odvisnost opazovanj (“efektivni N” < N); različni odnosi na različnih ravneh - na kateri ravni velja naša interpretacija? HLM omogoča analizo na več ravneh hkrati in upošteva odvisnost opazovanj.
Osnovni model za 1 prediktor: Yij = 0j +1Xij + Rij Izhodišče HLM: regresijski parametri po skupinah so naključne spremenljivke. Osnovni model za 1 prediktor: Yij = 0j +1Xij + Rij Yij = vrednost OS za osebo i v skupini j Xij = vrednost NS za osebo i v skupini j 0j = regr. konstanta v skupini j 1 = regr. nagib Rij = rezidual (napaka napovedi)
Model z naključnim presečiščem (random intercept model) 0j = 00 + U0j 00 = povprečno presečišče za vse skupine U0j = odklon v skupini j Model postane: Yij = 00 +1Xij + U0j + Rij fiksni del naključni del
Vključimo lahko prediktorje na več ravneh: Yij = 00 +10Xij + 01Zj + U0j + Rij Zj = spremenljivka na drugi ravni (skupinska sprem.) 01= regresijski nagib skupinske spremenljivke Preko skupin se lahko spreminjajo tudi nagibi: model z naključnimi nagibi (random slope model)
regresijski parametri (po skupinah) komponente variance. Rezultati HLM: regresijski parametri (po skupinah) komponente variance. Alternativa modelu z naključnimi presečišči: analiza kovariance (ANCOVA), če: skupine niso (kvazi)naključno vzorčene, so skupine dovolj velike, nas ne zanimajo učinki skupinskih spremenljivk.
Literatura za regresijsko analizo: …na kratko: Nunnally, J.C. in Bernstein, I.H. (1994). Psychometric theory (3rd ed.). New York: McGraw-Hill. Stevens, J. (1996, 2001). Applied multivariate statistics for the social sciences. Mahwah, NJ: Laurence Erlbaum. …za poglobljen študij: Darlington, R.B. (1990). Regression and linear models. New York: McGraw-Hill. Pedhazur, E.J. (1997). Multiple regression in behavioral research (3rd ed.). New York: Holt, Rinehart & Winston. Ryan, T.P. (1997). Modern regression methods. New York: Wiley. Literatura za HLM: Snijders, T.A.B. in Bosker, R.J. (1999). Multilevel analysis. An introduction to basic and advanced multilevel modeling. London: Sage.