Download presentation
Presentation is loading. Please wait.
Published byFlorine Lamothe Modified over 6 years ago
1
Korelacijske metode psihologija (1.st.) – 2. letnik 2011/12
6. predavanje: Uvod v večnivojsko modeliranje (multilevel modeling) / hierarhično linearno modeliranje (hierarchical linear modeling, HLM) (tudi: mixed models, random coefficient models)
2
HLM ni nič novega … Je nadgradnja GLM Enostavne linearne regresije
Multiple linearne regresije ANOVE ANCOVE ANOVE za ponovljena merjenja Tudi GLM v PASW ima možnost obdelave naključnih učinkov, vendar ocenjuje parametre, kot bi bili fiksni učinki, in računa komponente varianc preko pričakovanih srednjih kvadratov. LMM pa uporabljajo za oceno parametrov algoritem ML – obravnava učinke kot naključne.
3
Modeliranje: napovedovanje, opis odnosov med spremenljivkami
Linearno: linearni odnosi Hierarhično: urejenost podatkov v več ravni
4
HLM IZHODIŠČE – MODEL MULTIPLE REGRESIJE
PREDPOSTAVKE LINEARNE REGRESIJE: 1. linearnost Povezanost lahko najbolje opišemo s premico. Kršitev vpliva na interpretacijo korelacijskih in regresijskih koeficientov. 2. homoscedastičnost Standardna napaka napovedi je enaka na celotnem razponu X. Kršitev vpliva tudi na interpretacijo korelacijskih in regresijskih koeficientov. 3. normalnost porazdelitve rezidualov Kršitev vpliva na inferenčne teste in na pravilnost intervalov zaupanja za Y’. 4. naključno vzorčenje (neodvisnost opazovanj): Vsaka oseba ima enako verjetnost, da bo izbrana v vzorec. Najpogosteje kršena pri večstopenjskem vzorčenju. Kršitev resno vpliva na inferenčne teste. Za modeliranje GNEZDENIH PODATKOV tradicionalne statistične tehnike niso ustrezne! HLM
5
Kaj je večnivojsko ali hierarhično linearno modeliranje?
Gnezdeni podatki Posamezniki gnezdeni znotraj skupin posamezniki – države otroci – družine – okoliši delavci – oddelki – podjetja učenci (raven 1, i) – razredi (raven 2, j) – šole (raven 3, k) – države (raven 4, l) Multilevel or HLM refers to how the data are structured. Data structures that involve "nesting' are viewed as multilevel. The term "nested" is used to describe pieces of data that are contained within a larger unit. For example if we had data from individuals and these individuals were within a class we would say that the individuals are nested within the class; if we had multiple classes and these classes are contained in schools we would say that the classess are nested within schools. Picture of Individuals. Another type of nesting is when we have an individual and the individual is repeatedly tested or observed. We would say that the data points are nested within the individual. These 2 types of nesting will provide the 2 applications that will be discussed today.
6
Posamezniki Enota analize = posamezniki
7
Posamezniki gnezdeni znotraj skupin
raven 2 raven 1 Enota analize = posamezniki + razredi
8
… in te gnezdene v še večje skupine
Enota analize = posamezniki + razredi + šole
9
Raziskovalno vprašanje
Kakšne učinke imajo naslednje spremenljivke na bralno razumevanje učencev 4. razreda? velikost šole klima v razredu spol učenca
10
Kaj je večnivojsko ali hierarhično linearno modeliranje?
Gnezdeni podatki Posamezniki gnezdeni znotraj skupin posamezniki – države otroci – družine – okoliši delavci – oddelki – podjetja učenci (raven 1, i) – razredi (raven 2, j) – šole (raven 3, k) – države (raven 4, l) Večkratna merjenja gnezdena znotraj istih oseb merjenje (ponovljene meritve) – otroci (neponovljene meritve) – vrtci (neponovljene meritve) Multilevel or HLM refers to how the data are structured. Data structures that involve "nesting' are viewed as multilevel. The term "nested" is used to describe pieces of data that are contained within a larger unit. For example if we had data from individuals and these individuals were within a class we would say that the individuals are nested within the class; if we had multiple classes and these classes are contained in schools we would say that the classess are nested within schools. Picture of Individuals. Another type of nesting is when we have an individual and the individual is repeatedly tested or observed. We would say that the data points are nested within the individual. These 2 types of nesting will provide the 2 applications that will be discussed today.
11
Časovne točke (ponovljena merjenja) gnezdene znotraj posameznikov
Primer 1: Fokus = sprememba ali rast Janez Dan Raven energije Ponedeljek = 0 98 Torek = 1 90 Sreda = 2 85 Četrtek = 3 72 Petek = 4 70
12
Časovne točke (ponovljena merjenja) gnezdene znotraj posameznikov
13
Časovne točke (ponovljena merjenja) gnezdene znotraj posameznikov
14
Spremembe pri petih posameznikih
Časovne točke (ponovljena merjenja) gnezdene znotraj posameznikov Spremembe pri petih posameznikih
15
Časovne točke (ponovljena merjenja) gnezdene znotraj posameznikov
Primer 2: Fokus = odnosi med spremenljivkami znotraj posameznika Janez Dan Ure spanja Raven energije Ponedeljek 9 98 Torek Sreda Četrtek Petek
16
Časovne točke (ponovljena merjenja) gnezdene znotraj posameznikov
17
Težave pri večstopenjskem vzorčenju:
odvisnost opazovanj Podatki gnezdeni znotraj skupine bodo nagnjeni k večji podobnosti kot podatki posameznikov, vzorčenih naključno. (Skupinska dinamika navadno vpliva na posameznike.) “efektivni N” < N različni odnosi na različnih ravneh - na kateri ravni velja naša interpretacija? HLM omogoča analizo na več ravneh hkrati in upošteva odvisnost opazovanj. Hierarhično linearno modeliranje - HLM (večnivojsko modeliranje, multilevel linear modeling, linearni mešani modeli, modeli naključnih učinkov, modeli naključnih regresijskih koeficientov, modeli kovariančnih komponent)
18
Gnezdeni podatki Koeficient intraklasne korelacije
(angl. intraclass correlation - ICC) je mera odvisnosti podatkov. 0,00 (povsem neodvisni) do 1,00 (povsem odvisni) ICC nam pove, ali je HLM potreben ali ne.
19
Zakaj večnivojsko modeliranje in ne tradicionalni statistični pristopi?
Tradicionalni pristopi – 1 raven Analiza na ravni posameznikov Ignoriramo skupine. S tem kršimo predpostavko neodvisnosti podatkov. To lahko vodi v napačno oceno standardnih napak (v resnici so večje) in napačne zaključke! Analiza na ravni skupin Združimo podatke posameznikov iz iste skupine in torej ignoriramo posameznike. Pristranskost zaradi agregiranja = pomen spremenljivk na ravni 1 (npr. individualni SES) je lahko drugačen kot je na ravni 2 (SES šole). Z agregiranjem izgubimo informacijo o variabilnosti znotraj skupin. Numerus se močno zmanjša. HLM hkrati lahko preučujemo več ravni preučujemo lahko variabilnost znotraj skupin in med skupinami
20
Intraklasni korelacijski koeficient (ICC)
Je delež variance Y, ki pripada razlikam med skupinami (med enotami na ravni 2). npr. r = 0,35 pomeni, da 35 % variance pojasnijo razlike med skupinami skupine so različne, posamezniki znotraj skupin so odvisni/povezani v bistvu enako pojasnjeni varianci pri običajni ANOVI, le da gre tam za fiksne učinke, tu pa za naključne (= delež variance povprečij skupin v totalni varianci)
21
Aplikacije HLM Klasični hierarhično strukturirani podatki
analize velikih baz podatkov; mednarodne študije PISA, TIMMS…) v raziskavah organizacij Analiza krivulj rasti (Growth Curve Analysis) V razvojnopsiholoških študijah (študije sprememb v času) Metaanalize
22
Koliko in kakšne podatke potrebujemo?
Ponavadi preučujemo dve ali tri ravni. Npr. 15 učencev × 10 razredov × 10 šol = 1500 !!! Minimalne zahteve: Na ravni 2 potrebujemo vsaj 20, raje 50, še raje 100 enot. Več kot je enot, boljša je ocena varianc na ravni 2. Kreft (1996): moč testov je ustrezna, če je 30 skupin po 30 podatkov; 60 skupin po 25 podatkov; 150 skupin po 5 podatkov; Če skupine niso enako velike, je treba vključiti več skupin. Kakšne? vse merske ravni: intervalne, binarne, kategorialne (dummy variable); PASW/SPSS samo intervalne, ki morajo biti linearno povezane z naključnimi faktorji in kovariati ne sme biti manjkajočih vrednosti Pogosto zato z MVA nadomeščamo manjkajoče podatke in uporabljamo plausible values ali multiple imputation.
23
Rezultati HLM regresijski parametri (skupni / po skupinah; nestandardizirani / standardizirani) komponente variance
24
Potek HLM Za orientacijo poženemo enostavno OLS na skupinah in na celotnem vzorcu. Razmislimo, kako bomo vstavljali spremenljivke v model: (i) necentrirane, (ii) centrirane glede na skupino, (iii) centrirane glede na populacijo implikacije za presečišča in zaključke. Naredimo ničelni model (model z naključnimi presečišči). Izračunamo ICC. Gradimo modele na ravni 1 in ravni 2: na osnovi teorije gradimo jih postopno vsak model primerjamo z ničelnim / predhodnim če se sestavljeni modeli bolje prilegajo podatkom, jih sprejmemo v modelu ohranimo prediktorje, ki so pomembni pazimo, kaj v modelu lahko naključno variira Primerjamo –2LL pri različnih modelih. Izračunamo razliko med stopnjami svobode predhodnega in trenutnega modela. To so stopnje svobode za hi-kvadtat, ki je razlika med -2LL enostavnejšega in zahtevnejšega modela (modela z več prediktorji, več parametri). Če model izboljša prileganje, ga zadržimo: izračunamo odstopanje pri ničelnem modelu Izračunamo odstopanje pri modelu, kjer vstavimo prediktorje na ravni 1 in kjer predpostavimo, da so nagibi enaki (varianca nagibov = 0) Izračunamo hi-kvadrat razlike med modeloma. Če je pomemben, potem ima model s prediktorji boljše prileganje kot ničelni model. Gremo naprej na zahtevnejše modele. Pogledamo, kateri prediktorji so pomemni, izpustimo vse nepomembne. Dopustimo, da nagibi variirajo. Dodamo prediktorje ravni 2, izpustimo tiste, ki niso pomembni. Dodamo interakcije med prediktorji prve in druge ravni. Izpustimo tiste, ki niso pomembne.
25
Predpostavke HLM naključen vzorec enot na ravni 2
neodvisnost enot na ravni 2 (in enakost njihovih kovariančnih struktur) podobno velike skupine, sicer se raven alfa napake pri ocenjevanju parametrov in prileganja modela zviša N. D. (pogojno) Normal distribution. RC models assume a normal distribution for purposes of empirical Bayes maximum likelihood estimation. However, REML and ML estimates may be assumed to display asymptotic normality for large samples. Also, extensions have been developed for non-normal data (Wong and Mason, 1985; Goldstein, 1991; Morris, 1995).
26
Software za izvajanje HLM
SPSS – Linear mixed models HLM 6 (Raudenbush, Bryk, Cheong, & Congdon, 2004) vhodni podatki so lahko .sav datoteke ena za raven 1 ena za raven 2 PROC MIXED (za uporabnike SAS) MLwiN
27
Večstopenjsko vzorčenje: vzorčimo v 2/več korakih, npr.
1. skupine, 2. osebe (npr. učni uspeh in razredna klima) 1. osebe, 2. časovne točke (npr. razpoloženje in zračni pritisk) Težave pri večstopenjskem vzorčenju: odvisnost opazovanj (“efektivni N” < N); spremenljivke na različnih ravneh; različni odnosi na različnih ravneh (na kateri ravni velja naša interpretacija?). HLM omogoča analizo na več ravneh hkrati in upošteva odvisnost opazovanj.
28
Odvisnost vzorčenja je lahko… …nujno zlo (prihranek časa/denarja)
npr.: proučujemo odnos IQ-šolski uspeh; vzorčimo šole, v njih učence. ali … zanimiv pojav, npr.: osebnost trenerja motivacija športnikov osebnost trenerja kohezivnost šp. kluba uspešnost športnika trenerjevo občutenje stresa
29
Neustrezne bližnjice pri analizi večnivojskih podatkov
Agregacija: delamo s povprečji. : izguba info, pomen spremenljivk lahko različen na različnih ravneh (npr. volitve). Disagregacija: delamo le na spodnji ravni. : “čudežna pomnožitev št. enot” oz. : efektivni N < dejanskega
30
Ali je večnivojska analiza sploh potrebna?
Koeficient intraklasne korelacije (relativna podobnost enot znotraj skupine, % variance na skupinski ravni) ICC vpliva na “efektivni numerus”: nj = št. oseb v skupini, N = št. skupin
32
regresijski parametri po skupinah so (lahko) naključne spremenljivke.
Izhodišče HLM: regresijski parametri po skupinah so (lahko) naključne spremenljivke. Model z naključnim presečiščem (random intercept model ) za en napovednik: Raven 1: Yij = b0j +b1Xij + eij Yij = vrednost OS za osebo i v skupini j Xij = vrednost NS za osebo i v skupini j b0j = regr. konstanta v skupini j b1 = regr. nagib eij = rezidual (napaka napovedi) Pozor: nekonsistentna notacija v literaturi!
33
Model z naključnim presečiščem (nadaljevanje)
Raven 2 (prazni model): b0j = 00 + u0j 00 = povprečno presečišče za vse skupine u0j = odklon v skupini j (latentna spremenljivka) Napake napovedi na več ravneh! Model postane: Yij = 00 +b1Xij + u0j + eij fiksni del naključni del
34
Regresijske premice po skupinah:
u01 = b01-00 b01 00 V osnovnem (praznem) modelu so u naključne spremenljivke (razlike med skupinami samo ocenimo, ne pa tudi pojasnimo)…
35
Vključimo lahko prediktorje na višjih ravneh:
b0j = 00 + b01Zj + u0j Zj = spremenljivka na drugi ravni (skupinska sprem.) b01= regresijski nagib skupinske spremenljivke Spremenljivke na višji(h) ravni(-eh) pojasnjujejo varianco u – “intercepts as outcomes”. Vsak nivo implicira svojo populacijo.
36
Model z naključnimi nagibi
(random slope model) preko skupin se lahko spreminjajo tudi regresijski nagibi (ki jih lahko pojasnjujemo)
37
Rezultati HLM: regresijski parametri za fiksni del, komponente variance (za naključni del), odstotki (pojasnjene) variance, mere prileganja modela (deviance). Predpostavke: (neodvisnost vzorčenja); linearnost odnosov neodvisnost rezidualov na različnih ravneh; normalnost porazdelitve rezidualov; (homoscedastičnost).
38
Primer HLM (Raudenbush & Bryk, 2002):
Odvisna spremenljivka: dosežek na testu znanja matematike. Neodvisni spremenljivki: raven 1: SES (kompozitna spremenljivka), raven 2: vrsta šole (javna/katoliška).
39
Model 0 (“prazni model”):
(skupno presečišče + skupinski rezidual + individualni rezidual) MAT = 00 + u0j + eij raven 1: MAT = b0j + eij raven 2: b0j =00 + u0j Komponente var.: Var(u) = 8,61, Var(e) = 39,15 ICC = 0,18 >> 0 Večnivojska analiza je utemeljena!
40
Model 1: uvedemo SES na ravni 1
(naključna presečišča, enak nagib v vseh skupinah) raven 1: MAT = b0j + b1*SES + eij raven 2: b0j =00 + u0j (enako kot v modelu 0) R2 na ravni 1 = 0,05 R2 na ravni 2 = 0,45
41
Model 2: uvedemo vrsto šole na ravni 2
raven 1: MAT = b0j + b1*SES + eij (enako kot prej) raven 2: b0j =00 + 01*VRSTA + u0j R2 na ravni 1 = 0,05 R2 na ravni 2 = 0,57 vrsta šole vpliva na povprečni dosežek šole.
42
Model 3: uvedemo naključne nagibe za SES
raven 1: MAT = b0j + b1j*SES + eij raven 2: b0j =00 + 01*VRSTA + u0j (enako) b1j =10 + u1j R2 ostane enak, vendar boljše prileganje modela: 2 = 9,29, df = 2, p = 1%
43
Model 4: ali lahko nagibe za SES pojasnimo z vrsto šole?
raven 1: MAT = b0j + b1j*SES + eij (enako) raven 2: b0j =00 + 01*VRSTA + u0j (enako) b1j =10 + 10*VRSTA + u1j R2 za nagib = 0,71 v katoliških in javnih šolah ima SES različno velik vpliv na dosežke) ITD…
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.