Vzorčenje in statistično zaključevanje

Slides:



Advertisements
Similar presentations
Click on each of us to hear our sounds.
Advertisements

Panevropska javnomnenjska raziskava o varnosti in zdravju pri delu Rezultati po Evropi in v Sloveniji - Maj 2013 Reprezentativni rezultati v 31 evropskih.
Periodic Table – Filling Order
Miha Pihler MCSA, MCSE, MCT, CISSP, Microsoft MVP
Ekspertne ocene in bibliometrijske ocene: Dve strani istega kovanca? Primož Južnič Pripravljeno za predmet Bibliometrija.
Periodic Table Of Elements
Tihomir Ratkajec, MD, PhD.  Work has a very central role  spend a large part of ours life at work.  working situations are changed  the increasing.
Modern Periodic Table Objective:
Electron Configuration Filling-Order of Electrons in an Atom.
BIRDIE BOOK LIVADA Golf Course Prva luknja PAR 4 je najlažja med vsemi, saj je kratka z enim bunkerjem na igralnem polju, dvema bunkerjema ob vstopu na.
1 EDUKACIJA BOLNIKOV pred uvedbo zdravila MAREVAN (tudi Sintrom) Alenka Mavri.
Organisations and Human Resources Research Centre Uporaba ADS podatkov v praksi (predavanja) Doc. dr. Miroljub Ignjatović februar 2014.
TIPI PODATKOV. Načrt Najprej je potrebno dobro premisliti o problemu Katere podatke hranimo, kako podatke razporediti v tabele, kakšne vrste podatkov.
Installfest delavnica mag. Aleš Košir Lugos
SREČNO NOVO LETO 2009 Lara Koren, 2.c.
Statistično zaključevanje (inferenčna statistika)
Visoka razpoložljivost podatkovnih zbirk
Enosmerni (DC) izmenični (AC) tok, napetost, signal
Slovenija in razvoj e-vsebin v primerjavi s svetovnimi trendi
6. poglavje: Računalniška vezja
Tečaj SPSS in statistike
Diagnosis of NIS and Development of STI Strategies in the
Kvantitativna analiza podatkov
Veljavnost in zanesljivost
Poimenovanje kazalnikov dohodka in revščine
Logistična regresija.
Urnik – varno programiranje – odmor – napredno razhroščevanje Cilj: v prvem delu vsakomur dati vsaj eno dobro.
R V P 2 Predavanje 04 Animacija RVP2 Animacija.
Dr. Borut Pretnar, univ. dipl. inž
Grafični vmesnik - GUI Izdelava obrazca: lastnosti, odzivne metode
ANALIZA PREŽIVETJA.
DELOVANJE POVEZAV V STANOVANJU
Korelacijske metode psihologija (1.st.) – 2. letnik 2011/12
Statistični urad Republike Slovenije
ENERGETIKA IN ENERGETSKE NAPRAVE
Irena Setinšek, IRM Mediana Janez Jereb, IRM Mediana
Fotografiranje hrane Predmet: Tipografija in reprodukcija.
THE PAST SIMPLE TENSE navadni preteklik.
Uporaba vrtilnih tabel za analizo množice podatkov
Agencija Republike Slovenije za okolje
OBDELAVA (PROCESIRANJE PODATKOV)
MS Excel, Open Office Calc, Gnumeric …
1. slovenska SHARE konferenca za uporabnike Ljubljana, 22. januar 2013
Andrej Ceglar Soba 93 Klimatologija - vaje Andrej Ceglar Soba 93
v raziskovanju družinske terapije
Operacijski sistemi Lucijan Katan, 1.at Mentor: Branko Potisk.
GEOMETRIJSKA TELESA Pripravili: Mojca Vitez, Metka Kuk in Janez Jurančič Študijsko leto: 2016/2017 Kraj in datum: Sežana, maj 2017.
OVERITEV LISTIN Oktober 2014.
Algoritmi.
Šalej Mirko Iskraemeco, d.d. Kranj
UNIVERZITETNI ŠTUDIJSKI PROGRAM BIOKEMIJA
Arhiv družboslovnih podatkov:
Binarna logistična regresija
(Inter)aktivno delo s podatki pri matematiki
Opazovalne metode kot tehnika / kot splošni dizajn
Ela Reven, Katarina urbančič
Ugani število Napišimo program, ki si “izmisli” naključno število, potem pa nas v zanki sprašuje, katero je izmišljeno število. Če število uganemo, nas.
REINOVIRANJE SPOSOBNOST OZAVEŠČENEGA POSLOVNEGA OKOLJA, KI OMOGOČA OBSTOJ PODJETJA NE GLEDE NA VELIKOST, NEPREDVIDLJIVOST SPREMEMB V OKOLJU.
KORELACIJSKA I REGRESIJSKA ANALIZA
Korelacijske metode psihologija (1.st.) – 2. letnik 2011/12
TERMODINAMIKA / THERMODYNAMICS
PODATKOVNE STRUKTURE IN ALGORITMI
Stavek switch, zanka foreach
Razlaga korelacije vzročna povezanost X in Y ???
REPARATURNO VARJENJE REZILNIH ORODIJ PLOČEVINE
Informacijska varnost v Oracle okolju
Hip hop kultura Vse slike so iz tekmovanja IBE. HIP HOP kultura.
KLASIČNA TESTNA TEORIJA (TEORIJA PRAVEGA DOSEŽKA)
REGRESIJSKE ANALIZE in VEČNIVOJSKO MODELIRANJE Psihologija - magistrski študij Metodologija psihološkega raziskovanja 2003/04 Gregor Sočan Katedra za.
Simona Šabić, Association DrogArt Addictions 2017,
Presentation transcript:

Vzorčenje in statistično zaključevanje Anja Podlesek Podiplomski študij psihologije, Metodologija psihološkega raziskovanja

Populacija in vzorec posploševanje z vzorca na populacijo opredelitev populacije in vzorca sestavljanje liste, s katere vzorčimo reprezentativnost, nepristranskost vzorec ima podobne lastnosti kot populacija (enakost deležev) velikost vzorca ekonomičen N, dopustna napaka vzorčenja, variabilnost pojava, pričakovana razlika, določitev N iz enačb za testiranje hipotez

Tehnike vzorčenja Naključno vzorčenje vsak element ima enako možnost izbora v vzorec; visoka zunanja veljavnost; reprezentativnost ni garantirana; vrečka, tabele naključnih števil, Excel - Random Number Generation Stratificirano vzorčenje razdelitev populacije na razrede, iz njih naključno / proporcionalno vzorčimo Sistematično vzorčenje naključno določen začetek, korak n elementov Vzorčenje klastrov naključen izbor klastra oziroma vzorčne enote, vzorec = vsi člani klastra Večstopenjsko vzorčenje določimo večje klastre, naključno izberemo nekaj klastrov, naključno vzorčimo iz posameznega klastra Priložnostni vzorec problem prostovoljnih udeležencev; kvotni vzorec

Vzorčne porazdelitve Če iz definirane populacije izberemo vse možne vzorce velikosti N, lahko za vsak vzorec določimo statistike (npr. M, SD). Statistike se od vzorca do vzorca spreminjajo. vzorčne porazdelitve statistik opisnih statistik vzorca, npr. M, var, p, r… drugih izrazov, npr. Vsako vzorčno porazdelitev lahko opišemo: Mstatistike SD = SEstatistike

Vzorčne porazdelitve frekvenčna porazdelitev spremenljivke SD M vzorčna porazdelitev statistike SEstatistike Mstatistike

Standardne napake SEM = standardni odklon vzorčnih aritmetičnih sredin = standardna napaka ocene m

Statistično zaključevanje Izberemo vzorec. Določimo statistiko (npr. M). Posplošujemo z vzorca na populacijo. ocenjevanje parametra Vprašanje: Kolikšen je parameter (m) v populaciji? testiranje hipotez Vprašanje: Ali je M pomembno različna od neke vrednosti?

Ocenjevanje parametra Vzorčna statistika je ocena populacijskega parametra. Točkovna ocena parametra nepristranska ocena - sredina vzorčne porazdelitve statistike je enaka ocenjevanemu parametru; vse mere centralne tendence, deleži, korelacijski koeficienti pristranska ocena - mere razpršenosti Intervalna ocena parametra razpon vrednosti, znotraj katerega se bo populacijski parameter nahajal z določeno verjetnostjo = interval zaupanja

Ocenjevanje parametra Intervalna ocena parametra vzorčna porazdelitev grafični prikaz kvantilov 1 - a a / 2 SEM · zp p = a / 2 SEM sp zg  (npr. 90 % interval zaupanja pri  = 0,10) interval zaupanja

Ocenjevanje parametra Splošno intervalno ocenjevanje parametrov pri velikih vzorcih SEG Gpop Gvz vzorčna porazdelitev G je N.D. 1 N (0,1) z

Ocenjevanje parametra Pri majhnih vzorcih Vzorčna porazdelitev G je N.D. le, če je frekvenčna porazdelitev spremenljivke normalna. preveriti Ocena populacijske s se z večanjem vzorca vse bolj bliža dejanski vrednosti s. Vzorčna porazdelitev razmerja (glej desno) je t-porazdelitev, ki je odvisna od stopenj prostosti. SEG Gpop 1

Ocenjevanje parametra Interval zaupanja za m df = N - 1 Interval zaupanja za s sp. meja: zg. meja: df = N - 1 c21-p c2p

Testiranje hipotez Postavimo dve nasprotni si hipotezi (ničelno in alternativno). Konstruiramo vzorčno porazdelitev (pod predpostavko pravilnosti ničelne hipoteze - MG , SEG). Na osnovi vzorčne porazdelitve poznamo verjetnost pojavljanja določene vrednosti statistike. Če je vrednost statistike verjetna (znotraj intervala zaupanja), ohranimo ničelno hipotezo. Če je vrednost višja/nižja od zgornje/spodnje meje intervala zaupanja (pade v kritično regijo), ničelno hipotezo zavrnemo. (Pravilnost ničelne hipoteze je malo verjetna. Alternativna hipoteza je verjetnejša. Statistika našega vzorca se od poznanega / predpostavljenega parametra pomembno razlikuje.)

Testiranje hipotez Gpop Gvz H0: Gvz = Gpop H1: Gvz  Gpop z SEG H1: Gvz  Gpop Gpop Gvz 1 z z > zkrit. zkrit.

Napake pri statističnem zaključevanju naš zaključek r = 0 Gvz= Gpop r  0 Gvz  Gpop pravilna potrditev ničelne hipoteze r = 0 Gvz= Gpop a napaka dejansko stanje pravilna zavrnitev ničelne hipoteze r  0 Gvz  Gpop b napaka

Napake pri statističnem zaključevanju a napaka zkrit. zkrit. z z zkrit. b napaka

Izbor ustreznega statističnega testa vrsta statistike nivo merjenja normalnost porazdelitve enakost varianc odvisni / neodvisni vzorci majhni / veliki vzorci vrednost ničelne hipoteze nivo tveganja enosmerno / dvosmerno testiranje Neparametrični testi pogosto pri majhnih vzorcih, pri omejenosti razpona, stališča (U-porazdelitev) Pri intervalnih ali razmernostnih spremenljivkah z neparametričnimi testi ne upoštevamo vseh informacij - nižja moč testa (ničelno hipotezo, ki je napačna, težje ovržemo).

Raziskovalni načrti z 1 NV in 1 OV primerjava vzorca s populacijo (primerjava vzorčne statistike s poznano ali predpostavljeno vrednostjo parametra) primerjava statistik dveh vzorcev primerjava statistik več vzorcev Ali so vrednosti preveč različne? Ali vzorci pripadajo isti populaciji?

Testiranje hipotez Povprečja N.D. parametrični testi 1 vzorec 2 vzorca več vzorcev neodvisna odvisna neodvisnih odvisnih t test (one-sample) t test (independent t test (paired-samples) enosmerna ANOVA (GLM - univariate) enosmerna ANOVA (GLM - repeated-measures)

Testiranje hipotez Povprečja ni N.D. neparametrični testi 1 vzorec 2 vzorca več vzorcev neodvisna odvisna neodvisnih odvisnih binomski test - Mann- Whitneyev U - medianski test - Wilcoxonov T test (matched pairs) - test predznakov - Kruskal- Wallisov H - medianski test Friedmanov test

Testiranje hipotez - t test razlike med deleži - c2 o varianci en vzorec: c2 dva vzorca: F test o povezanosti - t test za testiranje H0: r = 0 - Fisherjeva transformacija in z test za testiranje H0: r = X NOMINALNE SPREMENLJIVKE - t test razlike med deleži - c2 o obliki porazdelitve - c2 test - preverjanje N.D.: c2 test Kolmogorov-Smirnov Shapiro-Wilksov test

Velikost učinka kako zelo se vrednost statistike razlikuje od neke vrednosti (tj. sredine iz ničelne hipoteze) glede na razpršenost vrednosti spremenljivke (v populaciji iz ničelne hipoteze) višina korelacijskega koeficienta 0,20 - majhen učinek 0,50 - srednje velik učinek 0,80 - velik učinek s0 0,10 - nizek r 0,30 - srednje visok r 0,50 - visok r

Testiranje hipotez o sredini en vzorec Testiranje hipotez o sredini o aritmetični sredini: df = N - 1 o mediani: ; majhni vz.: iz tabel binomskih verjetnosti 0.71 20 21 M -2.01 -1.41 t

Testiranje hipotez o odstotkih en vzorec Testiranje hipotez o varianci ocena populacijske variance (korigirana varianca vzorca) poznana/predpostavljena populacijska varianca

Testiranje hipotez o korelacijskih koeficientih en vzorec Testiranje hipotez o korelacijskih koeficientih Testiranje hipoteze r = 0 Testiranje drugačnih hipotez o r - Fisherjeva transformacija r v zr

Testiranje razlik med aritmetičnima sredinama dva neodvisna vzorca Testiranje razlik med aritmetičnima sredinama Parametrični test t test Neparametrični testi Wilcoxonov test za neodvisna vzorca (Wilcoxonov R) Mann-Whitneyev U

t test za primerjavo sredin dva neodvisna vzorca t test za primerjavo sredin Ali oba vzorca izhajata iz iste populacije? Je razlika med njunimi M ničelna? Ima NV vpliv na OV? vzorčna distribucija razlik med pari M standardna napaka razlik med M1 in M2 m1 - m2 M1 - M2 vrednost ničelne hipoteze (navadno 0) df = N1 + N2 - 2

Primer t testa dva neodvisna vzorca za testiranje razlik med M Pr.1 KS ES 7.0 7.5 14.0 5.0 10.0 5.0 11.0 6.0 8.5 1.0 5.0 6.0 4.5 9.0 11.0 3.0 9.0 6.0 10.0 7.0 M 9.00 5.55 s’ 2.90 2.27 var’ 8.41 5.15 SEd = Sqrt (2.902/10 + 2.272/10) = 1.16 za testiranje razlik med M dveh vzorcev z neenakima variancama uporabimo drugačne df t = (9.00-5.55) / 1.16 = 2.97 df = 10+10-2 = 18; t.05(18) = 2.101

Testiranje razlik med dvema m pri neenakih variancah zaokrožimo

Wilcoxonov R in Mann-Whitneyev U test dva neodvisna vzorca Wilcoxonov R in Mann-Whitneyev U test Statistiki temeljita na vsoti rangov namesto na M. Vse dosežke rangiramo od najmanjšega do največjega. V vsakem vzorcu seštejemo range. H0 : ni razlik med vsotama rangov (rangi so podobno porazdeljeni) H1 : razlika obstaja, vsota rangov pri manjšem vzorcu je pomembno premajhna (rangi enega vzorca pomembno manjkrat predhodijo rangom drugega) precej velika moč testa

rang točke spol 1 47 deček 2 50 deklica 3 52 deklica 4 53 deklica 5 56 deček 6 58 deček 7 61 deklica 8 66 deček 9 67 deklica 10 68 deček 11 69 deklica 12 70 deklica 13 71 deček 14 72 deklica paziti na 15 76 deklica vezane 16 78 deček range Rdeklice = 77 Pri velikih vzorcih se Rdečki = 59 R porazdeljuje normalno. R’dečki = 60 z vrednost točke deklice dečki 53 58 76 66 69 68 72 71 70 78 52 47 50 56 61 67 primerjati z Rkrit.

Testiranje razlik med variancama dva neodvisna vzorca Testiranje razlik med variancama PARAMETRIČNI TEST: F test F = večja s2 / manjša s2 F = 1.0 H0 sprejmemo F > 1.0 H0 zavrnemo df = N-1 (pri obeh variancah) NEPARAMETRIČNI TEST O’Brien (1981) Izvorne podatke transformiramo (Mtrans = var) t test Pr. 1 F = 8.41 / 5.15 = 1.63; df1 = 9, df2 = 9; F.05(9,9) = 4.03

Testiranje razlik med korelacijskima koeficientoma dva neodvisna vzorca Testiranje razlik med korelacijskima koeficientoma S Fisherjevo transformacijo r vrednosti transformiramo v zr (vzorčna distribucija N.D.). Testiramo hipotezo, da med dvema r ni razlik. Razlika med distribucijama (oblikama distribucij) v dveh vzorcih: Wald-Wolfowitz test homogenih nizov, Kolmogorov-Smirnov test za dva vzorca, Siegel-Tukeyev test

Testiranje razlik med aritmetičnima sredinama dva odvisna vzorca Testiranje razlik med aritmetičnima sredinama Parametrični test test diferenc (t) Neparametrični testi Wilcoxonov test za odvisna vzorca (W. test ekvivalentnih parov / Wilcoxonov T) test predznaka

Test diferenc Ali je med dvema meritvama prišlo do sprememb? otrok znani neznani razlika (d) A.A. 38.48 66.67 -28.19 B.B. 49.04 73.96 -24.92 C.C. 37.23 43.64 -6.41 Č.Č. 43.89 42.82 1.07 D.D. 69.34 71.81 -2.47 E.E. 53.99 47.52 6.47 F.F. 40.79 75.33 -34.54 G.G. 49.44 60.41 -10.97 H.H. 54.47 71.16 -16.69 I.I. 47.45 65.90 -18.45 M 48.412 61.922 Md = -13.510 s’ 9.489 12.715 Med = -13.830 SEM 3.001 4.021 SDd = 13.387 SEd = 13.387 / Sqrt(10) = 4.23 t = (-13.51 - 0) / 4.23 = -3.19 df = N - 1 = 9; t.05(9) = 2.262 material Pr.2 Ali je med dvema meritvama prišlo do sprememb? = one-sample t test (X razlike, mrazlik = 0)

Testiranje razlik med dvema m dva odvisna vzorca Testiranje razlik med dvema m Testi za ponovljene meritve imajo večjo moč. Pr.2 r = 0.300 t = (48.412-61.922) / sqrt(3.0012+4.0212-2*0.300*3.001*4.021) = = -13.51 / sqrt (17.934) = -3.19

Wilcoxonov test ekv. parov dva odvisna vzorca Wilcoxonov test ekv. parov Pri vsaki osebi izračunamo razlike med dosežkoma. Razlike uredimo po absolutnih vrednostih od najmanjše do največje, nato jim pripišemo pripadajoče predznake. Seštejemo pozitivne in negativne range. H0: Mrazlik = 0 (oz. vsota pozitivnih rangov = vsota negativnih) H1: Vsoti sta različni. Ali je T (nižja vsota rangov) manjša od kritične? Test predznaka Preštejemo pozitivne in negativne razlike. Nižje število primerjamo s kritičnim.

Wilcoxonov test ekvivalentnih parov material otrok znani neznani razlika 1 38.48 66.67 -28.19 2 49.04 73.96 -24.92 3 37.23 43.64 -6.41 4 43.89 42.82 1.07 5 69.34 71.81 -2.47 6 53.99 47.52 6.47 7 40.79 75.33 -34.54 8 49.44 60.41 -10.97 9 54.47 71.16 -16.69 10 47.45 65.90 -18.45 otrok abs.raz. rang predzn.rang 4 1.07 1 +1 5 2.47 2 -2 3 6.41 3 -3 6 6.47 4 +4 8 10.97 5 -5 9 16.69 6 -6 10 18.45 7 -7 2 24.92 8 -8 1 28.19 9 -9 7 34.54 10 -10 S+ = 5 … T S- = 50 Pri velikih vzorcih se T statistika porazdeljuje normalno, s sredino N(N+1)/4 in standardno napako Sqrt(N(N+1)(2N+1)/24). Ali je T manjši od kritične vrednosti? Če da, zavrnemo ničelno hipotezo.

enosmerna analiza variance več vzorcev preverjanje razlik med aritmetičnimi sredinami več vzorcev: enosmerna analiza variance

Enosmerna ANOVA več vzorcev meritve v več pogojih (oz. vzorčenje iz več populacij); H0 : ni razlik med njihovimi m neponovljene in ponovljene meritve OV vsaj na intervalni merski ravni, N.D. ocena variance SS df

Varianco lahko razstavimo na dva dela: več vzorcev Varianco lahko razstavimo na dva dela: varianco napake, nastale zaradi napake merjenja (merski instrumenti), napake kontrole (zunanje spremenljivke), razlik med posamezniki varianco, nastalo zaradi učinkov neodvisne spremenljivke

več vzorcev 2 3 4 5 6 7 8 9 10 11 12 MT = 7 SSznotraj-1 = 1(2-4)2 + 2(3-4)2 + 3(4-4)2 + 2(5-4)2 + 1(6-4)2 =12 SSznotraj-2 = 1(8-10)2 + 2(9-10)2 + 3(10-10)2 + 2(11-10)2 + 1(12-10)2 =12 SSmed = 9(4-7)2 + 9(10-7)2 = 81 + 81 = 162 df znotraj = N - a = 18 - 2 = 16 dfmed = a - 1 = 2 - 1 = 1 MSznotraj = SSznotraj / dfznotraj = 24 / 16 = 1.5 MSmed = SSmed / dfmed = 162 / 1 = 162 F = 162 /1.5 = 108 F.05(1,16) = 4.49

Povzetek analize variance več vzorcev Povzetek analize variance izvor variabilnosti SS df MS F p NV 162 1 162,0 108 < ,001 napaka 24 16 1,5 skupaj 186 17 Neodvisna spremenljivka je imela statistično pomemben učinek na odvisno spremenljivko; F (1,16) = 108; MSE = 1,5; p < ,001.

Po analizi variance ANOVA - hipoteze so nespecifične več vzorcev Po analizi variance ANOVA - hipoteze so nespecifične Med katerimi mi obstajajo razlike? primerjave a priori post hoc vnaprej pričakujemo razliko ANOVA odkrije razliko SSkontrast, df = 1, MS, F - Sheffejev test dve m: - Tukeyev test - Bonferronijeva prilagoditev a

Primerjava median Kruskal-Wallisov H test več neodvisnih vzorcev Primerjava median Kruskal-Wallisov H test zvezna spremenljivka, ordinalna Ali je porazdelitev (Me) v vseh vzorcih enaka? Vse podatke rangiramo. Izračunamo vsote rangov v vsakem vzorcu in statistiko H. Primerjamo jo s c2p, df=a-1 Razširjeni medianski test Poiščemo skupno mediano vseh podatkov. Preštejemo, koliko podatkov posameznega vzorca pade pod / nad skupno mediano - c2 test (2*a tabela).

Kruskal - Wallisov test glasba tišina hrup 6 5 3 4 7 2 4 8 1 rangirano: 7 6 3 4.5 8 2 4.5 9 1 16 23 6 Rj 256 529 36 Rj2 točke rang ozadje 1 1 hrup 2 2 hrup 3 3 hrup 4 4.5 glasba 5 6 tišina 6 7 glasba 7 8 tišina 8 9 tišina Pri majhnih vzorcih - tablice. Pri velikih vzorcih = (12/(9*10))*(256/3+529/3+36/3)-3(9+1) = 6.49 c2,05(2) = 5.991

neparametrična alternativa analizi variance za ponovljene meritve več odvisnih vzorcev Primerjava median Friedmanov test neparametrična alternativa analizi variance za ponovljene meritve H0: ni razlik med medianami populacij Rangiramo rezultate znotraj osebe in seštejemo range pri posameznem pogoju. Testna statistika c2F je podobna Kruskal-Wallisovi.

Friedmanov test = (12/(3*5*6))*(225+49+49+49+81)-3*3*6 = 6.4 parfum oseba A B C D E 1 10(5) 8(4) 4(2) 5(3) 1(1) 2 10(5) 2(1) 3(2) 5(3) 8(4) 3 8(5) 5(2) 6(3) 4(1) 7(4) Rj 15 7 7 7 9 = (12/(3*5*6))*(225+49+49+49+81)-3*3*6 = 6.4 c2(4) = 9.49 Pri velikih vzorcih: Pri majhnih vzorcih - tablice.

Načrti z več NV = večfaktorski načrti parametrični testi: dvosmerna ANOVA, trosmerna ANOVA neparametrični testi: c2 za dve NV, log-linearna analiza

Nominalni podatki

Statistično zaključevanje za frekvence Opis: tabele, frekvenčni poligoni, histogrami Običajna vprašanja: - enakost deležev kategorij pri več vzorcih - ujemanje dejanskih podatkov s pričakovanimi, testiranje hipotez o obliki porazdelitve - povezanost (interakcija) med dvema nominalnima spremenljivkama

c2 test za eno spremenljivko Ali je višja pogostost ene kategorije slučajna? pričakovane frekvence H0: Populacijska frekvenčna distribucija je enaka pričakovani. odstopanje dejanskih od pričakovanih vrednosti … Pearsonov c2 - približek c2 distribucije df = a - 1

Pogoji za uporabo c2 testa ekskluzivnost kategorij neodvisnost podatkov ft > 5 Interpretacija c2 nespecifičen test pretvorba v odstotke pregled rezidualov - koliko se vsaka frekvenca razlikuje od pričakovane, doprinos k c2

Primer c2 testa za preverjanje pravokotnosti porazdelitve Delež avtomobilov v 15 minutah, ki gredo v križišču levo, desno, naravnost levo naravnost desno fe 30 40 80 ft 50 50 50 rez. -2.83 -1.41 +4.24 c2(2) = 28, p < .001

Odgovori fe ft fe-ft (fe-ft)2/ft (fe-ft)/Sqrt(ft) a 13 9 +4 1.778 +1.333 b 7 9 -2 0.444 -0.666 c 5 9 -4 1.778 -1.333 d 15 9 +6 4.000 +2.000 e 5 9 -4 1.778 -1.333 c2 = 9.778 c2.05(4) = 9.49

c2 test odvisnosti dveh spremenljivk kontingenčna tabela H0: Vpliv ene spremenljivke ni odvisen od druge spremenljivke (oz., na vseh nivojih ene sprem. so nivoji druge enako izraženi). pričakovana frekvenca fe = fvrsta fstolpec / N c2, df = (V-1)(S-1) pregled rezidualov

vrsta robcev papir tekstil ženske 36 14 50 Sv* (29) (21) (+1.192)* (-1.645) moški 22 28 50 (-1.192) (+1.645) 58 42 100 c2 = (36-29)2/29 + (14-21)2/21 + (22-29)2/29 + (28-21)2/21 = = 8.05 df = (v-1)(s-1) = (2-1)(2-1) = 1 c2.05 (1) = 3.841 *SDrez = sqrt((100-50)/(100-58)) = sqrt(1.19) = 1.091 rezidual = (36-29)/sqrt(29) = 1.300 z = 1.300 / 1.091 = 1.192 Ss*

Odvisni vzorci, 2 x 2: McNemarjev test primerjava frekvenc pri istem vzorcu na dveh meritvah test 2 - + test 1 + 5A* 55B B in C - neujemanje - 25C 15D* A in D - neujemanje *pričakovane frekvence: (A+D)/2 polovica neujemanj -/+, polovica +/- c2 = (A-D)2 / (A+D) c2 = 100 / 20 = 5 ali c2 = (5 - 10)2 / 10 + (15 - 10)2 / 10 = 5

Previdnost! pomembna mesta Interpretacija izsledka naj upošteva značilnosti raziskovalnega načrta. ni statistično pomembno = ni dokazano Če ničelne hipoteze ne zavrnemo, to še ne pomeni, da je pravilna. Pri opazovanem pojavu ni bilo tako izrazitega učinka NV, da bi ga zaznali, kar ne pomeni, da zagotovo ne obstaja.

Osnovna literatura Ferguson, G. A. (1998). Statistical analysis in psychology and education (3.izd.). New York: McGraw-Hill. Graveter, F.J., in Wallnau, L.B. (2000). Statistics for the Behavioral Sciences (5.izd.). Belmont, CA: Wadsworth/Thomson Learning. Pagano, R.R. (2001). Understanding Statistics in the Behavioral Sciences (6.izd.). Belmont, CA: Wadsworth/Thomson Learning. Petz, B. (1997). Osnovne statističke metode za nematematičare (3. izd.). Jastrebarsko: Naklada Slap. Spatz, C. (2001). Basic Statistics (7.izd.). Belmont, CA: Wadsworth/Thomson Learning. Spiegel, M. R. (1991). Theory and problems of statistics (2. izd.). New York: McGraw - Hill.

http://193.2.70.110/katedre/PM/ Studij/ Three statisticians go deer hunting with bows and arrows. They spot a big buck and take aim. One shoots and his arrow flies off three meters to the right. The second shoots and his arrow flies off three meters to the left. The third jumps up and down yelling: “We got him! We got him!”