Download presentation
Presentation is loading. Please wait.
1
Kvantitativna analiza podatkov
dr. Barbara Korousic Seljak v v S statističnimi metodami kvantitativno (količinsko) preučujemo množične pojave in njihove značilnosti v množici enot ali populaciji. Zanimajo nas značilnosti, ki so lahko enotam skupne ali različne. 1
2
Kako se lotiti kvantitativne analize podatkov?
Zberemo in razvrstimo podatke Izberemo statistično metodo za kvantitativno analizo podatkov Uporabimo ustrezno računalniško orodje Prikažemo rezultate populacija G vzorec H enota z znacilnostmi X v Analiza podatkov zahteva štiri ključne korake. Najprej zberemo in uredimo podatke, ki opisujejo značilnosti enot populacije. Nato dobro razmislimo, kaj želimo pokazati s podatki in izberemo ustrezno statistično metodo. Čeprav se morda zdi, da lahko s statističnimi podatki manipuliramo, se v praksi izkaže, da to ni res in se je potrebno naloge lotiti resno in natančno. Metod je veliko, kar bomo videli v nadaljevanju in izbor prave je pomembna odločitev. Ker obstaja vrsta dobrih računalniških orodij, si pomagamo z le-temi in se osredotočimo na razlago rezultatov in ne več toliko na samo izračunavanje statistike. Večji, ko je vzorec, manjša je statistična napaka. Obstaja enostavna enačba za določitev priporočene velikosti vzorca (poznati moramo standardni odklon in stopnjo zaupanja). Večja variabilnost, večja napaka.
3
Zbiranje podatkov Obicajno nelinearen proces
Raziskave običajno potekajo v fazah: Zbiranje podatkov pri empiričnih raziskavah: z anketo (ali drugo pisno obliko vprašalnika, npr. z ocenjevalno lestvico) ali ustno s strukturiranim intervjujem; z instrumenti; Statistična obdelava in razlaga podatkov; Objava rezultatov. Pri kvantitativni analizi podatkov raziskujemo značilnosti množičnih pojavov: nekaj primerjamo, npr. mnenja udeležencev raziskave; iščemo povezave ali korelacije, npr. povezanost med prekomerno težo mater in otrok; odkrivamo skupne dejavnike. Če se osredotočimo na empirične raziskave, v katerih poskušamo potrditi hipotezo z opazovanjem ali poskusom, podatke zbiramo ... Racionalne raziskave
4
Vrste podatkov Opisne / atributivne Stevilske / numericne Nominalne
Zbrani podatki tvorijo množico statističnih spremenljivk: odvisne / neodvisne; Opisne / atributivne Stevilske / numericne v v lat. nomen = ime Nominalne Ordinalne Intervalne Razmernostne - Vrednosti le razlikujemo; - Poimenovanje lastnosti, npr. spol: Ž/M - Vrednosti razvrščamo; - npr. sprememba zdravstvenega stanja ozdravitev, izboljšanje, ozdravitev - Primerjamo razlike med vrednostmi; - Ničelno vrednost določimo po presoji; - npr. telesna teža, starost - Primerjamo razmerja med vrednostmi; - Absolutna ničelna vrednost; - npr. krvni pritisk, telesna višina Podatke smo zbrali in od zdaj naprej jih imenujemo statistične spremenljivke, ker opisujejo značilnosti enot, ki se lahko spreminjajo. Le-te so lahko odvisne ali neodvisne, delimo pa jih tudi na opisne in številske. Poglejmo si nekaj primerov: nominalne – vrednosti spremenljivk poimenujemo (npr. spol je ženski ali moški); ordinalne – vrednosti lahko razvrstimo, ne moremo pa oceniti razlike (razlika med ozdravitvijo in izboljšanjem ni večja od razlike med izboljšanjem in ozdravitvijo); intervalne – razlike med vrednostmi lahko ocenimo, vendar jih ne moremo uporabiti za oceno 1x boljši, 2x boljši itd., ker je ničelna vrednost določena po presoji; razmernostne – razlike lahko ocenimo in tudi njihova razmerja, ker poznamo absolutno ničlo. Številske spr. Imajo lahko zvezne ali nezvezne vrednosti.
5
Standardni odklon = koren variance
Kaj pomenijo izrazi? : stopnja značilnosti preskusa (sprejemljiva verjetnost ali tveganje, da bomo zavrnili ničelno hipotezo, čeprav je ta pravilna) ANOVA: analiza variance MEAN: (vzorčna) aritmetična sredina ali povprečje RANGE: rang (num. spr.) SAMPLE: vzorec SIGNIFICANCE: nivo statistične pomembnosti STD DEVIATION: standardni odklon SAMPLE VARIANCE: vzorčna varianca Standardni odklon = koren variance modus xi 23 28 31 38 zap.št. 1 2 3 4 5 6 7 rang 2,5 mediana povprecje=30 standardni odklon = 4,55 varianca = 20,67 v V statistiki se srečujemo z izrazi, s katerimi opisujemo statistične parametre. In ker uporabljamo statistična rač. orodja v angleščini, je pomembno, da poznamo tudi njihove prevode. Rang – ranžirna vrsta (za numerične spr. in majhno populacijo) – rezultate uredimo v vrsto S frekvenco določimo pogostnost vrednosti. Grafično prikažemo s histogramom – velikost skupine (grupe) je določena s širino histograma in pogostnost z višino. Varianca ali disperzija je definirana kot povprečje kvadratov odklonov od povprečja. Stopnja značilnosti je tveganje, da domneva ni posledica značilnosti (običajno je 5% oz. 0,05).
6
Parametricna statistika
v Preskušanje parametričnih hipotez, t.j. domnev o vrednostih neznanih parametrov statistične spremenljivke: Ničelna hipoteza H0 (q=q0) : alternativna hipoteza H1 (qq0) s stopnjo značilnosti ; domneva je dvostranska () ali enostranska (> ali <); H0 zavrnemo ali o njej ne odločimo! Kdaj uporabimo parametrično statistiko? Vse numerične spremenljivke so normalno porazdeljene; Enakost (homogenost) varianc (še zlasti, ko so skupine vzorcev različno velike). Pri statistiki je pomembno, da se odločimo, kaj želimo pokazati s podatki. Normalna ali Gaussova porazdelitev je enovrhna, simetrična in zvonaste oblike.
7
Neparametricna statistika
v Preskušanje neparametričnih hipotez , t.j. domnev o tipu porazdelitvenega zakona ene ali več slučajnih spremenljivk: Prilagoditveni preskusi: ničelna hipoteza H0 (Fx=F0) : alternativna hipoteza H1 (FxF0) s stopnjo značilnosti ; Primerjalni preskusi: ničelna hipoteza H0 (Fx=FY) : alternativna hipoteza H1 (FxFY) s stopnjo značilnosti ; Kdaj uporabimo neparametrično statistiko? Neizpolnjeni pogoji za parametrično statistiko (pogosto pri majhnih vzorcih, n30); Pri analizi atributivnih spremenljivk.
8
Statisticne metode za analizo podatkov 1
Povezanost med spremenljivkami ? Numerične spr. Ordinalne (atributivne) Nominalne (atributivne) 2 spremenljivki: regresija 2 spremenljivki : Spearmanov korelacijski koeficient ranga 1 spremenljivka : 2 preskus enake verjetnosti 3+: Pearsonov korelacijski koeficient (mera lin. korelacije) 3+: Kendall W-preskus 2 spremenljivki: 2 preskus neodvisnosti Spr. kažejo splošno tendenco odvisnosti, če je med njimi korelacijska odvisnost. Vrednosti prikažemo v grafikonu in odvisnosti med pari označimo s točko. Povezava med točkami je regresijska črta. Korelacija je lahko pozitivna, negativna, linearna ali nelinearna. Če želimo vedeti, kolikšna je korelacija (stopnja ali jakost povezanosti), si pomagamo s Pearsonovim korelacijskim koeficientom. Porazdelitvi morata biti vsaj približno unimodalni in simetrični.
9
Statisticne metode za analizo podatkov 2
Razlike med vzorci ? Parametricni preskusi v Numerične spr. Ordinalne (atributivne) 1 vzorec: z-preskus (n>30, varianca znana) Studentov t-preskus (n30) 2 vzorca: neodvisni vzorci: Mann Whitney U-preskus (enaki mediani) odvisni vzorci: Wilcoxonov preskus vsote rangov neodvisni vzorci: Studentov t-preskus (homogeni varianci) odvisni vzorci (v parih): Studentov t-preskus 3+: neodvisni vzorci: Kruskal-Wallisov H-preskus odvisni vzorci: Friedmanov preskus 2+: analiza homogenosti varianc ANOVA Z-test uporabimo, ko je vzorec n>30 in poznamo varianco statistične množice! t-test n<=30 ANOVA – analiza razlik med povprečnimi vrednostmi za več kot dva neodvisna vzorca, variranje znotraj in med vzorci Neparametricni preskusi v
10
Izbor racunalniskega orodja
v v Licenčna oprema: SPSS (Statistical Package for the Social Sciences ), MS Excel, (vtičnik za MS Excel za neparametrično statistiko) MicrocalTM Origin, SAS, ... Brezplačna oprema:
11
MS Excel
12
Prikazovanje rezultatov analize 1
Zdravstvena statistika Opisna statistika - prikaz zbranih in razvrščenih podatkov: besedno, tabelarično ali grafično: Za atributivne spremenljivke: Števila (frekvence f) in/ali Deleži (%); Za numerične spremenljivke: Mere srednje vrednosti (aritmetična sredina, mediana, modus); Mere razpršenosti (varianca in standardni odklon, min, max); Asimetrija (koeficient asimetričnosti) / sploščenost (koeficient sploščenosti). Origin Excel Histogram smo danes že srečali pri omembi normalne porazdelitve. Srednja vrednost označuje težnjo rezultatov k določenim vrednostim.
13
Prikazovanje rezultatov analize 2
Biostatistika Inferenčna statistika – postopek ocene verjetnosti, da povezanost oziroma razlike niso slučajne in lahko posplošujemo iz vzorca na celotno statistično množico: Kriterij posploševanja: npr. 95-% verjetnost ali stopnja tveganja (P ali ), ki je navadno 0,05, kar označuje 5-% tveganje; Enostavna / multivariantna. NEPRIMERNO PRIMERNO Uporabili smo t-preskus za analizo podatkov. Uporabili smo Studentov t-preskus za analizo podatkov, ki smo jih zbrali po metodi 1 in metodi 2. Analiza ni pokazala pomembnih razlik. Čeprav analiza s stopnjo značilnosti 5% ni pokazala statistično značilnih razlik med srednjo vrednostjo prvega in drugega vzorca (p=0.09), ugotavljamo, da so bile vrednosti prvega vzorca v povprečju večje od vrednosti drugega vzorca.
14
Zaključek Povzetek Ne pozabimo Izogibajmo se
Predno se lotimo analize podatkov, se dobro pripravimo; Jasno postavimo hipotezo, priredimo ničelno hipotezo in določimo stopnjo tveganja; Glede na vrsto podatkov (numerične / atributivne spremenljivke) in njihovo porazdelitev, izberimo ustrezno statistično metodo; Rezultate analize pravilno in jasno obrazložimo. Posvetujmo se s starejšimi raziskovalci in kolegi, ki imajo izkušnje z analizo podatkov. Izogibajmo se Površni obdelavi podatkov; Nejasnemu in nepravilnemu prikazovanju rezultatov. Literatura: 1. ADAMIČ, Š. (1995) Temelji biostatistike, Ljubljana: Medicinska fakulteta Univerze v Ljubljani. 2. SAGADIN, J. (2003) Statistične metode za pedagoge, Maribor: Obzorja. 2. KIRKWOOD, B. R. in STERNE, J. A. C. (2004) Esential Medical Statistics. Malden: Blackwell Publishing Company.
Similar presentations
© 2024 SlidePlayer.com. Inc.
All rights reserved.