Download presentation
Presentation is loading. Please wait.
1
Statističko modeliranje istraživanja
Poslijediplomski znanstveni studij “BIOMEDICINA” akad. god /04. Statističko modeliranje istraživanja Prof.dr.sc. Josipa Kern
2
Statistički model istraživanja se temelji na…
Definiranim ciljevima istraživanja Postavljenoj hipotezi Planu istraživanja i evaluaciji plana Entitetima i atributima Raspoloživim mogućnostima
3
O čemu će se danas govoriti?
O uzorku i populaciji, uzorkovanju i veličini uzorka O primjerima statističkih analiza, prikazima rezultata i interpretaciji O “nevažnim” stvarima prilikom analize podataka
4
Uzorak i populacija U malim populacijama uzorkovanje nije potrebno
temeljeno na vjerojatnosti (probability sampling) (VU) koje ne uključuje vjerojatnost (nonprobability sampling) (ne-VU)
5
Definicija populacije uključuje…
Identificiranje skupine – entiteta koje će se promatrati Određivanje područja u kojemu skupina egzistira Određivanje perioda unutar kojega će se prikupljati podaci (ako je to potrebno)
6
Uzorkovanje ovisi o svrsi…
Generalizacija (uzorak populacija) zahtijeva slučajni uzorak Okvir uzorkovanja (sampling frame) zahtijeva: Uključivanje samo pripadnika skupine od interesa Uključivanje svih pripadnika skupine od interesa Bez dupliciranja Bez ikakvog pravila pri uključivanju pripadnika u uzorak
7
Kako izabrati uzorak za potrebe generalizacije?
Jednostavni slučajni uzorak Sistematski uzorak (može zamijeniti slučajno uzorkovanje u slučaju velikih populacija) Stratificirani uzorak
8
Kako odrediti veličinu uzorka?
Razina pouzdanosti (confidence level), npr. 95% ili više/manje Prihvaćena/očekivana razina “ne-odgovaranja” (nonresponse), ako je potreban uzorak veličine 80, a očekuje se da 30% osoba iz uzorka neće odgovoriti, onda treba računati s uzorkom veličine 114=80/.7)
10
Uzorkovanje u nekim drugim situacijama
Uzorak kvote – uzimanje slučajeva u uzorak dok se ne postigne ona kvota (%) koja postoji u populaciji Namjerni uzorak – uzimanje “informacijama bogatih” slučajeva (objekata, entiteta, jedinica promatranja)
12
Ponešto o podacima…
13
Prikupljanje podataka
Opis podataka (skale mjerenja – nominalna, ordinalna, intervalna, omjerna) Organizacija podataka (datoteka, baza podataka – ovisno o kompleksnosti; posebna pozornost kvaliteti podataka) Uvažavanje postojećih resursa odnosno traženje novih (računalni programi)
14
Kojim jezikom govori statistika i kako uskladiti želje i potrebe istraživača s mogućnostima i zahtjevima statistike?
15
Hipoteze istraživanja…
Formulirati u terminima statistike tražeći primjerene modele analize podataka: prepoznavanje strukture, traženje homogenih podskupina, provjeravanje postojanja razlika i/ili povezanosti, itd.
16
Primjeri statističkih modela analize podataka
17
Prvi primjer… 1-zdravi 2-bolesni ali to ne znaju 3-bolesni koji se liječe
18
Pogledajmo čime raspolažemo…
19
Primjer “grafičkog” prikazivanja distribucije iz kojega se može pročitati frekvencija svake pojedinačne vrijednosti (stem-and-leaf) DOB Stem-and-Leaf Plot for SPOL= 1 Frequency Stem & Leaf 5,00 Extremes (=<49) 3, 3, 2, 10, 14, 12, 30, 18, 18, 11, 14, 12, 6, 4, Stem width: Each leaf: case(s)
20
Primjer grafičkog prikazivanja distribucija skupina koje se uspoređuju (Box-Plot)
21
Provjeravanje normalnosti distribucije
22
Postoje li neke razlike među promatranim skupinama?
23
Testiranje razlika – analiza varijance – program: SAS
24
Neki uvjeti za primjenu AV nisu zadovoljeni (distribucija
nije normalna)
25
Sugerira se transformacija varijable BMI kao 1/BMI
26
Uvjeti za primjenu AV su zadovoljeni – rezultat se može
interpretirati
27
Rezultat AV izražen vrijednostima F, DF, p
28
Izračunate srednje vrijednosti transformirane kao 1/BMI
i interval pouzdanosti
29
Postoji li povezanost – možemo li predviđati?
30
Povezanost – predikcija – regresijska analiza
31
Predikcija – grafički prikaz
32
Ima li prediktorski skup prediktivnu vrijednost?
33
Regresijski koeficijenti
34
Regresijska analiza… Služi analizi povezanosti dvaju skupova varijabli
Kriterijska ili zavisna varijabla (kvantitativna) Prediktori ili nezavisne varijable Poopćenje – kanonička analiza
35
Predikcija klase a ne numeričke vrijednosti…
36
Logistička regresija
37
Može li se govoriti o prediktorima?
38
Koji su prediktori važni?
39
Što povećava “rizik”?
40
Kako izračunati “rizik” za pojedinca?
41
Drugi primjer… Fizička aktivnost Prediktori 1-teška 2-srednja 3-laka
Dob Sistolički tlak Dijastolički tlak Alkohol Ulje/mast BMI
42
Rezultati…
43
Rezultati - nastavak
44
Logistička regresija…
Služi analizi povezanosti dvaju skupova varijabli Kriterijska ili zavisna varijabla (kvalitativna) Prediktori ili nezavisne varijable Kriterijska varijabla može biti binarna, multinomijalna, ordinalna
45
Još neki pogledi na analizu povezanosti i traženje relacija među podacima …
46
Inteligentna analiza podataka (IAP)
Otkrivanje znanja (knowledge discovery) “Raskopavanje” podataka (data mining) Strojno učenje (machine learning) Raspoznavanje uzoraka (pattern recognition) Itd.
47
Alati za IAP… http://dms.irb.hr http://www.rulequest.com See5 Cubist
Magnum Opus ILLM Statistica – Neural network
48
See5…primjena… primjena.names – imena klasa kojima pojedini ispitanici pripadaju i atributa koji ih opisuju Atributi mogu biti: diskretni mjereni na nominalnoj ili ordinalnoj skali ili kontinuirani (numeričke vrijednosti).
49
See5…primjena… primjena.data – podaci iz kojih će See5 ekstrahirati modele povezanosti atributa i klasa. Svaki zapis sadrži podatke (klasa, atributi) jednog ispitanika
50
See5…primjena…primjer…
Epidemiološka studija ( ) Uzorak ispitanika koji su umrli od kardiovaskularnih bolesti tijekom tog perioda Pitanje: Jesu li oni znali da su bolesni? 1 – zdravi 2 – bolesni (uzimaju lijekove, pozitivni klinički i/ili laboratorijski nalazi)
51
See5…primjena…primjer…
primjenan.names – primjer Goal. gender:1,2 activity:1,2,3 age: continuous smoking: 0,1 … Goal:1,2
52
See5…primjena…primjer…
primjena.data – primjer 1,1,59,1,0,0,0,0,119,73,103,86,247,87,15979,?,?,?,1,73,25154 1,1,66,1,0,0,0,0,132,81,183,239,?,783,14403,27221,19153,23187,1,73,26546 1,1,61,0,0,0,0,0,130,79,148,86,209,115,21719,12324,10593,11458,1,74,25154 … …
53
See5…primjena…primjer…
Rezulati – primjer Rule 1: (cover 26) gender = 1 SBP > 111 oil_fat > 29165 -> class 1 [0.929]
54
See5…primjena…primjer…
Rezultati – primjer Rule 4: (cover 14) smoking = 1 SBP > 131 glucose > 93 glucose <= 118 oil_fat <= 29165 -> class 2 [0.938]
55
See5…primjena…primjer…
Rezultati – primjer Rule 15: (cover 2) SBP <= 111 oil_fat > 29165 -> class 2 [0.750]
56
See5…primjena…primjer…
Rezultati – primjer Evaluation on training data (199 cases): (a) (b) <-classified as (a): class 1 (b): class 2
57
See5…primjena…primjer…
Rezultati – primjer (trening set) Sensitivity=0.97 Specificity=0.81
58
See5…primjena…primjer…
Rezultati – primjer Evaluation on test data (73 cases): (a) (b) <-classified as (a): class 1 (b): class 2
59
See5…primjena…primjer…
Rezultati – primjer (test set) Sensitivity=0.98 Specificity=0.90
60
http://www.rulequest.com/ http://dms.irb.hr
Similar presentations
© 2024 SlidePlayer.com. Inc.
All rights reserved.