STATISTINĖS IŠVADOS ATSITIKTINUMO ĮVERTINIMAS Statistikos pagrindai Pasikliautinio intervalo samprata Centrinė ribinė teorema Pasikliautinio intervalo skaičiavimas ir interpretacija: Vienai grupei Dviejų grupių skirtumui: Aritmetiniam skirtumui Santykiui
Statistikos pagrindai: Vienoje dėžėje yra 50 baltų ir 50 raudonų kamuolių. Visi kamuoliai skirtingo dydžio (skersmens dydis). Vidutinis skersmuo 16 cm.
Statistikos pagrindai: Ištraukiate 4, norėdami įvertinti raudonų kamuolių proporciją. Ir apskaičiuojate skersmens vidurkį iš tų 4 kamuolių.
Statistikos pagrindai: Gali atsitikti taip, kad ištrauksite 2 raudonus ir 2 baltus, tuomet išvada bus – 50% kamuolių yra raudonų, ir tai teisinga! Bet gali atsitikti, kad ištrauksite 4 raudonus, tuomet išvada bus - 100% kamuolių yra raudonų, ir tai visiškai klaidinga, tiesiog atsitiktinumas.
Statistikos pagrindai: Gali atsitikti taip, kad iš tų 4 kamuolių apskaičiuosite vidurkį ir gausite 16 cm ir tai teisinga! Nors vargu, ar įtikėtina, kad taip pavyks. Bet gali atsitikti, kad iš tų 4 kamuolių apskaičiuosite vidurkį ir gausite 5 cm arba 30 cm, ir tai visiškai klaidinga, tiesiog atsitiktinumas.
kamuolių traukimo galima padaryti visiškai skirtingas išvadas apie tikrąją raudonų kamuolių dalį bei jų dydį dėžėje dėl atrankų įvairovės, kai sudaromos skirtingos imtys, o taip pat ir jų dydžio.
Statistinės išvados Įvertis: Taškinis įvertis (rezultatas): vidurkis, standartinis nuokrypis, proporcija Pasikliautiniai intervalai Hipotezės tikrinimas (statistinės hipotezės, kuri yra teiginys apie populiacijos parametrą, bet ne apie imties statistiką)
Pasikliautiniai intervalai Intervalas, kuriame su tam tikra tikimybe gali būti tikroji reikšmė
Imčių variacija ir jų parametrai Imties vidurkis Xi, standartinis nuokrypis SDi, proporcija pi Populiacijos vidurkis μ, standartinis nuokrypis σ, proporcija p0 Imčių vidurkių vidurkis XX X2, SD2; p2 X3, SD3; p3 X1, SD1; p1 X4; SD4; p4 μ, σ, p0
Imčių variacija ir jų parametrų pasikliautiniai intervalai
Pasikliautiniai intervalai Tikslus statistinis apibrėžimas: Jei tyrimą atlikote 100 kartų ir gavote 100 reikšmių ir 100 PI, 95 kartus iš 100 tikroji reikšmė bus duotame intervale. 5 atvejais tikroji reikšmė nepateks į tą intervalą. Tos reikšmės gali būti vidurkis, skirtumas, reliatyvi rizika ir t.t.
Pasikliautiniai intervalai (bendra, dažniausia išraiška) 95% PI : X ± 1,96 x SE Xmin; Xmax Pastaba: normaliam skirstiniui, kai didelis n 95% PI : p ± 1,96 x SE pmin ; pmax Pastaba: kai p ir 1-p > 5/n
Standartinė paklaida (SE, angl. standard error) Tai yra imčių pasiskirstymo standartinis nuokrypis Rodo, kiek gauta reikšmė yra nukrypusi nuo tikrosios populiacijos reikšmės
Centrinė ribinė teorema Kartais sakoma, kad tikimybininkai turi vieną dievą – normalųjį arba Gauso skirstinį.
Centrinė ribinė teorema Kiekvienas vidurkis apskaičiuotas iš imčių, kur stebėjimų skaičius 10 000.
Centrinė ribinė teorema Jei populiacijos skirstinys normalus, imčių vidurkių pasiskirstymas (skirstinys) normalus, nepriklausomai nuo imties dydžio. Imčių (atrankų) vidurkių pasiskirstymas (skirstinys) artėja prie normalaus skirstinio, didėjant imties dydžiui ir tada nepriklauso nuo to, koks yra populiacijos skirstinys. Imčių vidurkiai bus pasiskirstę normaliai (ypač jei imties dydis >30) net jei populiacija asimetriška ar net ir binomiška. Jei n yra pakankamai didelis, tai skirstinys yra artimas normaliajam skirstiniui. This is such an important concept in statistics, almost everything else you learn after this depends on the fundamental concept. It's called the central limit theorem. The central limit theorem in it's shortest form states that the sampling distribution of the sampling means approaches a normal distribution as the sample size gets larger, regardless of the shape of the population distribution. So the sample means will be normally distributed (especially when the sample is above 30) if the population is positively skewed, negatively skewed or even binomial (having only 2 outcomes).
Centrinė ribinė teorema Didėjant imties dydžiui, mažėja imčių variacija, todėl mažėja tikimybė gauti tikrai nereprezentatyvią imtį.
Standartinė paklaida (SE, m) Skaitmeniniai duomenys X Kategoriniai duomenys p p
Normalių skirstinių pavyzdžiai
Stjudento t skirstinys priklausomai nuo imties dydžio
Stjudento T skirstinio lentelė
Pasikliautiniai intervalai PI plotis priklauso nuo: a) imties dydžio; b) tikslumo (norimo užtikrintumo, pasikliovimo lygmens) laipsnio (paprastai 95%, tačiau galima pasirinkti bet kokį %); c) dispersijos (išsibarstymo).
PI proporcijai Apklausus 500 studentų medikų dėl narkotikų vartojimo, 15 iš jų atsakė teigiamai mažiausiai vieną kartą. Kokia dalis studentų vartoja narkotikus (su 95% tikimybe)?
PI proporcijai p = 15/500 = 0,03 (3%) SE = 0,008 95% PI: 0,03 ± 1,96 x 0,008 95% PI : 0,014 ; 0,046 (1,4% ; 4,6%) Rezultato paaiškinimas: Iš 500 studentų vartojančių narkotikus yra 3%. Su 95% tikimybe galima teigti, kad iš visų MF studentų, kuriuos reprezentuoja atrinktieji, vartojančių narkotikus gali būti ribose nuo 1,4 iki 4,6 %. 99% PI: 0,03 ± 2,58 x 0,008 99% PI : 0,010 ; 0,050 (1,0% ; 5,0%)
PI proporcijai p = 15/50 = 0,3 (30%) SE = 0,065 95% PI: 0,3 ± 1,96 x 0,065 95% PI : 0,17 ; 0,43 (17% ; 43%)
PI vidurkiui Psiciatrų atliktas pirmo kurso studentų medikų streso lygio įvertinimas, matuojant elektrodu frontalinio raumens elektromiografinį aktyvumą. 10 studentų šio matavimo vidurkis buvo 35,8 μvolt, SD 2,5 μvolt. Koks pirmo kurso studentų streso lygis (su 95% tikimybe)?
PI vidurkiui SE = 0,79 95% PI: 35,8 ± 2,262 x 0,79 Rezultato paaiškinimas: Iš 10 studentų frontalinio raumens elektromiografinio aktyvumo vidurkis 35,8 μvolt. Su 95% tikimybe galima teigti, kad visų studentų (pvz. f-to), kuriuos reprezentuoja atrinktieji, frontalinio raumens elektromiografinio aktyvumo vidurkis gali būti ribose nuo 34,0 iki 37,6 μvolt.
PI dviejų grupių palyginimui (kiekvienai grupei atskirai) 1) Apklausus 200 studentų ekonomistų dėl narkotikų vartojimo, 10 iš jų atsakė teigiamai mažiausiai vieną kartą. Kokia dalis studentų vartoja narkotikus (su 95% tikimybe)? Kurie daugiau vartoja – medikai ar ekonomistai? 2) Psiciatrų atliktas pirmo kurso studentų ekonomistų streso lygio įvertinimas, matuojant elektrodu frontalinio raumens elektromiografinį aktyvumą. 10 studentų šio matavimo vidurkis buvo 30,2 μvolt, SD 2,5 μvolt. Koks pirmo kurso ekonomistų streso lygis (su 95% tikimybe)? Kurių – medikų ar ekonomistų streso lygis didesnis?
PI dviejų grupių palyginimui - aritmetiniam skirtumui (proporcijos) SEB – bendra dviejų grupių standartinė paklaida
PI dviejų grupių palyginimui - aritmetiniam skirtumui (vidurkiai) SEB – bendra dviejų grupių standartinė paklaida
PI dviejų grupių palyginimui - aritmetiniam santykiui (RR, ŠS) Pvz.: DES (dietilsilbestrolis) ir krūties vėžys RR = 1,4 95% PI = 0,7 ; 2,6 Su 95% tikimybe galima teigti, kad RR yra tarp 0,7 ir 2,6. Kadangi PI yra nulinė reikšmė (RR=1,0), neatmetama tikimybė, kad skirtumo nėra, todėl rezultatas nėra statistiškai reikšmingas.