Štatistické testovanie hypotéz. Porovnanie dvoch výberov

Slides:



Advertisements
Similar presentations
STATISTICAL ANALYSIS. Your introduction to statistics should not be like drinking water from a fire hose!!
Advertisements

Faktorová analýza (FA). Viacrozmerné metódy U3U3 U 10 U7U7 U4U4 U8U8 U9U9 U6U6 U5U5 U 11 U1U1 U2U n URUR Metódy analýzy skrytých vzťahov premenné.
Departments of Medicine and Biostatistics
Analysis of variance (2) Lecture 10. Normality Check Frequency histogram (Skewness & Kurtosis) Probability plot, K-S test Normality Check Frequency histogram.
Biostatistics in Research Practice: Non-parametric tests Dr Victoria Allgar.
AM Recitation 2/10/11.
1 CSI5388: Functional Elements of Statistics for Machine Learning Part I.
Research Seminars in IT in Education (MIT6003) Quantitative Educational Research Design 2 Dr Jacky Pow.
 Assumptions are an essential part of statistics and the process of building and testing models.  There are many different assumptions across the range.
Statistical Fundamentals: Using Microsoft Excel for Univariate and Bivariate Analysis Alfred P. Rovai The Normal Curve and Univariate Normality PowerPoint.
Non-parametric Approaches The Bootstrap. Non-parametric? Non-parametric or distribution-free tests have more lax and/or different assumptions Properties:
HYPOTHESIS TESTING FOR DIFFERENCES BETWEEN MEANS AND BETWEEN PROPORTIONS.
1 CSI5388: Functional Elements of Statistics for Machine Learning Part II.
Basics of Pharmaceutical Statistics
Advanced Data Analytics
STAT 312 Chapter 7 - Statistical Intervals Based on a Single Sample
I. ANOVA revisited & reviewed
Inferential Statistics
32931 Technology Research Methods Autumn 2017 Quantitative Research Component Topic 3: Comparing between groups Lecturer: Mahrita Harahap
Logic of Hypothesis Testing
Chapter 12 Chi-Square Tests and Nonparametric Tests
Medical Statistics as a science
Understanding Sampling Distributions: Statistics as Random Variables
BAE 6520 Applied Environmental Statistics
DTC Quantitative Methods Bivariate Analysis: t-tests and Analysis of Variance (ANOVA) Thursday 20th February 2014  
NONPARAMETRIC STATISTICS
Statistical tests for quantitative variables
Descriptive measures Capture the main 4 basic Ch.Ch. of the sample distribution: Central tendency Variability (variance) Skewness kurtosis.
Analyzing dichotomous dummy variables
Comparing Three or More Means
Descriptive Statistics (Part 2)
Psych 706: Stats II Class #1.
IX. VIACVÝBEROVÉ TESTY.
APPROACHES TO QUANTITATIVE DATA ANALYSIS
University of Warwick, Department of Sociology, 2014/15 SO 201: SSAASS (Surveys and Statistics) (Richard Lampard) Analysing Means II: Nonparametric techniques.
STAT 312 Chapter 7 - Statistical Intervals Based on a Single Sample
Jednorozmerný a dvojrozmerný chí-kvadrát test (krížové tabuľky)
Description of Data (Summary and Variability measures)
Analysis of Data Graphics Quantitative data
Regresia a korelácia Iveta Waczulíková Peter Slezák
آمار مقدماتی و پیشرفته مدرس: دکتر بریم نژاد دانشیار واحد کرج
Navrhovanie experimentov – DOE (Design of Experiment) 1
Summary Statistics 9/23/2018 Summary Statistics
Georgi Iskrov, MBA, MPH, PhD Department of Social Medicine
KVANTITATÍVNE METÓDY V MARKETINGU
SDPBRN Postgraduate Training Day Dundee Dental Education Centre
SA3202 Statistical Methods for Social Sciences
Central tendency and spread
Introduction to Statistics
Vlastnosti kvantitatívnych dát
The future is a vain hope, the past is a distracting thought
Comparing Groups.
9 Tests of Hypotheses for a Single Sample CHAPTER OUTLINE
ROC - Receiver Operating Characteristic
T-test for 2 Independent Sample Means
Decision Errors and Power
Assessing Normality and Data Transformations
STA 291 Spring 2008 Lecture 5 Dustin Lueker.
STA 291 Spring 2008 Lecture 5 Dustin Lueker.
Joanna Romaniuk Quanticate, Warsaw, Poland
Writing the IA Report: Analysis and Evaluation
The Rank-Sum Test Section 15.2.
Parametric versus Nonparametric (Chi-square)
Understanding Statistical Inferences
DESIGN OF EXPERIMENT (DOE)
Advanced Algebra Unit 1 Vocabulary
InferentIal StatIstIcs
Type I and Type II Errors
Georgi Iskrov, MBA, MPH, PhD Department of Social Medicine
Introductory Statistics
Presentation transcript:

Štatistické testovanie hypotéz. Porovnanie dvoch výberov Iveta Waczulíková Peter Slezák Fakulta matematiky, fyziky a informatiky UK Ústav simulačného a virtuálneho medicínskeho vzdelávania LF UK

Materiál nájdete na: bio-med-stat.webnode.sk naše adresy: peter.slezak5@gmail.com waczulikova@gmail.com

Populácia (základný súbor) - konečný rozsah - nekonečný rozsah Parameter (populačná charakteristika) – je číselná charakteristika populácie (napr. priemerná výška mužov na Slovensku). Jej presná hodnota je obvykle neznáma. Populácia je zadaná presným stanovením všetkých jej prvkov (ich vymenovaním, alebo vymenovaním niektorých ich spoločných vlastností) napr.: demografické štúdie – ľudia žijúci na príslušnom území, deti mladšie ako 10 rokov, pacienti s DM atď. (nekonečné – hladina cholesterolu vo vzorke, môžeme ju zmerať nekonečne veľa krát...)

Epidemiologické štúdie Príčina/faktor Rizikový faktor Diagnostický test Nový liek Prognostický faktor Preventívny faktor Následok Choroba Rozlíšenie Zlepšenie Prežívanie -Zabránenie vzniku -Skoré zachytenie -Zabránenie komplikáciám Najčastejšie výskumné zámery – prepojenie by malo byť adresované vo výskumnej HYPOTÉZE.

Premenné – základné definície všeobecnejšie ju možno definovať ako veličinu, ktorá môže nadobúdať rôzne hodnoty. V štatistike sa vzťahuje na MERATEĽNÚ vlastnosť, ktorá sa v čase alebo medzi objektami/subjektami typicky mení. Typy premenných: Číselné premenné – (možno zmerať) spojité (koncentrácia onkomarkera) a intervalové (vek) Vyznačujú sa reprezentatívnou (strednou) hodnotou (najčastejšie vyjadrenou ako priemer alebo medián) a mierou premenlivosti (smerodajná odchýlka k priemeru alebo dolný a horný kvartil k mediánu) Kategorické premenné (možno zaradiť) Nominálne – klasifikujú nejakú vlastnosť (genotyp) Ordinálne – určujú stupeň vlastnosti (cancer staging). Charakterizujú sa početnosťami (%) v jednotlivých kategóriách

Deskriptívna (popisná) štatistika - umožňuje pozorované dáta redukovať na „uchopiteľné“ štatistické parametre – reprezentatívnu hodnotu a rozptyl. Grafická prezentácia rozdelenie dát rozdelenie pravdepodobností (štatistické rozdelenie) Induktívna (inferenčná) štatistika - umožňuje z pozorovaných dát vytvárať všeobecne platné závery, s uvedením stupňa ich spoľahlivosti. závery induktívnej štatistiky - sú objektívne pretože sú založené na poznatkoch teórie pravdepodobnosti a nezávisia na subjektívnom názore hodnotiteľa!!!!!

Formát dát (simulovaná databáza) Dáta časov a možných prognostických faktorov vybraných 11 pacientov s malígnym nálezom vstup: chirurgická intervencia výstup: úmrtie Pacient Pohlavie (F=1) Vek (roky) Objem (čas 0) (cm3) Perioperačné komplikácie (A=1) GRADE (kumulovane skore) Závažnosť diagnozy (čas 0) Time to event-death (mes) Censor data 2 1 32 5,520 6 63 8 37 3,117 4 49 9 24 5,661 7 10 38 7,218 52 20 31 7,122 74 21 43 2,319 3 26 23 6,510 41 33 4,382 5 66 25 40 8,816 29 34 6,918 13 30 7,058 55 Kódovanie v programe StatsDirect: Cenzurovanie = 0 pre nekompletné dáta označenie * alebo + Cenzurovanie = 1 pre kompletné dáta (udalosť)

Histogram morfometrický údaj z USG štítnej žľazy

Histogram morfometrický údaj z USG štítnej žľazy

Všetky dáta získané meraním danej charakteristiky v skupinách (pacientov, zvierat, v skupinách laboratórnych experimentov za definovaných podmienok...) ZASTUPUJEME skupinovými reprezentatívnymi hodnotami (priemery) a príslušnými mierami rozptylu (SD) – z ktorých sa dajú odhadnúť Intervaly spoľahlivosti pre populačné priemery (95%CI) Dáta zastupujeme PARAMETRAMI (normálneho rozdelenia) parametrické testy

Ak nesprávne vyberieme parametrický test záver testovania bude nespoľahlivý!

S2 – rozptyl SD – smerodajná odchýlka Smerodajná odchýlka má rovnaké jednotky ako meraná veličina!

Odhad populačnej σ

Deskriptívna (popisná) štatistika - umožňuje pozorované dáta redukovať na „uchopiteľné“ štatistické parametre – reprezentatívnu hodnotu a rozptyl. Grafická prezentácia rozdelenie dát rozdelenie pravdepodobností (štatistické rozdelenie) Induktívna (inferenčná) štatistika - umožňuje z pozorovaných dát vytvárať všeobecne platné závery, s uvedením stupňa ich spoľahlivosti. závery induktívnej štatistiky - sú objektívne pretože sú založené na poznatkoch teórie pravdepodobnosti a nezávisia na subjektívnom názore hodnotiteľa!!!!!

„Nemusíte zjesť celého vola na to, aby ste poznali, že mäso je tuhé „Nemusíte zjesť celého vola na to, aby ste poznali, že mäso je tuhé.“ S.Johnson

Všeobecný postup pri testovaní hypotéz

Nemusíte sníst celého vola na to, abyste poznali, že maso je tuhé. S. Johnson (Zvárová, J.: I. Základy statistiky pro biomedicínske odbory. Karolinum, Praha, 2004.)

Všeobecný postup pri testovaní hypotéz (formulovaný vedecký problém) (formulovaná pracovná hypotéza) Voľba hladiny významnosti alfa, ktorá udáva pravdepodobnosť, s ktorou bude splnené testovacie kritérium Formulácia nulovej a alternatívnej hypotézy (obvykle tvrdenie, ktoré chceme vyvrátiť) Voľba testovacieho kritéria (podľa povahy problému a typu úlohy) Interpretácia výsledkov (pokiaľ nulovú hypotézu zamietame, riskujeme chybu, ktorej pravdepodobnosť je nanajvýš rovná zvolenej hladine alfa. Pokiaľ ju nezamietame, nevieme, aká je pravdepodobnosť chybného rozhodnutia. Preto nikdy nesmieme tvrdiť, že sme nulovú hypotézu preukázali.) V zátvorke na pripomenutie, pretože hladina významnosti (naše riziko, že sa mýlime atď) z nej vychádza.

Pripomenutie zásad vedeckej práce Detailný plán projektu

Čo všetko môžeme testovať Štatistika nám poskytuje nástroj (kritérium) na rozhodovanie. Hypotézy zhody Hypotézy o testovaní rozdielov (v stredných hodnotách) medzi skupinami Hypotézy o testovaní nezávislosti (vzťahov - asociácie, korelácie) 1. Hypotézy zhody: do akej miery je náš výber reprezentatívny pre populáciu, z ktorej pochádza (funkcia hustoty modelového rozloženia vs. rozloženie experimentálnych dát) 2. Hypotézy významnosti rozdielov: porovnávame niekoľko náhodných výberov a skúmame, či pochádzajú z tej istej populácie, alebo z niekoľkých rôznych (typ grafu: rozloženie početností jednej premennej) 3. Hypotézy nezávislosti: skúmame, či a aké sú závislosti medzi niekoľkými rôznymi premennými (znakmi) (typ grafu: závislá premenná od nezávislej)

Predtým, než vyberieme vlastný test, musí byť jasne formulovaná vedecká hypotéza a spôsob jej overovania. Následne formulujeme pracovnú hypotézu

Štatistické hypotézy: Efekt („effect size“) Nulová hypotéza (H0) – tvrdenie, že efekt je nulový Alternatívna hypotéza (HA) – tvrdenie opačné ako nulová hypotéza (obvykle „obsahujúce“ všetky ostatné možnosti, ktoré môžu nastať) t.j. efekt nie je nulový. H0: x1 = x2 - dvojstranná alternatíva HA: x1  x2 - jednostranná alternatíva HA: x1x2 alebo x1x2 Väčšinou porovnávame rôzne skupiny/spôsoby liečby... Číselná hodnota odpovedajúca tomuto tvrdeniu sa nazýva „efekt“

Štatistické hypotézy: sú formulované párovo nulová hypotéza (H0) sa kombinuje s alternatívnou hypotézou (HA) H0: x1 = x2 HA: x1  x2

Štatistické hypotézy: Formulácia hypotéz nie je arbitrárna vyplýva to z faktu, že nulovú hypotézu môžeme len zamietnuť, ale nikdy nie dokázať (odôvodniť) jej pravdivosť

Testová štatistika (napr.: T-test) → nazbierame dáta a použijeme rozhodovacie kritérium = testovú štatistiku Má presne známu distribúciu (známe rozdelenie pravdepodobnosti) T-test (studentovo t rozdelenie (pravdepodobnosti)) Zo zistenej testovej štatistiky vieme určiť pravdepodobnosť P-value

P-value T.j. spočítame pravdepodobnosť, že by sme mohli pozorovať nami zistený výsledok (alebo ešte „extrémnejší“ – menej pravdepodobný), ak by nulová hypotéza platila. t.j. p-value – dosiahnutá hladina významnosti Má presne známu distribúciu – podľa toho boli navrhnuté a zostrojené  inak by nedokázali nič merať...

P-value P-value je pravdepodobnosť, s akou by sme mohli získať pozorované dáta rovnako alebo ešte viacej odporujúce nulovej hypotéze za predpokladu, že nulová hypotéza platí. Je to pravdepodobnosť chyby, ktorej by sme sa dopustili, ak by sme prehlásili, že medzi skupinami je rozdiel a on v skutočnosti nie je (platí nulová hypotéza) Interpretácia príklad: keď napríklad porovnávame dve liečby a dostaneme vysokú hodnotu p, povedzme 0,1 (10%), potom môžeme tvrdiť, že také dáta ako naše môžeme získať (pri opakovaní experimentu, štúdie) celkom často i v prípade, že nulová hypotéza platí. Nemôžeme preto vylúčiť možnosť, že nulová hypotéza je pravdivá, t.j. že obe liečby sú rovnako efektívne. Naopak ak je p veľmi malé (napr. 0,001 = 0,1%), potom sa nulová hypotéza zdá byť takmer nemožnou, pretože naše dáta by mohli sotva kedy vzniknúť len náhodou ak by platila nulová hypotéza. Môžeme potom so značnou istotou tvrdiť, že nulová hypotéza nie je pravdivá a jedna liečba je dokázateľne lepšia ako druhá.

Hladina významnosti „alfa” Test nulovej hypotézy – porovnanie hodnoty p-value s hladinou významnosti alfa (obvykle 0,05 = 5%) Ak zamietneme H0 prijímame HA t.j. tvrdíme, že výsledok je štatisticky významný (signifikantný) 5% - to znamená, že výsledok by sme mohli dostať za platnosti nulovej hypotézy menej než jeden krát z dvadsiatich opakovaní

Dvojstranná alternatíva

Jednostranná alternatíva

Rozdelenie pravdepodobnosti pozorovaných diferencií β α

Štatistická vs. klinická významnosť Príklad: tlak krvi meraný na oboch rukách u toho istého pacienta – rozdiel 1mmHg Δ – klinicky významný rozdiel 0 – nulový rozdiel medzi dvoma porovnávanými skupinami Δ – klinicky významný rozdiel 0 – nulový rozdiel medzi dvoma porovnávanými skupinami Zvárová et. al. Základy statistiky pro biomedicínské obory. Praha, Karolinum, 2004.

Testovanie hypotéz– 5 krokov Formuluj nulovú a alternatívnu hypotézu Vypočítaj testovú štatistiku Nájdi zodpovedajúcu „p-value“ Dva možné závery: test ZAMIETA (Reject) alebo NEMÔŽE ZAMIETNUŤ “fail to reject” nulovú hypotézu Formuluj vecný záver červená = štatistika, modrá = logika, čierna = teória

Štatistický záver Hypotéza môže byť zamietnutá jedine s určitou pravdepodobnosťou a nikdy nie s úplnou istotou. Pri testovaní štatistickej hypotézy nikdy nemôžeme dokázať pravdivosť nulovej hypotézy. Môžeme ju len zamietnuť. Nesignifikantný výsledok (nezamietnutie)  pravdivosť nulovej hypotézy. Znamená len to, že ju nemôžeme v danej situácii zamietnuť.

„Je málo spôsobov ako správne uskutočniť výskumnú štúdiu, ale sú ich tisíce ako ju uskutočniť nesprávne.“ D.L.Sackett

Štatistické chyby a sila testu Súdny prípad – v roli obvineného si želáme, aby sudcovia mali „testovacie kritérium“ s nízkou hladinou alfa. Lekár a pacient suspektný z HIV séropozitivity – lekár volí diagnostický test s nízkou chybou beta (vyššia alfa) Štatistická chyba I. druhu – riziko odsúdenia nevinného človeka (nepoznáme, že platí nulová hypotéza) Štatistická chyba II. druhu – riziko prepustenia zločinca (nepoznáme, že neplatí nulová hypotéza)

Rozdelenie pravdepodobnosti pozorovaných diferencií β α

Verifikácia štatistických hypotéz pomocou štatistických testov Štatistické testy (signifikantnosti): parametrické alebo neparametrické

Štatistické metódy Parametrické metódy (PM) sa zaoberajú parametrami základného súboru (ZS), t.j. odhadmi a testami. Ich použitie si vyžaduje splnenie prísnych predpokladov o rozdeleniach pravdepodobností výberových štatistík a premennej v ZS (predpoklad normality skúmaného znaku v ZS, resp. v populácii) Neparametrické metódy (NPM) nevyžadujú také prísne predpoklady o rozdeleniach a nezaoberajú sa len parametrami ZS. Využívajú menej informácií z dát výberového súboru (VS) a tým je ich sila nižšia ako PM. NPM sú metódy s „voľnými“ rozdeleniami. Advantages of nonparametric methods Nonparametric methods require no or very limited assumptions to be made about the format of the data, and they may therefore be preferable when the assumptions required for parametric methods are not valid. Nonparametric methods can be useful for dealing with unexpected, outlying observations that might be problematic with a parametric approach. Nonparametric methods are intuitive and are simple to carry out by hand, for small samples at least. Nonparametric methods are often useful in the analysis of ordered categorical data in which assignation of scores to individual categories may be inappropriate. For example, nonparametric methods can be used to analyse alcohol consumption directly using the categories never, a few times per year, monthly, weekly, a few times per week, daily and a few times per day. In contrast, parametric methods require scores (i.e. 1–7) to be assigned to each category, with the implicit assumption that the effect of moving from one category to the next is fixed. Disadvantages of nonparametric methods Nonparametric methods may lack power as compared with more traditional approaches [3]. This is a particular concern if the sample size is small or if the assumptions for the corresponding parametric method (e.g. Normality of the data) hold. Nonparametric methods are geared toward hypothesis testing rather than estimation of effects. It is often possible to obtain nonparametric estimates and associated confidence intervals, but this is not generally straightforward. Tied values can be problematic when these are common, and adjustments to the test statistic may be necessary. Appropriate computer software for nonparametric methods can be limited, although the situation is improving. In addition, how a software package deals with tied values or how it obtains appropriate P values may not always be obvious.

Najpoužívanejšie parametrické testy Nepárový t-test Párový t-test Fischerov F-test Jednofaktorová analýza rozptylu (ANOVA) Jednofaktorová ANOVA s opakovanými meraniami ANOVA pre dva nezávislé faktory ANOVA pre dva faktory, „mixed design“ Dvojfaktorová ANOVA s opakovanými meraniami Pearsonov korelačný koeficient „r“ a koeficient determinácie R2 Koeficient mnohonásobnej korelácie „r“ Koeficient parciálnej a semiparciálnej korelácie

Najpoužívanejšie neparametrické metódy Kolmogorovov – Smirnovov test - porovnanie dvoch rozdelení (empirických distribučných funkcií) 2 - test dobrej zhody porovnanie dvoch rozdelení (empirického a teoretického) Znamienkový test (jednovýberový Wilcoxonov test) - analógia párového t-testu Mann – Whitneyov U test a dvojvýberový Wilcoxonov test – analógia nepárového t-testu Friedmanov test - analógia jednofaktorovej analýzy variancie s opakovanými meraniami Kruskal – Wallisov test - analógia jednofaktorovej analýzy variancie Spearmanov korelačný koeficient – neparametrická obdoba Pearsonovho korelačného koeficienta Kolmogorovov – Smirnovov test-je citlivý na akúkoľvek nezhodu empirických distribučných funkcií, nielen na posunutie (priemery)

Výber štatistického testu

Predpoklady použitia parametrických testov Náhodný výber z populácie (organizácia experimentu) Dáta pochádzajú z normálneho rozdelenia Rozdelenie je spojité Rovnaké rozptyly (t-test, ANOVA, OLS) Výbery sú nezávislé– pre párové dáta sa vyhodnocujú normálne rozdelené diferencie) Bivariačné analýzy (t-test, regresie, one-way ANOVA – rozdiely medzi sledovanými skupinami/sledovaný parameter v daných skupinách) Randomizácia – ostatné parametre sú rovnako rozdelené v sledovaných skupinách a nevytvárajú systematický odklon (rozdiel je spôsobený len daným jedným sledovaným faktorom) -> umožňuje sledovať vplyv len na začiatku zvoleného/ých zaujímavého/ých faktora/faktorov bez toho, aby sme museli uvažovať vplyv ostatných (tie sú náhodne, rovnomerne rozdelené medzi sledovanými skupinami vďaka randomizovanému výberu). Preto parametre ktoré počas experimentu môžeme sledovať/ovplyvňovať, držíme na takej úrovni, aby nám meranie neovplyvňovali a tie ktoré nemôžeme ako experimentátori ovplyvniť, sa snažíme náhodne rovnomerne rozdeliť do sledovaných skupín, aby sme ich vplyv nemuseli pri vyhodnocovaní uvažovať... Tj. Dôležitosť organizácie a dizajnu experimentu. Ak spravíme v dizajne, organizácii experimentu chybu, nemôžeme sa opierať o výsledky bivariačnej analýzy ako o vierohodné... Je nutné použiť multivariačnú analýzu, ktorá zohľadní aj vplyv ostatných parametrov a „očistí“ výsledky od ich vplyvu, aby odhalila a ukázala „čistý“ vplyv pre nás zaujímavých parametrov a dala relevantné/unbiased výsledky. Avšak za cenu zníženia možnosti odhalenia štatisticky významných a experimentálne zaujímavých rozdielov medzi skupinami. => svojou nevedomosťou a „neschopnosťou“ zhoršujeme šancu vedecky exaktne odhaliť efekt (ak reálne existuje), ktorý predpokladáme, že by sme mohli a mali experimentom zistiť (bez nutnosti použitia duncanovho post hoc testu :). Nezávislosť pozorovaní – (správanie potkanov) -> organizácia experimentu! Randomization is one of the most common basic assumptions used to enable any further generalization of our findings. Any conclusions derived from studies devoid of appropriate randomization protocol may refer exclusively to the group of elements under study and cannot be any more universal or extrapolated towards larger groups. In other cases, our reasoning and conclusions may very likely be false. By random sampling we guarantee that the observed characteristics closely reflect the characteristics of a whole population; we say that our group is statistically representative to a general population. We probably profit most from using randomization by minimizing two fundamental threats that are known to weaken the credibility of our research: • bias, and • confounding variables. The bias is a kind of a systematic error leading to an incorrect estimate (underestimate or overestimate) of the investigated effect or association.

Normalita, transformácia dát, odľahlé hodnoty

Miery polohy a typy rozdelení medián=priemer=modus modus priemer modus medián modus medián priemer priemer medián modus

(štandardizované) Normálne rozdelenie 68,28% 95,45% -3 -2 +1 +3 +3 -1 99,73%

Normalita Mnoho štatistických metód vyžaduje aby premenné s ktorými pracujeme mali približne normálne rozdelenie. Napríklad: t-test(y), F-test, regresná analýza. Všetky vyžadujú v určitom zmysle normalitu rozdelenia dát.

Nástroje na ohodnotenie normality Normálny graf (Normal plot; Q-Q plot, P-P plot) Krabicový graf (Box and whiskers plot) Histogram Štatistické testy normality Shapiro-Wilkov W test D'Agostino-Pearson omnibus test (Kolmogorov-Smirnov Test)

Normálny graf (normal plot) (normal) Q-Q plot, P-P plot Dáta sú približne normálne rozdelené ak ležia blízko okolo naznačenej priamky normálne rozdelenie http://www.cms.murdoch.edu.au/areas/maths/statsnotes/samplestats/qqplot.html

Skew Populations Heavy Tailed (Leptokurtic)

Krabicový graf (box and whiskers plot) „fúzy“ – siahajú po min. a max. avšak maximálne do 1,5 násobku IQR od Q1 resp. Q3 Údaje, ktoré sú ďalej ako 1,5 x IQR od horného (resp. dolného) mediánu sa zobrazujú samostatne. Predstavujú potenciálne odľahlé pozorovania 1,5 x IQR medián Q1 Q3 IQR (inter quartile range) – medzikvartilové rozpätie = Q3 – Q1

Histogram do veľkej miery závisí na voľbe intervalov Užitočný hlavne pri zisťovaní multimodality rozdelenia Surgesovo pravidlo: Histogram rozdeľuje celkový rozsah dát na intervaly (bins) a zobrazuje stĺpce odpovedajúce každému intervalu, pričom výška stĺpca odráža počet dáta spadajúcich do daného intervalu. Ak sa zvolí príliš malá šírka intervalu, výška stĺpcov bude výrazne ovplyvnená štatistickými fluktuáciami počtu pozorovaní spadajúcimi do daných intervalov. Na druhej strane ak sa zvolia príliš široké intervaly tak histogram nedokáže reprezentovať tvar rozdelenia z ktorého dáta pochádzajú, pretože „rozlíšenie“ nie je dostatočne dobré. Freedman a Diakonis h – počet intervalov n – počet pozorovaní 55

20 40 60 80 100 200 300 400 16 20 24 28 32 36 40 44 48 52 56 60 64 68 72 76

Testy (ne)normality Existuje niekoľko rozdielnych testov. Testujú nasledovné hypotézy Ho: rozdelenie dát je normálne HA: rozdelenie dát nie je normálne Pár testov normality: Shapiro-Wilk, D'Agostino-Pearson omnibus test; (Kolmogorov-Smirnov, Anderson-Darling, Martinez-Iglewicz test) Poznámka: (výsledky testov nemusia vždy súhlasiť!!!)

Príklad: normalita.xls 5 10 15 20 25 16 24 28 32 36 40 Mid-points for BMI Príklad: normalita.xls BMI 50 pacientov Descriptive statistics Mean 25,3376 Standard deviation 4,923441 Skewness 0,740591 Kurtosis 3,410216 Maximum 39,87 Upper quartile 28,72 Median 24,515 Lower quartile 22,13 Minimum 16,07

Príklad a interpretácia Shapiro-Wilk W test for non-normality Sample name: BMI Uncensored data = 50 Censored data = 0 Mean = 25,3376 Standard deviation = 4,923441 Squares about mean = 1187,773312 W = 0,958052 P = 0,0737 Test not quite significant but do NOT assume normality D'Agostino & Pearson omnibus normality test   K2 5,890 P value 0,0526 Záver: dáta nie sú normálne rozdelené. Pred použitím parameterických testov je potrebné dáta transformovať alebo použiť neparametrické testy

Shapiro-Wilk test online: http://dittami.gmxhome.de/shapiro/ Ďalšie užitočné free online štatistické testy: http://statpages.org/

Transformácia dát Normalizovanie dát stabilizovanie variancií (zabezpečiť aby konštantnosť rozptylu či už pri analýze variancie alebo regresii) symetrizovať rozdelenie linearizovanie vzťahu medzi premennými

Tukey’s Ladder of Powers Doľava zošikmené zväčšujúci sa vplyv x (mocnina) 3 2 1 – žiadna zmena 0,5 zväčšujúci sa vplyv -0,5 -1 Doprava zošikmené -2

Nie všetky dáta môžu byť úspešne transformované ! symetrické dáta s “ťažkými chvostmi” ako normálne rozdelenie (väčšie množstvo dát na oboch koncoch rozdelenia v porovnaní s normálnym rozdelením). Bimodálne (multimodálne) rozdelenia Keď je prítomné väčšie množstvo identických pozorovaní

Príklad: BMI Dáta sú zošikmené doprava (kladná šikmosť) → vyskúšame mocniny menšie ako 1 a logaritmus Najlepší normalizujúci účinok majú log a reciprocal square root (mínus odmocnina) 65

Odľahlé hodnoty (outliers)

Univariate outliers Na základe smerodajnej odchýlky je extrémne nepravdepodobné (p<0,00005) nájsť hodnotu vzdialenú viac ako 4SD od priemeru normálneho rozdelenia. (priemer a smerodajná odchýlka sa v tomto prípade počíta z dát bez danej podozrivej hodnoty) Na základe medzikvartilového rozpätia (interquartile range) Box and whiskers plot (1,5 x IQR od Q1 resp. Q3)

Testy na odľahlé hodnoty Väčšinou sú dizajnované na zisťovanie prítomnosti len jedného odľahlého pozorovania Najznámejšie sú: Grubbsov test (predpokladá, že dáta pochádzajú z normálne rozdelenej populácie) Dixonov test Grubbsov test online: http://www.graphpad.com/quickcalcs/Grubbs1.cfm

Testy významnosti pre jeden alebo dva výbery

Parametrické testy Studentov T-test Jednovýberový Dvojvýberový – nepárový – s rovnosťou rozptylov - s nerovnosťou rozptylov - párový - porovnanie malých súborov

Dvojvýberový t test Porovnanie priemerov http://www.socialresearchmethods.net/kb/stat_t.php

Testová štatistika Predpoklady použitia: Normálne rozdelenie Náhodné výbery Nezávislosť výberov Zhodné rozptyly v skupinách Robustnosť t testu Nezhodnosť rozptylov – musí sa korigovať testová štatistika (počet stupňov voľnosti, ktorý nemusí dokonca byť celočíselný) Robustnosť – pri dostatočne veľkých výberoch (centrálna lim. Veta – nesplnenie normality má len mierny vplyv) - nerovnaký rozpyl (pomerne robustný hlavne v prípade vyváženého dizajnu (n1 = n2)

Párový studentov t test Závislosť výberov vo vnútri dvojíc → párové dáta Predpoklady použitia Normalita rozdielov párových pozorovaní Náhodný výber

„Žiadne štatistické techniky nevytvoria „dobré“ výsledky z dát pochybnej kvality.“ M.Buyse

Neparametrické testy

testy, ktoré nevyžadujú splnenie takých silných predpokladov ako parametrické testy sú nezávislé na tvaru rozdelenia ZS (t.j. nepredpokladajú konkrétne rozdelenie) netýkajú sa teda parametrov rozdelení (stredných hodnôt, rozptylov) v testovacích charakteristikách, nefigurujú parametre rozdelení (sú tu iné charakteristiky, popisujúce dané štatistické súbory). vychádzajú z velmi všeobecných predpokladov o rozdeleniach

Výhody neparametrických testov nezávislosť na tvaru rozdelení, Analýza kvantitatívnych aj kvalitatívnych znakov výpočet je jednoduchší a rýchlejší nedostatky - menšia sila (tj. menšia schopnosť zamietnutia nesprávnej nulovej hypotézy) v porovnaní s parametrickými testami Kvalitatívne – čísla (intervalová, podielová) poradové testy - podtrieda neparametrických testov miesto s pôvodnými hodnotami v náhodnom výbere pracujú s poradovými číslami týchto hodnôt.

Poradové (rankové) testy namiesto hodnôt používame ich poradové čísla po usporiadaní podľa veľkosti (poradová štatistika) Je možné ich použiť aj pre ordinálne znaky (slovné) parametrické testy - numerické hodnoty znakov Uvažujú aj, o koľko sú tieto hodnoty vzájomne väčšie či menšie. poradové testy - poradie hodnôt znakov Prejaví sa len, že sú rôzne veľké, ale nie o koľko (šikmosť sa neprejaví)

Nahradenie poradím Rovnaké hodnoty – „ties“ tzv. zhody. Týmto sa priraďuje ich priemerné poradie. parametrické metódy majú svoje neparametrické alternatívy

Mann-Whitney (dvojvýberový Wilcoxonov test, Wilcoxon rank-sum test) predstavuje neparametrickú obdobu dvojvýberového t-testu pro nezávislé súbory (nepárového) H0 – rozdelenie obidvoch skupín je rovnaké H1 – rozdelenie obidvoch skupín sa líši Skombinujeme výbery (vytvoríme tzv. združený výber), usporiadame ich a hodnotám priradíme poradie

Testuje sa hodnota menšieho U Pokiaľ je táto hodnota U  U (n1 n2), zamietame nulovú hypotézu na hladine významnosti  a prijímame alternatívnu hypotézu Nemôžeme hovoriť o rozdieloch priemerov nezávislých súborov, pretože tie nie sú neparametrickým testom hodnotené! Pri velkých rozsahoch súborov, pre ktoré nie sú uvedené kritické hodnoty, je možné využiť skutočnosti, že rozdelenie náhodnej veličiny U sa blíži normálnemu rozdeleniu t.j. použijeme aproximáciu normálnym rozdelením. Pokiaľ máme presné p, je táto hodnota nezaujímavá.

Predpoklady: Buď je testom nulovej hypotézy, že se jedná o výbery z rovnakého základného súboru Pokiaľ je formulovaný ako test o polohe, potom je predpokladom, že se jedná o súbory s rovnakým tvarom rozdelení