Fakulta matematiky, fyziky a informatiky UK Frekvenčné tabuľky Jednorozmerný a dvojrozmerný chí-kvadrát (chi2) test Iveta Waczulíková Peter Slezák Fakulta matematiky, fyziky a informatiky UK Lekárska fakulta UK
Frekvenčná tabuľka Jednoduchá (frekvenčná) tabuľka zodpovedá jednostupňovému triedeniu. Obsahuje triedne početnosti podľa kategórií (tried) jednej premennej. Zostrojenie frekvenčných tabuliek z údajov sa nazýva tabelácia. Prezentácia: koláčový graf, stĺpcový graf, kumulatívny stĺpcový graf
Test dobrej zhody Kedy použiť jednorozmerný chi2 test dobrej zhody Test dobrej zhody Kedy použiť jednorozmerný chi2 test dobrej zhody? “Goodness of fit” Keď je premenná kategorická (nominálna alebo ordinálna) Testuje jeden typ otázky (napr. otázka na pacienta): Čo považujete za najväčší nedostatok v zdravotnej starostlivosti? (Pearsonov) chi2 test dobrej zhody testuje nulovú štatistickú hypotézu, ktorá tvrdí, že aktuálne (pozorované) početnosti v jednotlivých kategóriách (presnejšie hodnotách/úrovniach kategorickej premennej) sa rovnajú očakávaným (teoretickým) početnostiam (univariačná analýza toho, či distribúcia frekvencií “fituje” predpokladané populačné proporcie).
Štatistická otázka Predpokladáme, že v odpovediach budú v jednotlivých stanovených triedach (hodnotách kategórie) rozdiely 43% odpovedí “kvalita” 34% odpovedí “dostupnosť” 23% odpovedí “neviem” Ale sú tieto rozdiely štatisticky signifikantné? Inými slovami, nakoľko veľký je „veľký rozdiel“ medzi týmito percentami? Výskumná otázka na vzorke 105 pacientov: Sú jednotlivé typy odpovedí pacientmi ROVNAKO PREFEROVANÉ? (excelovský príklad, list „Test dobrej zhody“). Poznámka: triedy odpovedí sú pre naše potreby zjednodušené – v takejto podobe nevyhovujú kritériám pre „closed-ended question“
Testovanie hypotézy to znamená, že ak sú preferencie rovnaké, očakávané hodnoty by mali byť 35/105 resp. 33,3% pre každú úroveň kategorickej premennej (typ odpovede) Uvažujeme chybu typu I. druhu maximálne vo výške 5% (alfa = 0,05)
Podmienky použitia testu dobrej zhody Analýza nízkych očakávaných početností je kontroverzná (Koehler a Larnz 1980). Použitie aproximačného chi2 testu vyžaduje splnenie všetkých (!) nasledujúcich podmienok: Celkový počet pozorovaných početností n ≥ 10 Počet tried/úrovní kategórie c ≥ 3 Všetky očakávané hodnoty Eij ≥ 0,25
Excel pre test dobrej zhody Pripraviť si frekvenčnú tabuľku aktuálnych a očakávaných početností Bunka (fx) > kategória štatistické (funkcie) > CHITEST Zadať stĺpec aktuálnych počtov a stĺpec očakávaných počtov Existuje rozdiel medzi tým, koľko pacientov skutočne preferovalo daný typ odpovede (úroveň kategorickej premennej) a tým, koľko sme očakávali, pri rovnakej preferencii (35)? Je tento rozdiel dosť veľký na to, aby sme urobili štatistický záver (inference), alebo mohol byť tento rozdiel spôsobený náhodnou chybou výberu (random sampling error)? Testová štatistika: chí2 = 6,34, df = 3(triedy)-1 =2 Výstup je hodnota pravdepodobnosti P=0,042
Záver príkladu Pre danú hodnotu chí2 = 6,34, a df = 2, pri alfa = 0,05, by mala byť pravdepodobnosť získania takejto hodnoty chi2 rovná alebo menšia než 0,05 na to, aby sme to považovali za významný rozdiel (significant difference). p = 0,042 .... aký je záver? Zamietame nulovú hypotézu, že pozorované rozdiely v preferenciách mohli byť spôsobené náhodnou chybou a prijímame alternatívnu hypotézu, že medzi preferenciami (triedy kategórie=typ odpovede) je signifikantný rozdiel. Preferencie sú rôzne. Poznámka: ak by sme pracovali na hladine významnosti alfa = 0,01, tak nemôžeme nulovú hypotézu zamietnuť!!!
Príklad: Lekár má podozrenie na neštandardné rozdelenie krvných skupín u pacientov, ktorí majú pooperačné komplikácie. Percentuálny výskyt krvných skupín u nás: krvná skupina A: 43 %, 0: 42 %, B: 11 %, AB: 4 %. Porovnaním populačného rozdelenia krvných skupín s rozdelením u náhodnej vzorky pacientov možno podozrenie lekára potvrdiť alebo vyvrátiť (excelovský príklad, list „Test dobrej zhody“).
Test nezávislosti Kedy použiť dvojrozmerný chi2 test nezávislosti Test nezávislosti Kedy použiť dvojrozmerný chi2 test nezávislosti? “The r (rows) by c (columns) chi-square tests of independence of the categories in a table ” Keď analyzujeme v skutočnosti dve premenné, skupinovú (grupujúcu) premennú a akúkoľvek premennú, v ktorej chceme dané podskupiny porovnať (bivariačná analýza) Keď obe premenné sú kategorické, t.j., nominálne alebo ordinálne. Keď testujeme, či existuje medzi týmito premennými vzťah (sú asociované) alebo nie (sú nezávislé). (Pearsonov) chi2 test nezávislosti predstavuje rozšírenie chi2 testu dobrej zhody na analýzu kontingenčnej tabuľky. Každá zo štyroch (obecne r krát c) buniek predstavuje jednoznačnú kombináciu špecifických hodnôt (tzv. kategórií) krížovo tabelovaných premenných.
(excelovský príklad, list „Test nezávislosti“). Využijeme dáta z predošlého príkladu o krvných skupinách a predpokladajme, že máme dva výbery ľudí z dvoch geograficky odlišných častí Európy a chceme porovnať, či je rozloženie proporcií krvných skupín závislé na lokalite (geografickej polohe). (excelovský príklad, list „Test nezávislosti“). Total Chi2 = 4,176236 |Chi| = 2,043584 (3 DF) P = 0,2431 Nesignifikantné. Rozdelenie krvných skupín nezávisí od geografickej polohy.
Podmienky použitia testu nezávislosti Náhodný výber Každé pozorovanie je klasifikované do jednej bunky tabuľky r x c (resp. 2 x 2) Analýza nízkych očakávaných početností je kontroverzná. Použitie aproximačného chi2 testu pre tabuľku 2 x 2 vyžaduje splnenie nasledujúcich podmienok: Celkový počet pozorovaných početností n ≥ 20 Všetky očakávané hodnoty Eij ≥ 5 Nulová hypotéza je nezávislosť riadkových a stĺpcových kategórií (tried). Tests of independence of the categories in a table are the chi-square test, the G-square (likelihood-ratio chi-square) test and the generalised Fisher exact (Fisher-Freeman-Halton) test. All three tests indicate the degree of independence between the variables that make up the table. The generalised Fisher exact test is difficult to compute (Mehta and Patel, 1983, 1986a); it may take a long time and it may not be computed for the table that you enter. If the Fisher exact method cannot be computed practically then a hybrid method based upon Cochrane rules is used (Mehta and Patel, 1986b); this may also fail with large tables and/or numbers. The Fisher-Freeman-Halton result is quoted with just one P value as it is implicitly two-sided. Relating the Fisher-Freeman-Halton statistic to the Pearson Chi-square statistic: The null hypothesis is independence between row and column categories. Let t denote a table from the set of all tables with the same row and column margins. Let D(t) be the measure of discrepancy. The exact two sided P value = P [D(t) >= D(t observed)] = sum of hypergeometric probabilities of those tables where D(t) is larger than or equal to the observed table. In large samples the distribution of D(t) conditional on fixed row and column margins converges to the chi-square distribution with (r-1)(c-1) degrees of freedom. The G-square statistic is less reliable than the chi-square statistic when you have small numbers. In general, you should use the chi-square statistic if the Fisher exact test is not computable. Yates' continuity correction improves the approximation of the discrete sample chi-square statistic to a continuous chi-square distribution (Armitage and Berry, 1994): If you consult a statistician then it would be useful to provide the G-square statistic also. These tests of independence are suitable for nominal data. If your data are ordinal then you should use the more powerful tests for trend (Armitage and Berry, 1994; Agresti, 2002, 1996).
Ďalšie chi2 testy Pre párové proporcie (excelovský list „Párový chí2 test“) použijeme McNemarov chi2 test Cochran-Mantel-Haenszelov test pre stratifikované 2 x 2 tabuľky pri fixných efektoch (napr. chceme porovnať výsledky klinických štúdií rovnakého typu ale publikovaných rôznymi autormi/tímami) Touto analýzou kontrolujeme tzv. confounding (vplyv „tretej premennej/premenných“). Dáta stratifikujeme do dvoch alebo viacerých úrovní tretej kategorickej premennej (excelovský list „Cochran-Mantel-Haenszel "). Týmto postupom môžeme odhaliť aj modifikáciu efektu. Zovšeobecnený (generalised) Cochran-Mantel-Haenszelov test – pre stratifikované r x c tabuľky Confounding is a distortion of the association between an exposure and an outcome that occurs when the study groups differ with respect to other factors that influence the outcome. Unlike selection and information bias, which can be introduced by the investigator or by the subjects, confounding is a type of bias that can be adjusted for in the analysis, provided that the investigators have information on the status of study subjects with respect to potential confounding factors. Effect modification is distinct from confounding; it occurs when the magnitude of the effect of the primary exposure on an outcome (i.e., the association) differs depending on the level of a third variable. Three generalised tests for association between row and column classes are offered for stratified r by c tables produced in the crosstabs function when you specify a third (stratum, controlling for) classifier (Agresti, 2002; Landis et al., 1978, 1979). The first test (ordinal association) assumes that there is meaningful order to both the columns and rows of each r by c table. The second test (ordinal columns vs. nominal rows) assumes that there is meaningful order in the columns of each r by c table. The third test (nominal association) does not assume any order in rows or columns; it provides a general test of association between the row and column classifiers.
Exaktné testy Binomické rozdelenie využívame pre testovanie pravdepodobnosti, že „r“ pozorovaní z celkového počtu „n“ (r/n) prevýši očakávanú hodnotu Pre 0,5 (t.j. šanca 50:50) použijeme znamienkový test (Exact sign test). Nulová hypotéza znie: pozorovaná proporcia nie je odlišná od 0,5. Pre očakávanú hodnotu inú než 0,5 použijeme binomický test – inak tiež test jednej proporcie (The single proportion test (binomial test) (excelovský list „Test proporcií“). Fisherov exaktný test použijeme, ak v tabuľke 2 x 2: je ktorákoľvek očakávaná hodnota menšia ako 1 alebo 20% všetkých očakávaných hodnôt je menších alebo rovných 5. Podmienka: riadkové a stĺpcové súčty sú fixné (často kontroverzné) Zovšeobecnený Fisherov test (The generalised Fisher exact test - The Fisher-Freeman-Halton test) použijeme pre tabuľku r x c. Pre párované proporcie použijeme Liddellov test
Príklad pre chi2 test nezávislosti Výskumná otázka: Sú preferencie odpovedí pacientov rovnaké u mužov aj u žien? Inými slovami, sú preferencie závislé na pohlaví? Otázka v dotazníku: Čo považujete za najväčší nedostatok v zdravotnej starostlivosti? Kvalitu, dostupnosť alebo je odpoveď „neviem“? (zvoľte jednu odpoveď) Druhá kategória je Pohlavie: Muž Žena Vzorka: 105 náhodne vybraných pacientov po hospitalizácii v zvolenom zdravotníckom zariadení
Excel pre test nezávislosti Pripraviť si frekvenčnú tabuľku aktuálnych početností typov odpovedí pre obe pohlavia. Zistiť súčty pre riadky a stĺpce. Dopočítať očakávané početnosti pre obe pohlavia podľa vzorca (excelovský príklad, list „Test nezávislosti pokr“). kde: Aij = aktuálna početnost v i-tom riadku a j-tom stĺpci Eij = očakávaná početnost v i-tom riadku a j-tom stĺpci r = počet riadkov c = počet stĺpcov Yatesova korekcia na spojitosť : odpočíta 0,5 z absolútnej hodnoty každej dvojice v čitateli ( Aij- Eij -0,5)2 Kritické hodnoty štatistiky chi2 určujeme z tabuliek rozdelenia chi2, čo je spojité rozdelenie. Vzhľadom na to, že pracujeme s celočíselnými hodnotami, rozdelenie pravdepodobnosti štatistiky chi2 je v skutočnosti diskrétne a kritické hodnoty za určitých okolností nebudú správne. Tento efekt je dôležitý predovšetkým pre df =1, pri vyšších počtoch stupňov voľnosti je zanedbateľný.
Nominálna nezávislosť: Chi2 = 4,851, DF = 2, P = 0,0884 Fisher-Freeman-Haltonov exaktný test: P = 0,0884
Testovanie hypotézy Ho: Muži a ženy majú rovnaké rozdelenie „preferencií“ t.j. početností odpovedí v kategórii „Hodnotenie nedostatkov v zdravotnej starostlivosti“. Ha: Muži a ženy nemajú rovnaké rozdelenie „preferencií“ t.j. početností odpovedí v kategórii „Hodnotenie nedostatkov v zdravotnej starostlivosti“. Testujeme na hladine významnosti alfa = 0,05
Bunka (fx) > kategória štatistické (funkcie) > CHITEST (resp Bunka (fx) > kategória štatistické (funkcie) > CHITEST (resp. CHISQ.TEST) Zadať pole aktuálnych počtov a pole očakávaných počtov Existuje rozdiel medzi mužmi a ženami v skutočnom (aktuálnom) rozložení preferencií (úrovní kategorickej premennej) a tým, koľko by sme očakávali pri podobných preferenciách? Je tento rozdiel dosť veľký na to, aby sme urobili štatistický záver o závislosti preferencií na pohlaví, alebo mohol byť tento rozdiel spôsobený náhodnou chybou? Testová štatistika: chi2 = 4,85, df = (3-1)*(2-1) =2 Výstup je hodnota pravdepodobnosti P=0,088
Interpretácia výsledku testovania Pozrieť na hodnotu pravdepodobnosti, ktorá je „prepojená“ s hodnotou testovej štatistiky (chi2 = 4,85) p = 0,088 Záver: Zamietame alebo akceptujeme nulovú hypotézu na hladine významnosti alfa = 0,01? Akceptujeme nulovú hypotézu a zamietame alternatívnu. Medzi mužmi a ženami nie je významný rozdiel v termínoch preferencií t.j. početností odpovedí v kategórii „Hodnotenie nedostatkov v zdravotnej starostlivosti“. Stačí? Nestačí! (Štatistická významnosť nie je klinická/praktická významnosť). Interpretujeme ďalej...preštudovaním konkrétnych početností v bunkách tabuľky. Rozhodnite, ktorou cestou „čítate“ tabuľku (podľa usporiadania oboch kategórií: stĺpce vs. riadky) a popíšte charakter rozdielov medzi podskupinami (pohlaviami). Všímajte si bunky s veľkými rozdielmi medzi aktuálnymi (pozorovanými) a očakávanými hodnotami (percentami).
Interpretácia výsledku z popisnej štatistiky Záver začíname “spomedzi…/z” a doplníme názov „riadkovej“ kategorickej premennej (typ odpovede) alebo stĺpcovej (pohlavie). Keď čítame po riadkoch, čítame pozdĺž “vnútri-riadkovej” premennej. Keď čítame po stĺpcoch, čítame nadol “vnútri-stĺpcovej“ premennej. Záver: zdá sa, že muži najviac volili „dostupnosť“ a ženy „kvalitu“ (Čítanie nadol stĺpcami) Ďalej, z pacientov, ktorí preferovali kvalitu bolo 40% mužov a 60% žien. Z pacientov, ktorí preferovali dostupnosť bolo 61% mužov a 39% žien. Nerozhodnutých mužov bolo viac (27%) ako nerozhodnutých žien (18%) (Čítanie pozdĺž riadkov) Celkovo sme náhodným výberom pacientov „zabezpečili“ približne rovnaké zastúpenie žien (47,6%) aj mužov (52,4) (pozn. možno overiť znamienkovým testom )