Download presentation
Presentation is loading. Please wait.
1
Základné pojmy a štatistická terminológia
Deskriptívna štatistika Iveta Waczulíková Peter Slezák Fakulta matematiky, fyziky a informatiky UK Ústav simulačného a virtuálneho medicínskeho vzdelávania LF UK Populácia je zadaná presným stanovením všetkých jej prvkov (ich vymenovaním, alebo vymenovaním niektorých ich spoločných vlastností) napr.: demografické štúdie – ľudia žijúci na príslušnom území, deti mladšie ako 10 rokov, pacienti s DM atď. (nekonečné – hladina cholesterolu vo vzorke, môžeme ju zmerať nekonečne veľa krát...)
2
Sebahodnotenie Kedy použijete štandardnú (smerodajnú) odchýlku SD (standard deviation) a kedy strednú chybu priemeru SEM (standard error of mean)? Aký je rozdiel medzi hladinou významnosti alfa a pravdepodobnosťou p (p – value)? Ako je formulovaná nulová (výskumná) hypotéza a (komplementárne) ako alternatívna? Aké sú predpoklady použitia studentovho t – testu a čo sa tu testuje? Aký je rozdiel medzi koreláciou a lineárnou regresiou? Aký je rozdiel medzi senzitivitou a špecificitou diagnostického testu? Aký je rozdiel medzi pomerom šancí OR (odds ratio) a pomerom rizík RR (risk ratio)?
3
Namiesto úvodu http://www.hsl.unc.edu/Services/Tutorials/EBM/
Sidney Harris
4
Úvod do metodológie medicínskeho výskumu Výskumný zámer a experimentálny / klinický dizajn
Pátrame po efekte (o ktorom máme východiskovú predstavu)
5
Efekt Ak je zmena v jednej premennej (charakteristike / znaku / faktore) spojená so zmenou v druhej premennej, hovoríme o efekte. Tieto zmeny môžu byť kvantitatívne alebo kvalitatívne. Typ zmeny a hypotéza o zmene podmieňuje výber štatistickej procedúry Väčšina biomedicínskeho výskumu je zacielená na rozpoznávanie efektov a porozumenie ich podstaty. 3. Hypotézy nezávislosti: skúmame, či a aké sú závislosti medzi niekoľkými rôznymi premennými (znakmi) (typ grafu: závislá premenná od nezávislej) 2. Hypotézy významnosti rozdielov: porovnávame niekoľko náhodných výberov a skúmame, či pochádzajú z tej istej populácie, alebo z niekoľkých rôznych (typ grafu: rozloženie početností jednej premennej) 1. Hypotézy zhody: do akej miery je náš výber reprezentatívny pre populáciu, z ktorej pochádza (funkcia hustoty modelového rozloženia vs. rozloženie experimentálnych dát) (rozdiely medzi strednými hodnotami, kontingenčné tabuľky, korelačné koeficienty...)
6
V biológii, medicíne (a iných vedách) výsledok náhodného pokusu je vyjadrený reálnym číslom
Tieto čísla vytvárajú reálne náhodné veličiny (premenné) Ako často konkrétne hodnoty náhodnej veličiny nastávajú, je matematicky exaktne popísané – rozdelenie pravdepodobnosti Rozdelenie pravdepodobností môžeme popísať pomocou – distribučnej funkcie; funkcie hustoty rozdelenia pravdepodobnosti (u spojitej veličiny)
7
Vzťah pravdepodobnosti ku skutočnosti, rozdelenia pravdepodobností
Náhodný pokus je pokus konaný za presne definovaných podmienok, výsledok pokusu je dopredu neistý, ale opakovaním pokusu zisťujeme stabilitu frekvencie výskytu možných výsledkov. Teoretický idealizovaný opis – model skutočnosti. Náhodný jav je ľubovoľné tvrdenie o výsledku náhodného pokusu (jav nemožný, jav pravdepodobný, jav istý). Pravdepodobnosť môžeme formálne zaviesť tak, že každému z elementárnych javov j priradíme nezáporné číslo pj tak, že ich súčet je rovný jednej. Náhodná veličina je všeobecne funkcia, ktorá každému elementárnemu javu priradí hodnotu X() z nejakej množiny možných číselných hodnôt. Pre náhodnú veličinu X tvorí zoznam „dvojíc“ hodnôt x*j a pj (j=1...m) rozdelenie pravdepodobností náhodnej veličiny X (diskrétne alebo spojité). Chovanie náhodnej veličiny môžeme niekedy úplne popísať tak, že vymenujeme všetky možné hodnoty náhodnej veličiny a aj pravdepodobnosti, s ktorými môžu tieto hodnoty nadobúdať (pokus s konečným počtom možných výsledkov). Dvojíc (hodnota x*j a jej pravdepodobnosť pj) pre náhodnú veličinu X môže byť všeobecne menej ako počet všetkých hodnôt (n), pretože niektoré hodnoty sa môžu opakovať. Preto indexujeme „m“ hodnôt a „x“ značíme hviezdičkou. Diskrétny pravdepodobnostý priestor je trojica (omega,A,P), kde · omega je množina všetkých elementarnych javov · A je množina možných javov (platí A ⊂ 2na omega) · P je pravdepodobnosť , t.j. funkcia P : A → [0, 1]
8
Užitočné vedieť „Likelihood is the hypothetical probability that an event that has already occurred would yield a specific outcome. The concept differs from that of a probability in that a probability refers to the occurrence of future events, while a likelihood refers to past events with known outcomes.“ (Fisher)
9
Otázka na niečo, čo vieme ZMERAŤ a vyjadriť číslom (skórami)
Rešerš, predbežné experimenty Výskumná hypotéza – kvalifikovaný odhad o tom, ako fungujú veci. Schéma experimentu, „logistika“. Plánujeme potrebný počet nezávislých pokusov, ktoré môžeme spresniť opakovaním („paralelky“). V experimente testujeme, či dáta podporujú hypotézu. Najlepšie tzv. „fér testom“ – meníme len jeden faktor (NZ premenná) za konšt. podmienok (kontrolné faktory sú konštantné). Ask a Question: The scientific method starts when you ask a question about something that you observe: How, What, When, Who, Which, Why, or Where? And, in order for the scientific method to answer the question it must be about something that you can measure, preferably with a number. Your Question Do Background Research: Rather than starting from scratch in putting together a plan for answering your question, you want to be a savvy scientist using library and Internet research to help you find the best way to do things and insure that you don't repeat mistakes from the past.Background Research Plan Finding Information Bibliography Research Paper Construct a Hypothesis: A hypothesis is an educated guess about how things work: "If _____[I do this] _____, then _____[this]_____ will happen."You must state your hypothesis in a way that you can easily measure, and of course, your hypothesis should be constructed in a way to help you answer your original question. Variables Variables for Beginners Hypothesis Test Your Hypothesis by Doing an Experiment: Your experiment tests whether your hypothesis is supported or not. It is important for your experiment to be a fair test. You conduct a fair test by making sure that you change only one factor at a time while keeping all other conditions the same.You should also repeat your experiments several times to make sure that the first results weren't just an accident. Experimental Procedure Materials List Conducting an Experiment Analyze Your Data and Draw a Conclusion: Once your experiment is complete, you collect your measurements and analyze them to see if they support your hypothesis or not.Scientists often find that their hypothesis was not supported, and in such cases they will construct a new hypothesis based on the information they learned during their experiment. This starts the entire process of the scientific method over again. Even if they find that their hypothesis was supported, they may want to test it again in a new way. Data Analysis & Graphs Conclusions Communicate Your Results: To complete your science fair project you will communicate your results to others in a final report and/or a display board. Professional scientists do almost exactly the same thing by publishing their final report in a scientific journal or by presenting their results on a poster at a scientific meeting. In a science fair, judges are interested in your findings regardless of whether or not they support your original hypothesis.Final Report Abstract Display Board Science Fair Judging Even though we show the scientific method as a series of steps, keep in mind that new information or thinking might cause a scientist to back up and repeat steps at any point during the process. A process like the scientific method that involves such backing up and repeating is called an iterative process. Throughout the process of doing your science fair project, you should keep a journal containing all of your important ideas and information. This journal is called alaboratory notebook. Vyhodnotenie dátového súboru: deskripcia, testovanie štatistických hypotéz, Formulovanie záverov, nových hypotéz Záverečná správa, prezentácie, publikácie = nezávislé kritické posúdenie výsledkov
10
k testovaniu štatistických hypotéz
Výskumné otázky vedú k testovaniu štatistických hypotéz An experiment is a test designed to discover something not yet known. An experiment fails only when nothing is learned. It is usually (some would say definitively) the result of improper design of the experiment. Sample size determines precision, not accuracy. The selection process determines the accuracy (or validity) The first step in the analysis of a focal relationship is to determine whether there is an empirical association between its two component variables. This objective is accomplished by means of bivariate analysis. Bivariate analysis is the simultaneous analysis of two variables. It is used to test for the association of an independent and dependent variable - whether the values of the dependent variable tend to coincide with those of the independent variable. In most instances, the association between two variables is assessed with a bivariate statistical technique (see below for exceptions). The three most commonly used techniques are contingency tables, analysis of variance (ANOVA), and correlations. Bivariate analyses can be completed by constructing two-way tables with columns for one variable, usually the independent variable, and rows for the dependent variable. Bivariate relations can also be tested using statistical measures of association. The way bivariate analyses are done depends on the level of measurement used for each variable. Different methods are used for variables measured at the nominal, ordinal, and interval or ratio levels. For nominal or ordinal variables, cross classification or contingency tables generally are used to present results. Results in bivariate tables are usually expressed in percentages. To read percentages, first determine the direction in which the percentages were calculated — either down the columns or across the rows - and then compare percentages in the opposite direction. If the percentages add to 100% or close to this going down the columns, compare percentages across the rows; do the reverse if percentages add across the rows. In bivariate tables based on ordinal measurements, the direction of association can be interpreted as positive or negative. The basic bivariate analysis is then usually extended to a multivariate form to evaluate whether the association can be interpreted as a relationship. Multivariate analysis is the simultaneous analysis of three or more variables. It is frequently used to see whether a relationship between two variables remains when a third variable, called the control variable, is taken into account. Multivariate analyses are also done to determine the separate and joint effects of two variables upon a dependent variable.
11
Hypothesis tests are procedures for making rational decisions about the reality of effects.
Väčšina rozhodnutí v živote vyžaduje výber jednej z viacerých možných alternatív. Takéto rozhodnutie je urobené bez znalosti toho, či je korektné alebo nie; teda je založené na nekompletnej informácii. Racionálne rozhodovanie (decízia) je charakterizované použitím procedúry, ktorá do rozhodovacieho procesu včlení šancu/pravdepodobnosť (likelihood/probability) nastatia daného javu (napr. úspechu liečby). Procedúra musí byť zostavená takým spôsobom, aby každý, kto použije rovnakú informáciu, dospel k tomu istému rozhodnutiu.
12
Predpoklady úspešného výskumu:
komunikujem so školiteľom/vedúcim tímu, mám(e) zmysluplný vedecký zámer a z neho vyplývajúce otázky a hypotézy, viem, čo hľadáme (efekt, koncový bod) a prečo (čo sa má stať, až to potvrdíme) Mám kvalitný dizajn experimentálnej (klinickej) štúdie: - viem, ako efekt zmeriam (priame, nepriame, náhradné ukazovatele), - viem, aké faktory by mali/mohli pôsobiť na výsledok koncový bod (efekt, koncový bod), viem, ktoré musím zmerať a zaznamenať pre môj model, viem, aké typy analýz dát potrebujem vykonať - mám podľa uvedeného premyslený typ štúdie, štruktúru, včleňovacie a vylučovacie kritériá, spôsob priradenia do skupín, - mám odhadnutú potrebnú veľkosť súboru z hlavného ukazovateľa efektu alebo podľa „najhoršieho scenára“ Mám súhlas etickej komisie (štúdia na ľuďoch) alebo Štátnej veterinárnej správy (štúdia na zvieratách) Mám svedomito zmerané (zozbierané) dáta a pripravenú databázu (zakódované subjekty, označené skupiny, formát a kontrola dát (filtrovanie dát), usporiadanie...
13
Pripomenutie zásad vedeckej práce
Detailný plán projektu
14
Základné štatistické pojmy – vysvetlenie
Štatistický súbor je neprázdna konečná množina objektov, ktoré majú spoločné vlastnosti. Rozsah súboru n je počet všetkých prvkov množiny. Štatistické jednotky alebo prvky štatistického súboru sú prvky zvolenej množiny. Štatistické údaje (dáta) sú kvantitatívne údaje zistené skúmaním hromadných javov. Štatistický znak je spoločná vlastnosť štatistických jednotiek (značí sa obvykle x). Hodnoty znaku - jednotlivé údaje znaku - označíme x1, x2 ... x3 Delenie znakov - kvantitatívne a kvalitatívne Zisťovanie hodnôt volených znakov v určitom štatistickom súbore sa nazýva štatistické šetrenie. Prostý – každý prvok z populácie má rovnakú šancu byť vybratý Oblastný – populácia rozdelená do skupín (vo vnútri sú tieto skupiny homogénne – v znakoch sa nelíšia),(medzi sebou heterogénne – líšia sa v znakoch). Oblasti sú vytvorené napríklad územnými celkami, vekovými skupinami, socioekonomickými skupinami). Z každej oblasti vyberieme vzorku metódou prostého/mechanického výbreru Skupinový – veľké populácie – nevyberáme jednotlivcov ale skupiny, kt. sú medzi sebou homogénne (rodiny, školy, podniky, obce, okresy) a heterogénne vo vnútri. – prítomná Hierarchická štruktúra vyberáme náhodne na každom stupni až sa dostaneme k štatistickej jednotke (mestá – bloky - domy – domácnosti)
15
Praktické použitie štatistiky v dvoch rovinách
Deskriptívna (popisná) štatistika - umožňuje pozorované dáta redukovať na „uchopiteľné“ štatistické parametre – reprezentatívnu hodnotu a rozptyl. Grafická prezentácia rozdelenie dát rozdelenie pravdepodobností (štatistické rozdelenie) a Induktívna (inferenčná) štatistika - umožňuje z pozorovaných dát vytvárať všeobecne platné závery, s uvedením stupňa ich spoľahlivosti. závery induktívnej štatistiky - sú objektívne pretože sú založené na poznatkoch teórie pravdepodobnosti a nezávisia na subjektívnom názore hodnotiteľa!!!!!
16
Populácia (základný súbor) - konečný rozsah - nekonečný rozsah
Parameter (populačná charakteristika) – je číselná charakteristika populácie (napr. priemerná výška mužov na Slovensku). Jej presná hodnota je obvykle neznáma. Populácia je zadaná presným stanovením všetkých jej prvkov (ich vymenovaním, alebo vymenovaním niektorých ich spoločných vlastností) napr.: demografické štúdie – ľudia žijúci na príslušnom území, deti mladšie ako 10 rokov, pacienti s DM atď. (nekonečné – hladina cholesterolu vo vzorke, môžeme ju zmerať nekonečne veľa krát...)
17
Populácia a výber – vysvetlenie pojmov
základný súbor-populácia parameter pravdepodobnosť populačný priemer (reprezentatívna hodnota parametra) populačná smerodajná odchýlka (premenlivosť parametra v populácii) výber zo základného súboru (náhodný výber) odhad parametra (štatistika) relatívna početnosť (ni/N) výberový priemer výberová smerodajná odchýlka Populácia, ináč základný súbor, je množina všetkých možných prvkov, respondentov, vyhovujúca fenoménu nášho záujmu. Priemer a SD pre NORMÁLNE rozdelené dáta Medián a kvartily pre asymetricky rozdelené dáta Parametre nahradzujú výber – rozdelenie dáva kompletnú informáciu o pravdepodobnosti výskytu danej hodnoty premennej v danej populácii 17
18
Pohľad na svet prostredníctvom dát
J. R. Statist. Soc. A (2011), 174, Part 2, pp. 247–295
19
Populačný parameter sa snažíme odhadnúť na základe deskripcie výberu z populácie. Presnosť odhadu závisí od kvality experimentálneho dizajnu (metóda výberu, jeho veľkosť (početnosť), merané alebo zaznamenávané charakteristiky apod. Výber (z populácie) Reprezentatívny výber – výber, kt. dobre odráža štruktúru skúmanej populácie Selektívny výber (nereprezentatívny) – dáva skreslený výber o študovanej populácii Zámerný výber - presnosť zovšeobecňujúcich záverov sa opiera o expertné hľadisko (skôr ako o štatistickú metodológiu) Príklad selektívneho výberu – súbor profesionálne športujúcich basketbalistov vo veku 17 – 18 rokov, z ktorého chceme uskutočniť záver o výške chlapcov vo veku 17 – 18 rokov na Slovensku.
20
Náhodný výber Prostý Mechanický (systematický)
Oblastný (stratifikovaný) Skupinový Viacstupňový Následný experiment/štúdia – zber dát, tvorba a analýza dátového súboru Prostý – každý prvok z populácie má rovnakú šancu byť vybratý Oblastný – populácia rozdelená do skupín (vo vnútri sú tieto skupiny homogénne – v znakoch sa nelíšia),(medzi sebou heterogénne – líšia sa v znakoch). Oblasti sú vytvorené napríklad územnými celkami, vekovými skupinami, socioekonomickými skupinami). Z každej oblasti vyberieme vzorku metódou prostého/mechanického výbreru Skupinový – veľké populácie – nevyberáme jednotlivcov ale skupiny, kt. sú medzi sebou homogénne (rodiny, školy, podniky, obce, okresy) a heterogénne vo vnútri. – prítomná Hierarchická štruktúra vyberáme náhodne na každom stupni až sa dostaneme k štatistickej jednotke (mestá – bloky - domy – domácnosti)
21
Premenné/znaky (variables)
Aby sme mohli matematické uvažovanie aplikovať na klinický obraz pacienta, MRI, CT, EKG, bezpečnosť (safety profile), terapeutický účinok (efficacy trend), účinnosť terapeutického postupu (effectiveness)... musia byť redukované na premenné: Merania: teplota, TK … Počty: WBC, ... Skóre: Papanicolaou, Karnofsky, EDSS, Kurtzke... Binárne: úspech success / neúspech failure (čoho) ... Pojem NÁHODNÁ PREMENNÁ
22
Premenné – základné definície
všeobecnejšie ju možno definovať ako veličinu, ktorá môže nadobúdať rôzne hodnoty. V štatistike sa vzťahuje na MERATEĽNÚ vlastnosť, ktorá sa v čase alebo medzi objektami/subjektami typicky mení. Typy premenných: Číselné premenné – (možno zmerať) spojité (koncentrácia onkomarkera) a intervalové (vek) Vyznačujú sa reprezentatívnou (strednou) hodnotou (najčastejšie vyjadrenou ako priemer alebo medián) a mierou premenlivosti (smerodajná odchýlka k priemeru alebo dolný a horný kvartil k mediánu) Kategorické premenné (možno zaradiť) Nominálne – klasifikujú nejakú vlastnosť (genotyp) Ordinálne – určujú stupeň vlastnosti (cancer staging). Charakterizujú sa početnosťami (%) v jednotlivých kategóriách
23
závislé premenné – ich hodnoty môžeme len zmerať alebo registrovať (experimentátor nemá vplyv na to, akú hodnotu prijmú, napr. registrujeme, ako sa objekt zachová na zmenu zadanú experimentátorom). Časté v observačných štúdiách. nezávislé premenné – ich hodnoty môžeme počas experimentu nastaviť, alebo meniť (sú manipulované experimentátorom, alebo môže ísť o grupovanie-zaradenie do skupín podľa veku, pohlavia (stratifikácia) ap). Sú nezávislé od počiatočných podmienok, vlastností, „sklonov” skúmaných objektov. Časté v randomizovaných kontrolovaných štúdiách. (regresia) Definícia nie je jednoznačná, Premenné (znaky) – hodnoty, ktoré meriame, kontrolujeme alebo ktorými istým spôsobom manipulujeme počas experimentu. (V observačných štúdiách zaznamenávame a triedime) Môžeme ich klasifikovať do rôznych kategórií v závislosti od uvažovaného kritéria - akú úlohu plní parameter v experimente, typ funkčnej závislosti parametra, akú škálu možno použiť ap.) Rozdiel premenná ↔ parameter definícia v špeciálnych vedách – nezávisle premenná je predpokladaná príčina (antecedent) závislej premennej, t.j. predpokladaného účinku (konzekvent) definícia v matematike – funkčná závislosť závislej premennej Y na nezávislej premennej X. (Inými slovami je to predikcia Y z X, regresia Y na X...vyhýbame sa tak problematickému vzťahu „príčina-následok”)
24
Závislá vs. nezávislá premenná príklad predikčného modelu
Chi2 test dobrej zhody medzi experimentálnym a modelovým výsledkom pre df=48: nesignifikantný (P >0,999) Chi2 test maximálnej vierohodnosti modelu pre df=6: vysoko signifikantný (P < 0,0001) logit y = - 0,38 - 0,24 x (vek) + 1,25 x (TD) - 7,30 x (SM grade) + 4,28 x (AVM skóre) - 7,04 x (embolizácia) + 1,42 x (iniciálna rýchlosť obliterácie) 25 50 75 100 1-špecificita Senzitivita / % Hraničný (cut-off) bod = 0,5 Senzitivita 92% Špecificita 94% Pomer pravdepodobností pravdivého odhadu 16,5 Pozitívna predikčná hodnota testu je 97,14%.
25
Premenné-klasifikácia
Premenné (znaky) primárneho záujmu – nezávislé premenné, ktoré nazývame faktory a ktoré meriame a/alebo nimi istým spôsobom manipulujeme počas experimentu (kontrolujeme). V observačných štúdiách zaznamenávame a triedime. Očakávame, že sú zdrojom variability v sledovanej odpovedi (v závislej premennej). Pozadie (background, baseline, skresľujúce (confounders), modifikujúce faktory, covariates..) – ich hodnoty (úrovne) môžeme merať (identifikovať), ale nemôžeme ich kontrolovať. Ich zahrnutím do modelu však odstránime variabilitu, ktorú vnášajú do odpovede (hodnoty závislej premennej). Konštantné premenné môžeme merať aj kontrolovať, ale z rôznych dôvodov ich držíme konštatntné počas trvania štúdie. Nekontrolovateľné (hard-to-change) premenné, premenné, o ktorých existencii sa vie, ale ktorými sa kvôli podmienkam nedá manipulovať, alebo je ťažké ich merať. Ich vplyv sa čiastočne eliminuje vhodných dizajnom (rozloženie vplyvu v podskupinách, resp. Experimentálnej a kontrolnej skupine randomizovaným výberom a zaslepením - blinding).
26
Efekt - pripomenutie Ak je zmena v jednej premennej (charakteristike / znaku / faktore) spojená so zmenou v druhej premennej, hovoríme o efekte. Tieto zmeny môžu byť kvantitatívne alebo kvalitatívne. Typ zmeny a hypotéza o zmene podmieňuje výber štatistickej procedúry Väčšina biomedicínskeho výskumu je zacielená na rozpoznávanie efektov a porozumenie ich podstaty. 3. Hypotézy nezávislosti: skúmame, či a aké sú závislosti medzi niekoľkými rôznymi premennými (znakmi) (typ grafu: závislá premenná od nezávislej) 2. Hypotézy významnosti rozdielov: porovnávame niekoľko náhodných výberov a skúmame, či pochádzajú z tej istej populácie, alebo z niekoľkých rôznych (typ grafu: rozloženie početností jednej premennej) 1. Hypotézy zhody: do akej miery je náš výber reprezentatívny pre populáciu, z ktorej pochádza (funkcia hustoty modelového rozloženia vs. rozloženie experimentálnych dát) (rozdiely medzi strednými hodnotami, kontingenčné tabuľky, korelačné koeficienty...)
27
Vzťahy medzi závislou a nezávislou premennou
Príklad: vyliečenie AVM v mozgu Nemá zmysel sledovať len závislosť na zmeranom objeme ale aj vplyv lokalizácie (prístupnosť pre chirurgický zákrok) In statistics, a mediation model is one that seeks to identify and explicate the mechanism that underlies an observed relationship between an independent variable and a dependent variable via the inclusion of a third explanatory variable, known as a mediator variable. Rather than hypothesizing a direct causal relationship between the independent variable and the dependent variable, a mediational model hypothesizes that the independent variable causes the mediator variable, which in turn causes the dependent variable. The mediator variable, then, serves to clarify the nature of the relationship between the independent and dependent variables (MacKinnon, 2008). While the concept of mediation as defined within psychology is theoretically appealing, the methods used to study mediation empirically have been challenged by statisticians and epidemiologists[1][2] and formally derived by Pearl (2001)[3]. A simple statistical mediation model 27
28
Confounding „confounder“ = zavádzajúci faktor, je premenná, ktorá je asociovaná s rizikovým faktorom a je nezávislým rizikovým faktorom pre meraný výsledný efekt (koncový ukazovateľ - outcome) Nosenie zápaliek Rakovina pľúc fajčenie Ischemická Choroba Srdca – synonymum je CHD coronary heart disease, CAD coronary artey disease.Tiež mätúci, zahmlievajúci, rušivý faktor V multivariačných (multivariable) analýzach je potrebné na „confounder“ adjustovať model, aby sme získali „očistený“ vplyv sledovaného rizikového faktora (často ho ponechávame v modeli, aj keď „nevyjde“ signifikantný)
29
Faktor potlačujúci efekt (suppressor)
Faktor v príčinnej postupnosti (intervening factor) Zástupný faktor (surrogate factor) Typ súbežne pôsobiaceho faktora V bivariačnej analýze nezistíme vzťah medzi expozíciou (napr. rizikovým faktorom) a následkom. Po adjustácii na supresor sa vplyv expozície prejaví. Môže znemožniť detekciu efektu Suppression is defined as "a variable which increases the predictive validity of another variable (or set of variables) by its inclusion in a regression equation"[5]. For instance, if you are set to examine the effect of a treatment (e.g. medication) on an outcome (e.g. healing from a disease), a suppression would mean that instead of the drop that you would see from the direct effect of the treatment on the outcome when the mediator is introduced, the opposite happens. The inclusion of the mediating variable into the equation increases the relation between the treatment and outcome rather accounts for (decreases in terms of the size of the statistical relation). Zástupný: Majú predpovedaciu silu bez priamej biologickej súvislosti/mechanizmu s následkom (ochorením) Socioekonomické, demografické faktory Intervenujúci: Nachádza sa v príčinnej postupnosti od sledovaného rizikového faktora k výslednému efektu Štatisticky neodlíšiteľný od „confoundera“ Pri zisťovaní vplyvu rizikového faktora nemôžeme model adjustovať na intervenujúcu premennú, pretože by sme tým potlačili alebo úplne odstránili vplyv sledovaného rizikového faktora. Mediátor: Vzťah expozície/rizikového faktora k výslednému efektu je rôzny pre rôzne úrovne modifikujúceho faktora Nemôže byť považovaný za „confounder“ Faktor modifikujúci účinok (mediating variable, modifier) 29
30
Vzájomne korelované faktory (problém multikolinearity)
Neznižujú predikčnú schopnosť a spoľahlivosť modelu ako celku, ale zväčšujú štandardné chyby prediktorov. Pr: lipoproteíny: LDL s HDL resp. s celkovým cholesterolom; morfometrické údaje, vek/výška u detí apod. Rizikový faktor Efekt Faktor(y) korelujúce s vybraným rizikovým f. Závažná multikolinearita pri r nad 0,75 resp. 0,8! Faktor skorelovaný s expozíciou ale nie s efektom Dôležitá je voľba UKAZOVATEĽA EFEKTU! vyskytujú sa aj v situácii, ak je druhý faktor len matematický prepočet alebo je to kombinované skóre zahŕňajúce prediktor, ktoré je už v modeli použitý. Obvykle stačí použiť jeden (najdôležitejší/najvýznamnejší). Time-dependent and fixed covariates ako napr. fyziologické a biochemické charakteristiky, tumor grade, peritumoral vascular invasion, klesajúci efekt lieku, faktory životného štýlu (napr. kumulovaná expozícia pri fajčení)... In prospective studies, when individuals are followed over time, the values of covariates may change with time. Covariates can thus be divided into fixed and time-dependent. A covariate is time dependent if the difference between its values for two different subjects changes with time; e.g. serum cholesterol. A covariate is fixed if its values can not change with time, e.g. sex or race. Lifestyle factors and physiological measurements such as blood pressure are usually time-dependent. Cumulative exposures such as smoking are also time-dependent but are often forced into an imprecise dichotomy, i.e. "exposed" vs. "not-exposed" instead of the more meaningful "time of exposure". There are no hard and fast rules about the handling of time dependent covariates. If you are considering using Cox regression you should seek the help of a Statistician, preferably at the design stage of the investigation. Časovo-závislé faktory ich odlíšenie od fixných faktorov je dôležité pri analýzach prežívania 30
31
Typ funkčnej závislosti premenných
diskrétne premenné sa menia skokom a môžu prijímať len definované hodnoty celých/racionálnych čísel (typické pre nominálne a ordinálne veličiny, viď ďalej) spojité premenné môžu prijať ľubovoľné hodnoty obvykle z definovaného intervalu reálnych čísel
32
Mierka (úrovne merania/pozorovania)
nominálna, ordinálna, intervalová, pomerová diskrétna, spojitá (continuous)
33
nominálna – zavedenie disjunktných kategórií (napr
nominálna – zavedenie disjunktných kategórií (napr. binárna škála), ktoré vyčerpávajú všetky možnosti. Neporovnávame, len rozlišujeme (kódovanie slovných úrovní faktoru = hodnôt premennej) ordinálna – podobné požiadavky ako u nominálnej škály, ale naviac je usporiadaná (usporiadaný faktor). intervalová – ešte naviac predpokladá, že medzi susednými usporiadanými hodnotami škály sú v nejakom zmysle rovnaké vzdialenosti. Ide o rozdiel hodnôt. Nula nemusí znamenať neexistenciu vlastnosti/znaku. podielová (pomerná) – najkomplexnejší údaj, ktorý vyjadruje aj násobok predom definovaného jednotkového množstva. Nula znamená neexistenciu vlastnosti/znaku. Disjunktný – vzájomne sa vylučujúci, napr. krvné skupiny A/B/AB/0, pohlavie muž/žena (ak sú možné len 2 hodnoty, je to tzv. binárna škála), (nie je nadradenosť jednej vlastnosti voči inej) Ordinálna: ide o úroveň sledovanej vlastnosti, napr. intenzita bolesti Intervalová: teplota, kalendárový čas (vek), počet tabliet daného analgetika ap. Podielová: vyjadrenie pomocnou reálnych čísel (koncentrácia, výška ap).
34
Vyjadrovacie prostriedky štatistiky
Následný experiment/štúdia – zber dát, tvorba a analýza dátového súboru Grafy a tabuľky
35
Formát dát (simulovaná databáza) Dáta časov a možných prognostických faktorov vybraných 11 pacientov s malígnym nálezom vstup: chirurgická intervencia výstup: úmrtie Pacient Pohlavie (F=1) Vek (roky) Objem (čas 0) (cm3) Perioperačné komplikácie (A=1) GRADE (kumulovane skore) Závažnosť diagnozy (čas 0) Time to event-death (mes) Censor data 2 1 32 5,520 6 63 8 37 3,117 4 49 9 24 5,661 7 10 38 7,218 52 20 31 7,122 74 21 43 2,319 3 26 23 6,510 41 33 4,382 5 66 25 40 8,816 29 34 6,918 13 30 7,058 55 Kódovanie v programe StatsDirect: Cenzurovanie = 0 pre nekompletné dáta označenie * alebo + Cenzurovanie = 1 pre kompletné dáta (udalosť)
36
(Bio)medicínske dátové súbory
Štandardne: na tvorbu databázy za účelom výskumu je potrebný súhlas etickej komisie. Analytikovi sa databáza odosiela BEZ identifikačných údajov pacienta. Prípady treba očíslovať a lekár musí pre seba zachovať zoznam s jednoznačným priradením. Kódy prípadov sú obvykle v prvom stĺpci. Prvý riadok sú popisky meraných/pozorovaných alebo zaznamenaných charakteristík tak, aby boli JEDNOZNAČNE definované pre danú sadu údajov v stĺpci. Jeden znak / jedna charakteristika = jeden stĺpec. Prvý riadok obvykle „berú “ štat. programy automaticky ako hlavičku - pri zdvojených riadkoch a bunkách hlásia chybu) Každý ďalší riadok sú údaje pre konkrétny prípad / subjekt. Ak nebolo meranie realizované, bunka sa označí * alebo ostane prázdna. Medzi používané skratky patrí n.a. (not applicable, N/A, značí sa aj „x“) Kódy a dáta pacientov nasledujú za sebou BEZ PRERUŠENIA, ČI ZLUČOVANIA BUNIEK. Ak je viac skupín, napr. Patológia vs. Kontrola, v druhom stĺpci, hneď za číslom subjektu, je kód skupiny (môže byť aj text). Napr. 1 (aktívne liečený subjekt), 2 (placebo), prípadne ešte 3 (zdravá kontrola). Alebo E (experimentálna skupina) vs. K (kontrolná skupina) Alebo O (operovaní), F (farmakologicky liečení) N (bez liečby) a podobne. Databázu pred odoslaním analytikovi skontrolujeme – využívame exc. funkcie (filter)
37
Formát dát (simulovaná databáza) Dáta časov a možných prognostických faktorov vybraných 11 pacientov s malígnym nálezom vstup: chirurgická intervencia výstup: úmrtie Pacient Pohlavie (F=1) Vek (roky) Objem (čas 0) (cm3) Perioperačné komplikácie (A=1) GRADE (kumulovane skore) Závažnosť diagnozy (čas 0) Time to event-death (mes) Censor data 2 1 32 5,520 6 63 8 37 3,117 4 49 9 24 5,661 7 10 38 7,218 52 20 31 7,122 74 21 43 2,319 3 26 23 6,510 41 33 4,382 5 66 25 40 8,816 29 34 6,918 13 30 7,058 55 Kódovanie v programe StatsDirect: Cenzurovanie = 0 pre nekompletné dáta označenie * alebo + Cenzurovanie = 1 pre kompletné dáta (udalosť)
38
Grafické prezentovanie dát
- Praktické príklady
39
A) kategorické dáta grafické alebo tabuľkové zobrazenie vybranej charakteristiky (znaku, premennej) Prezentácia: stĺpcový graf, kumulatívny stĺpcový graf, koláčový graf
40
Stĺpcové grafy
41
Kumulatívne stĺpcové grafy
42
Koláčové grafy
43
B) Intervalové a spojité dáta
Prezentácia: pre popisnú štatistiku: ak máme malý počet dát (obvykle „n“ do 30): krabicový graf a „spread plot“ ak máme vyššie počty: krabicový graf a histogram (obálka histogramu nám hovorí o pravdepodobnostnom rozdelení dát) Pre identifikáciu odľahlých (extrémnych) hodnôt: prednostne „spread plot“, vhodný aj krabicový graf (ďalej nasleduje test) Pre prezentovanie rozdielov medzi 2 a viac skupinami: stĺpcový graf, krabicový graf (pre vlastným testovaním rozdielov) Pre prezentovanie vzťahov medzi 2 premennými: XY graf = scatter, (pre vlastným testovaním vzťahov) Pre prezentovanie vzťahov medzi viac ako 2 premennými: tabuľka (matica) korelačných koeficientov
44
Histogram Priemer erytrocytov Frequency 10 5 Mid-points for E 6,2 6,4
6,2 6,4 6,6 6,8 7,0 7,2 7,4 7,6 7,8 8,0 8,2 8,4 8,6 Mid-points for E
45
Populačná pyramída
46
Krabicové grafy
47
Spread plot 20 25 30 35 40 pred po skóre testu
48
Bodové grafy 95% Prediction Interval Volume LV [cm3] LFH [mm] 60 40 20
-20 5 10 15 LFH [mm]
49
Spojnicové grafy
50
Ladder plot 20 25 30 35 40 pred po
51
Forest (Meta-Analysis)
52
ROC 1 – specificity tj. Pozitívne diagnostikovaní zdraví jedinci (false positive) Sensitivity – true positive
53
Survival (K-M estimator)
55
Rozdelenia pravdepodobností náhodných premenných v biológii
56
Priemer erytrocytov Frequency 10 5 Mid-points for E 6,2 6,4 6,6 6,8
6,2 6,4 6,6 6,8 7,0 7,2 7,4 7,6 7,8 8,0 8,2 8,4 8,6 Mid-points for E
57
Spojité rozdelenia pravdepodobností
Častejšie sa používa iný popis chovania náhodnej veličiny – distribučná funkcia náhodnej veličiny X. Distribučná funkcia udáva pravdepodobnosť, že náhodná veličina X neprekročí dané x. Pre spojité rozdelenie môžeme distribučnú funkciu zapísať ako integrál z hustoty f(x) nazývanej tiež frekvenčná funkcia. Hodnota f(x) v bode x je úmerná pravdepodobnosti, že náhodná veličina (premenná) padne do blízkeho okolia tohoto bodu (nadobudne definovanú hodnotu- je to početnosť realizácií daného javu) Distribučná funkcia – príklad s kockami Hustota pravdepodobnosti normálneho rozdelenia – charakteristický zvon Binomické – keď opakovane realizujeme nejaký pokus a zisťujeme iba výskyt či absenciu zvoleného javu B. Pokusy musia byť nezávislé. Pravdepodobnosť pre výskyt javu B musí byť v každom pokuse rovnaká. Poissonovo rozdelenie má počet výskytov sledovaného javu v definovanom čase alebo na definovanej ploche (území). Sledovaný jav sa musí vyskytovať zriedkavo (toto rozdelenie sa nazýva aj Zákon vzácnych javov), aby výskyt tohoto javu NEOVPLYVNIL ďalšie možné výskyty v časovom alebo priestorovom okolí. normálne Studentovo chi2 Fisher-Snedecoreovo binomické Poissonovo
58
Distribučná funkcia a hustota pravdepodobnosti
59
Distribučná funkcia (Cumulative distribution function)
Funkcia hustoty pravdepodobnosti (probability density function)
60
Left: The theoretical normal distribution
Left: The theoretical normal distribution. Right: Frequencies of 5,000 numbers randomly generated to fit the normal distribution. The proportions of this data within 1, 2, or 3 standard deviations of the mean fit quite nicely to that expected from the theoretical normal distribution.
61
Normálne rozdelenie 68,28% 95,45% -3 - 3 99,73% z(/2)
Čo je dôležité si uvedomiť – že z tejto funkcie/grafu môžeme spočítať pravdepodobnosť nastatia... Vymedzená plocha pod krivkou... Nastala neobvyklá situácia... Štandardizovať (z skóry) -3 - 3 99,73% z(/2)
62
Normované normálne rozdelenie
63
Probability of getting different numbers of males out of 48, if the parametric proportion of males is 0.5. Pravdepodobnosti výberu rôznych počtov mužov z celkového počtu 48 osôb (mužov a žien) vo výbere, ak uvažujeme parametrickú proporciu mužov rovnú 0,5.
64
Left: The theoretical normal distribution
Left: The theoretical normal distribution. Right: Frequencies of 5,000 numbers randomly generated to fit the normal distribution. The proportions of this data within 1, 2, or 3 standard deviations of the mean fit quite nicely to that expected from the theoretical normal distribution.
65
Left: Frequencies of 5,000 numbers randomly generated to fit a distribution skewed to the right. Right: Frequencies of 5,000 numbers randomly generated to fit a bimodal distribution.
66
Kritické hodnoty (c) normálneho rozdelenia
1- 0,90 0,95 0,99 0,999 0,1 0,05 0,01 0,001 /2 0,025 0,005 0,0005 c=z(/2) 1,645 1,96 2,576 3,291 Výberový priemer je tiež normálne rozdelený (centrálna limitná veta)., preto pravdepodobnosť 1- je súčasne aj koeficient spoľahlivosti pre populačný priemer. Udáva hranice intervalu spoľahlivosti (confidence interval), ktorý má tvar: x c SE(x ) kde „c“ je kritická hodnota a SE je stredná chyba výberového priemeru SE(x ) = n , čo je vlastne variabilita výberového priemeru, akú má pri opakovaných meraniach. SE charakterizuje presnosť, s akou (jeden) výberový priemer odhaduje príslušný populačný priemer. NIE JE MOŽNÉ JU POVAŽOVAŤ ZA MIERU VARIABILITY NÁHODNEJ VELIČINY „X“ V POPULÁCII. Poznámky: Výberový priemer je nestranným odhadom populačného priemeru, pretože pre každú hodnotu odhadovaného parametra je stredná hodnota odhadu (štatistikyx) rovná odhadovanému parametru . To znamená, že pri opakovaných výberoch kolíšu výberové priemery x okolo odhadovaného parametra – populačného priemeru Všeobecne sa pojem stredná chyba používa k označeniu smerodajnej odchýlky ODHADU nejakého parametra pomocou výberového priemeru. Populačný rozptyl 2 obvykle nepoznáme, preto ho odhadujeme výberovým rozptylom (SD)2, ktorý JE NESTRANNÝM ODHADOM POPULAČNÉHO ROZPTYLU 2. Ale výberová smerodajná odchýlka (SD) nie je nestranným odhadom populačnej smerodajnej odchýlky , v skutočnosti ju podhodnocuje.
67
Hlavné popisné (deskriptívne) ukazovatele
Hustota rozdelenia u spojitého rozdelenia alebo predpis pre pravdepodobnosti jednotlivých hodnôt u diskrétneho rozdelenia popisujú chovanie náhodnej veličiny ÚPLNE, ale príliš zložito. Existuje nejaké číslo/čísla, ktoré v sebe sústreďujú čo možno najväčšiu informáciu o náhodnej veličine?
68
Miery polohy (tzv.centrálna tendencia)
Hodnota okolo ktorej sa dáta sústreďujú - „stred” dát stredná hodnota (aritmetická, priemer) stredná hodnota geometrická stredná hodnota harmonická medián modálna (modus) minimum, maximum Geometrická pre relatívne prírastky, úbytky v čase, pre asymetrické rozdelenia (koncentrácie) Harmonická v technických vedách (ohnisková vzdialenosť sústavy šošoviek), v medicíne napr. priemerný čas, ktorý lekári daného oddelenia venujú 1 pacientovi (zadanie v príkladoch)
69
Aritmetický priemer Vhodný pre kvantitatívne znaky merané na číselnej stupnici Nie ordinálne znaky Citlivý na odľahlé hodnoty (nevhodný pre šikmé „nenormálne“ rozdelenia)
70
Medián ak sú dáta usporiadané vzostupne/zostupne, rozdelí ich na dve rovnako veľké skupiny Kvantitatívne a ordinálne veličiny (informácia o poradí hodnôt) prostredná hodnota (nepárny počet prvkov), aritmetický priemer z dvoch stredných prvkov (párny počet prvkov výberu) Neovplyvnený odľahlými pozorovaniami Napr.: ED50 – 50% účinná dávka
71
Modus Modus je hodnota, ktorá sa v súbore dát vyskytuje najčastejšie
Dôležitý najmä pre nominálne znaky (krvné skupiny) Najtypickejšia hodnota znaku Nie je ovplyvnený hodnotami všetkých prvkov vo výbere
72
Miery polohy a typy rozdelení
medián=priemer=modus modus priemer modus medián modus medián priemer priemer medián modus
73
Vyjadrujú premenlivosť vnútri skupiny/populácie
Miery variability Vyjadrujú premenlivosť vnútri skupiny/populácie rozptyl (disperzia, variancia = SD2) smerodajná odchýlka (štandardná deviácia, SD) variačné rozpätie (maximum-minimum) medzikvartilové rozpätie Dôležitá poznámka: stredná chyba priemeru (SEM) nie je mierou variability danej veličiny v populácii! Variancia (rozptyl) udáva PRIEMERNÝ ŠTVOREC VZDIALENOSTI HODNOTY NÁHODNEJ VELIČINY OD STREDNEJ HODNOTY TEJTO VELIČINY. Výhoda: je väčšinou aditívny. Nevýhoda: nemá rovnakú mierku ako východzí kvantitatívny znak. Pret sa zavádza smerodajná odchýlka. variance, standard deviation, range, interquartile range, standard error of mean
74
S2 – rozptyl SD – smerodajná odchýlka Smerodajná odchýlka má rovnaké jednotky ako meraná veličina!
77
Medzikvartilové rozpätie
Z empirických distribučných funkcií môžeme zisťovať: percentily, decily, kvartily (horný kvartil) Q3 - (dolný kvartil) Q1 (medián – stredný kvartil - Q2 = 5. decil = 50. percentil) Krabicové grafy (box and whisker plots)
79
Ďalšie popisné ukazovatele
variačný koeficient V = (SD/x) · 100% Centrálne momenty šikmosť skew (g1 , vyjadruje symetriu rozloženia pozorovaní (dát) okolo priemeru) špicatosť kurtosis (g2 , vyjadruje „koncentráciu“ t.j. zoskupenie hodnôt pozorovaní okolo priemeru. Ak je rozloženie normálne, šikmosť aj špicatosť sú blízko nuly, čo sa využíva pri orientačnej informácii o normalite experimentálnych dát. Iné: indexy rôznorodnosti – diverzity (Shannonova entropia, Simpsonov index) „V“ sa používa k porovnaniu variability súborov s nerovnakými priemermi, resp. veličín meraných v rôznych jednotkách. Pretože normované veličiny majú nulový priemer a jednotkový rozptyl, sú vhodné pre vyjadrovanie polohy a variability: Šikmosť (g1) je priemer z tretích mocnín normovaných veličín (z skóre) a špicatosť (g2) je upravený priemer (t.j. Priemer mínus 3) zo štvrtých mocnín.
80
Normálne rozdelenie-kurtóza (špicatosť)
82
Ďalej: Odhad populačného (parametra) – priemeru Systematická a náhodná chyba
83
Populácia a výber –zopakovanie pojmov
základný súbor-populácia parameter pravdepodobnosť populačný priemer (reprezentatívna hodnota parametra) populačná smerodajná odchýlka (premenlivosť parametra v populácii) výber zo základného súboru (náhodný výber) odhad parametra (štatistika) relatívna početnosť výberový priemer výberová smerodajná odchýlka Populácia, ináč základný súbor, je množina všetkých možných prvkov, respondentov, vyhovujúca fenoménu nášho záujmu. Priemer a SD pre NORMÁLNE rozdelené dáta Medián a kvartily pre asymetricky rozdelené dáta Parametre nahradzujú výber – rozdelenie dáva kompletnú informáciu o pravdepodobnosti výskytu danej hodnoty premennej v danej populácii
85
Presnosť a správnosť náhodná chyba systematická chyba (bias)
biologická metodologická systematická chyba (bias) očakávaná (efekt) nežiaduca (skresľujúci faktor) Confounder - variable that is not the focus but independently influences the outcome of the study Príklad: does drinking coffee affect the risk for IM coping with confounder specification randomization, matching adjustment – štatistická a/alebo logická identifikácia nezrovnalostí Poznámka: pripomeňme si dôležitosť intervalov spoľahlivosti (95%CI)
86
Presnosť a správnosť
87
Odhad populačného priemeru
(Výberový) Priemer – bodový odhad populačného priemeru Tento odhad je zaťažený chybou SEM, CI – confidence interval (interval spoľahlivosti) – intervalový odhad populačného priemeru Chyba – závisí od výberu z populácie (náhodný), spôsob merania danej veličiny, chyby pri meraní danej veličiny
88
Príklad: študenti (n=160) požiadaní, aby si zmerali hodnoty koncentrácie hemoglobínu v krvi. Prvý graf – histogram pre namerané hodnoty. Následne pomocou náhodného výberu, každý jeden študent vybral merania 4 (a 9tich) kolegov a spočítal pre tieto výbery priemer. Tieto výberové priemery boli následne zobrazené histogramom. Všetky tri výbery – rovnaký stred=priemer Ten z 9tich je užší ako ten zo 4och Zvárová et.al.2004
89
SD vs. SEM SD – popis variancie výberového rozdelenia dát. Výrazne (predvídateľne) sa nemení s rastúcim počtom dát - veľkosťou výberu (n). Zaujímavý pojem z pohľadu deskriptívnej štatistiky. SEM – intervalový odhad populačného (skutočného) priemeru. Hovorí nám, ako presne sme určili populačný priemer. Zaujímavý pojem z pohľadu induktívnej a inferenčnej štatistiky.
90
Zopakujeme celý experiment ešte raz
Populačné rozdelenie výšky μ = 150cm; σ = 5cm Výber z populácie Vytvoríme histogram (výberové rozdelenie výšok) a preložíme normálnym rozdelením Odhady populačných parametrov (μ a σ) Výberové rozdelenie Zopakujeme celý experiment ešte raz Výberový priemer = 148cm Výberová SD = 4,5cm
91
Z tejto skutočnosti vyplývajú dve dôležité veci!!!
Populačné rozdelenie výšky μ = 150cm; σ = 5cm Výber z populácie Výberové rozdelenie Získame niekoľko výberov → niekoľko bodových odhadov (skutočného) populačného priemeru sledovanej veličiny (výšky), ktoré nebudú úplne rovnaké budú sa od seba líšiť. Z tejto skutočnosti vyplývajú dve dôležité veci!!!
92
Ak boli tieto výbery urobené „dobre“ (náhodne), predstavujú tzv
Ak boli tieto výbery urobené „dobre“ (náhodne), predstavujú tzv. reprezentatívne výbery a odhady populačných parametrov sú blízke skutočným populačným parametrom. Potrebujeme však určiť, ako presne sme ich odhadli...
93
Z každého experimentu (výberu) nestačí urobiť len bodový odhad populačného priemeru. Musíme určiť, aký presný je tento odhad → Intervalový odhad populačného priemeru. (SEM, 95% intervaly spoľahlivosti pre priemer). Výberové priemery majú tiež svoje vlastné rozdelenie (rozdelenie výberových priemerov), ktoré je vždy normálne (Gaussovo)!!!. T.j. priemery z jednotlivých experimentov (výberov) predstavujú premennú (veličinu) rovnakú, ako je napríklad výška mužov, hladina glukózy u diabetikov atď.
94
Výberové rozdelenie priemerov
Populačné rozdelenie výšky μ = 150cm; σ = 5cm Výberové rozdelenie priemerov
95
Výberové rozdelenie priemerov
Smerodajná odchýlka tohto výberového rozdelenia priemerov sa označuje ako SEM !!! ± 1,96 SEM = 95% CI pre priemer
96
V skutočnosti robíme len jeden experiment, máme len jeden výber.
SEM môžme z neho určiť nasledovne: Odhad populačnej σ
97
Čo to teda znamená? 95%CI pre priemer
98
SE – standard error sa odhaduje aj pre iné štatistické parametre, nielen pre priemer.
Taktiež intervaly spoľahlivosti CI
99
Demonštrovanie platnosti centrálnej limitnej vety
Populácia a výber Základný súbor – výberový súbor Parameter – odhad parametra Pravdepodobnosť – relatívna početnosť Populačný priemer – výberový priemer Rozsah výběru „n“, opakování 100x Stále užšie histogramy odpovedajú klesajúcej smerodajnej odchýlke priemerov: 4,345 pre n=1, 1,395 pre n=10 a 0,491 pre n=100. Prvá hodnota je odhad parametra , posledná je odhad strednej chyby priemeru zo 100 pozorovaní, teda odhad pre /100=/10. Aj keď je pôvodné rozdelenie nesymetrické, výberové priemery majú rozdelenie blízke k normálnemu. 99
100
Pokračovanie príkladu: intervaly spoľahlivosti pre populačný priemer veku matiek zo 100 náhodných výberov Zo %-ných intervalov spoľahlivosti len 4 nepokrývajú skutočnú hodnotu populačného priemeru. Aj keď je rozdelenie veku matiek výrazne nesymetrické a nemôžeme použiť predpoklad o normálnom rozdelení, centrálna limitná veta zaručuje, že výberové priemery (pre n=100) už majú rozdelenie prakticky normálne.
101
Individual observations (X's) and means (red dots) for random samples from a population with a parametric mean of 5 (horizontal line). Jednotlivé pozorovania (krížiky) a priemery (červené body) pre náhodné výbery z populácie s parametrickým priemerom rovným 5 (horizontálna čiara).
102
Means of 100 random samples (N=3) from a population with a parametric mean of 5 (horizontal line).
Priemery zo 100 náhodných výberov (N=3) z populácie s parametrickým priemerom rovným 5 (horizontálna čiara).
103
Means ±1 standard error of 100 random samples (n=3) from a population with a parametric mean of 5 (horizontal line). Priemery ±1 štandardná chyba SE zo 100 náhodných výberov (N=3) z populácie s parametrickým priemerom rovným 5 (horizontálna čiara).
104
Means ±1 standard error of 100 random samples (N=20) from a population with a parametric mean of 5 (horizontal line). Priemery ±1 štandardná chyba SE zo 100 náhodných výberov (N=20) z populácie s parametrickým priemerom rovným 5 (horizontálna čiara).
105
Ďakujeme za pozornosť
106
Doplnkový materiál k štúdiu
Študijná literatúra Zvárová et. al. Základy statistiky pro biomedicínské obory I., III. Praha, Karolinum, 2004. Motulsky H.J., Christopoulos A.: Fitting models to biological data using linear and nonlinear regression. A practical guide to curve fitting. GraphPad Software Inc. 2003 Katz, M.H.: Multivariable Analysis. A practical Guide for Clinicans. Cambridge University Press, 2001. Armitage, P., Berry, G., Matthews, J.N.S.: Statistical methods in medical research 4th ed, Blackwell science (2002) 816 Doplnkový materiál k štúdiu Slezák Peter a spol. Zvára. Biostatistika. Praha, Karolinum, 2001.
107
Analýza dát a Riešiteľ (doplnky Excelu)
Postup pri inštalácii doplnku nájdete na webe, napr: alebo si postup pozrite na videu na:
108
„How to lie with statistics“ (D. Huff)
109
Štatistické chyby Súdny prípad – v roli obvineného si želáme, aby sudcovia mali „testovacie kritérium“ s nízkou hladinou alfa. Lekár a pacient suspektný z HIV séropozitivity – lekár volí diagnostický test s nízkou chybou beta (vyššia alfa) Štatistická chyba I. druhu – riziko odsúdenia nevinného človeka (nepoznáme, že platí nulová hypotéza) Štatistická chyba II. druhu – riziko prepustenia zločinca (nepoznáme, že neplatí nulová hypotéza)
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.