IX. VIACVÝBEROVÉ TESTY.

Slides:



Advertisements
Similar presentations
Faktorová analýza (FA). Viacrozmerné metódy U3U3 U 10 U7U7 U4U4 U8U8 U9U9 U6U6 U5U5 U 11 U1U1 U2U n URUR Metódy analýzy skrytých vzťahov premenné.
Advertisements

Paneurópsky prieskum verejnej mienky o ochrane zdravia a bezpečnosti pri práci Výsledky z celej Európy a Slovenska - Máj 2013 Reprezentatívne výsledky.
Analysis of Variance: ANOVA. Group 1: control group/ no ind. Var. Group 2: low level of the ind. Var. Group 3: high level of the ind var.
I.1 ii.2 iii.3 iv.4 1+1=. i.1 ii.2 iii.3 iv.4 1+1=
I.1 ii.2 iii.3 iv.4 1+1=. i.1 ii.2 iii.3 iv.4 1+1=
Štatistika je vedecký nástroj pre poznávanie objektívnej reality. je náuka ako získať informácie z numerických dát. je veda... Mgr. Martin Vaváček, PhD.
Publikácia o hĺbkovej analýze údajov, teda o data miningu Mgr. Ing. Adriana Horníková, PhD Inovace 2010, Praha
Slovak University of Technology in Bratislava Faculty of Civil Engineering Prof. Ing.Jan Szolgay, PhD. Vice-dean for Science, Research and Foreign Relations.
Príznaky Znižovanie dimenzie: viac príznakov => viac informácie, vyššia presnosť viac príznakov => zložitejšia extrakcia viac príznakov => zložitejší tréning.
Fuzzy ES - Fuzzy množiny_ stručný náhľad Približne dva alebo aj trochu viac /matematizácia neurčitosti/ Fuzzy logic is a very powerful technique that enables.
Inferential Statistics
HORIZON RNDr. Eva Majkova, DrSc. SAV Štefánikova 49 SK Bratislava Mobil Kontakt.
Summary.
Atomic Force Microscopy
Simple ANOVA Comparing the Means of Three or More Groups Chapter 9.
Bezpečnosť a ochrana zdravia pri práci sa týka každého z nás. Cenná pre Vás. Prínos pre firmu. Paneurópsky prieskum verejnej mienky o ochrane zdravia a.
METÓDY A NÁSTROJE MANAŽMENTU KVALITY
Vím, kdo jsem? Lidské hodnoty a jejich role při rozhodování..
Analyzing dichotomous dummy variables
Jednorozmerný a dvojrozmerný chí-kvadrát test (krížové tabuľky)
Fakulta matematiky, fyziky a informatiky UK
NADOBUDNUTÉ SKÚSENOSTI Z PREDCHÁDZAJÚCICH VÝZIEV
Časová segmentácia videa a sumarizácia videa
Zariadenia na ochranu pred predpätím a výpadkom napätia.
3. Algoritmy a programovanie v jazyku Pascal Syntax
Regresia a korelácia Iveta Waczulíková Peter Slezák
Vlastné výnimky, static, JavaDoc, …
Sme produkty, musíme sa predať
„Okno do podnikania“ Podpora pre začínajúcich podnikateľov od spoločnosti Microsoft (Microsoft Sparks) Roman Russev Microsoft Slovakia.
Podnikové komunikačné systémy Dušan Kováč
Prednáška 8 podprogramy typy podprogramov lokálne a globálne objekty
Navrhovanie experimentov – DOE (Design of Experiment) 1
ANALYSIS OF THE FACTORS AFFECTING STUDENTS’ ATTITUDE TO MATHEMATICS
Procedurálne programovanie: 2. prednáška
Metódy tvorby evolučných stromov
PaedDr. Jozef Beňuška
Študijné materiály pre eLearning
Štatistické testovanie hypotéz. Porovnanie dvoch výberov
RELAČNÝ DÁTOVÝ MODEL princíp relačného dátového modelu bol prvýkrát navrhnutý E.F.Coddom Základné pojmy: RM - databáza ako množina relácií každá.
Formáty grafických súborov
Operačné systémy a ich funkcie.
Človek vo sfére peňazí ročník.
KVANTITATÍVNE METÓDY V MARKETINGU
Jednorozmerný a dvojrozmerný chí-kvadrát test (krížové tabuľky)
Regresia a korelácia Iveta Waczulíková Peter Slezák
Integritné obmedzenia v SQL
Navrhovanie experimentov – DOE (Design of Experiment) 2
Spresnenie požiadaviek pri hodnotení kvality veterinárnych liekov
MTM MTM (Methods Time Measurement) je metóda analýzy ľudskej práce, navrhovania pracovných postupov a určenia spotreby času na uskutočnenie potrebných.
Metódy tvorby evolučných stromov
Lineárny regresný model
Vlastnosti kvantitatívnych dát
Big Data & Analytics Prediktívna analýza pomáha poľskej sieti drogérií Rossmann pochopiť vzory nákupov a vyladiť propagačné akcie Urýchľuje generovanie.
Metódy kĺzavých priemerov (MA – moving averages) - Marcel Kocifaj
Spínané zdroje Jaroslav Henzély I.V 2013/2014.
ROC - Receiver Operating Characteristic
DTM ako súčasť GIS (riešenie úloh v Idrisi 15.0)
Transformácie obrazu PCA, CCA Vegetačné indexy
INCITES: Journal Citation Reports
Vplyv medicínskych faktorov na kvalitu života pacientov po obličkovej transplantácii v závislosti od veku Rosenberger.
Smelý Palko v Ohiu alebo pán Turing ide voliť
VYSOKOFREKVENČNÁ INDUKČNÁ PEC
Open Access v H2020 Barbora Kubíková Národný kontaktný bod
Patrik Ort Acount Executive , Stredná Európa
ROVINNÉ (2D) SYMBOLY DWG
Kde je Sever a nie len Sever
Andrej Lúčny Témy bakalárskych prác Andrej Lúčny
Je modrá veľryba najväčšia vec na svete?
Je modrá veľryba najväčšia vec na svete?
Osvětlení do dílny. PROČ ZVOLIT VHODNÉ SVĚTLO DO DÍLNY V DÍLNĚ PŘECI CHCETE PRACOVAT V DOBĚ, KDY JE VENKU NEPŘÍZNOVÉ POČASÍ VHODNÉ A VELKÉ SVĚTLO, KTERÉ.
Presentation transcript:

IX. VIACVÝBEROVÉ TESTY

Anotácia Korelačná analýza je využívaná na vyhodnotenie miery vzťahu dvoch spojitých premenných. Obdobne ako iné štatistické metódy, i korelácie môžu byť parametrické alebo neparametrické Regresná analýza vytvára model vzťahu dvoch alebo viacerých premenných, teda akým spôsobom jedna premenná (vysvetľovaná) závisí na iných premenných (prediktoroch). Regresná analýza je obdobne ako ANOVA nástrojom na vysvetlenie variability hodnotenej premennej

Korelácia Na meranie tesnosti lineárneho vzťahu 2 spojitých premenných r = 0 → nekorelované r > 0 → kladne korelované r < 0 → záporne korelované H0: premenné X, Y sú stochasticky nezávislé náhodné veličiny (r = 0) HA: premenné X, Y nie sú stochasticky nezávislé náhodné veličiny (r ≠ 0) Parametrický korelačný koeficient: Pearsonov kor. koef. (dvojrozmerné normálne rozloženie) Neparametrický korelačný koeficient: Spearmanov (poradový) kor. koef.

Jednoduchá lineární regrese Cieľ regresnej analýzy: popísať závislosť hodnôt premennej Y na hodnotách premennej X Ak nemáme dostatok informácii k teoretickému súboru, snažíme sa odhadnúť typ funkcie pomocou dvojrozmerného diagramu

Anotácia Analýza rozptylu je základným nástrojom na analýzu rozdielov medzi priemermi v niekoľkých skupinách pacientov. Základná myšlienka, na ktorej je ANOVA založená, je rozdelenie celkovej variability v dátach (nepoznáme, daná len náhodným rozložením) na časť systematickú (spätú s kategóriami pacientov, vysvetlená variabilita) a časť náhodnú. Pokiaľ systematická, teda nenáhodná a vysvetliteľná časť variability prevažuje, považujeme daný kategoriálny faktor za významný na vysvetlenie variability dát. Analýza rozptylu vyhodnocuje len celkový vplyv faktoru na variabilitu, v prípade analýzy jednotlivých kategórií je treba využiť tzv. post-hoc testy

ANOVA – analýza rozptylu Zobecnenie dvojvýberového t-testu ANOVA je základným nástrojom pre analýzu rozdielov medzi priemermi v niekoľkých skupinách H0: všetky stredné hodnoty sú rovnaké HA: aspoň jedna dvojica stredných hodnôt sa líši Predpoklady: normálne rozloženie v skupinách, nezávislosť skupín, zhoda rozptylov (Levenov či Bartlettov test) Pokiaľ H0 zamietame na hl. význ. α → nás zaujíma, ktorá dvojica stredných hodnôt sa od seba líši metódy mnohonásobného testovania (tzv. post hoc testy), napr. Scheffého, Tukeyova metóda

Analýza rozptylu - ANOVA Predpoklady analýzy rozptylu sú nevyhnutné na dosiahnutie sily testu Symetrické rozloženie hodnôt a normalita odchýlok od hodnoteného modelu ANOVA. Veľkú časť dát je možné adekvátne normalizovať použitím logaritmickej transformácie. Predpoklad lognormálnej transformácie môže pochopiteľne byť teoreticky vylúčený u veľa dátových súborov obsahujúcich diskrétne parametre, kde je indikovaná vhodnosť iného typu transformácie. U asymetricky rozložených a u diskrétnych dát je nutné využiť neparametrickú alternatívu analýzy rozptylu. Homogenita rozptylu je nutným predpokladom na zmysluplnosť vzájomných porovnaní pokusných variant. Overujeme ju napríklad pomocou Bartlettovho testu. Nehomogenita rozptylu je často vo vzťahu k nenormalite (asymetrii) dát a je možné ju odstrániť vhodnou normalizujúcou transformáciou. Štatistická nezávislosť rezíduí vyhodnocovaného modelu ANOVA. Pokiaľ odhad a posúdenie korelačných vzťahov medzi pokusnými variantmi nie je priamo predmetom výskumu, je možné ich vplyv na vyhodnotení odstrániť znáhodnením dát v rámci pokusných variant - teda zmenou poradia na náhodné. Rozsah vplyvu týchto autokorelačných vzťahov musí byť však primárne obmedzený správnosťou experimentálneho usporiadania. Aditivita ako predpoklad tykajúci sa zložitejších experimentálnych usporiadaní. Exaktné otestovanie aditivity viacerých pokusných faktorov je procedúra pomerne náročná na experimentálny design vyvážený čo do počtu opakovaní. Je rovnako obtiažne testovať interakciu na neštandardných dátach, pretože prípadná transformácia môže zmeniť charakter odchýlok pôvodných dát od hodnoteného modelu ANOVA.

Analýza rozptylu - ANOVA Obmedzenie aplikácie ANOVA je možné riešiť Chýbajúce dáta. Vážnym problémom sú chýbajúce údaje o celej skupine kombinácií testovaných látok, napríklad u faktoriálnych pokusov, kedy je znemožnené hodnotenie experimentu ako celku. Nehomogenita rozptylu. Veľmi častý nedostatok experimentálnych dát, často súvisiaci s nenormalitou rozloženia alebo s odľahlými hodnotami. Nenormalita dát. I v tomto prípade je možné situáciu upraviť vylúčením odľahlých hodnôt alebo normalizujúcou transformáciou. Rôzne počty opakovaní Ide o typický jav pre experimentálne dátové súbory. Pri rôznych počtoch opakovaní v experimentálnych variantách sú testy ANOVA citlivejšie na nenormalitu dát. Pokiaľ sú počty opakovaní úplne odlišné(až na rádové rozdiely), je nutné použiť neparametrické techniky alebo analýzu rozptylu nevyvážených pokusov. Neaditivita kombinovaného vplyvu viacerých pokusných zásahov. Túto situáciu je možné testovať buď špeciálnymi testami aditivity alebo priamo F testom kontrolujúcim významnosť vplyvu interakcie pokusných zásahov. Pri významnej interakcii je nutné preskúmať predovšetkým jej charakter vo vhodnom experimentálnom usporiadaní. Odľahlé hodnoty. Ojedinelé odľahlé hodnoty musia byť pred parametrickou analýzou rozptylu vylúčené. Nedostatok nezávislosti medzi reziduami modelu. Ide o závažný nedostatok, skresľujúci výsledok F-testu. Veľmi často je táto skutočnosť dôsledkom nesprávneho prevedenia alebo naplánovania experimentu.

ANOVA – základný výpočet Základným princípom ANOVY je porovnanie rozptylu pripadajúceho na: Rozdelenie dát do skupín (tzv. effect, variance between groups) Variabilitu objektov vo vnútri skupín (tzv. error, variance within groups), predpokladá sa, že ide o náhodnú variabilitu (=error) Variabilita medzi skupinami Rozptyl je počítaný pre celkový priemer (tzv. grand mean) a priemery v jednotlivých skupinách dát Stupne voľnosti sú odvodené od počtu skupín (= počet skupín -1) Výsledný pomer (F) porovnáme s tabuľkami F rozloženia pre v1 a v2 stupňov voľnosti Variabilita vo vnútri skupín Rozptyl je počítaný pre priemery jednotlivých skupín a objekty vo vnútri príslušných, celková variabilita je potom sčítaná pre všetky skupiny Stupne voľnosti sú odvodené od počtu hodnôt (= počet hodnôt - počet skupín) SS=sum of squares

Zavedieme súčty štvorcov ST… celkový súčet štvorcov (charakterizuje variabilitu jednotlivých pozorování okolo celkového priemeru), počet stupňov voľnosti fT = n – 1, SA… skupinový súčet štvorcov (charakterizuje variabilitu medzi jednotlivými náhodnými výbermi), počet stupňov voľnosti fA = r – 1. SE… reziduálny súčet štvorcov (charakterizuje variabilitu vo vnútri jednotlivých výberov), počet stupňov voľnosti fE = n - r.   Je možné dokázať, že ST = SA + SE.

Modely analýzy rozptylu - základný výstup Základným výstupom analýzy rozptylu je Tabuľka ANOVA - frakcionácia komponent rozptylu Výsledky výpočtov zapisujeme do tabuľky analýzy rozptylu jednoduchého triedenia.   Silu závislosti náhodnej veličiny X na faktore A môžeme merať pomocou pomeru determinácie: p2=SA/ST. Nadobúda hodnôt z intervalu <0,1>. Zdroj variability Súčet štvorcov Stupne voľnosti podiel FA skupiny SA fA = r - 1 SA/fA SE/fE reziduálny SE fE = n - r - celkový ST fT = n - 1

Post-hoc metódy: Tukeyova vs. Scheffého metóda Ak zamietneme na hladine významnosti α hypotézu o zhode stredných hodnôt, chceme zistiť, ktoré dvojice stredných hodnôt sa líšia na danej hladine významnosti α, tj. na hladine významnosti α testujeme H0: μl = μk proti H1: μl ≠ μk pre všetky l, k = 1, .., r, l ≠ k. a) Ak majú všetky výbery rovnaký rozsah p (hovoríme, že triedenie je vyvážené), použijeme Tukeyovu metódu. b) Ak nemajú všetky výbery rovnaký rozsah, použijeme Scheffého metódu Metódy mnohonásobného porovnávania majú obecne menšiu silu než ANOVA. Môže nastať situácia, kedy pri zamietnutí H0 nenájdeme metódami mnohonásobného porovnávania významný rozdiel u žiadnej dvojice stredných hodnôt. K tomu dochádza obzvlášť vtedy, keď p-hodnota pre ANOVU je len o málo nižšia než zvolená hladina významnosti. Potom slabší test patriaci do skupiny metód mnohonásobného porovnávania nemusia odhaliť žiadny rozdiel.

Příklad: Anova - One way Dávka rostlinného stimulátoru (0, 4, 8, 12 mg/l) A = 4 ; n = 8 I. ANOVA Bartlett's test: P = 0,9847 K-S test: P = 0,482 - 0,6525 pro jednotlivé kategorie Source D. f. SS MS F Between Groups 3 305,8 101,9 8,56 Within Groups 28 322,2 11,9 Total (corr.) 31 638,0 II. Multiple Range Test NKS -test Level Average Homogenous Groups 0 34,8 x 4 41,4 x 12 41,8 x 8 52,6 x

Příklad: Anova - One way I. Zásah: 4 klinická stadia virové choroby (napadá kr. buňky) Sledovaná veličina: aktivita enzymu v těchto krevních buňkách n = 3 MODEL = ? II.  průměr I 22,8 19,4 12,5 65,7 21,9 II 16,4 17,8 19,1 53,3 III 11,2 18,2 15,8 45,2 15,1 IV 14,2 10,1 12,8 37,1 12,4 Source Between groups Within groups Total (corr.) D.f. 3 8 11 MS 49,6 5,9 - F 8,39 P 0,0075 III. Komponenta rozptylu: IV.

Doporučený postup při provádění analýzy rozptylu: a) Ověření normality daných r náhodných výběrů (grafické metody - NP plot, Q-Q plot, histogram, testy hypotéz o normálním rozložení - Lilieforsova varianta Kolmogorovova – Smirnovova testu nebo Shapirův – Wilkův test). Doporučuje se kombinace obou způsobů. Závěry učiníme až na základě posouzení obou výsledků. Obecně lze říci, že analýza rozptylu není příliš citlivá na porušení předpokladu normality, zvláště při větších rozsazích výběrů (nad 20), což je důsledek působení centrální limitní věty. Mírné porušení normality tedy není na závadu, při větším porušení použijeme např. Kruskalův – Wallisův test jako neparametrickou obdobu analýzy rozptylu jednoduchého třídění. b) Po ověření normality se testuje homogenitu rozptylů, tj. předpoklad, že všechny náhodné výběry pocházejí z normálních rozložení s týmž rozpylem. Graficky ověřujeme shodu rozptylů pomocí krabicových diagramů, kdy sledujeme, zda je šířka krabic stejná. Numericky testujeme homogenitu rozptylů pomocí Levenova testu. Slabé porušení homogenity rozptylů nevadí, při větším se doporučuje mediánový test. c) Pokud jsou splněny předpoklady normality a homogenity rozptylů, můžeme přistoupit k testování shody středních hodnot. Předtím je samozřejmě vhodné vypočítat průměry a směrodatné odchylky či rozptyly v jednotlivých skupinách. d) Dojde-li na zvolené hladině významnosti k zamítnutí hypotézy o shodě středních hodnot, zajímá nás, které dvojice středních hodnot se od sebe liší. K řešení tohoto problému slouží post-hoc metody mnohonásobného porovnávání, např. Scheffého nebo Tukeyova metoda.

VEĽA ŠŤASTIA NA SKÚŠKE!