Presentation is loading. Please wait.

Presentation is loading. Please wait.

Regresia a korelácia Iveta Waczulíková Peter Slezák

Similar presentations


Presentation on theme: "Regresia a korelácia Iveta Waczulíková Peter Slezák"— Presentation transcript:

1 Regresia a korelácia Iveta Waczulíková Peter Slezák
Fakulta matematiky, fyziky a informatiky UK Ústav simulačného a virtuálneho medicínskeho vzdelávania LF UK

2

3

4 skúmanie sily a druhu závislostí medzi dvoma premennými
štatistická závislosť ≠ kauzalita!!! bodový graf korelácia – sila závislosti („symetrický“ vzťah premenných) regresia – závislosť spojitej veličiny (závislej premennej) na jednej alebo viacerých veličinách (nezávislé premenné) závislosť – lineárna, logaritmická, exponenciálna (v parametroch vs. prediktoroch) ... Kauzalita – k štatistickým výsledkom je potrebné pridať odborné znalosti, praktické skúsenosti a účelne kombinovať deduktívny a induktívny spôsob uvažovania Keď hovoríme o korelácii, tvrdíme tým, že medzi sledovanými premennými je lineárny vzťah

5

6 Variancia, kovariancia a korelačný koeficient (Pearsonov)
Pearsonov korelačný koeficient rxy – určuje silu vzťahu dvoch spojitých premenných (x,y) Výberová kovariancia – cov(x,y) Variancia y - var(y) Variancia x – var(x) Pozn.: člen (n-1) z menovateľa vzorca pre výberovú varianciu (kovarianciu) sa vykrátil

7

8 Lineárny vzťah medzi Y a X je pozitívny (ako X narastá, Y taktiež narastá), potom je viac bodov v prvom a treťom kvadrante ako v druhom a štvrtom. V takomto prípade je pravdepodobné, že hodnota sumy v čitateli bude pozitívna, pretože je tu viac pozitívnych ako negatívnych hodnôt.

9 Correlation Seen on a Graph
Same Direction, Weak Correlation Moderate Correlation Same Direction, Strong Correlation Korelačný koeficient <-1, 1> 0 – žiadny lineárny vzťah (môže byť ale prítomný iný ako lineárny funkčný vzťah!); 1 (-1) – úplný pozitívny (negatívny) lineárny vzťah

10

11 Poznámky ku korelačnému koeficientu
Obvykle sa v literatúre hodnota korelačného koeficienta udáva aj s dosiahnutou hladinou významnosti (p-value) H0 : korelačný koeficient sa rovná nule t.j. medzi veličinami X a Y neexistuje žiadny lineárny vzťah Pre veľké výbery aj malá (prakticky nevýznamná) hodnota korelačného koeficienta môže byť štatisticky signifikantná! uvádzať konfidenčné intervaly pre populačný koeficient Korelácia neznamená príčinnosť!!!

12 Korelovanosť = lineárna závislosť
Korelačný koeficient Korelovanosť = lineárna závislosť Dokáže zachytiť: silu lineárnej závislosti dvoch premenných (premenné sú silne lineárne závislé, ak je korelačný koeficient v absolútnej hodnote blízky 1) smer lineárnej závislosti (v zmysle priama vs. nepriama) Nedokáže zachytiť: Veľkosť sklonu lineárnej závislosti Nelineárnu závislosť medzi premennými

13 Korelačný koeficient

14 Auscombe’s regression data
Rovnaký priemer, variancia pre X aj pre Y; rovnaká regresná priamka (OLS); rovnaký reziduálny súčet štvorcov. Ascombe created these data sets to emphasize the need for the statistician to look carefully at data.

15 Jednoduchá regresia (simple regression)
Jednoduchá regresia – vzťah dvoch premenných (závislej a nezávislej). Závislá premenná je tá, ktorú sa snažíme vysvetliť a nezávislá premenná je tá, pomocou ktorej vysvetľujeme variabilitu v závislej premennej.

16 Lineárna regresia Jednoduchá regresia, ktorá popisuje lineárny („priamkový“) vzťah medzi dvoma premennými lineárny nelineárny

17 Táto metóda zahrňuje preloženie priamky dátami a analýzu štatistických vlastností tejto priamky
model y = A + Bx + ε y – závislá premenná x – nezávislá premenná A – absolútny člen-bod, kde priamka pretína y-ovú os B – smernica priamky („sklon“) ε – náhodný člen (náhodná chyba, ktorú nejde vysvetliť lineárnym vzťahom) a, b – odhady regresných parametrov A, B, vypočítaných z našich dát Populácia – A, B ↔ a, b - výber

18 Bodový diagram (scatter plot)

19 Metóda najmenších štvorcov
ε These vertical distances are called the ordinary least squares residuals. One properties of the residuals is that their sum is zero. This means that the sum of the distances above the line is equal to the sum of the tdistances below the line. Regresná priamka

20 počet stupňov voľnosti (n – 2) reziduálny rozptyl
reziduálny súčet štvorcov počet stupňov voľnosti (n – 2) reziduálny rozptyl celková suma štvorcov regresná suma štvorcov ST = SR + Se

21 Celková suma štvorcov ST

22 Koeficient determinácie R2
Vysvetlená variabilita/celková variabilita Miera „vhodnosti“ modelu – udáva časť (percento) variability Y, ktorú je možné pomocou modelu vysvetliť. Druhá mocnina korelačného koeficientu 0 ≤ R2 ≥ 1

23 Koeficient determinácie R2
SSrez SSrez

24 Interpretácia regresných koeficientov
Model by sa mal používať len v tom rozmedzí oboru hodnôt oboch veličín, v ktorom sa pohybovali pozorované hodnoty!!! b – zmena v „y“ spôsobená zmenou „x“ o hodnotu 1 a – priesečník s osou y

25 Interpretácia regresných koeficientov
b < 0 b > 0

26 Predpoklady modelu Lineárny vzťah medzi x a y. (t.j. správne definovaný model) Náhodná chyba ε má rozdelenie N(0,σε) pre každé x. (T.j. nulovú strednú hodnotu a konštantný rozptyl) (Rozptyl závisle premennej y je rovnaký pre každú hodnotu nezávisle premennej x (Homoskedasticita).) Chyby sú navzájom nezávislé.

27 Lineárny vzťah

28 Normálne rozdelenie s (konštantnou) smerodajnou ochýlkou σε

29 Normálne rozdelenie chyby
Populačná regresná priamka

30

31 Príklad výstupu analýzy lineárnej regresie
Vysvetliť čo znamenajú jednotlivé p čka pri regresných koeficientoch, čo znamená, že to je signifikantné, čo znamená, že nie je. Nulová hypotéza: smernica je nulová. Absolútny člen je rovný nule.

32 Regression and the F-test
The line of best fit (minimizes sum of squared residuals) Actual value Error variance (residual) Predicted value Avg. SSmodel variance F = Avg. SSerror variance Model variance (predicted)

33 Simple regression - analysis
Source of variation Sum Squares DF Mean Square Regression 4476, ,965491 Residual , ,563219 Total F = 19, P < 0,0001 R square = 0,290712 50 100 150 200 120 140 160 180 TSH0 TS00-3h. Systolický pred dialýzou vs. Systolický na holteri v prvom časovom období

34 Simple linear regression
Equation: TSH0 = 0, TS00-3h. + 97,703185 Standard Error of slope = 0,078254 95% CI for population value of slope = 0, to 0,504435 Correlation coefficient (r) = 0, (r² = 0,290712) 95% CI for r (Fisher's z transformed) = 0, to 0,710843 t with 48 DF = 4,435482 Two sided P < 0,0001 Power (for 5% significance) = 98,37% Correlation coefficient is significantly different from zero

35 Heteroskedasticita… Ak je požiadavka konštantnosti variancií porušená, hovoríme o heteroskedasticite. Heteroscedasticitu môžeme zisťovať zobrazením reziduálov oproti predpovedaným hodnotám y

36 Overenie predpokladov modelu
Overenie náhodnosti chyby (žiadna systematická závislosť) (Durbin-Watson Test) Overenie lineárnosti vzťahu Overenie konštantnosti rozptylu Residuals vs. Fitted Y [linear regression] 120 130 140 150 160 170 -30 -5 20 45 Fitted TSH0 Residuals (Y - y fit) (Durbin-Watson Test - autokorelácia

37 Overenie normálneho rozdelenia chyby N(0,σε)
Normálny graf (q-q alebo p-p plot), histogram, testy (ne)normality Normal Plot for Residuals [linear regression] -30 -5 20 45 -3 -1 1 3 Residual (Y - y fit) van der Waerden normal score

38

39 Použitie regresného modelu k odhadnutiu priemernej hodnoty y

40 Prediction interval Predpovedanie konkrétnej hodnoty budúceho merania

41 Outliers Odľahlé hodnoty (multivariate outlier)
Influential data points Výrazne ovplyvňujú výsledok OLS

42 An influential observation
An outlier An influential observation + + + + + + + + + + + + + … but, some outliers may be very influential + + + + + + + + + + + + + + The outlier causes a shift in the regression line OLS metóda je citlivá na prítomnosť odľahlých pozorovaní (influential observations) !!! Neparametrická regresia

43

44 Confounder (zavádzajúca, mätúca, zahmlievajúca premenná)
premenná, ktorá je asociovaná s rizikovým faktorom a kauzálne spojená s výsledkom (outcome) Rizikový faktor Outcome Confounder V multivariačných (multivariable) analýzach je potrebné na „confounder“ adjustovať model, aby sme získali „očistený“ vplyv sledovaného rizikového faktora

45 Confounding Nosenie zápaliek Rakovina pľúc fajčenie

46 Examples of Confounding
Oral contraceptive use ? Cervical cancer Infection with human papillomavirus (HPV) Oral contraceptive use ? Breast cancer Confounding môže byť kontrolovaný vo fáze dizajnu (randomizácia, restrikcia, matching) alebo vo fáze vyhodnocovanie (stratifikácia Mantel_Haenszelov test, multivariačná regresia) Late age at first birth/ low parity HRP 261 1/26/04

47 Intervening variable (intervenujúca premenná)
Nachádza sa na „príčinnej ceste“ od sledovaného rizikového faktora k outcomu Štatisticky neodlíšiteľná od „confoundera“ Pri zisťovaní vplyvu rizikového faktora nemôžeme model adjustovať na intervenujúcu premennú, pretože by sme tým odstránili jeho vplyv – efekt, ktorý sa snažíme preukázať

48 Example (Intervening variable)
Camargo, C.A., Stampfer, M.J., Glynn, R.J., et al. Ann. Intern. Med. 1997;126:372-5 The relationship between moderate alcohol consumption and risk of heart attack. Sensibly they adjusted for age, smoking, exercise, diabetes, and family history of heart attack Did not adjusted for blood pressure, BMI, hypercholesterolemia Alcohol consumption Myocardial infarction ↑ Blood pressure ↑ Body mass index Hypercholesterolemia

49 Supressor Typ tzv. confoundera
V bivariačnej analýze nezistíme vzťah medzi rizikovým faktorom a outcomom. Po adjustácii na „supressing factor“ sa však vplyv rizikového faktora objaví. Rizikový faktor Outcome Suppressor Zidovudine Sérokonverzia Vážnosť poranenia

50 Viacnásobná lineárna regresia
Populácia: yi = β0 + β1xi1 + β2xi βnxin + εi Výber yi = b0 + b1xi1 + b2xi bnxin + εi Hodnota regresných koeficientov bj sa interpretuje v závislosti od typu výskumu. V prípade experimentu (v ktorom s premennými X manipulujeme), vyjadruje o koľko sa zvýši očakávaná hodnota premennej Y ak sa hodnota premennej Xj zvýši o 1 jednotku, pričom ostatné premenné X zostanú nezmenené. Pretože jednotlivé premenné X môžu byť vyjadrené v rozličných jednotkách, nemožno tvrdiť že X, ktorému prislúcha najväčšie b musí mať najväčší vplyv na Y. Ktorá premenná X má najväčší vplyv na premennú Y sa zisťuje z čiastkových korelačných koeficientov (partial correlation coefficients). Koeficient determinácie (R2) vyjadruje podiel variability premennej Y vysvetlenej regresným modelom (teda premennými X) k celkovej variabilite premennej Y. Viacnásobná regresia vyžaduje intervalové premenné. Regresný model však možno doplniť aj o nominálne nezávislé premenné X. Predpoklady Lineárny vzťah medzi premennou Y a premennými X Ak je vzťah medzi premennými zjavne nelineárny (napr. Y = sin X), treba príslušné premenné transformovať a v regresnom modeli ich použiť namiesto pôvodných premenných (X' = sin X). Rezíduá majú rovnaký rozptyl pre všetky hodnoty premenných X Normálne rozdelenie rezíduí Rezíduá sú vzájomne nezávislé Všetky extrémne prípady (outliers) boli z údajov vylúčené Nezávislosť premenných X Porušenie tejto podmienky sa nazýva multikolinearita. Znamená to, že jedna premenná X je takmer váženým priemerom ostatných premenných X. Často sa objavuje v prípade malých vzoriek.

51

52

53 Logistická regresia 1 Účel: Identifikácia premenných X, ktoré významne ovplyvňujú príslušnosť objektu ku skupine. Predikcia príslušnosti objektu do skupiny na základe jeho hodnôt premenných X. Lineárny logistický model: kde P je pravdepodobnosť, y1 a y2 sú dve možné hodnoty premennej Y (najčastejšie y1 predstavuje nastatie javu a y2 nenastatie javu), βi sú logistické regresné koeficienty, ktorých odhady sa zapisujú b. Nominálnu premennú s k úrovňami (hodnotami) možno do modelu zahrnúť tak, že sa z nej vytvorí k−1 binárnych premenných. Napríklad z nominálnej premennej X s troma hodnotami (A, B, C) sa vytvoria dve premenné XA a XB. Hodnota A dostane kód (1,0), hodnota B (0,1) a hodnota C (0,0). Hodnota nominálnej premennej X, ktorá nemá vytvorenú binárnu premennú (v našom príklad C) sa nazýva referenčná. Príklady: Možno očakávať pooperačné komplikácie pacienta (Y) ak máme k dispozícii výsledky jeho testov (X) a databázu testov a operačných výsledkov predchádzajúcich pacientov? Ako súvisí výskyt veľkej poistnej udalosti (Y) s vekom (X1), pohlavím (X2), vzdelaním (X3) a príjmom (X4) poistenca? Ako na základe osobných údajov poistencov a záznamoch o poistných udalostiach možno usúdiť, či bude alebo nebude mať záujemca o poistenie veľkú poistnú udalosť? Výraz v zátvorke (podiel dvoch pravdepodobností) sa nazýva šanca (Odds). Napríklad ak je pravdepodobnosť výhry P=10 %, šanca na výhru = 0,1/(1−0,1)=0,1/0,9=1/9. Logaritmus šance sa nazýva logit. Zdroj:

54 Logistická regresia 2 Interpretácia koeficientov logistickej regresie je zložitejšia ako pri lineárnej regresii. Ak je bi>0, potom vyššie hodnoty premennej Xi, pri rovnakých hodnotách ostatných premenných X, zvyšujú šancu zaradenia objektu do 1. skupiny. Ak je bi<0, vyššie hodnoty Xi túto šancu znižujú. Častejšie ako samotné regresné koeficienty b sa interpretujú pomery šancí (eb). Pomer šancí (Odds Ratio) vyjadruje pomer šance zaradenia objektu do 1. skupiny ak sa Xi zvýši o 1, pričom ostatné X zostanú nezmenené, k pôvodnej šanci jeho zaradenia do 1. skupiny. Na rozdiel od viacnásobnej regresie, interpretácia b a teda aj pomeru šancí (eb) závisí na konkrétnej hodnote X, pretože pravdepodobnosti sa menia s hodnotami X. Interpretácie je jednoduchá v prípade binárnych premenných X. Keďže nadobúdajú iba dve hodnoty (0 alebo 1) existuje jediná interpretácia. Pomer šancí predstavuje pomer šance zaradenia objektu do 1. skupiny ak Xi=1 ku šanci jeho zaradenia ak Xi =0 pri rovnakých hodnotách ostatných premenných X. Nominálnu premennú s k úrovňami (hodnotami) možno do modelu zahrnúť tak, že sa z nej vytvorí k−1 binárnych premenných. Napríklad z nominálnej premennej X s troma hodnotami (A, B, C) sa vytvoria dve premenné XA a XB. Hodnota A dostane kód (1,0), hodnota B (0,1) a hodnota C (0,0). Hodnota nominálnej premennej X, ktorá nemá vytvorenú binárnu premennú (v našom príklad C) sa nazýva referenčná. Príklady: Možno očakávať pooperačné komplikácie pacienta (Y) ak máme k dispozícii výsledky jeho testov (X) a databázu testov a operačných výsledkov predchádzajúcich pacientov? Ako súvisí výskyt veľkej poistnej udalosti (Y) s vekom (X1), pohlavím (X2), vzdelaním (X3) a príjmom (X4) poistenca? Ako na základe osobných údajov poistencov a záznamoch o poistných udalostiach možno usúdiť, či bude alebo nebude mať záujemca o poistenie veľkú poistnú udalosť?

55

56 Referencie Zvárová et. al. Základy statistiky pro biomedicínské obory. Praha, Karolinum, 2004. Dayya, D.: Advanced Statistical Methods and Multivariate Analysis In Medicine. prezentácia Motulsky H.J., Christopoulos A.: Fitting models to biological data using linear and nonlinear regression. A practical guide to curve fitting. GraphPad Software Inc. 2003 Katz, M.H.: Multivariable Analysis. A practical Guide for Clinicans. Cambridge University Press, 2001. Prezentácia: Základní kurz statistiky II, regresní Analýza. Milan Bašta (28. únor & 1. březen, 2011)

57

58


Download ppt "Regresia a korelácia Iveta Waczulíková Peter Slezák"

Similar presentations


Ads by Google