Regresia a korelácia Iveta Waczulíková Peter Slezák

Slides:



Advertisements
Similar presentations
Managerial Economics in a Global Economy
Advertisements

Faktorová analýza (FA). Viacrozmerné metódy U3U3 U 10 U7U7 U4U4 U8U8 U9U9 U6U6 U5U5 U 11 U1U1 U2U n URUR Metódy analýzy skrytých vzťahov premenné.
Forecasting Using the Simple Linear Regression Model and Correlation
Learning Objectives Copyright © 2004 John Wiley & Sons, Inc. Bivariate Correlation and Regression CHAPTER Thirteen.
Probabilistic & Statistical Techniques Eng. Tamer Eshtawi First Semester Eng. Tamer Eshtawi First Semester
Correlation and Linear Regression
LINEAR REGRESSION: Evaluating Regression Models Overview Assumptions for Linear Regression Evaluating a Regression Model.
LINEAR REGRESSION: Evaluating Regression Models. Overview Assumptions for Linear Regression Evaluating a Regression Model.
Regression and Correlation
Lesson #32 Simple Linear Regression. Regression is used to model and/or predict a variable; called the dependent variable, Y; based on one or more independent.
Regression and Correlation
Correlation and Linear Regression
Regression and Correlation Methods Judy Zhong Ph.D.
Introduction to Linear Regression and Correlation Analysis
Biostatistics Unit 9 – Regression and Correlation.
Chapter 6 & 7 Linear Regression & Correlation
Managerial Economics Demand Estimation. Scatter Diagram Regression Analysis.
Examining Relationships in Quantitative Research
MBP1010H – Lecture 4: March 26, Multiple regression 2.Survival analysis Reading: Introduction to the Practice of Statistics: Chapters 2, 10 and 11.
Environmental Modeling Basic Testing Methods - Statistics III.
LECTURE 9 Tuesday, 24 FEBRUARY STA291 Fall Administrative 4.2 Measures of Variation (Empirical Rule) 4.4 Measures of Linear Relationship Suggested.
CHAPTER 5 CORRELATION & LINEAR REGRESSION. GOAL : Understand and interpret the terms dependent variable and independent variable. Draw a scatter diagram.
Regression Analysis. 1. To comprehend the nature of correlation analysis. 2. To understand bivariate regression analysis. 3. To become aware of the coefficient.
Simple Linear Regression The Coefficients of Correlation and Determination Two Quantitative Variables x variable – independent variable or explanatory.
Lecturer: Ing. Martina Hanová, PhD.. Regression analysis Regression analysis is a tool for analyzing relationships between financial variables:  Identify.
1 AAEC 4302 ADVANCED STATISTICAL METHODS IN AGRICULTURAL RESEARCH Part II: Theory and Estimation of Regression Models Chapter 5: Simple Regression Theory.
Correlation & Simple Linear Regression Chung-Yi Li, PhD Dept. of Public Health, College of Med. NCKU 1.
Chapter 12 REGRESSION DIAGNOSTICS AND CANONICAL CORRELATION.
Correlation and Linear Regression
Linear Regression Essentials Line Basics y = mx + b vs. Definitions
Chapter 13 Simple Linear Regression
Chapter 20 Linear and Multiple Regression
Regression Analysis AGEC 784.
Inference for Least Squares Lines
Statistics 101 Chapter 3 Section 3.
Statistics for Managers using Microsoft Excel 3rd Edition
LECTURE 13 Thursday, 8th October
Analyzing dichotomous dummy variables
Regression and Correlation
Micro Economics in a Global Economy
Linear Regression and Correlation Analysis
Ch12.1 Simple Linear Regression
IX. VIACVÝBEROVÉ TESTY.
Chapter 11 Simple Regression
Regression model with multiple predictors
Chapter 14: Correlation and Regression
Navrhovanie experimentov – DOE (Design of Experiment) 1
CHAPTER 10 Correlation and Regression (Objectives)
Suppose the maximum number of hours of study among students in your sample is 6. If you used the equation to predict the test score of a student who studied.
1) A residual: a) is the amount of variation explained by the LSRL of y on x b) is how much an observed y-value differs from a predicted y-value c) predicts.
Regresia a korelácia Iveta Waczulíková Peter Slezák
Stats Club Marnie Brennan
CHAPTER 29: Multiple Regression*
Lineárny regresný model
CHAPTER 26: Inference for Regression
Vlastnosti kvantitatívnych dát
Managerial Economics in a Global Economy
ROC - Receiver Operating Characteristic
Chapter 14 – Correlation and Simple Regression
Lecture Notes The Relation between Two Variables Q Q
Simple Linear Regression
PENGOLAHAN DAN PENYAJIAN
Section 2: Linear Regression.
Basic Practice of Statistics - 3rd Edition Inference for Regression
Correlation and Regression
Adequacy of Linear Regression Models
Adequacy of Linear Regression Models
Simple Linear Regression
Nazmus Saquib, PhD Head of Research Sulaiman AlRajhi Colleges
Presentation transcript:

Regresia a korelácia Iveta Waczulíková Peter Slezák Fakulta matematiky, fyziky a informatiky UK Ústav simulačného a virtuálneho medicínskeho vzdelávania LF UK

skúmanie sily a druhu závislostí medzi dvoma premennými štatistická závislosť ≠ kauzalita!!! bodový graf korelácia – sila závislosti („symetrický“ vzťah premenných) regresia – závislosť spojitej veličiny (závislej premennej) na jednej alebo viacerých veličinách (nezávislé premenné) závislosť – lineárna, logaritmická, exponenciálna (v parametroch vs. prediktoroch) ... Kauzalita – k štatistickým výsledkom je potrebné pridať odborné znalosti, praktické skúsenosti a účelne kombinovať deduktívny a induktívny spôsob uvažovania Keď hovoríme o korelácii, tvrdíme tým, že medzi sledovanými premennými je lineárny vzťah

Variancia, kovariancia a korelačný koeficient (Pearsonov) Pearsonov korelačný koeficient rxy – určuje silu vzťahu dvoch spojitých premenných (x,y) Výberová kovariancia – cov(x,y) Variancia y - var(y) Variancia x – var(x) Pozn.: člen (n-1) z menovateľa vzorca pre výberovú varianciu (kovarianciu) sa vykrátil

Lineárny vzťah medzi Y a X je pozitívny (ako X narastá, Y taktiež narastá), potom je viac bodov v prvom a treťom kvadrante ako v druhom a štvrtom. V takomto prípade je pravdepodobné, že hodnota sumy v čitateli bude pozitívna, pretože je tu viac pozitívnych ako negatívnych hodnôt.

Correlation Seen on a Graph Same Direction, Weak Correlation Moderate Correlation Same Direction, Strong Correlation Korelačný koeficient <-1, 1> 0 – žiadny lineárny vzťah (môže byť ale prítomný iný ako lineárny funkčný vzťah!); 1 (-1) – úplný pozitívny (negatívny) lineárny vzťah

Poznámky ku korelačnému koeficientu Obvykle sa v literatúre hodnota korelačného koeficienta udáva aj s dosiahnutou hladinou významnosti (p-value) H0 : korelačný koeficient sa rovná nule t.j. medzi veličinami X a Y neexistuje žiadny lineárny vzťah Pre veľké výbery aj malá (prakticky nevýznamná) hodnota korelačného koeficienta môže byť štatisticky signifikantná! uvádzať konfidenčné intervaly pre populačný koeficient Korelácia neznamená príčinnosť!!!

Korelovanosť = lineárna závislosť Korelačný koeficient Korelovanosť = lineárna závislosť Dokáže zachytiť: silu lineárnej závislosti dvoch premenných (premenné sú silne lineárne závislé, ak je korelačný koeficient v absolútnej hodnote blízky 1) smer lineárnej závislosti (v zmysle priama vs. nepriama) Nedokáže zachytiť: Veľkosť sklonu lineárnej závislosti Nelineárnu závislosť medzi premennými

Korelačný koeficient http://en.wikipedia.org/wiki/File:Correlation_examples.png

Auscombe’s regression data Rovnaký priemer, variancia pre X aj pre Y; rovnaká regresná priamka (OLS); rovnaký reziduálny súčet štvorcov. Ascombe created these data sets to emphasize the need for the statistician to look carefully at data.

Jednoduchá regresia (simple regression) Jednoduchá regresia – vzťah dvoch premenných (závislej a nezávislej). Závislá premenná je tá, ktorú sa snažíme vysvetliť a nezávislá premenná je tá, pomocou ktorej vysvetľujeme variabilitu v závislej premennej.

Lineárna regresia Jednoduchá regresia, ktorá popisuje lineárny („priamkový“) vzťah medzi dvoma premennými lineárny nelineárny

Táto metóda zahrňuje preloženie priamky dátami a analýzu štatistických vlastností tejto priamky model y = A + Bx + ε y – závislá premenná x – nezávislá premenná A – absolútny člen-bod, kde priamka pretína y-ovú os B – smernica priamky („sklon“) ε – náhodný člen (náhodná chyba, ktorú nejde vysvetliť lineárnym vzťahom) a, b – odhady regresných parametrov A, B, vypočítaných z našich dát Populácia – A, B ↔ a, b - výber

Bodový diagram (scatter plot)

Metóda najmenších štvorcov ε These vertical distances are called the ordinary least squares residuals. One properties of the residuals is that their sum is zero. This means that the sum of the distances above the line is equal to the sum of the tdistances below the line. Regresná priamka

počet stupňov voľnosti (n – 2) reziduálny rozptyl reziduálny súčet štvorcov počet stupňov voľnosti (n – 2) reziduálny rozptyl celková suma štvorcov regresná suma štvorcov ST = SR + Se

Celková suma štvorcov ST

Koeficient determinácie R2 Vysvetlená variabilita/celková variabilita Miera „vhodnosti“ modelu – udáva časť (percento) variability Y, ktorú je možné pomocou modelu vysvetliť. Druhá mocnina korelačného koeficientu 0 ≤ R2 ≥ 1

Koeficient determinácie R2 SSrez SSrez

Interpretácia regresných koeficientov Model by sa mal používať len v tom rozmedzí oboru hodnôt oboch veličín, v ktorom sa pohybovali pozorované hodnoty!!! b – zmena v „y“ spôsobená zmenou „x“ o hodnotu 1 a – priesečník s osou y

Interpretácia regresných koeficientov b < 0 b > 0

Predpoklady modelu Lineárny vzťah medzi x a y. (t.j. správne definovaný model) Náhodná chyba ε má rozdelenie N(0,σε) pre každé x. (T.j. nulovú strednú hodnotu a konštantný rozptyl) (Rozptyl závisle premennej y je rovnaký pre každú hodnotu nezávisle premennej x (Homoskedasticita).) Chyby sú navzájom nezávislé.

Lineárny vzťah

Normálne rozdelenie s (konštantnou) smerodajnou ochýlkou σε

Normálne rozdelenie chyby Populačná regresná priamka

Príklad výstupu analýzy lineárnej regresie Vysvetliť čo znamenajú jednotlivé p čka pri regresných koeficientoch, čo znamená, že to je signifikantné, čo znamená, že nie je. Nulová hypotéza: smernica je nulová. Absolútny člen je rovný nule.

Regression and the F-test The line of best fit (minimizes sum of squared residuals) Actual value Error variance (residual) Predicted value Avg. SSmodel variance F = Avg. SSerror variance Model variance (predicted)

Simple regression - analysis Source of variation Sum Squares DF Mean Square Regression 4476,965491 1 4476,965491 Residual 10923,034509 48 227,563219 Total 15400 49 F = 19,673502 P < 0,0001 R square = 0,290712 50 100 150 200 120 140 160 180 TSH0 TS00-3h. Systolický pred dialýzou vs. Systolický na holteri v prvom časovom období

Simple linear regression Equation: TSH0 = 0,347095 TS00-3h. + 97,703185 Standard Error of slope = 0,078254 95% CI for population value of slope = 0,189754 to 0,504435 Correlation coefficient (r) = 0,539177 (r² = 0,290712) 95% CI for r (Fisher's z transformed) = 0,306887 to 0,710843 t with 48 DF = 4,435482 Two sided P < 0,0001 Power (for 5% significance) = 98,37% Correlation coefficient is significantly different from zero

Heteroskedasticita… Ak je požiadavka konštantnosti variancií porušená, hovoríme o heteroskedasticite. Heteroscedasticitu môžeme zisťovať zobrazením reziduálov oproti predpovedaným hodnotám y

Overenie predpokladov modelu Overenie náhodnosti chyby (žiadna systematická závislosť) (Durbin-Watson Test) Overenie lineárnosti vzťahu Overenie konštantnosti rozptylu Residuals vs. Fitted Y [linear regression] 120 130 140 150 160 170 -30 -5 20 45 Fitted TSH0 Residuals (Y - y fit) (Durbin-Watson Test - autokorelácia

Overenie normálneho rozdelenia chyby N(0,σε) Normálny graf (q-q alebo p-p plot), histogram, testy (ne)normality Normal Plot for Residuals [linear regression] -30 -5 20 45 -3 -1 1 3 Residual (Y - y fit) van der Waerden normal score

Použitie regresného modelu k odhadnutiu priemernej hodnoty y

Prediction interval Predpovedanie konkrétnej hodnoty budúceho merania

Outliers Odľahlé hodnoty (multivariate outlier) Influential data points Výrazne ovplyvňujú výsledok OLS

An influential observation An outlier An influential observation + + + + + + + + + + + + + … but, some outliers may be very influential + + + + + + + + + + + + + + The outlier causes a shift in the regression line OLS metóda je citlivá na prítomnosť odľahlých pozorovaní (influential observations) !!! Neparametrická regresia www.stanford.edu/class/msande247s/kchap17.ppt

Confounder (zavádzajúca, mätúca, zahmlievajúca premenná) premenná, ktorá je asociovaná s rizikovým faktorom a kauzálne spojená s výsledkom (outcome) Rizikový faktor Outcome Confounder V multivariačných (multivariable) analýzach je potrebné na „confounder“ adjustovať model, aby sme získali „očistený“ vplyv sledovaného rizikového faktora

Confounding Nosenie zápaliek Rakovina pľúc fajčenie

Examples of Confounding Oral contraceptive use ? Cervical cancer Infection with human papillomavirus (HPV) Oral contraceptive use ? Breast cancer Confounding môže byť kontrolovaný vo fáze dizajnu (randomizácia, restrikcia, matching) alebo vo fáze vyhodnocovanie (stratifikácia Mantel_Haenszelov test, multivariačná regresia) Late age at first birth/ low parity HRP 261 1/26/04

Intervening variable (intervenujúca premenná) Nachádza sa na „príčinnej ceste“ od sledovaného rizikového faktora k outcomu Štatisticky neodlíšiteľná od „confoundera“ Pri zisťovaní vplyvu rizikového faktora nemôžeme model adjustovať na intervenujúcu premennú, pretože by sme tým odstránili jeho vplyv – efekt, ktorý sa snažíme preukázať

Example (Intervening variable) Camargo, C.A., Stampfer, M.J., Glynn, R.J., et al. Ann. Intern. Med. 1997;126:372-5 The relationship between moderate alcohol consumption and risk of heart attack. Sensibly they adjusted for age, smoking, exercise, diabetes, and family history of heart attack Did not adjusted for blood pressure, BMI, hypercholesterolemia Alcohol consumption Myocardial infarction ↑ Blood pressure ↑ Body mass index Hypercholesterolemia

Supressor Typ tzv. confoundera V bivariačnej analýze nezistíme vzťah medzi rizikovým faktorom a outcomom. Po adjustácii na „supressing factor“ sa však vplyv rizikového faktora objaví. Rizikový faktor Outcome Suppressor Zidovudine Sérokonverzia Vážnosť poranenia

Viacnásobná lineárna regresia Populácia: yi = β0 + β1xi1 + β2xi2 + ... + βnxin + εi Výber yi = b0 + b1xi1 + b2xi2 + ... + bnxin + εi Hodnota regresných koeficientov bj sa interpretuje v závislosti od typu výskumu. V prípade experimentu (v ktorom s premennými X manipulujeme), vyjadruje o koľko sa zvýši očakávaná hodnota premennej Y ak sa hodnota premennej Xj zvýši o 1 jednotku, pričom ostatné premenné X zostanú nezmenené. Pretože jednotlivé premenné X môžu byť vyjadrené v rozličných jednotkách, nemožno tvrdiť že X, ktorému prislúcha najväčšie b musí mať najväčší vplyv na Y. Ktorá premenná X má najväčší vplyv na premennú Y sa zisťuje z čiastkových korelačných koeficientov (partial correlation coefficients). Koeficient determinácie (R2) vyjadruje podiel variability premennej Y vysvetlenej regresným modelom (teda premennými X) k celkovej variabilite premennej Y. Viacnásobná regresia vyžaduje intervalové premenné. Regresný model však možno doplniť aj o nominálne nezávislé premenné X. Predpoklady Lineárny vzťah medzi premennou Y a premennými X Ak je vzťah medzi premennými zjavne nelineárny (napr. Y = sin X), treba príslušné premenné transformovať a v regresnom modeli ich použiť namiesto pôvodných premenných (X' = sin X). Rezíduá majú rovnaký rozptyl pre všetky hodnoty premenných X Normálne rozdelenie rezíduí Rezíduá sú vzájomne nezávislé Všetky extrémne prípady (outliers) boli z údajov vylúčené Nezávislosť premenných X Porušenie tejto podmienky sa nazýva multikolinearita. Znamená to, že jedna premenná X je takmer váženým priemerom ostatných premenných X. Často sa objavuje v prípade malých vzoriek.

Logistická regresia 1 Účel: Identifikácia premenných X, ktoré významne ovplyvňujú príslušnosť objektu ku skupine. Predikcia príslušnosti objektu do skupiny na základe jeho hodnôt premenných X. Lineárny logistický model: kde P je pravdepodobnosť, y1 a y2 sú dve možné hodnoty premennej Y (najčastejšie y1 predstavuje nastatie javu a y2 nenastatie javu), βi sú logistické regresné koeficienty, ktorých odhady sa zapisujú b. Nominálnu premennú s k úrovňami (hodnotami) možno do modelu zahrnúť tak, že sa z nej vytvorí k−1 binárnych premenných. Napríklad z nominálnej premennej X s troma hodnotami (A, B, C) sa vytvoria dve premenné XA a XB. Hodnota A dostane kód (1,0), hodnota B (0,1) a hodnota C (0,0). Hodnota nominálnej premennej X, ktorá nemá vytvorenú binárnu premennú (v našom príklad C) sa nazýva referenčná. Príklady: Možno očakávať pooperačné komplikácie pacienta (Y) ak máme k dispozícii výsledky jeho testov (X) a databázu testov a operačných výsledkov predchádzajúcich pacientov? Ako súvisí výskyt veľkej poistnej udalosti (Y) s vekom (X1), pohlavím (X2), vzdelaním (X3) a príjmom (X4) poistenca? Ako na základe osobných údajov poistencov a záznamoch o poistných udalostiach možno usúdiť, či bude alebo nebude mať záujemca o poistenie veľkú poistnú udalosť? Výraz v zátvorke (podiel dvoch pravdepodobností) sa nazýva šanca (Odds). Napríklad ak je pravdepodobnosť výhry P=10 %, šanca na výhru = 0,1/(1−0,1)=0,1/0,9=1/9. Logaritmus šance sa nazýva logit. Zdroj: http://rimarcik.com/navigator/

Logistická regresia 2 Interpretácia koeficientov logistickej regresie je zložitejšia ako pri lineárnej regresii. Ak je bi>0, potom vyššie hodnoty premennej Xi, pri rovnakých hodnotách ostatných premenných X, zvyšujú šancu zaradenia objektu do 1. skupiny. Ak je bi<0, vyššie hodnoty Xi túto šancu znižujú. Častejšie ako samotné regresné koeficienty b sa interpretujú pomery šancí (eb). Pomer šancí (Odds Ratio) vyjadruje pomer šance zaradenia objektu do 1. skupiny ak sa Xi zvýši o 1, pričom ostatné X zostanú nezmenené, k pôvodnej šanci jeho zaradenia do 1. skupiny. Na rozdiel od viacnásobnej regresie, interpretácia b a teda aj pomeru šancí (eb) závisí na konkrétnej hodnote X, pretože pravdepodobnosti sa menia s hodnotami X. Interpretácie je jednoduchá v prípade binárnych premenných X. Keďže nadobúdajú iba dve hodnoty (0 alebo 1) existuje jediná interpretácia. Pomer šancí predstavuje pomer šance zaradenia objektu do 1. skupiny ak Xi=1 ku šanci jeho zaradenia ak Xi =0 pri rovnakých hodnotách ostatných premenných X. Nominálnu premennú s k úrovňami (hodnotami) možno do modelu zahrnúť tak, že sa z nej vytvorí k−1 binárnych premenných. Napríklad z nominálnej premennej X s troma hodnotami (A, B, C) sa vytvoria dve premenné XA a XB. Hodnota A dostane kód (1,0), hodnota B (0,1) a hodnota C (0,0). Hodnota nominálnej premennej X, ktorá nemá vytvorenú binárnu premennú (v našom príklad C) sa nazýva referenčná. Príklady: Možno očakávať pooperačné komplikácie pacienta (Y) ak máme k dispozícii výsledky jeho testov (X) a databázu testov a operačných výsledkov predchádzajúcich pacientov? Ako súvisí výskyt veľkej poistnej udalosti (Y) s vekom (X1), pohlavím (X2), vzdelaním (X3) a príjmom (X4) poistenca? Ako na základe osobných údajov poistencov a záznamoch o poistných udalostiach možno usúdiť, či bude alebo nebude mať záujemca o poistenie veľkú poistnú udalosť?

Referencie Zvárová et. al. Základy statistiky pro biomedicínské obory. Praha, Karolinum, 2004. Dayya, D.: Advanced Statistical Methods and Multivariate Analysis In Medicine. prezentácia Motulsky H.J., Christopoulos A.: Fitting models to biological data using linear and nonlinear regression. A practical guide to curve fitting. GraphPad Software Inc. 2003 Katz, M.H.: Multivariable Analysis. A practical Guide for Clinicans. Cambridge University Press, 2001. http://rimarcik.com/navigator/ Prezentácia: Základní kurz statistiky II, regresní Analýza. Milan Bašta (28. únor & 1. březen, 2011)