Download presentation
Presentation is loading. Please wait.
Published byDjaja Budi Kurnia Modified over 6 years ago
1
Regresia a korelácia Iveta Waczulíková Peter Slezák
Fakulta matematiky, fyziky a informatiky UK Ústav simulačného a virtuálneho medicínskeho vzdelávania LF UK
2
Usporiadanie štúdie, koncept
Vstupná premenná X Vstupná premenná X + iné vysvetľujúce premenné X (confounding) Výstupná premenná Y Výstupná premenná Y sekundárne (doplňujúce) výstupy Efekt, rozdiel, vzťah
3
Výber štatistického testu
4
Pojmy asociácia, korelácia, regresia
skúmanie sily a druhu závislostí medzi dvoma premennými štatistická závislosť ≠ kauzalita!!! bodový graf XY korelácia – sila závislosti („symetrický“ vzťah premenných) regresia – závislosť spojitej veličiny (závislej premennej) na jednej alebo viacerých veličinách (nezávislé premenné) závislosť – lineárna, logaritmická, exponenciálna (v parametroch vs. prediktoroch) ... Kauzalita – k štatistickým výsledkom je potrebné pridať odborné znalosti, praktické skúsenosti a účelne kombinovať deduktívny a induktívny spôsob uvažovania Keď hovoríme o korelácii, tvrdíme tým, že medzi sledovanými premennými je lineárny vzťah
6
Variancia (rozptyl) Each circle represents the variance of each of the variables.
7
Kovariancia a korelácia (= štandardizovaná kovariancia)
Each circle represents the variance of each of the variables. Where the circles overlap represents variance the circles have in common and thus the effect of one variable on the second variable.
8
Variancia, kovariancia a korelačný koeficient (Pearsonov)
Pearsonov korelačný koeficient rxy – určuje silu vzťahu dvoch spojitých premenných (x,y) Výberová kovariancia – cov(x,y) Variancia y - var(y) Variancia x – var(x) Pozn.: člen (n-1) z menovateľa vzorca pre výberovú varianciu (kovarianciu) sa vykrátil
10
Lineárny vzťah medzi Y a X je kladný (ako X narastá, Y taktiež narastá), potom je viac bodov v prvom a treťom kvadrante ako v druhom a štvrtom. V takomto prípade je pravdepodobné, že hodnota sumy v čitateli bude kladná, pretože je tu viac pozitívnych ako negatívnych hodnôt.
11
Correlation Seen on a Graph
Same Direction, Weak Correlation Moderate Correlation Same Direction, Strong Correlation Korelačný koeficient <-1, 1> 0 – žiadny lineárny vzťah (môže byť ale prítomný iný ako lineárny funkčný vzťah!); 1 (-1) – úplný pozitívny (negatívny) lineárny vzťah
13
Poznámky ku korelačnému koeficientu
Obvykle sa v literatúre hodnota korelačného koeficienta udáva aj s dosiahnutou hladinou významnosti (p-value) H0 : korelačný koeficient sa rovná nule t.j. medzi veličinami X a Y neexistuje lineárny vzťah (môže ale existovať nelineárny vzťah!) Pre veľké výbery aj malá (prakticky nevýznamná) hodnota korelačného koeficienta môže byť štatisticky signifikantná! uvádzať konfidenčné intervaly pre populačný koeficient Korelácia neznamená príčinnosť!!!
14
Korelovanosť = lineárna závislosť
Korelačný koeficient Korelovanosť = lineárna závislosť Dokáže zachytiť: silu lineárnej závislosti dvoch premenných (premenné sú silne lineárne závislé, ak je korelačný koeficient v absolútnej hodnote blízky 1) smer lineárnej závislosti (v zmysle priama vs. nepriama) Nedokáže zachytiť: Veľkosť sklonu lineárnej závislosti Nelineárnu závislosť medzi premennými
15
Korelačný koeficient
16
Auscombe’s regression data
Rovnaký priemer, variancia pre X aj pre Y; rovnaká regresná priamka (OLS); rovnaký reziduálny súčet štvorcov. Ascombe created these data sets to emphasize the need for the statistician to look carefully at data.
17
Jednoduchá regresia (simple regression)
Jednoduchá regresia – vzťah dvoch premenných (závislej a nezávislej). Závislá premenná je tá, ktorú sa snažíme vysvetliť a nezávislá premenná je tá, pomocou ktorej vysvetľujeme variabilitu v závislej premennej.
18
Lineárna regresia Jednoduchá regresia, ktorá popisuje lineárny („priamkový“) vzťah medzi dvoma premennými lineárny nelineárny
19
Táto metóda zahrňuje preloženie priamky dátami a analýzu štatistických vlastností tejto priamky
model y = A + Bx + ε y – závislá premenná x – nezávislá premenná A – absolútny člen-bod, kde priamka pretína y-ovú os B – smernica priamky („sklon“) ε – náhodný člen (náhodná chyba, ktorú nejde vysvetliť lineárnym vzťahom) a, b – odhady regresných parametrov A, B, vypočítaných z našich dát Populácia – A, B ↔ a, b - výber
20
Bodový diagram (scatter plot)
21
Metóda najmenších štvorcov
ε These vertical distances are called the ordinary least squares residuals. One properties of the residuals is that their sum is zero. This means that the sum of the distances above the line is equal to the sum of the tdistances below the line. Regresná priamka
22
ST = SR + Se reziduálny súčet štvorcov počet stupňov voľnosti (n – 2)
reziduálny rozptyl celková suma štvorcov regresná suma štvorcov ST = SR + Se
23
Celková suma štvorcov ST
24
Vysvetlená variancia (koeficient determinácie R2)
Since A represents the degree to which X1 and Y vary together, we can also say that A is the portion of Y's variance that is explained by X1 (or by the variation in X1). Thus, the R2 from the regression of Y on X1 is equal to the overlap area (A) divided by the total area representing Y (A + B). R2 indicates the explanatory power of the regression model. It records the proportion of variation in the dependent variable explained by the independent variables. It also ranges from zero to +1. When equals 1, this means that the independent variable/variables completely accounts for the variation in the dependent variable (all the observations fall on the regression line). In contrast when R2 equals zero, this means that the independent variable accounts for no variation in the dependent variable. The total variables are totally independent from each other. The close R2 to 1, the better fit the regression line to the points, and the more variation in Y is explained by X. To understand R2, you should know that there are three types of variation in the dependent variable: - The total variation that we would like to explain. It’s called the total sum of squared deviations (TSS) - The explained variation which is predicted by the regression model. It’s called the regression sum of squared deviations (RSS), - The unexplained variation which isn’t predicted by the regression model. It’s called the error sum of squared deviations (ESS) or the residuals.
25
Koeficient determinácie R2
Vysvetlená variabilita/celková variabilita Miera „vhodnosti“ modelu – udáva časť (percento) variability Y, ktorú je možné pomocou modelu vysvetliť. Druhá mocnina korelačného koeficientu 0 ≤ R2 ≤ 1
26
Koeficient determinácie R2
SSrez SSrez
27
Smerica regresného modelu (priamky)
The regression coefficient or slope coefficient represents the change in the dependent variable that we expect to see as a result of a change in the policy or treatment. This information is captured by the formula for a slope, which is literally the change in Y associated with the change in X. The way that we measure change is through covariance and variance. Recall that the regression slope calculation depends on the variance of X and the covariance between X and Y. Below the variance of X is represented by the red circle (the total of sections A and C) and the covariance between X and Y is represented by the overlap (section A). Visualizing the parts of the Ballentine used in the regression slope calculation will later aid in understanding how independent variables affect each other in the multiple regression context.
28
Interpretácia regresných koeficientov
Model by sa mal používať len v tom rozmedzí oboru hodnôt oboch veličín, v ktorom sa pohybovali pozorované hodnoty!!! b – zmena v „y“ spôsobená zmenou „x“ o hodnotu 1 a – priesečník s osou y
29
Interpretácia regresných koeficientov
b < 0 b > 0
30
Predpoklady modelu Lineárny vzťah medzi x a y. (t.j. správne definovaný model) Náhodná chyba ε má rozdelenie N(0,σε) pre každé x. (T.j. má nulovú strednú hodnotu a konštantný rozptyl) (Rozptyl závisle premennej y je rovnaký pre každú hodnotu nezávisle premennej x (homoskedasticita).) Chyby sú navzájom nezávislé.
31
Lineárny vzťah
32
Normálne rozdelenie s (konštantnou) smerodajnou ochýlkou σε
33
Normálne rozdelenie chyby
Populačná regresná priamka
35
Príklad výstupu analýzy lineárnej regresie
Vysvetliť, čo znamenajú jednotlivé péčka pri regresných koeficientoch, čo znamená, že to je signifikantné, čo znamená, že nie je. Nulová hypotéza: smernica je nulová. Absolútny člen je rovný nule.
36
Regression and the F-test
The line of best fit (minimizes sum of squared residuals) Actual value Error variance (residual) Predicted value Avg. SSmodel variance F = Avg. SSerror variance Model variance (predicted)
37
Simple regression - analysis
Source of variation Sum Squares DF Mean Square Regression 4476, ,965491 Residual , ,563219 Total F = 19, P < 0,0001 R square = 0,290712 50 100 150 200 120 140 160 180 TSH0 TS00-3h. Systolický pred dialýzou vs. Systolický na holteri v prvom časovom období
38
Simple linear regression
Equation: TSH0 = 0, TS00-3h. + 97,703185 Standard Error of slope = 0,078254 95% CI for population value of slope = 0, to 0,504435 Correlation coefficient (r) = 0, (r² = 0,290712) 95% CI for r (Fisher's z transformed) = 0, to 0,710843 t with 48 DF = 4,435482 Two sided P < 0,0001 Power (for 5% significance) = 98,37% Correlation coefficient is significantly different from zero
39
Heteroskedasticita… Ak je požiadavka konštantnosti variancií porušená, hovoríme o heteroskedasticite. Heteroscedasticitu môžeme zisťovať zobrazením reziduálov oproti predpovedaným hodnotám y
40
Overenie predpokladov modelu
Overenie náhodnosti chyby (žiadna systematická závislosť) (Durbin-Watson Test) Overenie lineárnosti vzťahu Overenie konštantnosti rozptylu Residuals vs. Fitted Y [linear regression] 120 130 140 150 160 170 -30 -5 20 45 Fitted TSH0 Residuals (Y - y fit) Durbin-Watson Test - autokorelácia
41
Overenie normálneho rozdelenia chyby N(0,σε)
Normálny graf (q-q alebo p-p plot), histogram, testy (ne)normality Normal Plot for Residuals [linear regression] -30 -5 20 45 -3 -1 1 3 Residual (Y - y fit) van der Waerden normal score
43
Použitie regresného modelu k odhadnutiu priemernej hodnoty y
44
Prediction interval Predpovedanie konkrétnej hodnoty budúceho merania
45
Outliers Odľahlé hodnoty (multivariate outlier)
Influential data points Výrazne ovplyvňujú výsledok OLS
46
An influential observation
An outlier An influential observation + + + + + + + + + + + + + … but, some outliers may be very influential + + + + + + + + + + + + + + The outlier causes a shift in the regression line OLS metóda je citlivá na prítomnosť odľahlých pozorovaní (influential observations) !!! Neparametrická regresia
47
Curve fitting aplikácia http://phet. colorado
48
Neparametrické alternatívy
Predpokladom štatistického testu významnosti Pearsonovho korelačného koeficientu je, že aspoň jedna z premenných musí byť približne normálne rozdelená. Neparametrické alternatívy Pearsonovho korelačného koeficientu r: Spearmanov poradový korelačný koeficient ρ (rho) Je to v podstate Pearsonov korelačný koeficient r spočítaný na poradiach Kendallov korelačný koeficient τb (tau-b) odporúča sa používať v prípade, že v dátach je veľa „zhôd“ (pozorovaní s rovnakou hodnotou) existujú tri alternatívy (a, b, c). tau-b sa používa najčastejšie tau-c je vhodný na analýzu kontingenčných tabuliek s ordinálnymi premennými s rôznym počtom riadkov a stĺpcov
49
Multivariačný prístup
50
Jednoduchá vs. viacnásobná lineárna regresia
The Ballantine diagrams can illustrate why regression slopes can change when you add more variables to a model. In the bivariate model we've discussed thus far, section A represents the covariance of X1 and Y which is used in the slope calculation. In other words, section A is the variation in Y that is explained by X1. Contrast this with a model that adds a second independent variable. In the multiple regression context, we're interested in the the variation in Y that is uniquely explained by each independent variable. Here section A is the variation in Y that is uniquely explained by X1, section B is the is the variation in Y that is uniquely explained by X2, and section C is the is the variation in Y that is jointly explained by X1 and X2. In multiple regression this variation in Y that cannot be solely explained by either X1 or X2 (section C) is tossed out of the slope calculations.
52
Premenné-klasifikácia
Premenné (znaky) primárneho záujmu – nezávislé premenné, ktoré nazývame faktory a ktoré meriame a/alebo nimi istým spôsobom manipulujeme počas experimentu (kontrolujeme). V observačných štúdiách zaznamenávame a triedime. Očakávame, že sú zdrojom variability v sledovanej odpovedi (v závislej premennej). Pozadie (background, baseline, skresľujúce (confounders), modifikujúce faktory, covariates..) – ich hodnoty (úrovne) môžeme merať (identifikovať), ale nemôžeme ich kontrolovať. Ich zahrnutím do modelu však odstránime variabilitu, ktorú vnášajú do odpovede (hodnoty závislej premennej). Konštantné premenné môžeme merať aj kontrolovať, ale z rôznych dôvodov ich držíme konštatntné počas trvania štúdie. Nekontrolovateľné (hard-to-change) premenné, premenné, o ktorých existencii sa vie, ale ktorými sa kvôli podmienkam nedá manipulovať, alebo je ťažké ich merať. Ich vplyv sa čiastočne eliminuje vhodných dizajnom (rozloženie vplyvu v podskupinách, resp. Experimentálnej a kontrolnej skupine randomizovaným výberom a zaslepením - blinding).
53
Efekt - pripomenutie Ak je zmena v jednej premennej (charakteristike / znaku / faktore) spojená so zmenou v druhej premennej, hovoríme o efekte. Tieto zmeny môžu byť kvantitatívne alebo kvalitatívne. Typ zmeny a hypotéza o zmene podmieňuje výber štatistickej procedúry Väčšina biomedicínskeho výskumu je zacielená na rozpoznávanie efektov a porozumenie ich podstaty. 1. Hypotézy zhody: do akej miery je náš výber reprezentatívny pre populáciu, z ktorej pochádza (funkcia hustoty modelového rozloženia vs. rozloženie experimentálnych dát) 2. Hypotézy významnosti rozdielov: porovnávame niekoľko náhodných výberov a skúmame, či pochádzajú z tej istej populácie, alebo z niekoľkých rôznych (typ grafu: rozloženie početností jednej premennej) 3. Hypotézy nezávislosti: skúmame, či a aké sú závislosti medzi niekoľkými rôznymi premennými (znakmi) (typ grafu: závislá premenná od nezávislej) (rozdiely medzi strednými hodnotami, kontingenčné tabuľky, korelačné koeficienty...)
54
Vzťahy medzi závislou a nezávislou premennou
Intervenujúca premenná Na rozdiel od „confoundera“ (nasledujúci obr.) ju nevkladáme do modelu In statistics, a mediation model is one that seeks to identify and explicate the mechanism that underlies an observed relationship between an independent variable and a dependent variable via the inclusion of a third explanatory variable, known as a mediator variable. Rather than hypothesizing a direct causal relationship between the independent variable and the dependent variable, a mediational model hypothesizes that the independent variable causes the mediator variable, which in turn causes the dependent variable. The mediator variable, then, serves to clarify the nature of the relationship between the independent and dependent variables (MacKinnon, 2008). While the concept of mediation as defined within psychology is theoretically appealing, the methods used to study mediation empirically have been challenged by statisticians and epidemiologists[1][2] and formally derived by Pearl (2001)[3]. A simple statistical mediation model 54
55
Intervening variable (intervenujúca premenná, tiež nazývaná mediátor)
Nachádza sa v príčinnej reťazi od sledovaného rizikového faktora k „outcomu“ Štatisticky neodlíšiteľná od „confoundera“ Pri zisťovaní vplyvu rizikového faktora nemôžeme model adjustovať na intervenujúcu premennú, pretože by sme tým odstránili jeho vplyv – efekt, ktorý sa snažíme preukázať
56
Each circle represents the variance of each of the variables
Each circle represents the variance of each of the variables. Where the circles overlap represents variance the circles have in common and thus the effect of one variable on the second variable. For example sections c + d represent the effect of the independent variable on the dependent variable, if we ignore the mediator, and corresponds to τ. This total amount of variance in the dependent variable that is accounted for by the independent variable can then be broken down into areas c and d. Area c is the variance that the independent variable and the dependent variable have in common with the mediator, and this is the indirect effect.[citation needed][clarification needed] Area c corresponds to the product of coefficients (αβ) and to (τ − τ’). The Sobel test is testing how large area cis. If area c is sufficiently large then Sobel’s test is significant and significant mediation is occurring.
57
Example (Intervening variable)
Camargo, C.A., Stampfer, M.J., Glynn, R.J., et al. Ann. Intern. Med. 1997;126:372-5 The relationship between moderate alcohol consumption and risk of heart attack. Sensibly they adjusted for age, smoking, exercise, diabetes, and family history of heart attack Did not adjusted for blood pressure, BMI, hypercholesterolemia Alcohol consumption Myocardial infarction ↑ Blood pressure ↑ Body mass index Hypercholesterolemia
58
Confounder (zavádzajúca, mätúca, zahmlievajúca premenná)
premenná, ktorá je asociovaná s rizikovým faktorom a kauzálne spojená s výsledkom (outcome) Rizikový faktor Outcome Confounder V multivariačných (multivariable) analýzach je potrebné na „confounder“ adjustovať model, aby sme získali „očistený“ vplyv sledovaného rizikového faktora
59
Confounding Konzumácia kávy Rakovina pľúc u žien fajčenie
káva = protektívny faktor u fajčenia sa tých riziko ešte viac zvýši (oproti "crude risk"... Porovnaniu bez uvažovania konzumácie kávy) (ak človek fajčí, častejšie je konzumentom kávy - confounding)
60
Examples of Confounding
Oral contraceptive use ? Cervical cancer Infection with human papillomavirus (HPV) Oral contraceptive use ? Breast cancer Confounding môže byť kontrolovaný vo fáze dizajnu (randomizácia, restrikcia, matching) alebo vo fáze vyhodnocovanie (stratifikácia Mantel_Haenszelov test, multivariačná regresia) Late age at first birth/ low parity HRP 261 1/26/04
61
Supresser Typ tzv. confoundera
V bivariačnej analýze nezistíme vzťah medzi rizikovým faktorom a outcomom. Po adjustácii na „supressing factor“ sa však vplyv rizikového faktora objaví. Rizikový faktor Outcome Supresor Zidovudine Sérokonverzia Vážnosť poranenia
62
Faktor zahmlievajúc účinok (confounding factor, confounder)
Faktor moderujúci/modifikujúci účinok (moderator, modifier, interacting variable) môže potlačovať efekt (suppressor) Typ súbežne pôsobiaceho faktora V bivariačnej analýze nezistíme vzťah medzi expozíciou (napr. rizikovým faktorom) a následkom. Po adjustácii na supresor sa vplyv expozície prejaví. Môže znemožniť detekciu efektu Suppression is defined as "a variable which increases the predictive validity of another variable (or set of variables) by its inclusion in a regression equation"[5]. For instance, if you are set to examine the effect of a treatment (e.g. medication) on an outcome (e.g. healing from a disease), a suppression would mean that instead of the drop that you would see from the direct effect of the treatment on the outcome when the mediator is introduced, the opposite happens. The inclusion of the mediating variable into the equation increases the relation between the treatment and outcome rather accounts for (decreases in terms of the size of the statistical relation). Zástupný: Majú predpovedaciu silu bez priamej biologickej súvislosti/mechanizmu s následkom (ochorením) Socioekonomické, demografické faktory Intervenujúci: Nachádza sa v príčinnej postupnosti od sledovaného rizikového faktora k výslednému efektu Štatisticky neodlíšiteľný od „confoundera“ Pri zisťovaní vplyvu rizikového faktora nemôžeme model adjustovať na intervenujúcu premennú, pretože by sme tým potlačili alebo úplne odstránili vplyv sledovaného rizikového faktora. Mediátor: Vzťah expozície/rizikového faktora k výslednému efektu je rôzny pre rôzne úrovne modifikujúceho faktora Nemôže byť považovaný za „confounder“ Faktor v príčinnej postupnosti (intervening-mediating factor) 62
63
Vzájomne korelované faktory (problém multikolinearity)
Neznižujú predikčnú schopnosť a spoľahlivosť modelu ako celku, ale zväčšujú štandardné chyby prediktorov. Pr: lipoproteíny: LDL s HDL resp. s celkovým cholesterolom; morfometrické údaje, vek/výška u detí apod. Rizikový faktor Efekt Faktor(y) korelujúce s vybraným rizikovým f. Závažná multikolinearita pri r nad 0,75 resp. 0,8! Faktor skorelovaný s expozíciou ale nie s efektom Dôležitá je voľba UKAZOVATEĽA EFEKTU! vyskytujú sa aj v situácii, ak je druhý faktor len matematický prepočet alebo je to kombinované skóre zahŕňajúce prediktor, ktoré je už v modeli použitý. Obvykle stačí použiť jeden (najdôležitejší/najvýznamnejší). Time-dependent and fixed covariates ako napr. fyziologické a biochemické charakteristiky, tumor grade, peritumoral vascular invasion, klesajúci efekt lieku, faktory životného štýlu (napr. kumulovaná expozícia pri fajčení)... In prospective studies, when individuals are followed over time, the values of covariates may change with time. Covariates can thus be divided into fixed and time-dependent. A covariate is time dependent if the difference between its values for two different subjects changes with time; e.g. serum cholesterol. A covariate is fixed if its values can not change with time, e.g. sex or race. Lifestyle factors and physiological measurements such as blood pressure are usually time-dependent. Cumulative exposures such as smoking are also time-dependent but are often forced into an imprecise dichotomy, i.e. "exposed" vs. "not-exposed" instead of the more meaningful "time of exposure". There are no hard and fast rules about the handling of time dependent covariates. If you are considering using Cox regression you should seek the help of a Statistician, preferably at the design stage of the investigation. Časovo-závislé faktory ich odlíšenie od fixných faktorov je dôležité pri analýzach prežívania 63
65
Multikolinearita
67
Viacnásobná lineárna regresia
Populácia: yi = β0 + β1xi1 + β2xi βnxin + εi Výber yi = b0 + b1xi1 + b2xi bnxin + εi Hodnota regresných koeficientov bj sa interpretuje v závislosti od typu výskumu. V prípade experimentu (v ktorom s premennými X manipulujeme), vyjadruje o koľko sa zvýši očakávaná hodnota premennej Y ak sa hodnota premennej Xj zvýši o 1 jednotku, pričom ostatné premenné X zostanú nezmenené. Pretože jednotlivé premenné X môžu byť vyjadrené v rozličných jednotkách, nemožno tvrdiť že X, ktorému prislúcha najväčšie b musí mať najväčší vplyv na Y. Ktorá premenná X má najväčší vplyv na premennú Y sa zisťuje z čiastkových korelačných koeficientov (partial correlation coefficients). Koeficient determinácie (R2) vyjadruje podiel variability premennej Y vysvetlenej regresným modelom (teda premennými X) k celkovej variabilite premennej Y. Viacnásobná regresia vyžaduje intervalové premenné. Regresný model však možno doplniť aj o nominálne nezávislé premenné X. Predpoklady Lineárny vzťah medzi premennou Y a premennými X Ak je vzťah medzi premennými zjavne nelineárny (napr. Y = sin X), treba príslušné premenné transformovať a v regresnom modeli ich použiť namiesto pôvodných premenných (X' = sin X). Rezíduá majú rovnaký rozptyl pre všetky hodnoty premenných X Normálne rozdelenie rezíduí Rezíduá sú vzájomne nezávislé Všetky extrémne prípady (outliers) boli z údajov vylúčené Nezávislosť premenných X Porušenie tejto podmienky sa nazýva multikolinearita. Znamená to, že jedna premenná X je takmer váženým priemerom ostatných premenných X. Často sa objavuje v prípade malých vzoriek.
69
Logistická regresia 1 Účel: Identifikácia premenných X, ktoré významne ovplyvňujú príslušnosť objektu ku skupine. Predikcia príslušnosti objektu do skupiny na základe jeho hodnôt premenných X. Lineárny logistický model: kde P je pravdepodobnosť, y1 a y2 sú dve možné hodnoty premennej Y (najčastejšie y1 predstavuje nastatie javu a y2 nenastatie javu), βi sú logistické regresné koeficienty, ktorých odhady sa zapisujú b. Nominálnu premennú s k úrovňami (hodnotami) možno do modelu zahrnúť tak, že sa z nej vytvorí k−1 binárnych premenných. Napríklad z nominálnej premennej X s troma hodnotami (A, B, C) sa vytvoria dve premenné XA a XB. Hodnota A dostane kód (1,0), hodnota B (0,1) a hodnota C (0,0). Hodnota nominálnej premennej X, ktorá nemá vytvorenú binárnu premennú (v našom príklad C) sa nazýva referenčná. Príklady: Možno očakávať pooperačné komplikácie pacienta (Y) ak máme k dispozícii výsledky jeho testov (X) a databázu testov a operačných výsledkov predchádzajúcich pacientov? Ako súvisí výskyt veľkej poistnej udalosti (Y) s vekom (X1), pohlavím (X2), vzdelaním (X3) a príjmom (X4) poistenca? Ako na základe osobných údajov poistencov a záznamoch o poistných udalostiach možno usúdiť, či bude alebo nebude mať záujemca o poistenie veľkú poistnú udalosť? Výraz v zátvorke (podiel dvoch pravdepodobností) sa nazýva šanca (Odds). Napríklad ak je pravdepodobnosť výhry P=10 %, šanca na výhru = 0,1/(1−0,1)=0,1/0,9=1/9. Logaritmus šance sa nazýva logit. Zdroj:
70
Logistická regresia 2 Interpretácia koeficientov logistickej regresie je zložitejšia ako pri lineárnej regresii. Ak je bi>0, potom vyššie hodnoty premennej Xi, pri rovnakých hodnotách ostatných premenných X, zvyšujú šancu zaradenia objektu do 1. skupiny. Ak je bi<0, vyššie hodnoty Xi túto šancu znižujú. Častejšie ako samotné regresné koeficienty b sa interpretujú pomery šancí (eb). Pomer šancí (Odds Ratio) vyjadruje pomer šance zaradenia objektu do „pozitívnej“ skupiny (pre Y=1), ak sa Xi zvýši o 1, pričom ostatné X zostanú nezmenené, k pôvodnej šanci jeho zaradenia do 1. skupiny. Na rozdiel od viacnásobnej regresie, interpretácia b a teda aj pomeru šancí (eb) závisí na konkrétnej hodnote X, pretože pravdepodobnosti sa menia s hodnotami X. Interpretácie je jednoduchá v prípade binárnych premenných X. Keďže nadobúdajú iba dve hodnoty (0 alebo 1) existuje jediná interpretácia. Pomer šancí predstavuje pomer šance zaradenia objektu do 1. skupiny ak Xi=1 ku šanci jeho zaradenia ak Xi =0 pri rovnakých hodnotách ostatných premenných X. Nominálnu premennú s k úrovňami (hodnotami) možno do modelu zahrnúť tak, že sa z nej vytvorí k−1 binárnych premenných. Napríklad z nominálnej premennej X s troma hodnotami (A, B, C) sa vytvoria dve premenné XA a XB. Hodnota A dostane kód (1,0), hodnota B (0,1) a hodnota C (0,0). Hodnota nominálnej premennej X, ktorá nemá vytvorenú binárnu premennú (v našom príklad C) sa nazýva referenčná. Príklady: Možno očakávať pooperačné komplikácie pacienta (Y) ak máme k dispozícii výsledky jeho testov (X) a databázu testov a operačných výsledkov predchádzajúcich pacientov? Ako súvisí výskyt veľkej poistnej udalosti (Y) s vekom (X1), pohlavím (X2), vzdelaním (X3) a príjmom (X4) poistenca? Ako na základe osobných údajov poistencov a záznamoch o poistných udalostiach možno usúdiť, či bude alebo nebude mať záujemca o poistenie veľkú poistnú udalosť?
71
Výstup logistickej regresie
Logistic regression Deviance goodness of fit chi-square = 0,298536 df = 1 P = 0,5848 Deviance (likelihood ratio) chi-square = 1,520559 df = 2 P = 0,4675 Intercept b0 = -4,93196 z = -6,122587 P < 0,0001 káva b1 = -1,317499 z = -1,266065 P = 0,2055 fajčenie b2 = 0,286496 z = 0,275312 P = 0,7831 logit rakovina pľúc = -4, , káva +0, fajčenie Poznámka: ide len „demo“ príklad na agregovaných dátach pre ilustrovanie smeru efektu. Výsledné publikované regresné koeficienty z analýzy individuálnych dát boli: káva: b1 = -0,448 (OR=e(-0,448)=0,639); P = 0,017 a fajčenie b2 = 1,839 (OR=e(+1,839)=6,29); P << 0,0001
72
Výstup logistickej regresie
74
Referencie Zvárová et. al. Základy statistiky pro biomedicínské obory. Praha, Karolinum, 2004. Dayya, D.: Advanced Statistical Methods and Multivariate Analysis In Medicine. prezentácia Motulsky H.J., Christopoulos A.: Fitting models to biological data using linear and nonlinear regression. A practical guide to curve fitting. GraphPad Software Inc. 2003 Katz, M.H.: Multivariable Analysis. A practical Guide for Clinicans. Cambridge University Press, 2001. Prezentácia: Základní kurz statistiky II, regresní Analýza. Milan Bašta (28. únor & 1. březen, 2011)
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.