Presentation is loading. Please wait.

Presentation is loading. Please wait.

Analýza prežívania, Kaplan-Meierove krivky a Coxova regresia

Similar presentations


Presentation on theme: "Analýza prežívania, Kaplan-Meierove krivky a Coxova regresia"— Presentation transcript:

1 Analýza prežívania, Kaplan-Meierove krivky a Coxova regresia
Iveta Waczulíková Peter Slezák

2 Analýza prežívania (survival analysis)
Študuje rozdelenie doby (času) medzi dvoma udalosťami (v živote pacienta) Vstupná udalosť: narodenie, čas diagnostikovania, začiatok liečby, expozícia rizikovému faktoru... Koncová udalosť: úmrtie, vyliečenie, relaps, prepustenie z nemocnice... Doba prežitia (survival time) je doba medzi oboma udalosťami, napr: čas do úmrtia čas do prepuknutia ochorenia / relapsu dĺžka hospitalizácie čas do vyliečenia ochorenia...

3 Kódovanie pre „status“ v programe StatsDirect:
Formát dát – Pr.1a Dáta časov a možných prognostických faktorov vybraných 7 pacientov s AMV mozgu vstup: stereotaktická rádiochirurgia výstup: obliterácia ~ úspech Príklad 1a: Vyšetrovaná patológia: AVM - arteriovenózna malformácia v mozgu – (kongenitálna vaskulárna anomália tvorená prívodnými artériami, vlastným nidom zloženým z klbka malformovaných ciev a odvodnou- drénujúcou žilou) Intervencia: Stereotaktická rádiochirurgia Sledovaná udalosť: zánik AVM=úspech intervencie Poznámky: jednorázová aplikácia vysokej dávky žiarenia do stereotakticky definovaného cieľového objemu cieľom SRCH plánovania liečby je dosiahnutie najefektívnejšieho (terapeutická dávka) ako aj homogénneho ožiarenia cieľového objemu s maximálnym šetrením okolitých (kritických) štruktúr ožiarenie malformovaných ciev vedie k stimulácii proliferácie endotelu, k degenerácii buniek médie s produkciou hyalínu, čo vedie k alterácii hemodynamických pomerov a následnej obliterácii nidu AVM Analytik pracuje so „zaslepenou“ databázou Kódovanie pre „status“ v programe StatsDirect: * Cenzorovanie = 0 pre nekompletné dáta Cenzorovanie = 1 pre kompletné dáta (udalosť)

4 Zo zdravotných záznamov pacientov
Príklad dát pacientov 1 2 3 4 5 6 7 1990 1995 2000 2005 6/2008 Zo zdravotných záznamov pacientov Pacient AVM trvá sledovaná udalosť úspech (vyliečenie) iná ako sledovaná udalosť (úmrtie...) ? audit Obdobie štúdie , v tomto období výber pacientov spĺňajúcich vstupné kritériá pre zákrok a ich ďalšie sledovanie

5 Údaje do databázy – počiatok času sledovania je vstupná udalosť
Príklad dát pacientov 1 2 3 4 5 6 7 10 15 Časové dáta Pacient ? AVM trvá úspech úmrtie... Roky od zákroku cenzorovanie cenzorovanie (cenzorovanie) chýbajúci údaj Údaje do databázy – počiatok času sledovania je vstupná udalosť (napr. tu zákrok)

6 Typy cenzorovania sprava zľava intervalové pozorovaný čas prežitia je
kratší než skutočný štúdia končí pred nastatím udalosti zľava intervalové

7 Typy cenzorovania sprava zľava intervalové Čas do relapsu
Čas do udalosti je kratší (alebo rovný) než čas pozorovaný t < 3 (t ≤ tobs) intervalové zákrok rekurencia 3 mes. vyšetrenie t

8 Typy cenzorovania sprava zľava intervalové Čas do relapsu
bez ochorenia 3 mes. 1.vyšetrenie rekurencia 6 mes. 2. vyšetrenie zákrok t

9 Funkcia prežívania (survival function)
Funkcia prežívania S(t) je pravdepodobnosť prežitia T dlhšieho, než je čas t. S(t) = P(T>t) kde T je čas prežitia. The product limit (PL) method of Kaplan and Meier (1958) is used to estimate S: - where ti is duration of study at point i, di is number of deaths up to point i and ni is number of individuals at risk just prior to ti. S is based upon the probability that an individual survives at the end of a time interval, on the condition that the individual was present at the start of the time interval. S is the product (P) of these conditional probabilities. If a subject is last followed up at time ti and then leaves the study for any reason (e.g. lost to follow up) ti is counted as their censorship time. Assumptions: ·   Censored individuals have the same prospect of survival as those who continue to be followed. This can not be tested for and can lead to a bias that artificially reduces S. ·   Survival prospects are the same for early as for late recruits to the study (can be tested for). ·   The event studied (e.g. death) happens at the specified time. Late recording of the event studied will cause artificial inflation of S. S(t)= počet pacientov, ktorí prežili dlhšie než t celkový počet pacientov v štúdii

10 Predpoklady odhadu funkcie prežívania
Čas prežitia je nezávislý na procese cenzorovania (je možné overiť). Cenzorovaný pacient je reprezentatívny pre skupinu pacientov v riziku (at risk) v čase cenzurovania – má tie isté vyhliadky na prežitie, ako pacienti, ktorí ostali v sledovaní (nie je možné testovať, predpokladáme). Vyhliadky na prežitie sú rovnaké pre pacientov s včasným aj neskorým zaradením do sledovania (je možné overiť). Ak je najdlhšie pozorovanie necenzorované (teda ak udalosť NASTALA), odhad S je v tomto čase rovný NULE. K-M estimates are limited to the time interval in which the observations fall Informative censoring Patients removed from study if condition deteriorates. Assumptions: ·   Censored individuals have the same prospect of survival as those who continue to be followed. This can not be tested for and can lead to a bias that artificially reduces S. ·   Survival prospects are the same for early as for late recruits to the study (can be tested for). ·   The event studied (e.g. death) happens at the specified time. Late recording of the event studied will cause artificial inflation of S.

11 Odhady funkcie prežívania
Kaplan-Meierov odhad - krivku prežitia odhadujeme v každom časovom okamihu, v ktorom nastala aspoň jedna udalosť a je konštantná v celom intervale, až po nasledujúci čas výskytu udalosti je najpoužívanejší Life tables

12 K-M estimator nekonštantná šírka jednotlivých časových intervalov

13 Funkcia hazardu Funkciu hazardu môžeme chápať ako pravdepodobnosť OKAMŽITÉHO hazardu/udalosti v čase t za predpokladu, že subjekt prežil do času t. V tomto zmysle je funkcia hazardu h(t) mierou rizika. Obvykle je do tabuľky a/alebo grafu vynesený hazard kumulovaný do času t, tzv. kumulatívna funkcia hazardu. H(t) = -ln (S(t)) The cumulative hazard function (H) is the risk of event (e.g. death) at time t, it is estimated by the method of Peterson (1977) as: Pravdepodobnosť udalosti – úmrtie, úspech The Weibull probability density function is****** where: b is the shape parameter, and q is the scale parameter. In some cases, a three-parameter Weibull distribution provides a better fit than the two-parameter Weibull distribution. Four methods for estimating the parameters of the Weibull distribution are presented in this section: maximum likelihood estimation, hazard plotting, probability plotting, and bayesian estimation.

14 Pr. 2: Časy prežitia štyroch pacientov sú: 10, 20, 35 a 40 mes
Pr.2: Časy prežitia štyroch pacientov sú: 10, 20, 35 a 40 mes. Odhad funkcie prežívania:

15 Pr. 3: Časy prežitia štyroch pacientov sú: 10, 15+, 35 a 40 mes
Pr.3: Časy prežitia štyroch pacientov sú: 10, 15+, 35 a 40 mes. Odhad funkcie prežívania: + je cenzorovaný údaj

16 Výstup k Pr.2 a Pr.3: H = -ln (S)
Pr. 1: Kaplan-Meier survival estimates Time At risk Dead Censored S SE(S) H SE(H) ,75 0,217 0,288 0,289 ,5 0,25 0,693 0,5 ,25 0,217 1,386 0,866 * infinity * Median survival time = 20 Andersen 95% CI for median survival time = -4,49955 to 44,49955 Brookmeyer-Crowley 95% CI for median survival time = 10 to 35 Mean survival time (95% CI) = 26,25 (12,7567 to 39,7433) Pr. 2: Kaplan-Meier survival estimates Time At risk Dead Censored S SE(S) H SE(H) ,75 0,217 0,288 0,289 ,75 0,217 0,288 0,289 ,375 0,286 0,981 0,764 * infinity * Median survival time = 35 Andersen 95% CI for median survival time = 5, to 64,938944 Brookmeyer-Crowley 95% CI for median survival time = 10 to 35 Mean survival time (95% CI) = 30,625 (15, to 45,267196)

17 Pr.4 Median survival time = 79 months
Andersen 95% CI = 37,79 to 120,21 !  Brookmeyer-Crowley 95% CI = 42 to 169 Brookmeyer-Crowley – je robustnejšia Andersen - large sample estimate Nespoľahlivý odhad v druhej časti krivky Dôvod – málo „events“ (krúžky), veľa cenzorovaných dát (čiarky)

18 Pr.5 Median survival time = 22 months
Survival Plot (PL estimates) 50 100 150 0,00 0,25 0,50 0,75 1,00 Survivor Times Median survival time = 22 months Andersen 95% CI = 16,11 to 27,89  Brookmeyer-Crowley 95% CI = 15 to 26 Dostatočne spoľahlivý odhad v tejto časti krivky

19 Pr.6: Dve rozdielne krivky prežitia
Tieto dve krivky majú rovnaké % 5-ročného prežitia, ich interpretácia je však podstatne rozdielna. Výber preferovaného terapeutického prístupu bude posudzovaný subjektívne.

20 Pr.7: Dve rozdielne krivky prežitia
Tieto dve krivky nemajú v žiadnom čase rovnaké % prežitia, ich interpretácia sa líši len vo veľkosti. Voľba preferovaného terapeutického prístupu bude jednoduchá.

21 Porovnanie kriviek prežívania Testovanie významnosti
Logrank test Nulová hypotéza: riziko úmrtia (udalosti) je rovnaké pre všetky skupiny. P < 0,05 indikuje rozdiel medzi (najčastejšie dvoma) krivkami prežívania Prentice modified Wilcoxon test je citlivejší, ak je pomer hazardu (HR) vyšší pre včasné fázy času prežitia. Inak: Peto's log-rank test Trend test (varianta logrank testu pre viac ako tri krivky). In the absence of censorship (e.g. loss to follow up, alive at end of study) the methods presented here reduce to a Mann-Whitney (two sample Wilcoxon) test for two groups of survival times and a Kruskal-Wallis test for more than two groups of survival times The null hypothesis tested here is that the risk of death/event is the same in all groups. Peto's log-rank test is generally the most appropriate method but the Prentice modified Wilcoxon test is more sensitive when the ratio of hazards is higher at early survival times than at late ones (Peto and Peto, 1972; Kalbfleisch and Prentice, 1980). The log-rank test is similar to the Mantel-Haenszel test and some authors refer to it as the Cox-Mantel test. Trend test If you have more than two groups then StatsDirect will calculate a variant of the log-rank test for trend. 21

22 Pr.8a: Čas prežitia 30 pacientov s akútnou myeloidnou leukémiou (AML)
Dva možné prognostické faktory: Vek = 1 ak Age of the patient  50 Vek = 0 ak Age of the patient < 50 Celularita = 1 ak cellularity of marrow clot section is 100% Celularita = 0 ostatné

23 Signifikantný rozdiel
Pr.8b: Kaplan-Meierov odhad funkcie prežitia a porovnanie age specific survival curves Signifikantný rozdiel Comparing the survival curves by Age Groups using Logrank Test Logrank Test can be used to compare two survival curves A p-value of less than 0.05 based on the Logrank test indicate a difference between the two survival curves Limitations No estimate of size Unlikely to detect a difference when risk is not consistent podskupiny

24 Nesignifikantný rozdiel
Pr.8c: Kaplan-Meierov odhad funkcie prežitia a porovnanie kriviek podľa celularity Nesignifikantný rozdiel

25 Bivariačná vs. multivariačná analýza
An experiment is a test designed to discover something not yet known. An experiment fails only when nothing is learned. It is usually (some would say definitively) the result of improper design of the experiment. Sample size determines precision, not accuracy. The selection process determines the accuracy (or validity) The first step in the analysis of a focal relationship is to determine whether there is an empirical association between its two component variables. This objective is accomplished by means of bivariate analysis. Bivariate analysis is the simultaneous analysis of two variables. It is used to test for the association of an independent and dependent variable - whether the values of the dependent variable tend to coincide with those of the independent variable. In most instances, the association between two variables is assessed with a bivariate statistical technique (see below for exceptions). The three most commonly used techniques are contingency tables, analysis of variance (ANOVA), and correlations. Bivariate analyses can be completed by constructing two-way tables with columns for one variable, usually the independent variable, and rows for the dependent variable. Bivariate relations can also be tested using statistical measures of association. The way bivariate analyses are done depends on the level of measurement used for each variable. Different methods are used for variables measured at the nominal, ordinal, and interval or ratio levels. For nominal or ordinal variables, cross classification or contingency tables generally are used to present results. Results in bivariate tables are usually expressed in percentages. To read percentages, first determine the direction in which the percentages were calculated — either down the columns or across the rows - and then compare percentages in the opposite direction. If the percentages add to 100% or close to this going down the columns, compare percentages across the rows; do the reverse if percentages add across the rows. In bivariate tables based on ordinal measurements, the direction of association can be interpreted as positive or negative. The basic bivariate analysis is then usually extended to a multivariate form to evaluate whether the association can be interpreted as a relationship. Multivariate analysis is the simultaneous analysis of three or more variables. It is frequently used to see whether a relationship between two variables remains when a third variable, called the control variable, is taken into account. Multivariate analyses are also done to determine the separate and joint effects of two variables upon a dependent variable.

26 K-M estimator – bivariačná analýza
Multivariačná analýza – ako súvisí doba prežívania s viacerými premennými súčasne (spojitými – napr. vek; kategoriálnymi – pohlavie (dummy variables) Multivariačná analýza → Coxov model proporcionálneho rizika (Coxova regresia)

27 Coxov model proporcionálneho rizika (typ multivariačnej analýzy)
umožňuje vyšetriť, ako súvisí doba prežitia T s potenciálnymi prognostickými faktormi (často pri súčasnej adjustácii na tzv. confounders, viď ďalej) Faktory môžu byť kategorické alebo spojité premenné. Vychádza z predpokladu pomerného hazardu, teda že podiel funkcií hazardu ľubovoľných dvoch subjektov/skupín je v čase konštantný a závisí teda len na hodnotách nezávislých premenných (prediktorov/rizikových/prognostických faktorov, covariates...) Xi. Ak prognostické faktory nie sú fixné (stále v čase), ako napr. biochemické merania, klesajúci efekt lieku, faktory životného štýlu apod. treba použiť rozšírený Coxov regresný model pre časovo závislé premenné. Ak sú predpoklady splnené, dáva Coxov model lepšie odhady prežitia a hazardu, ako Kaplan-Meierova funkcia. Cox regression (or proportional hazards regression) is method for investigating the effect of several variables upon the time a specified event takes to happen. In the context of an outcome such as death this is known as Cox regression for survival analysis. The method does not assume any particular "survival model" but it is not truly non-parametric because it does assume that the effects of the predictor variables upon survival are constant over time and are additive in one scale. Provided that the assumptions of Cox regression are met, this function will provide better estimates of survival probabilities and cumulative hazard than those provided by the Kaplan-Meier function.

28 Bivariačná vs. multivariačná analýza Typy faktorov
Príklad: vyliečenie AVM v mozgu Nemá zmysel sledovať len závislosť na zmeranom objeme malformácie, ale aj vplyv lokalizácie (prístupnosť pre chirurgický zákrok) In statistics, a mediation model is one that seeks to identify and explicate the mechanism that underlies an observed relationship between an independent variable and a dependent variable via the inclusion of a third explanatory variable, known as a mediator variable. Rather than hypothesizing a direct causal relationship between the independent variable and the dependent variable, a mediational model hypothesizes that the independent variable causes the mediator variable, which in turn causes the dependent variable. The mediator variable, then, serves to clarify the nature of the relationship between the independent and dependent variables (MacKinnon, 2008). While the concept of mediation as defined within psychology is theoretically appealing, the methods used to study mediation empirically have been challenged by statisticians and epidemiologists[1][2] and formally derived by Pearl (2001)[3]. A simple statistical mediation model

29 Confounder - zavádzajúci, mätúci, zahmlievajúci faktor
typ súbežne pôsobiaceho faktora premenná, ktorá je asociovaná s rizikovým faktorom a je nezávislým rizikovým faktorom pre meraný výsledný efekt (koncový ukazovateľ - outcome) Rizikový faktor Efekt Confounder diabetes CHD hypertenzia When you read stories of different foods making you die young, or hear claims about the next super-food, assess these findings carefully. Many media outlets jump upon sensational results, but never pay any regard to the possibility of confounding variables. V multivariačných (multivariable) analýzach je potrebné na „confounder“ adjustovať model, aby sme získali „očistený“ vplyv sledovaného rizikového faktora (často ho ponechávame v modeli, aj keď „nevyjde“ signifikantný)

30 Faktor potlačujúci efekt (suppressor)
Typ súbežne pôsobiaceho faktora V bivariačnej analýze nezistíme vzťah medzi expozíciou (napr. rizikovým faktorom) a následkom. Po adjustácii na supresor sa vplyv expozície prejaví. Zástupný faktor (surrogate, proxy factor) Môže znemožniť detekciu efektu Suppression is defined as "a variable which increases the predictive validity of another variable (or set of variables) by its inclusion in a regression equation"[5]. For instance, if you are set to examine the effect of a treatment (e.g. medication) on an outcome (e.g. healing from a disease), a suppression would mean that instead of the drop that you would see from the direct effect of the treatment on the outcome when the mediator is introduced, the opposite happens. The inclusion of the mediating variable into the equation increases the relation between the treatment and outcome rather accounts for (decreases in terms of the size of the statistical relation). Suppression is a contentious issue and continues to be debated in the literature. However, it was suggested recently[citation needed] that suppression should be viewed as adding interest to the results[clarification needed], rather than as a confound or problem. It has been also suggested though that testing for suppression should be based on a priori assumptions about the theoretical relation between the variables and the role of the mediating variable as a suppressor[5][6]. Pearl (2000, page 139)[4] has argued that "suppression" is an illusionary effect emanating from confusing causal and associational relationships, as in Simpson's paradox. Majú predpovedaciu silu bez priamej biologickej súvislosti/mechanizmu s následkom (ochorením) Socioekonomické, demografické faktory

31 Faktor moderujúci účinok (modifier)
Faktor v príčinnej postupnosti (mediating variable, intervening variable/factor) Nachádza sa v príčinnej postupnosti od sledovaného rizikového faktora k výslednému efektu Štatisticky neodlíšiteľný od „confoundera“ Pri zisťovaní vplyvu rizikového faktora nemôžeme model adjustovať na intervenujúcu premennú, pretože by sme tým potlačili alebo úplne odstránili vplyv sledovaného rizikového faktora Faktor moderujúci účinok (modifier) Plus: I define a mediating variable as one that links between the independent and the dependent variable. Thus, an intervening variable is part of a causal chain: INDEPENDENT VARIABLE > INTERVENING VARIABLE > DEPENDENT VARIABLE One reason I use this definition is because this is consistent with the way that most statisticians use the term "intervening variable" in Structural Equation Modeling. Please use this definition! Mediator variable, i.e., mediating between an independent and a dependent variable is used in a similar manner by both methodologists and structural equation model analysts. Intervening or mediator variables inform us about causal sequences or chains, thus explaining the causal process of a phenomenon. In statistics, moderation occurs when the relationship between two variables depends on a third variable. The third variable is referred to as the moderator variable or simply the moderator [1]. The effect of a moderating variable is characterized statistically as an interaction[1]; that is, a qualitative (e.g., sex, race, class) or quantitative (e.g., level of reward) variable that affects the direction and/or strength of the relation between dependent and independent variables. Specifically within a correlational analysis framework, a moderator is a third variable that affects the zero-order correlation between two other variables. In analysis of variance (ANOVA) terms, a basic moderator effect can be represented as an interaction between a focal independent variable and a factor that specifies the appropriate conditions for its operation (Baron and Kenny, 1986: p. 1174). Moderation analysis in the behavioral sciences involves the use of linear multiple regression analysis or causal modelling[1]. To quantify the effect of a moderating variable in multiple regression analyses, regressing random variables Y on X, an additional term is added to the model. This term is the interaction between X and the proposed moderating variable [1]. Thus, for a response Y and two variables x1 and moderating variable x2,: In this case, the role of x2 as a moderating variable is accomplished by evaluating b3, the parameter estimate for the interaction term[1]. See linear regression for discussion of statistical evaluation of parameter estimates in regression analyses. Moderation should not be confused with mediation. Vzťah expozície/rizikového faktora k výslednému efektu je ovplyvňovaný (moderovaný) iným faktorom Vytvára interakcie

32 Vzájomne korelované faktory (tzv. problém multikolinearity)
Neznižujú predikčnú schopnosť a spoľahlivosť modelu ako celku, ale zväčšujú štandardné chyby prediktorov. Pr: LDL a HDL resp. TChol, morfometrické údaje navzájom, vyskytujú sa aj v situácii, ak je druhý faktor len matematický prepočet alebo je to kombinované skóre zahŕňajúce prediktor, ktoré je už v modeli použitý. Obvykle stačí použiť jeden (najdôležitejší/najvýznamnejší). Rizikový faktor Efekt Faktor(y) korelujúce s vybraným rizikovým f. Časovo-závislé faktory pri analýzach prežívania je dôležité odlíšiť fixné faktory a faktory meniace sa v čase sledovania ako napr. fyziologické a biochemické charakteristiky, tumor grade, peritumoral vascular invasion, klesajúci efekt lieku, faktory životného štýlu (napr. kumulovaná expozícia pri fajčení)... Faktor skorelovaný s expozíciou ale nie s efektom Dôležitá je voľba UKAZOVATEĽA EFEKTU! Time-dependent and fixed covariates In prospective studies, when individuals are followed over time, the values of covariates may change with time. Covariates can thus be divided into fixed and time-dependent. A covariate is time dependent if the difference between its values for two different subjects changes with time; e.g. serum cholesterol. A covariate is fixed if its values can not change with time, e.g. sex or race. Lifestyle factors and physiological measurements such as blood pressure are usually time-dependent. Cumulative exposures such as smoking are also time-dependent but are often forced into an imprecise dichotomy, i.e. "exposed" vs. "not-exposed" instead of the more meaningful "time of exposure". There are no hard and fast rules about the handling of time dependent covariates. If you are considering using Cox regression you should seek the help of a Statistician, preferably at the design stage of the investigation.

33 Cox’s proportional hazards model (Cox regression)
Vychádza z predpokladu pomerného rizika (proporcionálny hazard) t.j. podiel funkcií hazardu medzi skupinami je v čase konštantný. Hazard – riziko úmrtia (alebo výskytu vyšetrovanej udalosti) Analógia k viacnásobnej regresii Regresné koeficienty (parametre) Nezávislé (vysvetľujúce) premenné Základný hazard (baseline hazard)

34 Cox's (proportional hazards) regression model
Najčastejší regresný model v analýze prežívania Lineárny model pre logaritmus pomeru rizík Výhody: Nie je potrebné špecifikovať počiatočné riziko Možnosť testovania vplyvu viacerých nezávislých premenných (prognostických faktorov) na danú udalosť sledovanú v čase. A regression model that allows a more complete exploration of covariation of many variables with the hazard. Depends upon the assumption that the hazards are proportional between any two patients but we do not need to worry at all about what numerical value the hazard takes Time-dependent and fixed covariates In prospective studies, when individuals are followed over time, the values of covariates may change with time. Covariates can thus be divided into fixed and time-dependent. A covariate is time dependent if the difference between its values for two different subjects changes with time; e.g. serum cholesterol. A covariate is fixed if its values can not change with time, e.g. sex or race. Lifestyle factors and physiological measurements such as blood pressure are usually time-dependent. Cumulative exposures such as smoking are also time-dependent but are often forced into an imprecise dichotomy, i.e. "exposed" vs. "not-exposed" instead of the more meaningful "time of exposure". There are no hard and fast rules about the handling of time dependent covariates. If you are considering using Cox regression you should seek the help of a Statistician, preferably at the design stage of the investigation.

35 Predpoklady použitia Coxovho regresného modelu
pre overenie proporcionality hazardu využívame fakt, že zodpovedajúce kumulatívne riziká, -ln(S(t)), musia byť tiež proporcionálne Graficky splnenie predpokladu proporcionality môžeme overiť pomocou transformácie odhadov funkcie prežitia. Ak je predpoklad splnený, potom grafy závislostí -ln(-ln(S(t))) na ln(t) by pre jednotlivé úrovne nezávislej premennej X mali odpovedať približne paralelným priamkam (viď graf na konci – Pr.1d). Musia byť overené pre všetky nezávislé premenné Xi v modeli Provided that the assumptions of Cox regression are met, this function will provide better estimates of survival probabilities and cumulative hazard than those provided by the Kaplan-Meier function.

36 Čo znamenajú regresné koeficienty (βj)?
Ak sa hodnota jednej premennej zmení o jednotku a súčasne hodnoty ostatných premenných ostanú nezmenené, potom je hodnota relatívneho rizika: Príslušný koeficient β je teda prirodzený logaritmus pomeru rizík ln(HR) (hazard ratio), keď sa hodnota danej premennej X zväčší o 1 jednotku. HR interpretujeme podobne ako RR (risk ratio)

37 Interpretácia regresných koeficientov
Odhadnutý pomer hazardu (pomer rizík) väčší než 1 znamená, že nezávislý prediktor je spojený so zvýšeným hazardom (rizikom) nastatia študovanej udalosti (podľa definovanej udalosti „riziko“ môže byť pozitívne – vyliečenie). Odhadnutý pomer hazardu menší než 1 znamená, že nezávislý prediktor je spojený so zníženým hazardom nastatia študovanej udalosti. Odhadnutý pomer hazardu 1, t.j. ak 95%CI zahŕňa jednotku, znamená to, že nezávislý prediktor neovplyvňuje hazard. Hazard and hazard-ratios Cumulative hazard at a time t is the risk of dying between time 0 and time t, and the survivor function at time t is the probability of surviving to time t (see also Kaplan-Meier estimates). The coefficients in a Cox regression relate to hazard; a positive coefficient indicates a worse prognosis and a negative coefficient indicates a protective effect of the variable with which it is associated. The hazards ratio associated with a predictor variable is given by the exponent of its coefficient; this is given with a confidence interval under the "coefficient details" option in StatsDirect. The hazards ratio may also be thought of as the relative death rate, see Armitage and Berry (1994). The interpretation of the hazards ratio depends upon the measurement scale of the predictor variable in question, see Sahai and Kurshid (1996) for further information on relative risk of hazards. 37

38 Interpretácia regresných koeficientov
Hodnota nezávislej premennej X sa u dvoch pacientov alebo skupín líši o jednotku: Ak by X bolo pohlavie x = 0 (muži), x = 1 (ženy) a odhad parametra β: b = 0,34, potom platí, že eb = 1,40 = HR. To znamená, že u žien je v každom okamihu riziko sledovanej udalosti o 40% vyššie ako u mužov. Poznámka: treba vždy vzťahovať na použité kódovanie kategorických premenných a mierku danej premennej (napr. vek môže byť v rokoch alebo dekádach)!

39 Príklad výstupnej tabuľky
Interval spoľahlivosti zahŕňa jednotku Na hranici významnosti HR Pre udalosť: úmrtie. Ak je napr. odhadnutý pomer hazardu pre „treatment“ 0,152, označuje to, ako veľmi klesne pomer rizík úmrtia pri zmene štandardnej liečby (X=0) za novú (X=1) ...t.j. zo 100% na 15,2% rizika štandardnej liečby (X=0) inými slovami klesne z 1 na 0,152 (1/0,152=6,6krát). (ak je udalosť vyliečenie, pri tom istom kódovaní liečby tento príklad odhadu pomeru „hazardu“ (t.j. šancí vyliečenia), ktorý je menší ako 1, znamená horší výsledok pre nový liek!) Ak je napr. odhadnutý pomer hazardu pre „age“ 1,247, pri náraste veku o jednu jednotku vzrastie pomer rizík úmrtia 1,247x (o 25%) Komentár je v poznámkach Vek je významný prognostický faktor

40 Analýza regresného modelu Testovanie významnosti
Waldov test Test pomeru vierohodností (Likelihood ratio test) (druhý je preferovaný, ale často sú rozdiely medzi nimi malé) Model analysis and deviance A test of the overall statistical significance of the model is given under the "model analysis" option. Here the likelihood chi-square statistic is calculated by comparing the deviance (- 2 * log likelihood) of your model, with all of the covariates you have specified, against the model with all covariates dropped. The individual contribution of covariates to the model can be assessed from the significance test given with each coefficient in the main output; this assumes a reasonably large sample size. Deviance is minus twice the log of the likelihood ratio for models fitted by maximum likelihood (Hosmer and Lemeshow, 1989 and 1999; Cox and Snell, 1989; Pregibon, 1981). The value of adding a parameter to a Cox model is tested by subtracting the deviance of the model with the new parameter from the deviance of the model without the new parameter, the difference is then tested against a chi-square distribution with degrees of freedom equal to the difference between the degrees of freedom of the old and new models. The model analysis option tests the model you specify against a model with only one parameter, the intercept; this tests the combined value of the specified predictors/covariates in the model. 40

41 Dva možné prognostické faktory (schématicky):
Pripomenutie: Pr.8a: Čas prežitia 30 pacientov s akútnou myeloidnou leukémiou (AML) Dva možné prognostické faktory (schématicky): Vek = 1 ak Age of the patient  50 Vek = 0 ak Age of the patient < 50 Celularita = 1 ak cellularity of marrow clot section is 100% Celularita = 0 ostatné

42 Vyšší vek je významný rizikový faktor!
Pr.8c: Comparing the survival curves by Age Groups after Adjusting Cellularity Vyšší vek je významný rizikový faktor! Celularita nevplýva významne na prežívanie (95%CI zahŕňa jednotku – tu však údaj chýba. Nemal by  )

43 Pr.8d: Comparing the survival curves by Cellularity Groups after Adjusting Age
Výstup analýzy hazardu je TEN ISTÝ! Líši sa len grafická stratifikácia

44 Analýza dát z Pr.1a: Krivky odhadov proporcie neúspešnej liečby pacientov s AMV mozgu po zákroku „stereotaktická rádiochirurgia“ s ohľadom na prognostický faktor „predchádzajúca embolizácia“. Počet pacientov: 56, max. dĺžka sledovania: 6 rokov výstup: obliterácia AVM ~ úspech Dôležitá poznámka! tu sa ako koncová udalosť nesledovalo úmrtie (death), ale vyliečenie. Preto sa označenia „ Survival function S“ a „Survival probability/rate“ vzťahujú na „Pravdepodobnosť nevyliečenia“. Obdobne kumulatívny hazard H tu nie je „riziko úmrtia“, ale „šanca vyliečenia“!

45 efektom (vyliečenie). Napriek tomu je adjustácia doporučená.
Pr.1b: príklad overenia charakteristík zvolených podskupín („embolizovaní“ a „neembolizovaní“) Počiatočný objem AVM Embolizácia_Áno Embolizácia_Nie 5 10 15 20 25 min -[ lower quartile - median - upper quartile ]- max Počiatočný objem sa v podskupinách líšil, aj keď významne nesúvisel s koncovým efektom (vyliečenie). Napriek tomu je adjustácia doporučená.

46 Pr.1c: Coxov model pre „Pravdepodobnosť nevyliečenia“ (analógia k „survival probability“) po adjustácii na objem AVM 2 4 6 0,00 0,25 0,50 0,75 1,00 Survival Probability (individual) Time (years) Embolizácia NIE Embolizácia ÁNO V skutočnosti intervalové cenzorovanie (worst case scenario analysis) Per protocol vs. intention to treat

47 Pr.1d: Overenie proporcionality rizika (t.j. „šancí“) v podskupinách
0,0 0,5 1,0 1,5 2,0 -1 1 2 -log(-log(Survival)) log(Time) Embolizácia NIE Embolizácia ÁNO

48 Referencie Collett: Modelling Survival Data in Medical Research. Chapman & Hall/CRC, 2003. Zvárová J., Malý M. a kol.: Statistické metody v epidemiologii I a II. Praha, Karolinum, 2003. Katz, M.H.: Multivariable Analysis. A practical Guide for Clinicans. Cambridge University Press, 2001. Motulsky H.J., Christopoulos A.: Fitting models to biological data using linear and nonlinear regression. A practical guide to curve fitting. GraphPad Software Inc. 2003 Kleinbaum D.G., Klein M.: Survival Analysis; Logistic Regression

49 Ďakujeme za pozornosť


Download ppt "Analýza prežívania, Kaplan-Meierove krivky a Coxova regresia"

Similar presentations


Ads by Google