university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Faculty of Health Sciences Introduktion til overlevelsesanalyse Kaplan-Meier estimatoren Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet [email protected] Kursushjemmeside: www.biostat.ku.dk/~sr/forskningsaar/survival2011 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Kursets form Fem onsdage fra kl 9-16 i ugerne 40, 41, 42, 44 og 45. Kurset består af forelæsninger, computerøvelser og litteraturlæsning. Kurset bestås ved deltagelse i minimum 80% af timerne. Formål: I skal selv blive i stand til at udføre de mest gængse typer af overlevelsesanalyser og kontrollere at forudsætningerne for at udføre disse analyser er opfyldt. 2 / 27 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Program for dag 1 • Overlevelsesdata • Kaplan-Meier estimatoren • Log rank test • Introduktion til software • Data eksempel: • Leukæmi patienter i remission. Dagens gennemgang svarer til Kleinbaum & Klein kapitel 1: I-II,V-VII og kapitel 2: I-V. Derudover et kapitel om R til download, se slides om R. 3 / 27 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Overlevelsesdata Responsen er en levetid, dvs. tid indtil en hændelse forekommer. • Tid fra start på behandling til recidiv (eller død eller begge dele) • Tid fra fyldning af en tand til fyldningen falder ud • Tid fra første forsøg på at blive gravid til graviditet • Tid fra graviditet til fødsel • ... Overlevelsesdata er karakteriseret ved: • Fordelingen er højreskæv (ikke et problem). • Ufuldstændige data: Censurering og trunkering. 4 / 27 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Metodekurset På metodekurset har I set på • Kvantitative data Kontinuerte data: Målinger af blodtryk, koncentration, højde. 1. Histogrammer, scatter plots. Gennemsnit, standardafvigelse, median. 2. t-test, lineær regressionsanalyse. • Kategoriske data Binære data: Ja/nej, syg/rask, død/levende. Diskrete data: Race, uddannelsesniveau, aldersgruppe. 1. Frekvenser, tovejs-tabeller. 2. χ2 -tests, logistisk regression. Disse metoder kan ikke benyttes for overlevelsesdata. 5 / 27 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Censurering Oftest vil data være højre censureret, dvs. kun en nedre grænse for levetiden er kendt pga: • Studiet afsluttes • Patienten mistes for follow-up under studiet. ◦ • 0 Studie ophør Venstre censurering forekommer når kun en øvre grænse er kendt, f.eks. • Tid til infektion med HIV • Alder for hvilken et barn lærer en færdighed • ◦ Test NB: Censurering skal være uafhængig af levetiden. 6 / 27 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Trunkering Hvis forudsætningen for at et individ indgår i et studie er bestemt af hvorvidt en hændelse er forekommet, siges data at være trunkeret. Højretrunkering De individer, for hvilken hændelsen endnu ikke er indtruffet, observeres ikke. Eksempel: Tid til AIDS for HIV-inficerede patienter. Venstretrunkering Kun de individer, for hvilken en hændelse er indtruffet, bliver observeret. Eksempel: Vedligeholdelsesbehandling af børn med leukæmi. ◦ •0 Start VB Venstretrunkering kaldes også forsinket indgang. 7 / 27 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Overlevelsesfunktionen Lad T betegne en levetid. Overlevelsesfunktionen er S(t) = P(T > t) = sandsynligheden for at være i live til tid t. • S(t) ≥ 0 for alle t ≥ 0. • Ej voksende • S(0) = 1 • S(∞) = 0 8 / 27 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s 0.6 0.4 0.0 0.2 Survival probability 0.8 1.0 Eksempler på overlevelsesfunktioner 0 5 10 15 Time Overlevelsesfunktionen estimeres som regel ved den ikke-parametriske Kaplan-Meier (KM) estimator. 9 / 27 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Remissionstid for akut leukæmi Eksempel hentet fra Kleinbaum and Klein: Freirich et al. (1963). The effect of 6-mercaptopurine on the duration of remission time of steroid induced remission in acute leukaemia. Blood, 21 699:716. 42 patienter med akut leukæmi rekrutteret 1959-1960 og randomiseret til placebo eller 6-MP-behandling. Formål: At studere effekten af behandling, køn og WBC ved diagnose på remissionstid. 10 / 27 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Remissionsdata Behandlingsgruppen: 21 patienter, 9 tilbagefald, resten højrecensureret. ◦• •• • ◦ ◦• ◦ • 0 ◦◦ ◦ ◦ •◦ ◦◦ •• ◦ 10 20 Tid (uger) 30 40 Placebogruppen: 21 patienter, 21 tilbagefald: •• •• • •• • 0 •• •• •• •• • • 10 • = tilbagefald 11 / 27 •• 20 Tid (uger) 30 ◦ = censurering 40 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Kaplan-Meier estimatoren uden censurering Placebogruppen (n = 21) for t ≤ 10: Data: 1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8,. . . - 0 1 2 3 4 5 6 7 8 9 10 2 2 1 Antal hændelser 2 2 0 0 4 0 0 7 8 9 10 Overlevelsesfunktionen estimeres ved 1 0 1 12 / 27 2 19 21 3 17 21 4 16 21 5 14 21 6 12 21 12 21 12 21 8 21 8 21 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s 0.0 0.2 0.4 0.6 0.8 1.0 KM estimatoren for placebogruppen 0 5 10 15 Tid (uger) Hvad er den mediane levetid? 13 / 27 20 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Alternativ formel for Kaplan-Meier estimatoren 0 1 2 3 4 5 6 7 8 9 10 For det i’te interval Ii er sandsynligheden for at overleve givet i live ved intervallets start ( pi = 1 Yi −Di Yi hvis alle overlever i Ii hvis Di patienter dør i Ii hvor Yi = antal i live ved starten af Ii og under risiko. Sandsynligheden for at overleve de 3 første intervaller er p1 · p2 · p3 = P(T > 2). 14 / 27 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s KM-estimatoren uden censurering, alternativt Placebogruppen (t ≤ 5). Antal under risiko 21 21 19 17 16 14 - 0 1 2 Antal hændelser 2 3 4 5 2 1 2 2 4 5 Overlevelsesfunktionen estimeres ved 0 1 1 15 / 27 2 1· 19 21 3 19 17 21 19 19 17 16 21 19 17 19 17 16 14 21 19 17 16 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s KM-estimatoren for behandlingsgruppen Behandlingsgruppen (t ≤ 10). Data: 6, 6, 6, 6+, 7, 9+, 10, 10+,. . . Antal under risiko 21 0 21 1 21 2 21 3 21 4 21 5 21 6 0 0 0 0 0 3/1 Antal hændelser / Antal censureringer 17 16 16 15 - 7 8 9 10 1 0 0/1 1/1 Overlevelsesfunktionen estimeres ved ··· 0 1 16 / 27 ··· 6 7 1· 18 21 - 8 18 16 21 17 10 18 16 21 17 ·1 11 18 16 14 21 17 15 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s 0.0 0.2 0.4 0.6 0.8 1.0 KM-estimatoren for behandlingsgruppen 0 5 10 15 20 Tid (uger) 17 / 27 25 30 35 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Generel formel for KM-estimatoren Det centrale er af vi kan estimere den betingede sandsynlighed for at et individ overlever givet at individet er i live. Denne kan vi beregne for censurerede data også. Lad t1 , · · · , tk betegne de ordnede observerede levetider. Lad Y(ti ) = antal i live umiddelbart før ti . Den generelle formel for tj ≤ t < tj+1 er: b b > t1 |T ≥ t1 ) · . . . · P(T b > tj |T ≥ tj ) S(t) = P(T Y(t1 ) − m1 = · ... · Y(t1 ) Y mi 1− = Y(ti ) t ≤t i hvor mi = antal hændelser til tid ti . 18 / 27 Y(tj ) − mj Y(tj ) ! university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Standard afvigelse og konfidensinterval Greenwood’s formel: b SE(S(t)) = sX b S(t) ti ≤t mi Y(ti )(Y(ti ) − mi ) Konfidensinterval hvis antal individer er stort: b ± Z SE(S(t)) b S(t) α/2 hvor Zα/2 er α2 -fraktilen i standard normalfordelingen. Potentielt kan dette interval ramme uden for (0, 1). 19 / 27 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Alternativt konfidensinterval Baseret på “eksponentiel” Greenwood formel (cloglog = log(-log)): b L = log(− log(S(t))) − Zα/2 1 b log(S(t)) sX b U = log(− log(S(t))) + Zα/2 1 b log(S(t)) sX ti ≤t ti ≤t Konfidensintervallet er: (exp(− exp(U)), exp(− exp(L))) 20 / 27 mi Y(ti )(Y(ti ) − mi ) mi . Y(ti )(Y(ti ) − mi ) university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s 0.0 0.2 0.4 0.6 0.8 1.0 KM med konfidensinterval for behandlingsgruppen 0 5 10 15 20 25 30 Tid (uger) Hvad viser det punktvise konfidensinterval? 21 / 27 35 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s 1.0 KM-plot for begge behandlingsgrupper 0.0 0.2 0.4 0.6 0.8 Behandling Placebo 0 5 10 15 20 Tid (uger) 22 / 27 25 30 35 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Sammenligning af to grupper Hypotese: H0 : De to overlevelseskurver er ens (S1 = S2 ). Sammenligningen kan foretages ved LogRank-testet. Princippet er, for hver observeret levetid ti , at se på gruppe 1 gruppe 2 total død mi1 mi2 mi i live Y1 (ti ) − mi1 Y2 (ti ) − mi2 Y(ti ) − mi under risiko Y1 (ti ) Y2 (ti ) Y(ti ) Hvis risikoen er den samme i de to grupper (H0 ) vil det forventede antal døde i gruppe 1 til tid ti være b i1 = Y1 (ti ) E 23 / 27 mi . Y(ti ) Hvorfor? university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s LogRank-testet Det forventede antal døde i gruppe 1 er b1 = E k X b i1 , E i=1 hvor k er antal forskellige observerede levetider i begge grupper. LogRank-testet er LR = P b 1 )2 (O1 − E d 1−E b1) Var(O O1 = i mi1 er antallet af døde i gruppe 1. Under H0 er LR approksimativt χ2 -fordelt med 1 frihedsgrad. Hvornår afvises hypotesen? 24 / 27 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Bemærk at b1 + E b2 = E k X b i1 + E b i2 ) (E i=1 = = = k X i=1 k X i=1 k X Y1 (ti ) mi mi + Y2 (ti ) Y(ti ) Y(ti ) (Y1 (ti ) + Y2 (ti )) mi Y(ti ) mi i=1 = O1 + O2 . b 1 = −(O2 − E b 2 ) og det er ligegyldigt om Dvs. O1 − E LogRank-testet baseres på gruppe 1 eller 2. 25 / 27 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s LogRank-test for leukæmidata Placebo Behandling N 21 21 Observeret 21 9 Forventet 10.74 19.26 LogRank 16.79 16.79 χ2 -fordelingen med 1 frihedsgrad giver p<.0001. Vi konkluderer at der er signifikant forskel på de to behandlingsgrupper mht. overlevelse. 26 / 27 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Sammenligning af mere end to grupper For G > 2 grupper findes også et LogRank-test, men formlen er kompliceret. Hypotesen er H0 : Alle overlevelseskurver er ens (S1 = S2 = · · · = SG ). LogRank-testet er χ2 -fordelt med G − 1 frihedsgrader. 27 / 27
© Copyright 2025