Introduktion til overlevelsesanalyse - Kaplan

university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Faculty of Health Sciences
Introduktion til overlevelsesanalyse
Kaplan-Meier estimatoren
Susanne Rosthøj
Biostatistisk Afdeling
Institut for Folkesundhedsvidenskab
Københavns Universitet
[email protected]
Kursushjemmeside:
www.biostat.ku.dk/~sr/forskningsaar/survival2011
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Kursets form
Fem onsdage fra kl 9-16 i ugerne 40, 41, 42, 44 og 45.
Kurset består af forelæsninger, computerøvelser og
litteraturlæsning.
Kurset bestås ved deltagelse i minimum 80% af timerne.
Formål:
I skal selv blive i stand til at udføre de mest gængse typer af
overlevelsesanalyser og kontrollere at forudsætningerne for at
udføre disse analyser er opfyldt.
2 / 27
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Program for dag 1
• Overlevelsesdata
• Kaplan-Meier estimatoren
• Log rank test
• Introduktion til software
• Data eksempel:
• Leukæmi patienter i remission.
Dagens gennemgang svarer til Kleinbaum & Klein kapitel 1:
I-II,V-VII og kapitel 2: I-V. Derudover et kapitel om R til
download, se slides om R.
3 / 27
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Overlevelsesdata
Responsen er en levetid, dvs. tid indtil en hændelse
forekommer.
• Tid fra start på behandling til recidiv (eller død eller begge
dele)
• Tid fra fyldning af en tand til fyldningen falder ud
• Tid fra første forsøg på at blive gravid til graviditet
• Tid fra graviditet til fødsel
• ...
Overlevelsesdata er karakteriseret ved:
• Fordelingen er højreskæv (ikke et problem).
• Ufuldstændige data: Censurering og trunkering.
4 / 27
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Metodekurset
På metodekurset har I set på
• Kvantitative data
Kontinuerte data: Målinger af blodtryk, koncentration,
højde.
1. Histogrammer, scatter plots.
Gennemsnit, standardafvigelse, median.
2. t-test, lineær regressionsanalyse.
• Kategoriske data
Binære data: Ja/nej, syg/rask, død/levende.
Diskrete data: Race, uddannelsesniveau, aldersgruppe.
1. Frekvenser, tovejs-tabeller.
2. χ2 -tests, logistisk regression.
Disse metoder kan ikke benyttes for overlevelsesdata.
5 / 27
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Censurering
Oftest vil data være højre censureret, dvs. kun en nedre
grænse for levetiden er kendt pga:
• Studiet afsluttes
• Patienten mistes for follow-up under studiet.
◦
• 0
Studie ophør
Venstre censurering forekommer når kun en øvre grænse er
kendt, f.eks.
• Tid til infektion med HIV
• Alder for hvilken et barn lærer en færdighed
•
◦
Test
NB: Censurering skal være uafhængig af levetiden.
6 / 27
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Trunkering
Hvis forudsætningen for at et individ indgår i et studie er
bestemt af hvorvidt en hændelse er forekommet, siges data at
være trunkeret.
Højretrunkering De individer, for hvilken hændelsen endnu
ikke er indtruffet, observeres ikke.
Eksempel: Tid til AIDS for HIV-inficerede patienter.
Venstretrunkering
Kun de individer, for hvilken en hændelse er indtruffet, bliver
observeret.
Eksempel: Vedligeholdelsesbehandling af børn med leukæmi.
◦
•0
Start VB
Venstretrunkering kaldes også forsinket indgang.
7 / 27
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Overlevelsesfunktionen
Lad T betegne en levetid.
Overlevelsesfunktionen er
S(t) = P(T > t)
= sandsynligheden for at være i live til tid t.
• S(t) ≥ 0 for alle t ≥ 0.
• Ej voksende
• S(0) = 1
• S(∞) = 0
8 / 27
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
0.6
0.4
0.0
0.2
Survival probability
0.8
1.0
Eksempler på overlevelsesfunktioner
0
5
10
15
Time
Overlevelsesfunktionen estimeres som regel ved den
ikke-parametriske Kaplan-Meier (KM) estimator.
9 / 27
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Remissionstid for akut leukæmi
Eksempel hentet fra Kleinbaum and Klein:
Freirich et al. (1963). The effect of 6-mercaptopurine on the duration
of remission time of steroid induced remission in acute leukaemia.
Blood, 21 699:716.
42 patienter med akut leukæmi rekrutteret 1959-1960 og
randomiseret til placebo eller 6-MP-behandling.
Formål: At studere effekten af behandling, køn og WBC ved
diagnose på remissionstid.
10 / 27
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Remissionsdata
Behandlingsgruppen: 21 patienter, 9 tilbagefald, resten
højrecensureret.
◦•
•• • ◦ ◦• ◦ •
0
◦◦ ◦ ◦
•◦ ◦◦ •• ◦
10
20
Tid (uger)
30
40
Placebogruppen: 21 patienter, 21 tilbagefald:
•• •• • •• •
0
••
••
•• ••
• •
10
• = tilbagefald
11 / 27
••
20
Tid (uger)
30
◦ = censurering
40
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Kaplan-Meier estimatoren uden censurering
Placebogruppen (n = 21) for t ≤ 10:
Data:
1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8,. . .
-
0
1
2
3
4
5
6
7
8
9
10
2
2
1
Antal hændelser
2
2
0
0
4
0
0
7
8
9
10
Overlevelsesfunktionen estimeres ved
1
0
1
12 / 27
2
19
21
3
17
21
4
16
21
5
14
21
6
12
21
12
21
12
21
8
21
8
21
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
0.0
0.2
0.4
0.6
0.8
1.0
KM estimatoren for placebogruppen
0
5
10
15
Tid (uger)
Hvad er den mediane levetid?
13 / 27
20
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Alternativ formel for Kaplan-Meier estimatoren
0
1
2
3
4
5
6
7
8
9
10
For det i’te interval Ii er sandsynligheden for at overleve givet i
live ved intervallets start
(
pi =
1
Yi −Di
Yi
hvis alle overlever i Ii
hvis Di patienter dør i Ii
hvor Yi = antal i live ved starten af Ii og under risiko.
Sandsynligheden for at overleve de 3 første intervaller er
p1 · p2 · p3 = P(T > 2).
14 / 27
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
KM-estimatoren uden censurering, alternativt
Placebogruppen (t ≤ 5).
Antal under risiko
21
21
19
17
16
14
-
0
1
2
Antal hændelser
2
3
4
5
2
1
2
2
4
5
Overlevelsesfunktionen estimeres ved
0
1
1
15 / 27
2
1·
19
21
3
19 17
21 19
19 17 16
21 19 17
19 17 16 14
21 19 17 16
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
KM-estimatoren for behandlingsgruppen
Behandlingsgruppen (t ≤ 10).
Data:
6, 6, 6, 6+, 7, 9+, 10, 10+,. . .
Antal under risiko
21
0
21
1
21
2
21
3
21
4
21
5
21
6
0
0
0
0
0
3/1
Antal hændelser / Antal censureringer
17
16
16
15
-
7
8
9
10
1
0
0/1
1/1
Overlevelsesfunktionen estimeres ved
···
0
1
16 / 27
···
6
7
1·
18
21
-
8
18 16
21 17
10
18 16
21 17
·1
11
18 16 14
21 17 15
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
0.0
0.2
0.4
0.6
0.8
1.0
KM-estimatoren for behandlingsgruppen
0
5
10
15
20
Tid (uger)
17 / 27
25
30
35
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Generel formel for KM-estimatoren
Det centrale er af vi kan estimere den betingede
sandsynlighed for at et individ overlever givet at individet
er i live. Denne kan vi beregne for censurerede data også.
Lad t1 , · · · , tk betegne de ordnede observerede levetider.
Lad Y(ti ) = antal i live umiddelbart før ti .
Den generelle formel for tj ≤ t < tj+1 er:
b
b > t1 |T ≥ t1 ) · . . . · P(T
b > tj |T ≥ tj )
S(t)
= P(T
Y(t1 ) − m1
=
· ... ·
Y(t1 )
Y
mi
1−
=
Y(ti )
t ≤t
i
hvor mi = antal hændelser til tid ti .
18 / 27
Y(tj ) − mj
Y(tj )
!
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Standard afvigelse og konfidensinterval
Greenwood’s formel:
b
SE(S(t))
=
sX
b
S(t)
ti ≤t
mi
Y(ti )(Y(ti ) − mi )
Konfidensinterval hvis antal individer er stort:
b ± Z SE(S(t))
b
S(t)
α/2
hvor Zα/2 er α2 -fraktilen i standard normalfordelingen.
Potentielt kan dette interval ramme uden for (0, 1).
19 / 27
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Alternativt konfidensinterval
Baseret på “eksponentiel” Greenwood formel (cloglog =
log(-log)):
b
L = log(− log(S(t)))
− Zα/2
1
b
log(S(t))
sX
b
U = log(− log(S(t)))
+ Zα/2
1
b
log(S(t))
sX
ti ≤t
ti ≤t
Konfidensintervallet er:
(exp(− exp(U)), exp(− exp(L)))
20 / 27
mi
Y(ti )(Y(ti ) − mi )
mi
.
Y(ti )(Y(ti ) − mi )
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
0.0
0.2
0.4
0.6
0.8
1.0
KM med konfidensinterval for behandlingsgruppen
0
5
10
15
20
25
30
Tid (uger)
Hvad viser det punktvise konfidensinterval?
21 / 27
35
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
1.0
KM-plot for begge behandlingsgrupper
0.0
0.2
0.4
0.6
0.8
Behandling
Placebo
0
5
10
15
20
Tid (uger)
22 / 27
25
30
35
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Sammenligning af to grupper
Hypotese:
H0 : De to overlevelseskurver er ens (S1 = S2 ).
Sammenligningen kan foretages ved LogRank-testet.
Princippet er, for hver observeret levetid ti , at se på
gruppe 1
gruppe 2
total
død
mi1
mi2
mi
i live
Y1 (ti ) − mi1
Y2 (ti ) − mi2
Y(ti ) − mi
under risiko
Y1 (ti )
Y2 (ti )
Y(ti )
Hvis risikoen er den samme i de to grupper (H0 ) vil det
forventede antal døde i gruppe 1 til tid ti være
b i1 = Y1 (ti )
E
23 / 27
mi
.
Y(ti )
Hvorfor?
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
LogRank-testet
Det forventede antal døde i gruppe 1 er
b1 =
E
k
X
b i1 ,
E
i=1
hvor k er antal forskellige observerede levetider i begge
grupper.
LogRank-testet er
LR =
P
b 1 )2
(O1 − E
d 1−E
b1)
Var(O
O1 = i mi1 er antallet af døde i gruppe 1. Under H0 er LR
approksimativt χ2 -fordelt med 1 frihedsgrad.
Hvornår afvises hypotesen?
24 / 27
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Bemærk at
b1 + E
b2 =
E
k
X
b i1 + E
b i2 )
(E
i=1
=
=
=
k
X
i=1
k
X
i=1
k
X
Y1 (ti )
mi
mi
+ Y2 (ti )
Y(ti )
Y(ti )
(Y1 (ti ) + Y2 (ti ))
mi
Y(ti )
mi
i=1
= O1 + O2 .
b 1 = −(O2 − E
b 2 ) og det er ligegyldigt om
Dvs. O1 − E
LogRank-testet baseres på gruppe 1 eller 2.
25 / 27
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
LogRank-test for leukæmidata
Placebo
Behandling
N
21
21
Observeret
21
9
Forventet
10.74
19.26
LogRank
16.79
16.79
χ2 -fordelingen med 1 frihedsgrad giver p<.0001.
Vi konkluderer at der er signifikant forskel på de to
behandlingsgrupper mht. overlevelse.
26 / 27
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Sammenligning af mere end to grupper
For G > 2 grupper findes også et LogRank-test, men formlen er
kompliceret.
Hypotesen er
H0 : Alle overlevelseskurver er ens (S1 = S2 = · · · = SG ).
LogRank-testet er χ2 -fordelt med G − 1 frihedsgrader.
27 / 27