Morten Frydenberg Biostatistik version dato: 16-05-2011 Caerphilly studiet – som beskrevet i KS Biostatistik – uge 14 mandag Morten Frydenberg, Afdeling for Biostatistik© Caerphilly studiet Design og Data Follow-up studiet med fokus på risikofaktorer for hjertekarsygdomme. Analyse af stykkevise konstante rater Poisson regression Inklusion i perioden juli 1979 til oktober 1983. En primær tidsakse og ikke stykkevise konstante rater Cox proportional hazard model Primære outcome(her): MI eller død. Studiepopulation(her): mænd alder 43-61 ved start. End of study(her): februar 1999 Estimation af overlevelsesfunktionen/kumuleret incidens Højre censurering Kaplan-Meier estimatet ved højre censureret data Interval censurering ”Competing risk” Vi glemmer alt om selektionsproblemer og andet i denne gennemgang! Et Lexis diagram er en god start til forståelse af studiet: www.epi.bris.ac.uk/caerphilly/caerphillyprospectivestudy.htm 1 Caerphilly studiet – som beskrevet i KS Caerphilly studiet – som beskrevet i KS Lexis-diagram for syv deltagere i studiet Data (her): Dato for fødsel Dato for indgang i studiet( = første undersøgelse) Dato for første MI Dato for død (hvis død inden studie slut) Dødsårsag Dato for emigrering (dato studie slut) 7 random persons 80 60 40 entry in the study First MI death heart death other end of FU 20 0 01jan1920 01jan1940 01jan1960 01jan1980 01jan2000 3 Epidemiologi og Biostatistik: Uge 14 Mandag 2 Personkarakteristiska ved studiestart: Alder Rygevaner BMI Blodtryk Socialklasse mv 4 Morten Frydenberg Biostatistik version dato: 16-05-2011 Caerphilly studiet – som beskrevet i KS Caerphilly studiet – som beskrevet i KS Lexis-diagram for syv deltagere i studiet Lexis-diagram for alle 7 random persons all 1786 persons 80 80 70 60 60 40 in the study First MI death heart death other end of FU 50 40 01jan1980 01jan1985 01jan1990 01jan1995 in the study First MI death heart death other end of FU 20 0 01jan2000 01jan1920 01jan1940 01jan1960 01jan1980 01jan2000 5 6 Caerphilly studiet – som beskrevet i KS Caerphilly studiet – analyse af rater Lexis-diagram for alle Vi vil her se på udfaldet/endpoint/outcome/event: Første MI eller død pga. hjertekarsygdom. all 1786 persons 7 random persons 80 80 70 70 60 60 entry in the study First MI death heart death other end of FU 50 40 01jan1980 01jan1985 01jan1990 01jan1995 50 01jan2000 40 01jan1980 7 Epidemiologi og Biostatistik: Uge 14 Mandag in the study Mi or death heart end of FU 01jan1985 01jan1990 01jan1995 01jan2000 8 Morten Frydenberg Biostatistik version dato: 16-05-2011 Analyse af stykkevise konstante rater Analyse af stykkevise konstante rater Time at risk - Person Years at Risk: For hver person kan beregne hvor lang tid der går fra indgang i studiet til event eller udgang af studiet samt hvorvidt personen oplevede eventet (MI eller hjertedød). Opdeling af tid i risiko i 5 års aldersintervaller: 7 random persons 80 Vi kan så lave en tabel, der opdelt efter karakteristika ved start: All Smoking No Yes Social class I II IIINM IIIM IV V Events 348 Person-years at risk 26,161.0 Rate per 1,000 years est CI 13.30 (11.98; 14.78) Rate ratio est CI 70 60 118 230 12,182.5 13,978.5 9.69 16.45 (8.09; 11.60) (14.46; 18.72) ref 1.70 7 51 190 38 43 19 1,216.9 4,709.3 13,317.5 2,785.0 3,120.9 1,011.4 5.75 10.83 14.27 13.64 13.78 18.79 (2.74; 12.07) (8.23; 14.25) (12.38; 16.45) (9.93; 18.75) (10.22; 18.58) (11.98; 29.45) 0.40 0.76 ref 0.96 0.97 1.32 (1.36; 2.12) (0.19; 0.86) (0.56; 1.03) (0.68; 1.35) (0.69; 1.34) (0.82; 2.11) 50 in the study Mi or death heart end of FU 40 01jan1980 01jan1985 01jan1990 01jan1995 01jan2000 9 10 Analyse af stykkevise konstante rater All Smoking No Yes Social class I II IIINM IIIM IV V Age (current) 41-50 50-55 55-60 60-65 65-70 70-75 75+ Events 348 Person-years at risk 26,161.0 Rate per 1,000 years est CI 13.30 (11.98; 14.78) est Analyse af stykkevise konstante rater Rate ratio CI 118 230 12,182.5 13,978.5 9.69 16.45 (8.09; 11.60) (14.46; 18.72) ref 1.70 7 51 190 38 43 19 1,216.9 4,709.3 13,317.5 2,785.0 3,120.9 1,011.4 5.75 10.83 14.27 13.64 13.78 18.79 (2.74; 12.07) (8.23; 14.25) (12.38; 16.45) (9.93; 18.75) (10.22; 18.58) (11.98; 29.45) 0.40 0.76 ref 0.96 0.97 1.32 (0.19; 0.86) (0.56; 1.03) 11 45 71 102 77 29 13 1,627.3 4,268.1 6,718.4 7,114.1 4,296.3 1,867.3 269.5 6.76 10.54 10.57 14.34 17.92 15.53 48.24 (3.74; 12.21) (7.87; 14.12) (8.37; 13.34) (11.81; 17.41) (14.34; 22.41) (10.79; 22.35) (28.01; 83.08) 0.64 1.00 ref 1.36 1.70 1.47 4.56 (0.34; 1.21) (0.69; 1.45) OBS:Tal for alder afviger lidt fra Table 24.11 i KS Epidemiologi og Biostatistik: Uge 14 Mandag (1.36; 2.12) (0.68; 1.35) (0.69; 1.34) (0.82; 2.11) (1.00; 1.84) (1.23; 2.34) (0.95; 2.26) (2.53; 8.25) 11 Vi kan vha. computer opregne risikotid og events i en stor tabel givet ved alle kombinationer af Aldersgruppe (7 niveauer) Socialgruppe (6 niveauer) Rygning (2 niveauer) Dvs. en tabel med 7*6*2 = 84 kombinationer/linier. De første 10 linier 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. +-------------------------------------------------+ | curage socclass cursmoke event pyr | |-------------------------------------------------| | 0 I No 0 52.8323 | | 50 I No 0 110.8118 | | 55 I No 0 179.8412 | | 60 I No 2 191.9459 | | 65 I No 1 131.9979 | | 70 I No 0 62.3128 | | 75 I No 0 9.4367 | | 0 II No 0 196.6995 | | 50 II No 2 487.5551 | | 55 II No 2 757.2485 | +-------------------------------------------------+ 12 Morten Frydenberg Biostatistik version dato: 16-05-2011 Analyse af stykkevise konstante rater Analyse af stykkevise konstante rater Vi kan se at β1 er log rateratioen rygning, for to personer i samme aldergruppe og i samme socialgruppe: En model for raten for event (første MI eller hjertedød): ln ( rate ) = β 0 + β1 ⋅ Smoking + β 2 ⋅ SCI + β 3 ⋅ SCII + β 4 ⋅ SCIIIM + β5 ⋅ S IV + β 6 ⋅ SCIV + β 7 ⋅ A41 + β8 ⋅ A50 + β 9 ⋅ A60 + β10 ⋅ A65 + β11 ⋅ A70 + β12 ⋅ A75 Smoking SC# A# indikator for at være ryger indikator for at være i socialgruppe # indikator for at være i aldersgruppe med start # Vi kan se at β0 er log raten for en ikke ryger, 55-60 år gammel i socialgruppe IIINM. β1 er log rateratioen rygning, for to personer i samme aldergruppe og i samme socialgruppe. Rygeren: ln ( rate ) = β0 + β1 + β 2 ⋅ SCI + β 3 ⋅ SCII + β 4 ⋅ SCIIIM + β 5 ⋅ S IV + β 6 ⋅ SCV + β 7 ⋅ A41 + β8 ⋅ A50 + β 9 ⋅ A60 + β10 ⋅ A65 + β11 ⋅ A70 + β12 ⋅ A75 ln ( rate ) = β 0 Ikke+ β 2 ⋅ SCI + β 3 ⋅ SCII + β 4 ⋅ SCIIIM + β 5 ⋅ S IV + β 6 ⋅ SCV rygeren: + β 7 ⋅ A41 + β8 ⋅ A50 + β 9 ⋅ A60 + β10 ⋅ A65 + β11 ⋅ A70 + β12 ⋅ A75 ln ( rateryger ) − ln ( rateikke ryger ) = ln ( rateryger rateikke ryger ) = β1 13 Analyse af stykkevise konstante rater ln ( rate ) = β 0 + β1 ⋅ Smoking 14 Analyse af stykkevise konstante rater ln ( rate ) = β 0 + β1 ⋅ Smoking + β 2 ⋅ SCI + β 3 ⋅ SCII + β 4 ⋅ SCIIIM + β5 ⋅ S IV + β 6 ⋅ SCV + β 2 ⋅ SCI + β 3 ⋅ SCII + β 4 ⋅ SCIIIM + β5 ⋅ S IV + β 6 ⋅ SCIV + β 7 ⋅ A41 + β8 ⋅ A50 + β 9 ⋅ A60 + β10 ⋅ A65 + β11 ⋅ A70 + β12 ⋅ A75 + β 7 ⋅ A41 + β8 ⋅ A50 + β 9 ⋅ A60 + β10 ⋅ A65 + β11 ⋅ A70 + β12 ⋅ A75 Modellen er en Poisson regression. Log raten for en 52-årige ryger i socialklasse IV ln ( rate ) = β 0 + β1 + β5 + β8 Data er tabel over risikotid og antal events for hver eneste kombination af de forklarende faktorer. Som i logistisk regression sker analysen vha. af computer. Raten for en 52-årige ryger i socialklasse IV Det primære output er er β erne med se, CI og test for β =0. rate = exp ( β 0 + β1 + β5 + β8 ) Rateratioer med CI findes ved transformation vha. eksponentialfunktionen. = exp ( β 0 ) ⋅ exp ( β1 ) ⋅ exp ( β 5 ) ⋅ exp ( β8 ) Rate for reference Rateratioer 15 Epidemiologi og Biostatistik: Uge 14 Mandag 16 Morten Frydenberg Biostatistik version dato: 16-05-2011 Analyse af stykkevise konstante rater Risikotid i 1000 år. Analyse af stykkevise konstante rater Risikotid i 1000 år. ----------------------------------------------------------------------event | Beta Std. Err. z P>|z| [95% Conf. Inter] -------------+--------------------------------------------------------_cons | 2.1089 0.1518 13.90 0.000 1.8114 2.4063 cursmoke | 0 | (base) 1 | 0.4959 0.1144 4.34 0.000 0.2717 0.7200 | socclass | I | -0.8554 0.3855 -2.22 0.026 -1.6110 -0.0998 II | -0.1672 0.1590 -1.05 0.293 -0.4788 0.1444 IIINM | (base) IIIM | -0.0039 0.1783 -0.02 0.983 -0.3533 0.3455 IV | -0.0422 0.1690 -0.25 0.803 -0.3733 0.2890 V | 0.2582 0.2407 1.07 0.283 -0.2136 0.7300 | curage | 41 | -0.4334 0.3241 -1.34 0.181 -1.0686 0.2018 50 | -0.0014 0.1906 -0.01 0.994 -0.3749 0.3721 55 | (base) 60 | 0.3013 0.1546 1.95 0.051 -0.0016 0.6043 65 | 0.5301 0.1646 3.22 0.001 0.2076 0.8527 70 | 0.3789 0.2205 1.72 0.086 -0.0532 0.8110 75 | 1.5309 0.3019 5.07 0.000 0.9392 2.1226 ----------------------------------------------------------------------- event |Exp(beta) [95% Conf. I] P>|z| -------------+------------------------------------_cons | 8.24 6.12 11.09 --| cursmoke | 0 | (base) 1 | 1.64 1.31 2.05 0.000 | socclass | I | 0.43 0.20 0.90 0.026 II | 0.85 0.62 1.16 0.293 IIINM | (base) IIIM | 1.00 0.70 1.41 0.983 IV | 0.96 0.69 1.34 0.803 V | 1.29 0.81 2.08 0.283 | curage | 41 | 0.65 0.34 1.22 0.181 50 | 1.00 0.69 1.45 0.994 55 | (base) 60 | 1.35 1.00 1.83 0.051 65 | 1.70 1.23 2.35 0.001 70 | 1.46 0.95 2.25 0.086 75 | 4.62 2.56 8.35 0.000 -------------------------------------------------- Rate ref. person Korrigerede (adjusted) rateratioer 17 Analyse af stykkevise konstante rater Præsentation i artikel: Rate ratio Person-years at risk est CI est CI 118 230 12,182.5 13,978.5 ref 1.70 (1.36; 2.12) ref 1.64 (1.31; 2.05) 7 51 190 38 43 19 1,216.9 4,709.3 13,317.5 2,785.0 3,120.9 1,011.4 0.40 0.76 ref 0.96 0.97 1.32 (0.19; 0.86) (0.56; 1.03) 11 45 71 102 77 29 13 1,627.3 4,268.1 6,718.4 7,114.1 4,296.3 1,867.3 269.5 0.64 1.00 ref 1.36 1.70 1.47 4.56 (0.34; 1.21) (0.69; 1.45) Events Smoking No Yes Social class I II IIINM IIIM IV V Age (current) 41-50 50-55 55-60 60-65 65-70 70-75 75+ Crude Analyse af stykkevise konstante rater Adjusted (0.68; 1.35) (0.69; 1.34) (0.82; 2.11) (1.00; 1.84) (1.23; 2.34) (0.95; 2.26) (2.53; 8.25) 0.43 0.85 ref 1.00 0.96 1.29 (0.20; 0.90) (0.62; 1.16) 0.65 1.00 ref 1.35 1.70 1.46 4.62 (0.34; 1.22) (0.69; 1.45) 18 Rate ryger, alder 55-60, socialgruppe IIINM: 8.24*1.64 = 13.51 per 1000 år. Rate ryger, alder 72, socialgruppe IIINM: 8.24*1.64*1.46 = 19.73 per 1000 år. Korrigeret rateratio aldersgruppe70-75 vs 41-50: 1.46/0.65 = 2.24 (0.70; 1.41) (0.69; 1.34) (0.81; 2.08) Korrigeret rateratio mellem A: ryger, 72 årig, B: ikke ryger, 62 årig, (1.00; 1.83) (1.23; 2.35) (0.95; 2.25) (2.56; 8.35) socialgruppe IIIM socialgruppe V AvsB = 1.64 ⋅ 1.46 ⋅ 1.00 = 1.64 ⋅ 1.46 ⋅ 1.00 = 1.37 IRR 1.35 ⋅ 1.29 1 1.35 1.29 Rate: ikke ryger, alder 55-60, socialgruppe IIINM: 8.24 (6.12;11.09) per 1000 år. 19 Epidemiologi og Biostatistik: Uge 14 Mandag 20 Morten Frydenberg Biostatistik version dato: 16-05-2011 En Cox proportional hazard model En Cox proportional hazard model ln ( λ ( t ) ) = ln ( λ0 ( t ) ) + α1 ⋅ Smoking I Poisson regressionen antog vi stykkevise konstante rater og fik estimater både for raten og rate ratioer. +α 2 ⋅ SCI + α 3 ⋅ SCII + α 4 ⋅ SCIIIM + α 5 ⋅ S IV + α 6 ⋅ SCIV En alternativ analyse kan være en Cox proportional hazard model, der ikke antager stykkevise konstante rater. Vi ser at λ0(t) er hazard/raten som funktion af alder for en reference person: ikke ryger i socialgruppe IIINM Model tager udgangspunkt raten/hazarden til tid t: λ ( t ) = lim h→0 Pr ( event i [t , t + h ] givet ikke event før t ) Modellen antager ikke at denne rate er stykvis konstant, som vi gjorde i Poisson regressions modellen til start. h Lad her tiden være alder og event være først MI eller hjertedød. λ0(t) kaldes ofte ”baseline hazard”. Fokus i en Cox model er ikke på baseline hazard eller i det hele taget på hazard – fokus er på hazard ratioer. Et eksempel på en Cox proportional hazard regression model: ln ( λ ( t ) ) = ln ( λ0 ( t ) ) + α1 ⋅ Smoking Obs når man laver Poission regression taler man om rater og når man laver Cox regressioner taler man om hazard. +α 2 ⋅ SCI + α 3 ⋅ SCII + α 4 ⋅ SCIIIM + α 5 ⋅ S IV + α 6 ⋅ SCIV 21 En Cox proportional hazard model 22 En Cox proportional hazard model λ ( t ) = λ0 ( t ) ⋅ exp [α1 ⋅ Smoking +α 2 ⋅ SCI + α 3 ⋅ SCII + α 4 ⋅ SCIIIM + α 5 ⋅ S IV + α 6 ⋅ SCIV ] Model estimeres vha. af computer Det primære output er α erne (log hazard ratioerne), med se, CI og test for α =0. Hazard for en ryger i socialgruppe IIINM λ ( t ) = λ0 ( t ) ⋅ exp [α1 ] | Coef. Std. Err. z P>|z| [95% Conf. Inter] -------------+-------------------------------------------------------cursmoke | 0 | (base) 1 | 0.4956 0.1144 4.33 0.000 0.2714 0.7198 | socclass | I | -0.8564 0.3855 -2.22 0.026 -1.6120 -0.1008 II | -0.1639 0.1590 -1.03 0.303 -0.4756 0.1478 IIINM | (base) IIIM | -0.0089 0.1783 -0.05 0.960 -0.3584 0.3405 IV | -0.0448 0.1690 -0.26 0.791 -0.3760 0.2865 V | 0.2609 0.2408 1.08 0.279 -0.2111 0.7329 ---------------------------------------------------------------------- Vi ser at den er er proportional med baseline hazard med en faktor der er: HRSmoking = exp [α1 ] Som ved de andre regressionsmodeller ser vi at hazard ratioen ved sammenligning af en ryger med en ikke ryger er den samme blot de to er i samme socialgruppe og har samme alder (t). 23 Epidemiologi og Biostatistik: Uge 14 Mandag 24 Morten Frydenberg Biostatistik version dato: 16-05-2011 En Cox proportional hazard model Kommentarer til Cox regression I analysen brugte vi alder = tid siden fødsel som tidsakse. I artikler rapporteres Hazard ratioer og CI ( evt p-værdi for hazard ratio lig 1). Vi kunne også af brugt tid siden indgang i studiet eller kalendertid som tidsakse. | Haz. Ratio [95% CI] P>|z| -------------+--------------------------------cursmoke | 0 | (base) 1 | 1.64 1.31 2.05 0.000 | socclass | I | 0.42 0.20 0.90 0.026 II | 0.85 0.62 1.16 0.303 IIINM | (base) IIIM | 0.99 0.70 1.41 0.960 IV | 0.96 0.69 1.33 0.791 V | 1.30 0.81 2.08 0.279 ------------------------------------------------ Generelt bør man vælge den tidsakse som betyder mest for variation i raten. Korrektion for de andre kan ske ved at man introducere tidsafhængige forklarende variable. Fx hvis vi bruger alder som tidsakse , så kan vi have en variabel, der skifter niveau alt efter hvor lang tid person har være i studiet. Bemærk vi får ikke noget estimate for raten hazarden kun hazard ratioen. 25 26 Ventetidsfordeling/kumuleret incidens funktion Kaplan-Meier estimator Cox regression og Poisson regression Begge metoder bruges til at analyse af raten for en begivenhed. Antag at vi for hver person i studiepopulationen har følgende: Begge bruger rateratioer som associationsmål. t : Tid fra observation start til observation slut d : Indikator for hvorvidt follow-up slutter med event (død) Poisson regression antager stykkevise konstante rater og estimerer disse. Dvs. vi for de personer, der dør, ved vi hvornår det sker og for de andre ved vi hvornår de sidst var observeret i live. Cox regressionen pålægger ikke baseline raten nogle betingelser, men giver heller ikke noget estimat for denne. Hvis tidsintervallerne i Poission modellen (her alders intervallerne) er små, så vil de to modeller givet stort samme rate ratioer. 27 Epidemiologi og Biostatistik: Uge 14 Mandag Disse personer siges at være højre-censorede: Vi ved at de vil dø senere, men vi ved ikke hvornår. I Caerphilly studiet vil personer, der er forlader studiet undervejs eller er i live, når studiet slutter, være højrecensorede. Med sådan data kan man estimere overlevelsefunktionen, S(t), dvs sandsynligheden for at man ikke er død, vha. Kaplan-Meier estimatoren. 28 Morten Frydenberg Biostatistik version dato: 16-05-2011 Overlevelses funktion Kaplan-Meier estimator med 95% CI Kumuleret mortalitet funktion Kaplan-Meier estimator KMP ( t ) = 1 − S ( t ) Kaplan-Meier survival estimate Kaplan-Meier failure estimate 1 .5 .4 andel døde andel i live .75 .5 .3 .2 .25 .1 0 0 0 5 10 15 20 0 years since entrance 1651 1471 10 15 20 1276 0 years since entrance Number at risk 1786 5 1276 Number at risk 0 1786 1651 1471 29 Kumuleret mortalitet funktion Kaplan-Meier estimator Opdelt efter rygning ved start 30 Kumuleret mortalitet funktion Kaplan-Meier estimator Opdelt efter alder ved start 0.50 0.50 0.40 andel døde 0.40 andel døde agegr = 0agegr = 50agegr = 60- cursmoke = No cursmoke = Yes 0.30 0.20 0.30 0.20 0.10 0.10 0.00 0.00 0 0 5 10 15 years since entrance Number at risk cursmoke = No 796 cursmoke = Yes 990 751 900 695 776 625 651 0 0 31 Epidemiologi og Biostatistik: Uge 14 Mandag 5 10 15 20 510 722 44 0 0 0 years since entrance 20 Number at risk agegr = 0- 626 agegr = 50- 1085 agegr = 60- 75 598 982 71 557 856 58 32 Morten Frydenberg Biostatistik version dato: 16-05-2011 Kommentarer til brug af Kaplan-Meier estimatoren Kommentarer til brug af Kaplan-Meier estimatoren Kaplan-Meier overlevelseskurver er en valid estimator i situationer med højre censurering. Kaplan-Meier overlevelseskurver er en valid estimator i situationer med højre censurering. Ofte er data interval censureret, dvs. vi ved ikke præcist hvornår eventet er indtruffet, men blot at det er sket i et kendt tidsinterval. Metoden er kræver også at censurering ikke ændre sandsynligheden/raten for den begivenhed man betragter – man blive censureret pga. Competing Risk. Fx personen var rask ved forrige kontrolbesøg, men ved det kontrolbesøg er vedkommende syg.Vi ved således at personen er blevet syg på tidspunkt mellem de to besøg. Antag fx at begivenhed er MI, så vil udgang af studiet pga. død betyde at man aldrig får et MI. – død er en competing event. Lille Peter havde ikke hul i tanden ved forrige besøg hos tandlægen, men har det nu. Vi ved ikke hvornår Peter fik hul i tanden. Kaplan-Meier estimatoren er ikke valid i situationer med competing risk. Kaplan-Meier estimat er ikke valid hvis vi har interval censureret data! 33 Kommentarer til brug af Kaplan-Meier estimatoren Man kan teste hypotesen om ingen forskel mellem flere overlevelsesfunktioner eller kumuleret incidens kurver vha. et Log-Rank test: 0.50 agegr = 0agegr = 50agegr = 60- Log-rank test for equality of survivor functions chi2(2) = 24.87 Pr>chi2 = 0.0000 andel døde 0.40 0.30 0.20 0.10 0.00 0 5 10 15 20 years since entrance Hypotesen om ingen forskel i dødelighed i de tre aldersgrupper må forkastes. Dødelighed stiger med alder: 35 Epidemiologi og Biostatistik: Uge 14 Mandag I Caerphilly studiet vil Kaplan-Meier metoden ikke kunne bruges til at estimere den kumulerede incidens af MI/hjertedød, da nogle personer bliver ”censureret” på brug af død af en anden årsag. Disse person kan jo ikke senere få MI eller død pga hjertekarsygdom. 34
© Copyright 2025