university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Introduktion Faculty of Health Sciences Hvad er en god diagnostisk model? Logistisk regression og prædiktion I En model med god overensstemmelse mellem observerede og fittede værdier. I En model der forklarer så meget som muligt af variationen i data. I En model der kan prædiktere outcome med rimelig præcision. 16. Maj 2012 Julie Forman Biostatistisk Afdeling, Københavns Universitet I praksis: Ikke så godt at glemme en vigtig risikofaktor eller overse en meget ikke-lineær effekt. 2 / 36 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Outline Fittede sandsynligheder Forklaret variation De fittede (prædikterede) sandsynligheder for den logistiske regressions model er: Prædiktion og klassifikation ˆi = P Prædiktion i SAS Case study: IVF exp(ˆ α + βˆ1 xi1 + · · · + βˆk xik ) 1 + exp(ˆ α + βˆ1 xi1 + · · · + βˆk xik ) I α ˆ , βˆ1 , . . . , βˆk er parameterestimaterne. I xi1 , . . . , xik er kovariaterne for den i’te observation. Mere om prædiktion NB: Optional output fra de fleste statistiske softwarepakker. 3 / 36 4 / 36 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Eksempel: Menarke university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Eksempel: Menarke Prædikterede sandsynligheder: Obs age menarche _LEVEL_ estprob 1 2 3 4 5 8.00 8.03 8.08 8.13 8.17 0 0 0 0 0 1 1 1 1 1 0.000380154 0.000397850 0.000429192 0.000463002 0.000491956 19.48 19.56 19.75 1 1 1 1 1 1 0.99993 0.99994 0.99995 ... 518 519 520 5 / 36 6 / 36 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Brier score university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Eksempel: Menarke Som overordnet mål for goodness of fit, kan man udregne: n 1X ˆ i )2 Brier score(model) = (Yi − P n i=1 Denne skal sættes i forhold til den tilsvarende nul-score: n 1X ¯ )2 (Yi − Y Brier score(null model) = n i=1 ¯ er frekvensen af cases i data. Nul-scoren er den totale Hvor Y variation i data svarerende til en model uden forklarende variable. ¯ = Frekvens af menarke Y 7 / 36 = 0.506. Den totale variation (nul-score) er 0.250 Brier score for modellen med alder er 0.063 Alder forklarer R2 = Den forklarede variation i data bliver således: R2 = 263 520 Brier score(null model) − Brier score(model) Brier score(null model) 8 / 36 0.250−0.063 0.250 = 74.7% af variationen i data. university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Outline university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Prædiktiv modellering Forklaret variation Ofte er selve formålet med den logistiske regression at udvikle en model til klassifikation/diagnosticering af nye individer. Prædiktion og klassifikation Dette kræver at modellen er tilpas god til at skelne cases fra non-cases ved at prædiktere hhv. høje og lave sandsynligheder for disse. Prædiktion i SAS Case study: IVF Der findes særlige statistiske værktøjer til at evaluere om en logistisk regression en god prædiktionsmodel. Mere om prædiktion 9 / 36 10 / 36 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Eksempel: Hypertension Sensitivitet og specificitet Kunne vi finde frem til mænd med hypertension udfra risikoforholdene snorken, fedme og rygning? Hvor af hhv. cases og non-cases klassificeres korrekt? Obs smoking obesity snoring Sensitiviteten er sandsynligheden for positiv diagnose blandt faktiske cases. 1 2 3 4 5 6 7 8 0 1 0 1 0 1 0 1 0 0 1 1 0 0 1 1 0 0 0 0 1 1 1 1 n 60 17 8 2 187 85 51 23 count 5 2 1 0 35 13 15 8 estprob 0.085 0.080 0.157 0.148 0.182 0.172 0.308 0.294 I 100% ved perfekt prædiktion. Kaldes også den sande positiv rate. Specificiteten er sandsynligheden for negativ diagnose blandt faktiske non-cases. I 100% ved perfekt prædiktion Lig med 1 minus den falske positiv rate. Ad hoc klassifikation: Prædikteret risiko ≥ 25% . . . 11 / 36 12 / 36 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Eksempel: Hypertension university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Eksempel: Hypertension Varierende skæringpunkter ved 0%, 5%, dots 50%. Classification Table Ad hoc klassifikationen "Prædikteret risiko ≥ 25%"selekterer 23 af de 79 cases og 51 af de 354 non-cases. 23 79 I Sensitivitet ∼ 29.1% I Specificitet 1 − 51 354 ∼ 85.6% Ville et andet skæringspunkt end 25% give en bedre diagnose? Prob Level 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 Correct NonEvent Event 79 79 72 71 23 23 0 0 0 0 0 0 70 70 303 303 318 354 354 354 Incorrect NonEvent Event 354 354 284 284 51 51 36 0 0 0 0 0 7 8 56 56 79 79 79 79 Correct 18.2 18.2 32.8 32.6 75.3 75.3 73.4 81.8 81.8 81.8 Percentages Sensi- Speci- False tivity ficity POS 100.0 100.0 91.1 89.9 29.1 29.1 0.0 0.0 0.0 0.0 0.0 0.0 19.8 19.8 85.6 85.6 89.8 100.0 100.0 100.0 False NEG 81.8 81.8 79.8 80.0 68.9 68.9 100.0 . . . . . 9.1 10.3 15.6 15.6 19.9 18.2 18.2 18.2 Bemærk trade-off mellem sensitiviteten og specificiteten. 13 / 36 university of copenhagen 14 / 36 d e pa rt m e n t o f b i o s tat i s t i c s ROC kurven university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Area under the curve (AUC) Sensitivitet vs 1-specificitet for varierende risiko-skæringspunkt. Arealet under ROC kurven bruges som overordnet mål for goodness of fit / prædiktiv evne. I AUC= 1 for en perfekt prædiktionsmodel I AUC= 0.5 for en ubrugelig prædiktionsmodel (kunne ligeså godt slå plat og krone) Eksempel: AUC=0.617 for hypertensionsdata I Jo stejlere kurve desto bedre prædiktion. 15 / 36 16 / 36 Det er selvfølgelig bedre bare at måle patientens blodtryk! university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Konkordans university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Outline AUC kan beregnes som: ˆ case ≥ P ˆ case Antal (case,non-case)-par med P AUC = Antal (case,non-case)-par i alt svarende til frekvensen af såkaldte konkordante observationspar. Forklaret variation Prædiktion og klassifikation Prædiktion i SAS The LOGISTIC Procedure Association of Predicted Probabilities and Observed Responses Percent Concordant Percent Discordant Percent Tied Pairs 97.7 2.3 0.0 67591 Somers’ D Gamma Tau-a c 0.954 0.954 0.478 0.977 17 / 36 university of copenhagen Case study: IVF Mere om prædiktion 18 / 36 d e pa rt m e n t o f b i o s tat i s t i c s Prædikterede sandsynligheder i SAS university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s ROC kurver i SAS Det er nemt at få tegnet ROC-kurven og udregnet AUC? . Prædikterede sandsynligheder for de enkelte observationer gemmes i et datasæt, estimated med: PROC LOGISTIC DESCENDING DATA=mdata; MODEL menarche=age; OUTPUT OUT=estimated predicted=estprob; RUN; PROC PRINT DATA=estimated; RUN; 19 / 36 ODS GRAHPICS ON; PROC LOGISTIC DESCENDING DATA=hypertension PLOTS=ROC(id=prob); CLASS snoring obesity smoking; MODEL count/n=snoring obesity smoking / CTABLE PPROB = (0 TO 1 BY 0.1) OUTROC = ROC; RUN; ODS GRAPHICS OFF; ? Med SAS 9.2 eller nyere version. 20 / 36 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Sammenligning af ROC kurver i SAS university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Outline Flere ROC kurver samtidigt og test af forskel med: Forklaret variation ODS GRAHPICS ON; Prædiktion og klassifikation PROC LOGISTIC DESCENDING DATA=ivf PLOTS=ROC; CLASS smoking; MODEL overstim = antral ovolume cyclelength fsh age bmi smoking; Prædiktion i SAS ROC ’All predictors’ antral ovolume cyclelength fsh age bmi smoking; ROC ’Antral follicles’ antral; Case study: IVF ROCCONTRAST REFERENCE(’All predictors’) / ESTIMATE; RUN; Mere om prædiktion ODS GRAPHICS OFF; 21 / 36 university of copenhagen 22 / 36 d e pa rt m e n t o f b i o s tat i s t i c s IVF: introduktion Kvinder i IVF-behandling gennemgår hormonterapi hvorigennem folliklerne modnes og senere høstes. De fleste kvinder reagerer tilfredsstillende på standard hormon dosis, men et ikke ubetydeligt mindretal overstimuleres med medfølgende symptomer der i yderste konsekvens kan være livstruende. Vi ønsker derfor så vidt muligt at identificere de kvinder der er i risiko for overstimulering udfra den tilgængelige information. Freiesleben et al: Risk chart to identify low and excessive response among first university of copenhagen IVF: data Data fra 276 kvinder i IVF behandling. Alle modtog standard dosis. 43 blev overstimuleret. Potentielle prædiktorer: Variabel age bmi antral ovolume cyclelength fsh smoking cycle IVF patients, Reproductive BioMedicine Vol. 22, 2011. 23 / 36 d e pa rt m e n t o f b i o s tat i s t i c s 24 / 36 N Mean Std Dev Minimum Maximum 276 276 276 276 276 276 276 32.6449275 22.9600362 20.0833333 10.5581884 28.4927536 6.6018478 0.3297000 3.4856604 3.5082026 8.8697819 3.6519907 2.1191641 1.7381892 --------- 23.0000000 17.1100000 3.0000000 2.2500000 22.0000000 1.6000000 0.0000000 39.0000000 39.7900000 60.0000000 24.9600000 35.0000000 12.0000000 1.0000000 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s IVF: logistisk regression university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s IVF: Potentielle prædiktionsmodeller Analysis of Maximum Likelihood Estimates Parameter Intercept ANTRAL OVOLUME CYCLELENGTH FSH AGE BMI SMOKING DF Estimate Standard Error Wald Chi-Square Pr > ChiSq 1 1 1 1 1 1 1 1 -6.7038 0.1102 0.1029 0.2469 -0.2838 -0.0432 -0.1256 0.2616 3.7970 0.0296 0.0637 0.0943 0.1393 0.0592 0.0675 0.4306 3.1173 13.9085 2.6113 6.8604 4.1500 0.5328 3.4650 0.3690 0.0775 0.0002 0.1061 0.0088 0.0416 0.4654 0.0627 0.5436 Tilsyneladende flere væsentlige risikofaktorer. 25 / 36 26 / 36 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s IVF: ROC analyse university of copenhagen IVF: Estimeret risiko Er det nødvendigt at have alle faktorerne med? The LOGISTIC Procedure ROC Contrast Rows Estimation and Testing Results Contrast Model - All predictors Antral - All predictors Ovolume - All predictors Cyclelength - All predictors FSH - All predictors Age - All predictors BMI - All predictors Estimate Standard Error 0 -0.0353 -0.0958 -0.1389 -0.2046 -0.2620 -0.3093 . 0.0209 0.0365 0.0374 0.0465 0.0519 0.0530 95% Wald Confidence Limits . -0.0763 -0.1674 -0.2121 -0.2958 -0.3637 -0.4132 . 0.00569 -0.0243 -0.0656 -0.1134 -0.1603 -0.2054 Chi-Square Pr > ChiSq . 2.8486 6.8906 13.8076 19.3320 25.4962 34.0693 . 0.0915 0.0087 0.0002 <.0001 <.0001 <.0001 Antrale follikler alene prædikterer stort set ligeså godt som alle variablene tilsammen (hvilket ikke er alt for godt). 27 / 36 28 / 36 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Prædiktion vs signifikans university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Outline Regressionsanalyse med hypotese test og ROC-analyse kan give ret forskellige resultater. Det ses tit at en ny forklarende variabel der er stærkt signifikante i multipel logistisk regression, kun giver yderst beskedne forbedringer i prædiktiv evne (AUC) når den tilføjes til de kendte risikofaktorer. En insignifikant forklarende variabel kan omvendt godt være en god prædiktor (ses oftest i små datasæt). Forklaret variation Prædiktion og klassifikation Prædiktion i SAS Case study: IVF Mere om prædiktion 29 / 36 university of copenhagen 30 / 36 d e pa rt m e n t o f b i o s tat i s t i c s Overfitting Goodness of fit mål som Brier score og AUC favoriserer komplekse modeller (mange kovariater) fordi disse altid bedre vil kunne tilpasse sig de individuelle observationer i data. Men øget kompleksitet giver ikke nødvendigvis bedre præditioner. Pas på overfitting 31 / 36 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Ekstern og intern validering Ideelt set bør en prædiktionsmodel bedømmes på sin evne til at prædiktere nye observationer der ikke har været brugt til at udvikle modellen (i.e. estimere modelparametrene). I mangel af uafhængige testdata, kan det oprindelige datasæt deles op i et modellerings-datasæt og et testdatasæt. For at undgå snyd bør opsplitning, modellering og evaluering randomiseres og gentages et antal gange (fx ved bootstrap krydsvalidering). 32 / 36 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Andre prædiktionsmodeller Stepwise regression Logistisk regression er langt fra den eneste måde at konstruere prædiktionsmodeller på. Mange software pakker (inklusiv SAS) har algortimer til automatisk selektion af variable til prædiktionsmodeller i form af stepwise regression (forward/ backwards elimination). Andre modeller: Desission trees, random forrests, neural nets, support vector machines etc. Nogle af disse modeller er udviklet til at kunne håndtere store mængder af information / mange forklarende variable fx i form af genetiske profiler. 33 / 36 Dette giver ikke nødvendigvis gode prædiktionsmodeller da variablene tilvælges og fravælges på baggrund af p-værdier, i.e. signifikans. Statistisk forskning viser at resultaterne af stepwise regression ofte er ustabile; Hvis man sletter nogle tilfældige valgte observationer i data, vælger algoritmen nogle helt andre variable ud! 34 / 36 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Her kan i få mere at vide university of copenhagen Tak for idag Om basale begreber og logistisk regression: I DG Altman: Practical Statistics for Medical Research, Chapman & Hall/CRC, (2nd edition, 1999). I Eller en anden bog om basal biostatistik. Om SAS proc logistic I support.sas.com I http://www.lexjansen.com/pharmasug/2009/sp/sp03.pdf Om prædiktion I 35 / 36 Ph.d.-kursus: Statistical evaluation of diagnostic and predictive models (Der er af og til ledige pladser . . . ) 36 / 36 d e pa rt m e n t o f b i o s tat i s t i c s
© Copyright 2024