det fulde program som pdf - Helsingør Kommunes Biblioteker

university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Introduktion
Faculty of Health Sciences
Hvad er en god diagnostisk model?
Logistisk regression og prædiktion
I
En model med god overensstemmelse mellem observerede og
fittede værdier.
I
En model der forklarer så meget som muligt af variationen i
data.
I
En model der kan prædiktere outcome med rimelig præcision.
16. Maj 2012
Julie Forman
Biostatistisk Afdeling, Københavns Universitet
I praksis: Ikke så godt at glemme en vigtig risikofaktor eller overse
en meget ikke-lineær effekt.
2 / 36
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Outline
Fittede sandsynligheder
Forklaret variation
De fittede (prædikterede) sandsynligheder for den logistiske
regressions model er:
Prædiktion og klassifikation
ˆi =
P
Prædiktion i SAS
Case study: IVF
exp(ˆ
α + βˆ1 xi1 + · · · + βˆk xik )
1 + exp(ˆ
α + βˆ1 xi1 + · · · + βˆk xik )
I
α
ˆ , βˆ1 , . . . , βˆk er parameterestimaterne.
I
xi1 , . . . , xik er kovariaterne for den i’te observation.
Mere om prædiktion
NB: Optional output fra de fleste statistiske softwarepakker.
3 / 36
4 / 36
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Eksempel: Menarke
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Eksempel: Menarke
Prædikterede sandsynligheder:
Obs
age
menarche
_LEVEL_
estprob
1
2
3
4
5
8.00
8.03
8.08
8.13
8.17
0
0
0
0
0
1
1
1
1
1
0.000380154
0.000397850
0.000429192
0.000463002
0.000491956
19.48
19.56
19.75
1
1
1
1
1
1
0.99993
0.99994
0.99995
...
518
519
520
5 / 36
6 / 36
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Brier score
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Eksempel: Menarke
Som overordnet mål for goodness of fit, kan man udregne:
n
1X
ˆ i )2
Brier score(model) =
(Yi − P
n i=1
Denne skal sættes i forhold til den tilsvarende nul-score:
n
1X
¯ )2
(Yi − Y
Brier score(null model) =
n i=1
¯ er frekvensen af cases i data. Nul-scoren er den totale
Hvor Y
variation i data svarerende til en model uden forklarende variable.
¯ =
Frekvens af menarke Y
7 / 36
= 0.506.
Den totale variation (nul-score) er 0.250
Brier score for modellen med alder er 0.063
Alder forklarer R2 =
Den forklarede variation i data bliver således:
R2 =
263
520
Brier score(null model) − Brier score(model)
Brier score(null model)
8 / 36
0.250−0.063
0.250
= 74.7% af variationen i data.
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Outline
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Prædiktiv modellering
Forklaret variation
Ofte er selve formålet med den logistiske regression at udvikle en
model til klassifikation/diagnosticering af nye individer.
Prædiktion og klassifikation
Dette kræver at modellen er tilpas god til at skelne cases fra
non-cases ved at prædiktere hhv. høje og lave sandsynligheder for
disse.
Prædiktion i SAS
Case study: IVF
Der findes særlige statistiske værktøjer til at evaluere om en
logistisk regression en god prædiktionsmodel.
Mere om prædiktion
9 / 36
10 / 36
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Eksempel: Hypertension
Sensitivitet og specificitet
Kunne vi finde frem til mænd med hypertension udfra
risikoforholdene snorken, fedme og rygning?
Hvor af hhv. cases og non-cases klassificeres korrekt?
Obs
smoking
obesity
snoring
Sensitiviteten er sandsynligheden for positiv diagnose blandt
faktiske cases.
1
2
3
4
5
6
7
8
0
1
0
1
0
1
0
1
0
0
1
1
0
0
1
1
0
0
0
0
1
1
1
1
n
60
17
8
2
187
85
51
23
count
5
2
1
0
35
13
15
8
estprob
0.085
0.080
0.157
0.148
0.182
0.172
0.308
0.294
I
100% ved perfekt prædiktion.
Kaldes også den sande positiv rate.
Specificiteten er sandsynligheden for negativ diagnose blandt
faktiske non-cases.
I
100% ved perfekt prædiktion
Lig med 1 minus den falske positiv rate.
Ad hoc klassifikation: Prædikteret risiko ≥ 25% . . .
11 / 36
12 / 36
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Eksempel: Hypertension
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Eksempel: Hypertension
Varierende skæringpunkter ved 0%, 5%, dots 50%.
Classification Table
Ad hoc klassifikationen "Prædikteret risiko ≥ 25%"selekterer 23 af
de 79 cases og 51 af de 354 non-cases.
23
79
I
Sensitivitet
∼ 29.1%
I
Specificitet 1 −
51
354
∼ 85.6%
Ville et andet skæringspunkt end 25% give en bedre diagnose?
Prob
Level
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
Correct
NonEvent Event
79
79
72
71
23
23
0
0
0
0
0
0
70
70
303
303
318
354
354
354
Incorrect
NonEvent Event
354
354
284
284
51
51
36
0
0
0
0
0
7
8
56
56
79
79
79
79
Correct
18.2
18.2
32.8
32.6
75.3
75.3
73.4
81.8
81.8
81.8
Percentages
Sensi- Speci- False
tivity ficity
POS
100.0
100.0
91.1
89.9
29.1
29.1
0.0
0.0
0.0
0.0
0.0
0.0
19.8
19.8
85.6
85.6
89.8
100.0
100.0
100.0
False
NEG
81.8
81.8
79.8
80.0
68.9
68.9
100.0
.
.
.
.
.
9.1
10.3
15.6
15.6
19.9
18.2
18.2
18.2
Bemærk trade-off mellem sensitiviteten og specificiteten.
13 / 36
university of copenhagen
14 / 36
d e pa rt m e n t o f b i o s tat i s t i c s
ROC kurven
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Area under the curve (AUC)
Sensitivitet vs 1-specificitet for varierende risiko-skæringspunkt.
Arealet under ROC kurven bruges som overordnet mål for
goodness of fit / prædiktiv evne.
I
AUC= 1 for en perfekt prædiktionsmodel
I
AUC= 0.5 for en ubrugelig prædiktionsmodel
(kunne ligeså godt slå plat og krone)
Eksempel: AUC=0.617 for hypertensionsdata
I
Jo stejlere kurve desto bedre prædiktion.
15 / 36
16 / 36
Det er selvfølgelig bedre bare at måle patientens blodtryk!
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Konkordans
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Outline
AUC kan beregnes som:
ˆ case ≥ P
ˆ case
Antal (case,non-case)-par med P
AUC =
Antal (case,non-case)-par i alt
svarende til frekvensen af såkaldte konkordante observationspar.
Forklaret variation
Prædiktion og klassifikation
Prædiktion i SAS
The LOGISTIC Procedure
Association of Predicted Probabilities and Observed Responses
Percent Concordant
Percent Discordant
Percent Tied
Pairs
97.7
2.3
0.0
67591
Somers’ D
Gamma
Tau-a
c
0.954
0.954
0.478
0.977
17 / 36
university of copenhagen
Case study: IVF
Mere om prædiktion
18 / 36
d e pa rt m e n t o f b i o s tat i s t i c s
Prædikterede sandsynligheder i SAS
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
ROC kurver i SAS
Det er nemt at få tegnet ROC-kurven og udregnet AUC? .
Prædikterede sandsynligheder for de enkelte observationer gemmes
i et datasæt, estimated med:
PROC LOGISTIC DESCENDING DATA=mdata;
MODEL menarche=age;
OUTPUT OUT=estimated predicted=estprob;
RUN;
PROC PRINT DATA=estimated;
RUN;
19 / 36
ODS GRAHPICS ON;
PROC LOGISTIC DESCENDING DATA=hypertension
PLOTS=ROC(id=prob);
CLASS snoring obesity smoking;
MODEL count/n=snoring obesity smoking /
CTABLE PPROB = (0 TO 1 BY 0.1) OUTROC = ROC;
RUN;
ODS GRAPHICS OFF;
? Med SAS 9.2 eller nyere version.
20 / 36
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Sammenligning af ROC kurver i SAS
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Outline
Flere ROC kurver samtidigt og test af forskel med:
Forklaret variation
ODS GRAHPICS ON;
Prædiktion og klassifikation
PROC LOGISTIC DESCENDING DATA=ivf PLOTS=ROC;
CLASS smoking;
MODEL overstim = antral ovolume cyclelength fsh age bmi smoking;
Prædiktion i SAS
ROC ’All predictors’ antral ovolume cyclelength fsh age bmi smoking;
ROC ’Antral follicles’ antral;
Case study: IVF
ROCCONTRAST REFERENCE(’All predictors’) / ESTIMATE;
RUN;
Mere om prædiktion
ODS GRAPHICS OFF;
21 / 36
university of copenhagen
22 / 36
d e pa rt m e n t o f b i o s tat i s t i c s
IVF: introduktion
Kvinder i IVF-behandling gennemgår hormonterapi hvorigennem
folliklerne modnes og senere høstes.
De fleste kvinder reagerer tilfredsstillende på standard hormon
dosis, men et ikke ubetydeligt mindretal overstimuleres med
medfølgende symptomer der i yderste konsekvens kan være
livstruende.
Vi ønsker derfor så vidt muligt at identificere de kvinder der er i
risiko for overstimulering udfra den tilgængelige information.
Freiesleben et al: Risk chart to identify low and excessive response among first
university of copenhagen
IVF: data
Data fra 276 kvinder i IVF behandling. Alle modtog standard dosis.
43 blev overstimuleret.
Potentielle prædiktorer:
Variabel
age
bmi
antral
ovolume
cyclelength
fsh
smoking
cycle IVF patients, Reproductive BioMedicine Vol. 22, 2011.
23 / 36
d e pa rt m e n t o f b i o s tat i s t i c s
24 / 36
N
Mean
Std Dev
Minimum
Maximum
276
276
276
276
276
276
276
32.6449275
22.9600362
20.0833333
10.5581884
28.4927536
6.6018478
0.3297000
3.4856604
3.5082026
8.8697819
3.6519907
2.1191641
1.7381892
---------
23.0000000
17.1100000
3.0000000
2.2500000
22.0000000
1.6000000
0.0000000
39.0000000
39.7900000
60.0000000
24.9600000
35.0000000
12.0000000
1.0000000
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
IVF: logistisk regression
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
IVF: Potentielle prædiktionsmodeller
Analysis of Maximum Likelihood Estimates
Parameter
Intercept
ANTRAL
OVOLUME
CYCLELENGTH
FSH
AGE
BMI
SMOKING
DF
Estimate
Standard
Error
Wald
Chi-Square
Pr > ChiSq
1
1
1
1
1
1
1
1
-6.7038
0.1102
0.1029
0.2469
-0.2838
-0.0432
-0.1256
0.2616
3.7970
0.0296
0.0637
0.0943
0.1393
0.0592
0.0675
0.4306
3.1173
13.9085
2.6113
6.8604
4.1500
0.5328
3.4650
0.3690
0.0775
0.0002
0.1061
0.0088
0.0416
0.4654
0.0627
0.5436
Tilsyneladende flere væsentlige risikofaktorer.
25 / 36
26 / 36
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
IVF: ROC analyse
university of copenhagen
IVF: Estimeret risiko
Er det nødvendigt at have alle faktorerne med?
The LOGISTIC Procedure
ROC Contrast Rows Estimation and Testing Results
Contrast
Model - All predictors
Antral - All predictors
Ovolume - All predictors
Cyclelength - All predictors
FSH - All predictors
Age - All predictors
BMI - All predictors
Estimate
Standard
Error
0
-0.0353
-0.0958
-0.1389
-0.2046
-0.2620
-0.3093
.
0.0209
0.0365
0.0374
0.0465
0.0519
0.0530
95% Wald
Confidence Limits
.
-0.0763
-0.1674
-0.2121
-0.2958
-0.3637
-0.4132
.
0.00569
-0.0243
-0.0656
-0.1134
-0.1603
-0.2054
Chi-Square
Pr >
ChiSq
.
2.8486
6.8906
13.8076
19.3320
25.4962
34.0693
.
0.0915
0.0087
0.0002
<.0001
<.0001
<.0001
Antrale follikler alene prædikterer stort set ligeså godt som alle
variablene tilsammen (hvilket ikke er alt for godt).
27 / 36
28 / 36
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Prædiktion vs signifikans
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Outline
Regressionsanalyse med hypotese test og ROC-analyse kan give ret
forskellige resultater.
Det ses tit at en ny forklarende variabel der er stærkt signifikante i
multipel logistisk regression, kun giver yderst beskedne forbedringer
i prædiktiv evne (AUC) når den tilføjes til de kendte risikofaktorer.
En insignifikant forklarende variabel kan omvendt godt være en
god prædiktor (ses oftest i små datasæt).
Forklaret variation
Prædiktion og klassifikation
Prædiktion i SAS
Case study: IVF
Mere om prædiktion
29 / 36
university of copenhagen
30 / 36
d e pa rt m e n t o f b i o s tat i s t i c s
Overfitting
Goodness of fit mål som Brier score og AUC favoriserer komplekse
modeller (mange kovariater) fordi disse altid bedre vil kunne
tilpasse sig de individuelle observationer i data.
Men øget kompleksitet giver ikke
nødvendigvis bedre præditioner.
Pas på overfitting
31 / 36
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Ekstern og intern validering
Ideelt set bør en prædiktionsmodel bedømmes på sin evne til at
prædiktere nye observationer der ikke har været brugt til at
udvikle modellen (i.e. estimere modelparametrene).
I mangel af uafhængige testdata, kan det oprindelige datasæt deles
op i et modellerings-datasæt og et testdatasæt.
For at undgå snyd bør opsplitning, modellering og evaluering
randomiseres og gentages et antal gange (fx ved bootstrap
krydsvalidering).
32 / 36
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Andre prædiktionsmodeller
Stepwise regression
Logistisk regression er langt fra den eneste måde at konstruere
prædiktionsmodeller på.
Mange software pakker (inklusiv SAS) har algortimer til
automatisk selektion af variable til prædiktionsmodeller i form af
stepwise regression (forward/ backwards elimination).
Andre modeller: Desission trees, random forrests, neural nets,
support vector machines etc.
Nogle af disse modeller er udviklet til at kunne håndtere store
mængder af information / mange forklarende variable fx i form af
genetiske profiler.
33 / 36
Dette giver ikke nødvendigvis gode prædiktionsmodeller da
variablene tilvælges og fravælges på baggrund af p-værdier, i.e.
signifikans.
Statistisk forskning viser at resultaterne af stepwise regression ofte
er ustabile; Hvis man sletter nogle tilfældige valgte observationer i
data, vælger algoritmen nogle helt andre variable ud!
34 / 36
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Her kan i få mere at vide
university of copenhagen
Tak for idag
Om basale begreber og logistisk regression:
I
DG Altman: Practical Statistics for Medical Research,
Chapman & Hall/CRC, (2nd edition, 1999).
I
Eller en anden bog om basal biostatistik.
Om SAS proc logistic
I
support.sas.com
I http://www.lexjansen.com/pharmasug/2009/sp/sp03.pdf
Om prædiktion
I
35 / 36
Ph.d.-kursus: Statistical evaluation of diagnostic and
predictive models (Der er af og til ledige pladser . . . )
36 / 36
d e pa rt m e n t o f b i o s tat i s t i c s