Download Report

Multipel regression: Princip
2
Multipel regression: Et outcome, mange forklarende variable
Problemstillingen kan eksempelvis være:
• Prædiktion eller konstruktion af normalområde til diagnostisk brug,
for eksempel finde et skøn over fostervægten ved hjælp af ultralydsmål.
Prædiktion af outcome er hovedfokus, ikke de specifikke
sammenhænge med de enkelte forklarende variable.
Kursus i basal statistik:
Multipel regression
• Ønske om at justere for “forstyrrende” variable (“confoundere”), for
eksempel vurdere, om grøntsager beskytter mod forhøjet blodtryk
uden fejlagtigt at tro på en falsk sammenhæng, fordi rygere måske
spiser færre grøntsager, mens fysisk aktive måske spiser flere
grøntsager.
Birthe Lykke Thomsen
Det Nationale Forskningscenter for Arbejdsmiljø
• Flere forklarende variable er af interesse: Hvilke er vigtige? Fanger de
det samme aspekt? Har de selvstændig betydning? Eksempelvis en
vurdering af, hvordan vægttilvækst afhænger af indtaget af protein,
fedt, sukkerarter, andre typer af kulhydrater og fibre.
Multipel regression: Princip
Alle principperne for multipel regression
gælder for enhver statistisk analyse med
flere forklarende variable
– kun modelkontrollen afhænger af, om det er
almindelig regression, logistisk regression eller
overlevelsesanalyse.
3
Multipel regression: Princip
4
Programmeringsteknisk set:
Helt magen til simpel lineær regression, man skriver bare flere variable i
MODEL y = x1 x2 x3;
Modelkontrollen er også magen til – der er bare flere forklarende variable,
som residualerne skal tegnes op mod.
5
Repetition af simpel lineær regression
Spørgsmål:
Hvordan hænger fedmegraden i
skolealderen sammen med
barnets højde i 1-årsalderen?
Fedmegraden i skolealderen
måles her ved en fedmescore
beregnet som et standardiseret
mål for, hvor langt barnets
BMI-vækstkurve ligger fra den
mediane BMI vækstkurve for
7-14 årige børn. Med
standardiseret menes, at målet
har en standarddeviation på 1.
Statistisk model for person i:
Yi = a + bXi + ei , ei ∼ N (0, σ 2 ) uafhængige for forskellige i’er
1
Hvad skal vi checke her?
0
1. linearitet – tegne
-1
2. varianshomogenitet – tegne
-2
3. normalfordelte residualer (afstande til linien) – tegne
Husk:
• Intet krav om normalfordeling på Xi ’erne eller Yi ’erne!!
-3
-4
4. uafhængighed mellem residualerne – tænke!
0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.00
• Er der flere observationer på samme individ?
Hjde i 1-rsalderen
Multipel regression: Repetition af simpel lineær regression
Multipel regression: SAS kode
8
Analyser i SAS med modelkontrol plots
3
3
2
2
Norm_Resid_Uden
Alm_Residualer
(hvis man har en relativt ny SAS-version)
1
0
-1
-2
De traditionelle plots (plus en del flere) kommer ud i HTML-output, hvis
man bruger følgende kode i PROC REG:
1
0
-1
-2
-3
-3
0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.00
• i fraktildiagram – normalfordeling
svarer til ret linie
-4
-0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0
Hjde i 1-rsalderen
Predicted
3
ODS GRAPHICS ON;
PROC REG DATA=Skolehelbred PLOTS(LABEL)=(ALL RESIDUALS(SMOOTH));
MODEL FedmeSc = Hjd1 / CLB;
RUN; QUIT;
4
Norm_Resid_Squared
2
Norm_Resid_Uden
• nyt plot til tjek af konstant varians:
(normerede residualer)2 mod de
prædikterede værdier – kurven viser,
om variansen vokser (den skal ligge
vandret omkring 1)
• Indgår der personer fra samme familie? Tvillinger?
7
Modelkontroltegninger, husk altid af residualer
• mod de prædikterede værdier ŷi –
tjek for voksende varians
evt. mod klassevariabel (boxplot)
6
2
(Upublicerede data fra T.I.A. Sørensen)
• mod den forklarende variabel –
afvigelse fra linearitet ses som ∪
eller ∩ facon
Multipel regression: Repetition af simpel lineær regression
Modelkontrol i simpel lineær regression
3
Fedmescore i skolealderen
Multipel regression
1
0
-1
-2
Analysen kan også laves ved hjælp af PROC GLM:
3
2
1
-3
-4
0.1 1 5 25
75 95
Normal Percentiles
99.9
0
-0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0
Predicted
ODS GRAPHICS ON;
PROC GLM DATA=Skolehelbred PLOTS=(DIAGNOSTICS(LABEL) RESIDUALS(SMOOTH));
MODEL FedmeSc = Hjd1 / CLPARM;
RUN; QUIT;
Multipel regression: SAS kode
9
Hvis man har Java problemer eller ikke har den rette SAS-version,
eller bare gerne vil se det “nye” variansplot, kræver det mere
SAS-kode:
*- Plot af outcome mod den forklarende variabel -*;
*- med den fittede linje og konfidensgrænser.
-*;
PROC GPLOT DATA=SkoleHelbred;
PLOT FedmeSc*Hjd1
/ HAXIS=AXIS1 VAXIS=AXIS2 VREF=0 CVREF=BLACK LVREF=33;
SYMBOL1 V=CIRCLE CV=BLACK H=2 I=RLCLM CI=RED MODE=INCLUDE;
RUN; QUIT;
PROC REG DATA=Skolehelbred;
MODEL FedmeSc = Hjd1 / CLB;
OUTPUT OUT=med_resid P=Predicted R=Alm_Residualer RSTUDENT=Norm_Resid_Uden;
RUN; QUIT;
eller
PROC GLM DATA=Skolehelbred;
MODEL FedmeSc = Hjd1 / CLPARM;
OUTPUT OUT=med_resid P=Predicted R=Alm_Residualer RSTUDENT=Norm_Resid_Uden;
RUN; QUIT;
*- Tjek af linearitet med blød kurve til tjek af (evt. omvendt) U-form -*;
PROC GPLOT DATA=med_resid;
PLOT alm_residualer*hjd1
/ HAXIS=AXIS1 VAXIS=AXIS2 VREF=0 CVREF=BLACK LVREF=33;
SYMBOL1 V=CIRCLE CV=BLACK H=2 I=SM75S CI=RED MODE=INCLUDE;
RUN; QUIT;
*- I=SM75S giver den bløde kurve -*;
og tegnes med diverse specifikke tegneprocedurer (her er brugt dels GPLOT,
dels PROBPLOT under UNIVARIATE)
*- Sædvanligt tjek af konstant varians (varianshomogenitet) -*;
PROC GPLOT DATA=med_resid;
PLOT norm_resid_uden*predicted
/* trompetfacon ikke godt */
/ HAXIS=AXIS1 VAXIS=AXIS2 VREF=0 CVREF=BLACK LVREF=33;
RUN; QUIT;
*- Alternativt plot til tjek af konstant varians -*;
SYMBOL1 V=CIRCLE CV=BLACK H=2 I=SM75S CI=RED MODE=INCLUDE;
DATA med_resid; SET med_resid; Norm_Resid_Squared = norm_resid_uden**2; RUN;
PROC GPLOT DATA=med_resid;
PLOT Norm_Resid_Squared*predicted
/* kurven skal ligge omkring 1 */
/ HAXIS=AXIS1 VAXIS=AXIS222 VREF=1 CVREF=BLACK LVREF=33;
RUN; QUIT;
*- Tjek af normalfordeling -*;
PROC UNIVARIATE NORMAL DATA=med_resid;
VAR norm_resid_uden;
PROBPLOT / HEIGHT=3.5 NORMAL(MU=EST SIGMA=EST L=2 COLOR=RED);
RUN; QUIT;
link til SAS manual
http://support.sas.com/documentation/cdl/en/allprodsproc/63883/HTML/default/viewer.htm#procedures.htm
10
*- Bestemmer udseendet af akserne, når de bruges i GPLOT -*;
AXIS1 LABEL=(H=3) VALUE=(H=2.5) MINOR=NONE;
AXIS2 LABEL=(H=3 A=90) VALUE=(H=2.5) MINOR=NONE;
AXIS222 LABEL=(H=3 A=90) VALUE=(H=2.5) ORDER=(0 TO 4) MINOR=(N=1);
Residualerne kan gemmes på et datasæt sammen med observationerne ved
hjælp af programkoden
Multipel regression: SAS kode
Multipel regression: SAS kode
11
Multipel regression: SAS kode
12
Multipel regression: Modelkontrol
Multipel regression: Modelkontrol
14
Hvis lineariteten ikke holder, bliver estimaterne misvisende og ufortolkelige!
(ODS GRAPHICS viser type 1 og 3):
Afhjælpning:
1. R eller RESIDUAL: afstand fra observation lodret ned til linie =
observeret minus fittet værdi, êi = yi − ŷi
3
• Tilføj flere kovariater,
– kovariater relateret til den
oprindelige kovariat, f.eks.
log(Hjd1):
FedmeSc=a+b1 Hjd1+b2 log(Hjd1)
2. STUDENT: RESIDUAL normeret med dennes spredning
3. RSTUDENT: observeret værdi minus den fittede værdi fra en analyse,
hvor kun de andre observationer blev brugt i beregningerne, normeret
med sin spredning
Test af, om linearitet er ok: b2 =0.
Fordele og ulemper:
Test af, om %-vis eﬀekt er ok: b1 =0.
– helt nye kovariater
• Rart med residualer, der bevarer enheden (type 1); men graden af
outlier vurderes lettere med normerede residualer (type 2 og 3), hvor
ca. 5% må ligge uden for ±2, ca. 1% må ligge uden for ±2.6,
og ca. 1 ud af 1000 må ligge uden for ±3.3
• Transformer variablene med
• Lettest at identificere outliers, når observationerne udelades en ad
gangen (type 3), men disse residualer kan til gengæld ikke direkte
genfindes på plottet med regressionslinien (det kan kun type 1)
• Lad være med at gøre noget:
ikke-lineær regression
Multipel regression: Modelkontrol
2
Alm_Residualer
Der er flere typer residualer at vælge mellem
13
– logaritmer
– kvadratrod
– invers
15
1
0
-1
-2
-3
0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.00
Hjde i 1-rsalderen
Multipel regression: Modelkontrol
Varianshomogenitet? (konstant varians = konstant spredning)
3
Norm_Resid_Uden
• Ikke vigtigt for estimation af
regressionsparametrene, men
hvis der ikke er rimelig
varianshomogenitet, bliver
estimationen ineﬃcient (dvs.
unødigt stor usikkerhed på
Afhjælpning af variansinhomogenitet
2
1
• For at få en tilnærmelse til mere korrekte konfidensgrænser og
p-værdier i tilfælde af variansinhomogenitet kan man tilføje
options HCC HCCMETHOD=3 i MODEL-statement i PROC REG:
0
-1
-2
-3
-4
-0.6
-0.4
-0.2
parameterestimaterne)
• Vigtigt for normalområder og
prædiktionsgrænser
0.2
0.4
0.6
0.8
1.0
Predicted
Norm_Resid_Squared
• En forudsætning for, at man
kan stole på spredningen,
standard errors for parametrene
og p-værdierne
0.0
PROC REG DATA=Skolehelbred;
MODEL FedmeSc = Hjd1 / CLB HCC HCCMETHOD=3;
RUN; QUIT;
4
3
2
• Mere komplicerede modeller (PROC MIXED)
1
0
-0.6
-0.4
-0.2
0.0
0.2
0.4
Predicted
0.6
0.8
1.0
16
17
Multipel regression: Modelkontrol
18
Normalfordelingsantagelsen
• er ikke kritisk for selve fittet: Mindste
kvadraters metode giver under alle
omstændigheder gode estimater
Typiske alternativer til varianshomogenitet
• Konstant relativ spredning = konstant variationskoeﬃcient
spredning
Variationskoeﬃcient (CV) =
middelværdi
– ofte konstant, når man ser på størrelser, der (evt. skjult) involverer
division (f.eks. koncentrationer, BMI, andel positive celler, laboratorie– vil give anledning til trompetfacon (åben mod højre) på plottet
af residualerne mod de prædikterede værdier
• er i princippet en forudsætning for
t-fordelingen af teststørrelsen, men reelt
behøves kun, at estimatet b̂ er
nogenlunde normalt fordelt, og dette
passer ofte, når der er rimeligt mange
observationer.
– afhjælpes ved at transformere outcome (Yi ) med logaritme:
(y)
Spredning(ln(y)) ≈ Spredning
= CV
y
• er vigtig for normalområder og
prædiktionsgrænser
assays, observationer beregnet ud fra lys- eller farveintensiteter. . . )
Husk: Det er kun residualerne, der antages
at være normalfordelte,
hverken outcome eller kovariater!
– afhjælpes med mere komplicerede modeller for variansen
– giver simpel fortolkning af estimater
– skal bruges, hver gang man føler trang til at tænke “relativt til” eller vil
omregne til %
• kvadratrod
– giver konstant varians for tælletal (fx antal cancertilfælde, antal positive
swabs)
– kan afhjælpe variansinhomogenitet, når man ikke kan tage logaritmen,
fordi der er 0’er i data. Ses typisk ved data fra assays, hvor man har
brugt den metodologisk inadekvate, men ofte brugte formel
(observation − negativ kontrol)/(positiv kontrol − negativ kontrol)
for at justere for baggrundsstøj [få fat i de oprindelige observationer]
• invers
– normalt kun relevant, når den også er forståelig, som f.eks.
∗ omregning fra “antal hændelser pr tidsenhed” til “gennemsnitstid
mellem hændelser” eller omvendt
∗ omregning fra “hvor lang tid tager det” (varighed) til “hvor hurtigt går
det” (hastighed) eller omvendt
0
-1
-2
-4
0.1 1
Outliers i den høje ende (“hængekøje”) kan ofte
afhjælpes ved at logaritmetransformere outcome.
19
5
25
75
95
20
Hvorfor tage logaritmer?
• af de forklarende variable
– for at opnå linearitet, hvis det er %-vise forskelle, der har konstant
eﬀekt. Brug gerne 2-tals logaritmer (eﬀekt af fordobling) eller
XX=log(X)/log(1.1); (så er b̂xx lig eﬀekten af 10% forskel i X)
– for at se på multiplikative sammensætninger af nogle af de
forklarende variable (f.eks. vægt og højde, jf. BMI)
– for at mindske indflydelsen af nogle få, ekstremt store værdier
• af outcome
99.9
Normal Percentiles
Multipel regression: Transformation
Transformation: logaritmer, kvadratrod, invers
• logaritmer
1
-3
• Forskellige grupper
– f.eks. flere instrumenter eller laboratorier, mænd/kvinder,
forskellige patienttyper
Multipel regression: Transformation
3
2
Norm_Resid_Uden
Multipel regression: Modelkontrol
– overvej om de forklarende variable så også skal transformeres
– fordi man forventer multiplikative eﬀekter på Y
– for at opnå linearitet
– for at mindske indflydelsen af høje outliers
– for at opnå varianshomogenitet, fordi en konstant
variationskoeﬃcient på Y betyder konstant varians på log(Y )
(gælder for alle logaritmetransformationer)
– for at opnå normalitet
Multipel regression: Transformation
21
Logaritme-transformation af en forklarende variabel Xj –
bemærk: her skal ikke tilbagetransformeres
– faktor=10, dvs. 10-dobling af Xj
– XXj = log2 (Xj )
– faktor=2, dvs. fordobling af Xj
• De additive eﬀekter af de forklarende variable
tilbagetransformerer til multiplikative eﬀekter
– a + b1 X1 + b2 X2 7→
anti-log(a) · anti-log(b1 X1 ) · anti-log(b2 X2 )
• anti-log(b̂i ) er den faktor, som den prædikterede værdi Ŷ skal
ganges med for hver 1 enheds forskel i den forklarende variabel Xi
– XXj = log(Xj )/ log(1.1) – faktor=1.1, dvs. 10% større Xj
– omregnet til procentvis ændring i Ŷ : (anti-log(b̂i ) − 1) · 100 %
Tip: logaritme-regneregel med to variable X og Z giver
bx ·log(X) + bz ·log(Z) = bx · log(X ·Z bz /bx ), så
som i f.eks. talje-hofte ratio
vægt
– hvis bz = −2bx , fås bx ·
som i f.eks.
=BMI
højde2
så det er klogere at bruge de to variable log(X) og log(Z) i stedet for den
log( ZX2 )
• anti-log(Intercept)=anti-log(â) er den konstant, som produktet
af de (tilbagetransformerede) multiplikative eﬀekter skal ganges
med for at finde den prædikterede værdi Ŷ .
eller . . . ), så data i stedet
for fordomme kan få lov at bestemme den bedste kombination!
Multipel regression: Transformation
23
24
Fedmescoren som funktion af
1-års højden, pr 10% forskelle.
Logaritme-transformation af både Xj og Y
• Sammenhængen mellem Xj og Y er en potensfunktion (og
dermed ikke længere eksponentielt voksende).
• Hvis den samme logaritme er brugt for både Xj og Y , kan
– log(Ŷ ) = â + b̂j · log(Xj ) tilbageregnes til Ŷ = A ·
hvor A = anti-log(â), og
Multipel regression: Eﬀekt af relative forskelle i eksemplet
b̂
Xj j ,
– b̂j er den potens, som Xj skal opløftes til for at prædiktere Y
• ellers må man først forstå tilbagetransformationen af Y og
derefter forstå, hvad 1 enheds ændring i den transformerede
variabel XXj svarer til for den originale Xj (valgte man log10 ,
log2 eller ’pr 10%’=log(X)/log(1.1)?)
Reminder: Husk altid at bruge den anti-log, der passer den valgte logaritme!
R-Square
0.052208
Coeff Var
-1638.781
Root MSE
0.97604
2
fedmesc Mean
-0.05956
Standard
Parameter
Estimate
Error t Value
Intercept
0.99444 0.32903
3.02
Hjd1_pr10pct 0.36274 0.11068
3.28
1
Pr>|t|
0.0028
0.0012
0
-1
-2
-3
-5
Parameter
Intercept
Hjd1_pr10pct
95% Conf. Limits
0.34553 1.64335
0.14446 0.58102
Konklusion: Fedmegraden i
skolealderen vokser stærkt
signifikant med højden i 1-års
alderen, omend forklaringsevnen
er begrænset.
3
3
-4
-3
-2
-1
0
1-rs hjde, pr. 10% forskel
Studentized Residual without Current Obs
eller
X
Z2
3
2
1
0
-1
-2
-3
-4
-0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0
Predicted Value of FedmeSc
4
2
Norm_Resid_Squared
præ-definerede, kombinerede variabel
(X
Z
Residual
– hvis bz = −bx , fås
– For Y Y = ln(Y ) er 100·b̂i ca. lig den %-vise ændring i Ŷ for
hver 1 enheds forskel i Xi , hvis b̂i er tilstrækkeligt lille – men
til artikler bør det beregnes præcist med formlen ovenfor.
bx ·log( X
)
Z
Norm_Resid_Uden
•
22
Logaritme-transformation af responsvariablen Y
• b̂j er eﬀekten på responsvariablen for hver gang Xj ganges med
en fast faktor — hvilken faktor afhænger af valget af logaritme
– XXj = log10 (Xj )
Multipel regression: Transformation
1
0
-1
-2
3
2
1
-3
-4
0.1 1 5 25
75 95
Normal Percentiles
99.9
0
-0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0
Predicted Value of FedmeSc
Multipel regression: Teori
25
Multipel regression: Teori
26
xp
y
1
x11
x12
....
x1p
y1
2
x21
x22
....
x2p
y2
3
x31
x32
....
x3p
y3
:
:
:
....
:
:
:
:
:
....
:
:
n
xn1
xn2
....
xnp
yn
Den lineære regressionsmodel med p forklarende variable skrives:
yi
respons
outcome
= b0 + b1 xi1 + b2 xi2 + · · · + bp xip + ei
middelværdi
regressionsfunktionen
biologisk variation
måleusikkerhed/støj
−4
−5
regressionskoeﬃcienter
2
0
−4
−6
−4
−3
−2
−1
0
1
gt
0%
1
pr
Væ
Højde pr 10%
Multipel regression: Teori
27
yi = b0 + b1 xi1 + · · · + bp xip + ei ,
i = 1, · · · , n
2
6
4
2
0
−2
−4
−6
Fedmescore
28
Vi er interesserede i at se på multiplikative eﬀekter af højde og vægt i
1-årsalderen for at se, om et mål svarende til BMI kunne være
relevant. Derfor bruges logaritme-transformeret højde og
logaritme-transformeret vægt som forklarende variable.
Traditionelle antagelser:
ei ∼ N (0, σ ), uafhængige
Multipel regression: Opstilling af model, estimation og test
Spørgsmål:
Hvordan hænger fedmegraden i skolealderen sammen med højde og
vægt i 1-årsalderen?
Regressionsmodel:
Mindste kvadraters metode:
Find de b0 , b1 , · · · , bp , der minimerer
summen af de kvadrerede afstande
S(b0 , b1 , · · · , bp ) =
∑
(yi − (b0 + b1 xi1 + · · · + bp xip ))2
6
4
−2
Parametre:
b0
afskæring, intercept
b 1 , · · · , bp
2
....
0
x2
−2
x1
Fedmescore
Data:
n personer, dvs. n sæt af
sammenhørende observationer:
person
4
Multipel regression
−5
−6
−4
−3
−2
−1
Højde pr 10%
0
−4
−2
Væ
2
0
gt
pr
4
%
10
6
DATA Skolehelbred;
SET SkoleHelbred;
Hjd1_pr10pct = LOG(Hjd1)/LOG(1.1); * "/log(1.1)" giver effekt pr 10%;
Vgt1_pr10pct = LOG(Vgt1/10)/LOG(1.1); * "Vgt/10" centrerer til 10 kg;
* så Intercept svarer til 10 kg;
RUN;
PROC REG DATA=SkoleHelbred;
MODEL FedmeSc = Hjd1_pr10pct Vgt1_pr10pct / CLB;
RUN;
Multipel regression: Opstilling af model, estimation og test
29
Output (lidt redigeret af hensyn til pladsen)
Root MSE
Dependent Mean
Coeff Var
Variable
DF
Intercept
1
Hjd1_pr10pct 1
Vgt1_pr10pct 1
0.87927
-0.05956
-1476.30564
Parameter
Estimate
-1.38367
-0.45993
0.45679
R-Square
Adj R-Sq
Er højden uden betydning, når vægten er med i modellen?
F Value
29.76
Pr > F
<.0001
H0 : b1 =0
Her har vi b̂2 = −0.45993 med se(b̂2 )=0.15673, og t-testet
bˆ1
t=
= −2.93 ∼ t(194), p = 0.0037
se(bˆ1 )
0.2348
0.2269
95% konfidensinterval:
Parameter Estimates
Standard
Error
t Value Pr > |t|
0.45831
-3.02
0.0029
0.15673
-2.93
0.0037
0.06714
6.80
<.0001
bˆ1 ± t(97.5%,194) · se(bˆ1 ) = −0.45993 ± 1.9723 · 0.15673 = (−0.77, −0.15)
Men:
95% Conf. Limits
-2.28758 -0.47976
-0.76904 -0.15082
0.32437
0.58922
Multipel regression: Fortolkning
b̂j ’erne er korrelerede, når de forklarende variable er korrelerede!
Så man kan ikke lave et kombineret test/konfidensområde for begge
variable ud fra testene/konfidensgrænserne for hver af variablene
31
Multipel regression: Fortolkning
32
Matematisk fortolkning af koeﬃcienten b1 til Hjd1_pr10pct:
Simple (univariate) regressionsmodeller:
Responsen vurderes overfor de forklarende variable hver for sig.
Multipel regressionsmodel:
Responsen vurderes overfor begge forklarende variable
samtidigt.
Estimaterne for disse modeller (med tilhørende standard errors (se) i parentes):
b̂0 (se)
b̂1 (se)
b̂2 (se)
s
[Intercept]
[Hjd1_pr10pct]
[Vgt1_pr10pct]
[Root MSE]
Kun Hjd_pr10pct
0.994 (0.329)
0.363 (0.111)
–
0.976
Kun Vgt_pr10pct
-0.051 (0.064)
–
0.305 (0.044)
0.896
Multipel
-1.384 (0.458)
-0.460 (0.157)
0.457 (0.067)
0.879
Model
30
Test af simple hypoteser
Analysis of Variance
Sum of
Mean
DF
Squares
Square
2
46.01528
23.00764
194
149.98472
0.77312
196
196.00000
Source
Model
Error
Corrected Total
Multipel regression: Opstilling af model, estimation og test
Bemærk, 1) at koeﬃcienterne (b̂1 og b̂2 ) ændres, og
2) at deres se bliver større, selvom residualspredningen s bliver mindre.
• Simpel/univariat regressionsmodel:
Forventet forskel i FedmeSc er 0.36 for 1 enheds forskel i kovariaten
Hjd1_pr10pct , dvs. for en forskel på 10% i 1-års højden.
• Multipel regressionsmodel:
Forventet forskel i FedmeSc er −0.46 for 1 enheds forskel i kovariaten
Hjd1_pr10pct for to individer, hvor alle andre kovariater (her kun
Vgt_pr10pct) er identiske (“holdes fast”).
Det kaldes, at vi har korrigeret (“adjusted”) for eﬀekten af de andre
kovariater.
Forskellen kan være markant, fordi kovariaterne typisk er relaterede:
Når en af dem ændres, ændres nogle af de andre oftest også
Vigtigt: Den biologiske fortolkning af parameterestimaterne ændres også:
Det videnskabelige spørgsmål, der besvares, er ikke det samme spørgsmål!
Multipel regression: Fortolkning
33
Multipel regression: Fortolkning
Videnskabelige spørgsmål, som kan belyses af koeﬃcienten
til Hjd1_pr10pct i den multiple regressionsmodel:
Det videnskabelige spørgsmål, som kan belyses af
koeﬃcienten til Hjd1_pr10pct i den univariate model:
• Når vægten fastholdes, ved vi noget mere om det højeste af de to
småbørn: Det højeste barn må også være det slankeste barn! Så
det nye videnskabelige spørgsmål, der belyses, er,
• Når højden er alene, er den et udtryk for, hvor stort barnet er, så
det videnskabelige spørgsmål, der belyses, er,
– Er børn, der er slanke i 1-årsalderen, i gennemsnit
slankere i skolealderen?
– Er børn, der er store i 1-årsalderen, i gennemsnit
federe i skolealderen?
Den negative koeﬃcient til højden betyder, at slanke småbørn
generelt er slankere i skolealderen.
Den positive koeﬃcient til højden betyder, at fedmegraden i
skolealderen vokser signifikant med størrelsen i 1-års alderen.
• Koeﬃcienterne til de logaritme-transformerede højde og vægt er
lige store og med modsat fortegn. Det betyder,
Biologisk mekanisme: Overernæring i barnealderen bruges til at
vokse, så barnet bliver stort af sin alder, men det kan øjensynligt
øge risikoen for fedme senere. Heldigvis er det ikke en stærkt
deterministisk sammenhæng (residualspredningen er relativt
stor).
Multipel regression: Prædiktion
1. at vægt/højde (altså ikke BMI=vægt/højde2 ) i 1-års alderen
er prædiktivt for fedme i skolealderen
2. at to småbørn med samme vægt/højde-ratio har samme
forventede fedmgrad i skolealderen
35
Prædiktion ud fra modellen
Først beregnes kovariaterne:
Multipel regression: Prædiktion
Regneeksempel (barn nr. 100):
Et barn, der er 80 cm højt og vejer 10.8 kg, giver
log(højde (m))
X1 =
log(1.1)
X2 =
log(vægt (kg)/10)
log(1.1)
(her er det ligegyldigt, hvilken logaritme man bruger)
Derefter beregnes den prædikterede værdi for Z-scoren for fedme i
skolealderen som
Ẑ = −1.384 − 0.460 · X1 + 0.457 · X2
34
X1 = ln(0.8)/ ln(1.1) = −0.2231/0.09531 = −2.341
og
X2 = ln(1.08)/ ln(1.1) = 0.07696/0.09531 = 0.807,
så den prædikterede fedmescore er
Ẑ = −1.384 − 0.460 · (−2.341) + 0.457 · 0.807 = 0.061
Barnets observerede fedmescore: 0.27
36
Multipel regression: Prædiktion
37
Multipel regression: Modelevaluering
38
Stærk signifikant eﬀekt af begge kovariater – holder fordelingsantagelserne?
• Ingen tegn på voksende
varians med voksende
middelværdi
0.061 ± t(97.5%,194) · Root MSE =
0.061 ± 1.9723 · 0.879 =
[−1.67, 1.79]
• Normalfordelingen halter en
lille smule, med lidt for mange
af de store positive residualer
og lidt for få af de store
negative residualer. Afvigelsen
fra normalfordelingen er dog
ikke specielt stor helt ude i
ekstremerne
Der er snydt en smule her: Vi har negligeret estimationsusikkerheden på
regressionsparametrene (b’erne). Hvis den prædikterede værdi og
prædiktionsgrænserne beregnes af SAS, fås 0.06 [-1.68, 1.80]
PROC REG DATA=SkoleHelbred;
MODEL FedmeSc = Hjd1_pr10pct Vgt1_pr10pct / CLB CLI;
RUN;
3
2
2
1
1
Residual
• Linearitet er ok
0
-1
-2
-5
-4
-3
-2
-1
Hvad bør tjekkes?
• Den sædvanlige modelkontrol af fordelingsantagelserne:
– Linearitet, varianshomogenitet, normalfordeling og
korrelationer/uafhængighed er ligesom for simpel lineær
regression
39
-2
-5 -4 -3 -2 -1 0 1 2 3 4 5
0
1-rs vgt, pr. 10% forskel
4
4
3
2
3
2
1
0
-1
1
-2
0
-2
-1
0
1
2
Predicted Value of FedmeSc
Multipel regression: Modelevaluering
0
-1
1-rs hjde, pr. 10% forskel
Norm_Resid_Squared
Prædiktionsgrænserne er
Residual
Vurdering af modellen:
3
Studentized Residual without Current Obs
Regneeksempel, fortsat (barn nr. 100)
-3
0.1 1
510 25 50 75 90
Normal Percentiles
99 99.9
Multipel regression: Indflydelsesrige observationer
40
Regression diagnostics: Cook’s afstand og “DFbetas”
Understøttes konklusionerne af hele materialet? Eller er der enkelte
observationer med meget stor indflydelse på resultaterne?
• Vekselvirkning?
– Produktled, ligesom for variansanalysen? Pas på: SAS ganger
bare variablene sammen! Duer kun, hvis eﬀekten af den ene
kovariat vokser proportionalt med, hvor stor den anden
kovariat er!
• Udelad den i’te person og find nye estimater, b̂0 , b̂1 og b̂2
– Kategorisere den ene? Husk at beholde den tilsvarende
lineære kovariat i modellen også, ellers kan den lineære eﬀekt
af kovariaten fejlagtigt blive tilskrevet en vekselvirkning!
• Cook’s afstand kan spaltes ud på hver variabel (DFBETAS), så
man kan se, hvor meget f.eks. b̂1 ændrer sig (i forhold til sin se),
når den i’te person tilføjes til resten af datasættet (kan gøres ved
hjælp af option INFLUENCE i MODEL-statement for PROC REG, er
ikke muligt i PROC GLM)
• Indflydelsesrige observationer
– Cook’s afstand, eventuelt splittet op på hver variabel
(i)
(i)
(i)
• Cook’s afstand er et samlet mål for ændringen i
parameterestimaterne
Multipel regression: Indflydelsesrige observationer
41
Multipel regression: Indflydelsesrige observationer
42
Opdelt efter betydningen for hver af de to regressionsparametre
PROC REG DATA=Skolehelbred;
Multipel: MODEL FedmeSc = Hjd1_pr10pct Vgt1_pr10pct
/ CLB INFLUENCE;
Cook’s afstand som mål for indflydelse
ODS OUTPUT OutputStatistics=DFBmv;
RUN;
DATA MedDFB;
MERGE SkoleHelbred DFBmv;
RUN;
(SAS variabelnavne DFB_Hjd1_pr10pct og DFB_Vgt1_pr10pct)
DFbeta for hjde pr 10%
DFbeta for vgt pr 10%
Hjd1_pr10pct DFBETAS
Vgt1_pr10pct DFBETAS
0.8226
0.8226
0.4256
0.4256
Cook's D
0.289
PROC G3D DATA=MedDFB;
SCATTER hjd1_pr10pct*vgt1_pr10pct=CooksD
/
SHAPE="pillar" SIZE=0.45
TILT=75 GRID COLOR="BLACK"
;
RUN;
0.192
0.0286
0.0286
0.096
15.60
15.60
15.60
12.67
12.67
12.67
Vgt i 1-rsalderen
Vgt i 1-rsalderen
0.000
0.96
-0.3684
0.96
9.73
Vgt i 1-rsalderen
-0.3684
0.96
9.73
9.73
0.86
Hjde i 1-rsalderen
0.86
Hjde i 1-rsalderen
0.86
Hjde i 1-rsalderen
0.76
0.76
0.76
0.66 6.80
0.66 6.80
0.66 6.80
Multipel regression: Indflydelsesrige observationer
43
Multipel regression: Eksempel 2
44
Mange forklarende variable
Hvad gør vi ved indflydelsesrige observationer?
• ser nærmere på dem!
• anfører et mål for deres indflydelse?
• udelader dem?
Hvornår kan vi udelade dem?
• hvis de ligger meget yderligt for en forklarende variabel
– husk at afgrænse konklusionerne tilsvarende!
• hvis man kan finde årsagen
– og da skal alle sådanne observationer udelades!
O’Neill et. al. (1983): Lungefunktion hos 25 patienter med cystisk fibrose.
Multipel regression: Eksempel 2
45
Multipel regression: Variabelselektion
46
Hvilke forklarende variable har en univariat eﬀekt på responset
P Emax ?
− BMP: BMI i % af BMI udregnet for median vægt og median
højde for raske børn med samme alder
− FEV1 : Forced expiratory volume in 1 second
− RV: Residual volume
− FRC: Functional residual capacity
− TLC: Total lung capacity
− P Emax : Maximal expiratory pressure
Er det så disse variable, der skal med i modellen?
Multipel regression: Variabelselektion
Korrelationer:
Age
Sex
Age
Sex
1.00000 -0.16712
0.0
0.4246
-0.16712
0.4246
47
Height
0.92605
0.0001
Weight
0.90587
0.0001
BMP
0.37776
0.0626
FEV1
RV
FRC
TLC
0.29449 -0.55194 -0.63936 -0.46937
0.1530
0.0042
0.0006
0.0179
1.00000 -0.16755 -0.19044 -0.13756 -0.52826
0.0
0.4234
0.3619
0.5120
0.0066
0.27135
0.1895
0.18361
0.3797
0.02423
0.9085
Height 0.92605 -0.16755
0.0001
0.4234
1.00000
0.0
0.92070
0.0001
0.44076
0.0274
0.31666 -0.56952 -0.62428 -0.45708
0.1230
0.0030
0.0009
0.0216
Weight 0.90587 -0.19044
0.0001
0.3619
0.92070
0.0001
1.00000
0.0
0.67255
0.0002
0.44884 -0.62151 -0.61726 -0.41847
0.0244
0.0009
0.0010
0.0374
BMP
0.37776 -0.13756
0.0626
0.5120
0.44076
0.0274
0.67255
0.0002
1.00000
0.0
0.54552 -0.58237 -0.43439 -0.36490
0.0048
0.0023
0.0300
0.0729
0.29449 -0.52826
0.1530
0.0066
0.31666
0.1230
0.44884
0.0244
0.54552
0.0048
1.00000 -0.66586 -0.66511 -0.44299
0.0
0.0003
0.0003
0.0266
FEV1
Multipel regression: Variabelselektion
(Bemærk især korrelationerne mellem alder, højde og vægt)
RV
-0.55194
0.0042
0.27135 -0.56952 -0.62151 -0.58237 -0.66586
0.1895
0.0030
0.0009
0.0023
0.0003
1.00000
0.0
0.91060
0.0001
0.58914
0.0019
FRC
-0.63936
0.0006
0.18361 -0.62428 -0.61726 -0.43439 -0.66511
0.3797
0.0009
0.0010
0.0300
0.0003
0.91060
0.0001
1.00000
0.0
0.70440
0.0001
Videnskabelig variabelselektion
Gennemtænk præcis hvilket videnskabeligt spørgsmål, man ønsker
besvaret – det præcise spørgsmål bestemmer hvilke variable, der skal
inkluderes i modellen.
Svært – men den eneste måde at opnå egentlig videnskabelig indsigt!
(og så bliver det lettere at skrive en god artikel og lettere at svare på
reviewernes kommentarer . . . )
48
Multipel regression: Variabelselektion
49
Multipel regression: Variabelselektion
50
Automatisk variabelselektion
• Forlæns selektion
Medtag hver gang den mest signifikante
Slutmodel: Weight BMP FEV1
Automatisk variabelselektion
Computergenereret variabelselektion
– men det er bedre at tænke selv . . .
:
• Baglæns elimination
Start med alle, udelad hver gang den mindst signifikante
Slutmodel: Weight BMP FEV1
PROC REG DATA=pemax;
MODEL pemax=age sex height weight bmp fev1 rv frc tlc /
SELECTION=FORWARD;
RUN;
Giver det mening? Det ser jo i det mindste meget stabilt ud!?
Men:
Hvis nu observation nr. 25 tilfældigvis ikke havde været med?
Så ville forlæns selektion have taget højde ind som den første, og
baglæns elimination ville have smidt højde ud som den første!
eller
PROC REG DATA=pemax;
MODEL pemax=age sex height weight bmp fev1 rv frc tlc /
SELECTION=BACKWARD;
RUN;
Multipel regression: Variabelselektion
Advarsel ved variabelselektion
• Massesignifikans!
• Variabelselektion baseret på signifikansvurderinger:
– Signifikanserne overvurderes!
– Regressionsparametrene er “for store”, dvs. for langt væk fra 0.
• Automatisk variabelselektion:
Hvad kan vi sige om ’vinderne’ ?
– Var de hele tiden signifikante, eller blev de det lige pludselig?
– I sidstnævnte tilfælde kunne de jo være blevet smidt ud, mens
de var insignifikante. . .
Tommelfingerregel (vedrører kun stabiliteten):
Antallet af observationer skal være mindst 10 gange så stort som antallet
af undersøgte parametre!
51
Multipel regression: Variabelselektion
52
Når alle 9 kovariater medtages (start på baglæns
elimination):
Parameter Estimates
Parameter
Standard
Variable DF
Estimate
Error
INTERCEP 1
176.058206 225.89115895
Age
1
-2.541960
4.80169881
Sex
1
-3.736781
15.45982182
Height
1
-0.446255
0.90335490
Weight
1
2.992816
2.00795743
BMP
1
-1.744944
1.15523751
FEV1
1
1.080697
1.08094746
RV
1
0.196972
0.19621362
FRC
1
-0.308431
0.49238994
TLC
1
0.188602
0.49973514
T for H0:
Parameter=0
0.779
-0.529
-0.242
-0.494
1.490
-1.510
1.000
1.004
-0.626
0.377
Prob > |T|
0.4479
0.6043
0.8123
0.6285
0.1568
0.1517
0.3333
0.3314
0.5405
0.7112
Multipel regression: Variabelselektion
53
Multipel regression: Variabelselektion
54
Baglæns elimination - successive p-værdier
0.8
Sex
Traditionelle anbefalinger ved automatisk variabelselektion
FRC Age
• Baglæns elimination
Height
• Gennemregning af alle modeller
0.4
p−value
0.6
TLC
• Cross-validation: Foretag variabelselektionen på en del af data,
0.2
afprøv bagefter på resten
• “Shrinkage” af regressionsparameterestimaterne
RV
FEV1
0.0
BMP
Weight
1
2
3
4
5
6
7
8
9
step
Multipel regression: Variabelselektion
Anbefalinger ved videnskabeligt baseret variabelselektion
• Undgå uklare problemstillinger – hvis man er usikker på en
kovariat, så gennemtænk den præcise forskel variablen gør for
fortolkningen
• Hvis datagenereret variabelselektion er relevant, så prioriter
variablene ud fra relevante kriterier (biologisk relevans,
tilgængelighed [f.eks. er ikke-invasive undersøgelser oftest at
foretrække], andres standard valg, . . . )
• Test noget meningsfuldt! Og lad være med at smide nogle variable
ud, bare fordi deres p-værdi (tilfældigvis?) er stor
Så er det også nemmere at få det publiceret.
55
Multipel regression: Variabelselektion
Den tekniske årsag til problemerne: Kollinearitet
Kollinearitet: De forklarende variable er lineært relaterede
Det vil de altid være til en vis grad, undtagen i designede forsøg
(f.eks. landbrugsforsøg)
Hvad er problemet ved kollinearitet?
• Fortolkningen af resultaterne:
“Hvordan skal (eﬀekten af) hver enkelt kovariat fortolkes?”
“Hvad er årsagen til den observerede sammenhæng?”
• Meget sjældent: Tekniske problemer med estimationen
56
Multipel regression: Kollinearitet
57
Multipel regression: Kollinearitet
58
Multipel regressionsmodel vs. simple/univariate regressionsmodeller
Vægt
Variable i modellen
Nogle symptomer på kollinearitet
Højde
b̂1 (se)
p
b̂2 (se)
p
s (RootMSE)
1.02 (0.79)
0.21
0.15 (0.66)
0.83
0.33
Kun Height
-
-
0.93 (0.26)
0.0016
0.37
Kun Weight
1.19 (0.30)
0.0006
-
-
0.35
Både Weight og Height
• Nogle af kovariaterne er stærkt korrelerede
• Alle kovariater i den multiple regressionsanalyse er insignifikante,
men modellens samlede forklaringsværdi er signifikant og/eller
R2 er alligevel stor
• I den multiple regressionsmodel ser ingen af dem ud til at have
selvstændig betydning.
Variable i modellen
• Hver af de to forklarende variable har betydning vurderet ud fra de
univariate modeller.
Weight og Height
Alle 9 variable
• De to variable fanger et betydningsfuldt aspekt, men det er svært at
sige hvilken, der er bedst – vægten ser ud til at være den med stærkest
sammenhæng i disse data, men pas på fortolkningen! Det betyder ikke,
at vægten er den “sande”årsag – måske opsummerer vægten bare
aspekter fra flere af de egentlige årsager – eller rammer bedre for en
enkelt indflydelsesrig observation (her observation nr. 25).
Multipel regression: Kollinearitet
R2
2
Radj
0.2067
0.41
0.35
0.1517
0.64
0.42
Modellens
Laveste
p-værdi
enkelt p-værdi
0.0033
0.0320
• Estimaterne for eﬀekterne af andre variable ændres meget, når en
enkelt variabel udelades af modellen
• Resultaterne er væsentlig anderledes end forventet
(Tænk igennem! Oftest er det spørgsmål, der svarer til den valgte model,
ikke helt det, man havde planlagt. . . )
59
Multipel regression: Kollinearitet
60
Kvantificering af graden af multikollinearitet
Når vi tilføjer TOL, får vi en ekstra søjle:
Check tolerance factor for hver variabel: Den må ikke være for lille!
PROC REG DATA=pemax;
MODEL PEmax=age sex height weight bmp fev1 rv frc tlc / TOL;
RUN;
• tolerance factor (TOL) for en kovariat = 1-R2 for regression af
kovariaten på de øvrige kovariater = den del af variationen i
kovariaten, som ikke kan forklares af de andre kovariater
• TOL skal ganges på kovariatens varians for at finde et bud på
restvariationen i kovariaten for fastholdt værdi af de andre (husk
at tage kvadratrod bagefter for at finde spredningen)
• overvej, om denne restvariation er stor nok til, at data kan
bruges til at vurdere, om variablen har en eﬀekt
Variable
Intercept
Age
Sex
Height
Weight
BMP
FEV1
RV
FRC
TLC
DF
1
1
1
1
1
1
1
1
1
1
Parameter Standard
Estimate
Error
176.05821 225.89116
-2.54196
4.80170
-3.73678
15.45982
-0.44626
0.90335
2.99282
2.00796
-1.74494
1.15524
1.08070
1.08095
0.19697
0.19621
-0.30843
0.49239
0.18860
0.49974
T for H0:
Parameter=0
0.779
-0.529
-0.242
-0.494
1.490
-1.510
1.000
1.004
-0.626
0.377
Prob > |T|
0.4479
0.6043
0.8123
0.6285
0.1568
0.1517
0.3333
0.3314
0.5405
0.7112
Tolerance
.
0.04581
0.44064
0.07166
0.02093
0.14053
0.18452
0.09489
0.05833
0.37594
Multipel regression: Kollinearitet
61
Multipel regression: Kollinearitet
62
Hvad gør man så, når der er kollinearitet?
1. Gennemtænk grundigt, hvad den enkelte variabel står for
afhængigt af hvilke af de andre mulige variable, der fastholdes
(= er med i modellen).
– Overvej også, om responsvariablen ændrer fortolkning.
Vigtigt:
2. Lav analyser af fokusvariablen med og uden justering for
forskellige grupper af de andre variable og prøv at forstå
forskellene i resultaterne
I modstrid med anbefalingen fra visse epidemiologer, så må man ikke
nøjes med at præsentere univariate analyser for alle variablene!
– præsenter gerne begge/alle analyser i artiklen med fortolkning
af forskellene
Problemet med fortolkningen forsvinder ikke af, at man tillægger
hver enkelt variabel al forklaringsevnen en ad gangen.
3. Spar eventuelt på antallet af variable for grupper af variable, der
hænger sammen: Drejer det sig om ét fælles aspekt af interesse,
så man måske kan nøjes med én af variablene og begrunde,
hvorfor man vælger netop den?
4. Fortolk med stor forsigtighed
Multipel regression: Overordnede principper
63
Multipel regression: Overordnede principper
Nogle kilder til forkerte modelvalg:
Den statistiske model bestemmes af
det videnskabelige spørgsmål.
Eneste undtagelse fra denne regel er
fordelingsantagelserne (inkl. korrelationer),
der bestemmes af data.
Forsimple virkeligheden for meget, eksempelvis
• tro, at frasen “alt andet lige” giver mening (og ikke bare er en
bekvem undskyldning for ikke at tænke det ordentligt igennem)
• tro, at det giver mening at tale om sammenhængen mellem
exposure og respons, som om der kun kan eksistere ét eneste
videnskabeligt spørgsmål, der involverer denne exposure og dette
respons
• tro, at “confounderne” er givet ud fra exposure og respons, så
man kan vælge sine kovariater uden at overveje konsekvenserne
for fortolkningen
64
Multipel regression: Overordnede principper
65
Nogle kilder til fejlkonklusioner/fejlfortolkninger:
Påstand: Når man skal vurdere eﬀekten af en forklarende variabel
(“exposure”) på et bestemt outcome, så skal man så vidt muligt
justere for alle confoundere.
– herunder at tro, at det er lige meget, om “eﬀekten” er justeret
for forskellige ting i forskellige artikler
Sandhed: Nej! Man skal kun justere for de variable, som man gerne
ville have kunnet holde fast. Udtrykket “alt andet lige” er meningsløst
– der vil altid være noget andet, der ændrer sig, når værdien af vores
forklarende variabel ændres – om ikke andet, så den totale mængde
af påvirkning af vores outcome.
• Sammenligne f.eks. percentil-gruppe forskelle eller forskelle
svarende til 1 SD for forskellige populationer – den biologiske
eﬀekt er nok ligeglad med, hvad resten af personens population
gør. . .
67
Multipel regression: Falske dogmer og påstande
Påstand: Man må ikke inkludere mediator variable, dvs. variable, der
er en del af virkningsmekanismen.
Sandhed: Mediator variable er ligesom alle andre variable: Hvis man
inkluderer dem, ændrer man det videnskabelige spørgsmål, der
besvares ved analysen! Når man inkluderer en eller flere mediator
variable, undersøger man størrelsen af den del af eﬀekten, der ikke
går via eﬀekten på disse mediator variable, altså styrken af eventuelle
andre virkningsmekanismer.
NB: Pas på med at justere for variable, der ligger før i årsagskæden
for den interessante exposure-variabel. At fokusere på eﬀekten justeret
for sådanne variable betyder, at man tror, det giver mening, at
betydningen af en høj exposure afhænger af, hvorfor exposure er høj.
66
Falsk dogme blandt traditionelle epidemiologer:
• Glemme (ikke kunne overskue?) at gennemtænke fortolkningen af
såvel exposure som respons, når man ser på sammenhængen
justeret for de valgte kovariater
Multipel regression: Falske dogmer og påstande
Multipel regression: Falske dogmer og påstande
Påstand: Signifikansen for den enkelte variabel bliver altid svagere,
når de andre tages med.
Sandhed: Ofte, men ikke altid. Nogle gange bliver signifikanserne
væsentligt stærkere.
68
Multipel regression: SAS programmering
69
Multipel regression: SAS programmering
70
Eksempel på program (med STORE mængder output!!)
DATA Skolehelbred;
SET SkoleHelbred;
Hjd1_pr10pct = log(Hjd1)/log(1.1); * "/log(1.1)" giver effekt pr 10%;
Vgt1_pr10pct = log(Vgt1/10)/log(1.1); * "Vgt/10" centrerer til 10 kg;
RUN;
SAS kode bidder
Diverse options til MODEL skal stå efter “/” og inden “;”
i MODEL specifikationen i kaldet af PROC REG, f.eks.
PROC REG DATA=pemax;
MODEL PEmax=age sex height weight bmp
fev1 rv frc tlc / CLB CLM
RUN;
CLI
TOL
*- AXIS1 og AXIS2 bestemmer udseendet af akserne, når de bruges i GPLOT -*;
AXIS1 LABEL=(H=3) VALUE=(H=2.5) MINOR=NONE;
AXIS2 LABEL=(H=3 A=90 R=0) VALUE=(H=2.5) MINOR=NONE;
INFLUENCE;
*- Plot af outcome mod de forklarende variable med blød "gennemsnits"kurve -*;
PROC GPLOT DATA=SkoleHelbred;
PLOT FedmeSc*(Hjd1_pr10pct Vgt1_pr10pct)
/ HAXIS=AXIS1 /* Bruger den ovenstående AXIS1 til den vandrette akse */
VAXIS=AXIS2 /* Bruger den ovenstående AXIS2 til den lodrette akse */
VREF=0 CVREF=BLACK LVREF=33; /* stiplet vandret linie gennem 0 */
SYMBOL1 CV=BLACK V=CIRCLE H=2 /* sorte cirkler i dobbeltstørrelse */
CI=RED I=SM75S /* rød, blød "gennemsnits"kurve */
MODE=INCLUDE; /* Bør være med for en sikkerheds skyld */
RUN;
eller (automatisk variabelselektion), f.eks.
PROC REG DATA=pemax;
MODEL PEmax=age sex height weight bmp
fev1 rv frc tlc / CLB SELETION=BACKWARD;
RUN;
De fleste MODEL-options kan kombineres helt frit (se online manual).
Multipel regression: SAS programmering
71
ODS GRAPHICS ON;
PROC REG DATA=SkoleHelbred PLOTS(LABEL)=(ALL RESIDUALS(SMOOTH) DFBETAS);
MODEL FedmeSc = Hjd1_pr10pct Vgt1_pr10pct /
R /*residualer og prædikterede værdier*/
CLB CLM /*konfidensgrænser på parametre (CLB) og prædikteret værdi (CLM)*/
CLI /*prædiktionsgrænser*/
INFLUENCE /*Mål for observationens indflydelse*/
TOL /*Mål for kollinearitet*/ ;
/* De ekstra variable kan gemmes på et nyt datasæt. Jeg har valgt navnet */
/* EkstraVariable til det nye datasæt. NB: OutputStatistics er et SAS-ord */
ODS OUTPUT OutputStatistics=EkstraVariable;
RUN;
Multipel regression: SAS programmering
/* De ekstra variable skal flettes på det originale datasæt, hvis de skal
/* bruge til f.eks. at udelukke observationer ved sensitivitetsanalyser
/* eller til det ekstra plot til tjek af varianshomogenitet, se nedenfor.
DATA MedDetHele;
/* PAS PÅ med MERGE. Man skal vide, hvad man gør, ellers kan det gå galt!
MERGE SkoleHelbred EkstraVariable;
resid_squared = RSTUDENT**2; /* Til et ekstra variansplot */
RUN;
/* Det ekstra variansplot - kurven skal ligge vandret omkring 1, */
/* hvis den er voksende, kan man overveje at log-transformere Y. */
AXIS222 LABEL=(H=3 A=90 R=0) VALUE=(H=2.5) ORDER=(0 TO 4 BY 1);
SYMBOL1 V=CIRCLE CV=BLACK H=2 I=SM75S CI=RED MODE=INCLUDE;
PROC GPLOT DATA=MedDetHele;
PLOT resid_squared*predicted
/ HAXIS=AXIS1 VAXIS=AXIS222 VREF=1 CVREF=BLACK LVREF=33;
RUN; QUIT;
72
*/
*/
*/
*/