Korrelation og regression

university of copenhagen
Faculty of Health Sciences
Basal Statistik
Regressionsanalyse.
Lene Theil Skovgaard
22. september 2015
1 / 72
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Simpel lineær regression
Regression og korrelation
I Simpel lineær regression
I Todimensionale normalfordelinger
I Korrelation vs. regression
I Modelkontrol
I Diagnostics
Hjemmesider: http://biostat.ku.dk/~lts/basal15_2
E-mail: [email protected]
2 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Simpel lineær regression
Retningsbestemt relation
(men ikke nødvendigvis kausal)
mellem to kvantitative (kontinuerte) variable:
Y: Respons eller outcome, afhængig (dependent) variabel
X: Forklarende variabel, kovariat
(somme tider Independent/uafhængig - meget uheldigt!)
Gennemgående eksempel at tænke på:
Y =blodtryk, X =alder
3 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Data
Sammenhørende registreringer (xi , yi ),
for en række individer eller ’units’, i = 1, · · · , n:
Bemærk: xi ’erne kan vælges på forhånd!
I
Det er smart,
fordi man kan designe sig til mere præcise estimater
I
Det er farligt,
hvis man har tænkt sig at benytte korrelationer
(mere om det senere)
4 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Eksempel I
Sammenhæng mellem kolinesteraseaktivitet (KE)
og tid til opvågning (TID)
I
Outcome: TID
I
Forklarende variabel: KE
I
Konklusioner:
Hvor lang tid forventer vi til opvågning,
baseret på en måling af KE?
Hvor stor er usikkerheden på denne prediktion?
5 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Eksempel II
Sammenligning af lungekapacitet (FEV1 ) for rygere og ikke-rygere
Problem: FEV1 afhænger også af f.eks. højde
I
Outcome: FEV1
I
Forklarende variable: højde, rygevaner
I
Konklusioner:
Hvor meget dårligere er lungefunktionen hos rygere?
6 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Eksempel fra bogen
Hvilken sammenhæng er der mellem fastende blodsukkerniveau og
sammentrækningsevne for venstre hjertekammer hos diabetikere?
(n=23)
OBS
Outcome: Y=vcf, %/sec.
Kovariat:
X=blodsukker, mmol/l
7 / 72
1
2
3
.
.
.
21
22
23
BLODSUKKER
15.3
10.8
8.1
.
.
.
4.9
8.8
9.5
VCF
1.76
1.34
1.27
.
.
.
1.03
1.12
1.70
university of copenhagen
Indlæsning og scatter plot
data vcf;
infile ’C:\Basalstatistik\vcf.txt’ firstobs=2;
input blodsukker vcf;
run;
proc gplot data=vcf;
plot vcf*blodsukker;
run;
eller
proc sgplot data=vcf;
scatter x=blodsukker y=vcf;
run;
8 / 72
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
Scatter plot
Er der nogen sammenhæng her?
9 / 72
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
Matematisk model
Ligningen for en ret linie: Y = α + βX
Intercept α: Skæring med Y-akse
Hældning β
10 / 72
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Fortolkning
I
I
α: intercept, afskæring (skæring med Y-akse)
Sammentrækningsevnen for en diabetiker med en
blodsukkerværdi på 0.
Samme enheder som outcome.
Som regel en utilladelig ekstrapolation!
β: hældning, regressionskoefficient
Forskellen i sammentrækningsevne hos 2 diabetikere, der
afviger i blodsukkerværdi med 1 mmol/l.
Ofte parameteren med størst interesse.
Enheder som “Outcomes enheder” pr. “kovariats enhed”.
11 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Statistisk model
Yi = α + βXi + εi , εi ∼ N (0, σ 2 ) uafh.
εi ’erne er residualerne, dvs. afvigelserne (i Y) fra observeret til
forventet.
12 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
∗ Estimation
Mindste kvadraters metode:
Bestem α og β, så kvadratafvigelsessummen
n
X
(yi − (α + βxi ))2 =
i=1
n
X
ε2i
i=1
bliver mindst mulig. Resultat (estimater):
Sxy
β̂ =
=
Sxx
13 / 72
Pn
i=1
(xi − x̄)(yi − ȳ)
,
2
i=1 (xi − x̄)
Pn
α̂ = ȳ − β̂x̄
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Regressionsanalyse i SAS
proc glm data=vcf;
model vcf = blodsukker / clparm;
run;
og for at tegne linien skrives f.eks.
proc gplot data=vcf;
plot vcf*blodsukker;
symbol v=circle c=red i=rl h=2 l=1;
run;
eller
proc sgplot data=vcf;
reg x=blodsukker y=vcf /
markerattrs=(color=blue) lineattrs=(color=red);
run;
14 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Output fra regressionsanalyse i SAS
Dependent Variable: vcf
Source
Model
Error
Corrected Total
R-Square
0.173684
DF
1
21
22
Coeff Var
16.34634
Sum of
Squares
0.20726892
0.98609630
1.19336522
Root MSE
0.216696
Mean Square
0.20726892
0.04695697
F Value
4.41
Pr > F
0.0479
vcf Mean
1.325652
Source
blodsukker
DF
1
Type I SS
0.20726892
Mean Square
0.20726892
F Value
4.41
Pr > F
0.0479
Source
blodsukker
DF
1
Type III SS
0.20726892
Mean Square
0.20726892
F Value
4.41
Pr > F
0.0479
Parameter
Intercept
blodsukker
Parameter
Intercept
blodsukker
15 / 72
Estimate
1.097814878
0.021962522
Standard
Error
0.11748118
0.01045358
95% Confidence Limits
0.853499382
0.000223108
1.342130374
0.043701937
t Value
9.34
2.10
Pr > |t|
<.0001
0.0479
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Vigtige informationer fra output
I
I
Hældning (slope, vises i output under betegnelsen
’blodsukker’, fordi det er koefficienten til denne),
β̂ = 0.02196 ≈ 0.022,
med tilhørende spredning (standard error)
Spredningen omkring linien (Root MSE),
s = σ̂ = 0.216696 ≈ 0.217
Denne størrelse benyttes til konstruktion af
prediktionsgrænser (kommer senere), som er
normalområder for given blodsukkerværdi.
16 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Estimeret regressionslinie
Estimeret regressionslinie: vcf=1.10 + 0.0220 blodsukker
17 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Forventet værdi for specifikke værdier af kovariaten
Fittede (predikterede, forventede) værdier:
yˆi = α̂ + β̂xi
Forventet værdi af vcf for en diabetiker med blodsukker 10mmol/l:
1.10 + 0.0220 × 10 = 1.32
men hvad med usikkerheden (s.e.) for denne?
18 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Forventet værdi for specifikke værdier af kovariaten, II
Estimat (med konfidensgrænser) for middelværdien af
sammentrækningsevnen for diabetikere med blodsukkerværdi 10
mmol/l.
proc glm data=vcf;
model vcf=blodsukker / clparm;
estimate ’blodsukker=10’ intercept 1 blodsukker 10;
run;
giver de ekstra output linier
Standard
Error
t Value
0.04535290
29.05
Parameter
blodsukker=10
Estimate
1.31744010
Parameter
blodsukker=10
95% Confidence Limits
1.22312358
1.41175662
19 / 72
Pr > |t|
<.0001
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Estimaterne fra regressionsanalysen
Regressionsanalysen indeholder 3 parametre:
I
2 hørende til linien (intercept og hældning)
I
1, som er spredningen omkring linien (σ):
den biologiske variation af vcf for folk med samme
blodsukker-værdi
Variansen omkring regressionslinien (σ 2 ) estimeres ved
s2 =
n
1 X
(yi − α̂ − β̂xi )2
n − 2 i=1
ca. gennemsnitlig kvadratisk afstand, blot er n (antallet af observationer)
erstattet af n − 2 (antallet af frihedsgrader), her 21
20 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Spredning omkring regressionslinie
Da man ikke kan forstå eller fortolke varianser direkte, tager vi
straks kvadratrod:
√
s = s2
som er estimat for
spredningen omkring regressionslinien
kaldes i SAS (lidt uheldigt∗ ) for ’Root Mean Square Error’,
forkortet Root MSE i output.
Estimatet er 0.2167, med de samme enheder som outcome vcf
∗
uheldigt, fordi det ikke er en standard error,
men en standard deviation
21 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Usikkerhed på estimaterne
Hvor gode er skønnene over de ukendte parametre α og β?
Hvor meget anderledes resultater kunne vi forvente at finde ved en
ny undersøgelse?
Det kan vises, at
β̂ ∼ N (β,
σ2
)
Sxx
dvs. hældningen er præcist bestemt, hvis
I
observationerne ligger tæt på linien (σ 2 lille)
I
variationen i x-værdier (Sxx ) er stor
22 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Konfidensinterval = Sikkerhedsinterval
Estimeret usikkerhed på β̂: SE(β̂) =
√s
Sxx
Dette estimat kaldes standard error for β̂,
eller generelt standard error of the estimate (SEE)
Vi bruger det til at konstruere et 95% konfidensinterval
β̂ ± t97.5% (n − 2) × SE(β̂) = β̂ ± ca.2 × SE(β̂)
= 0.0220 ± 2.080 × 0.0105 = (0.0002, 0.0438)
23 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
T-test for “parameter=0”
Vi kan også teste, typisk ’H0 : β = 0’ ved t-testet
t=
β̂
SE(β̂)
som her giver
t = 0.0220
=2.10 ∼ t(21),
0.0105
∼ t(n − 2)
P=0.048
dvs. lige på grænsen af det signifikante
24 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Og hvad med interceptet....?
Man kan forestille sig situationer, hvor det er rimeligt at teste
f.eks. ’H0 : α = α0 ’
I så fald benyttes det tilsvarende t-test
t=
α̂ − α0
∼ t(n − 2)
SE(α̂)
eller man udregner et 95% konfidensinterval for α:
1.098 ± 2.080 × 0.1175 = (0.854, 1.342)
Dette er bare ikke altid særligt interessant.
25 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Når man har flere hypoteser...
Vi kan altså teste hypoteser om såvel α som β, men:
I
Estimaterne for intercept og hældning er (negativt)
korrelerede (her -0.92)
I
Accepter ikke to ’sideordnede’ test
Selv om vi kan acceptere test vedr. både α
(f.eks. intercept=0) og β (f.eks. hældning 1)
hver for sig,
kan vi ikke nødvendigvis acceptere begge samtidig
26 / 72
university of copenhagen
Hypotetisk eksempel
27 / 72
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Variationsopspaltning
Forklaring til de øverste linier i output s. 15:
SStotal =
n
X
(yi − ȳ)2 = SSmodel + SSerror
i=1
Total variation = variation, som kan forklares
+ variation, som ikke kan forklares
x er en god forklarende variable,
hvis SSmodel er stor i forhold til SSerror
Jeg foretrækker at kalde SSerror for SSresidual ...
28 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Determinationskoefficient, R2
Den andel af variationen (i y), der kan forklares ved modellen:
R2 =
SSmodel
SStotal
Her finder vi determinationskoefficienten: R2 = 0.17, dvs. vi kan
forklare 17% af variationen i vcf v.hj.a. variablen blodsukker.
Determinationskoefficienten er
kvadratet på korrelationskoefficienten
√
mellem vcf og blodsukker (som dermed er r = 0.17 = 0.42)
29 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Korrelationen
Korrelationen r mellem to variable måler
I I hvor høj grad ligner scatter plottet en ret linie?
I Ikke: Hvor nær ligger punkterne ved den rette linie?
Korrelationskoefficienten estimeres ved:
r = rxy =
I
I
Sxy
q
Sxx Syy
Pn
=
i=1 (xi
n
i=1 (xi −
qP
− x̄)(yi − ȳ)
x̄)2
Pn
i=1
(yi − ȳ)2
antager værdier mellem -1 og 1 (0 = uafhængighed)
+1 og -1 svarer til perfekt lineær sammenhæng,
hhv. positiv og negativ
30 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Todimensional normalfordelingstæthed, r=0
Korrelation 0
Alle lodrette snit giver
normalfordelinger
I med samme
middelværdi
I og samme varians
31 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Todimensional normalfordelingstæthed, r=0.9
Korrelation 0.9
Udpræget retning i figuren
32 / 72
university of copenhagen
Konturkurver
Konturkurver for en normalfordeling
bliver ellipser
33 / 72
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Regression kontra korrelation
Regressionsmodellen
Yi = α + βXi + εi ,
εi ∼ N (0, σ 2 )
siger, at de betingede fordelinger af Y, givet X, er
normalfordelinger, med samme varians σ 2 (samme spredning σ) og
med middelværdier, der afhænger lineært af X.
34 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Regression kontra korrelation, II
Antagelserne til brug for fortolkning af en korrelation er skrappere
end for regressionsanalysen, fordi:
Her er der også et krav om normalfordeling på xi ’erne!!
Hvis ikke dette krav er opfyldt, kan man ikke fortolke
korrelationskoefficienten!
...men man kan godt teste, om den er 0.
35 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Test af hældning vs test af korrelation
Det er en og samme sag
De to estimater (for korrelation og hældning)
ligner hinanden, og de er 0 på samme tid
β̂ =
Sxy
Sxx
S
rxy = √ xy
Sxx Syy




β̂ = rxy



rxy = β̂
q
Syy
Sxx
q
Sxx
Syy
Test for β = 0 er identisk med test for ρxy = 0
36 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Pas på med fortolkning af korrelation
2
=
1 − rxy
s2
Sxx
s 2 + β̂ 2 n−2
Hold β̂ og s 2 fast:
2 tæt på 0 ⇒ r 2 tæt på 1
Sxx stor ⇒ 1-rxy
xy
2 kan gøres vilkårlig tæt på 1 ved at sprede x’erne
rxy
– hvordan mon?
37 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Hvornår bruger vi så korrelationen
I
Til at teste om der er en sammenhæng
Brug gerne Spearman korrelation og slip for så mange
antagelser, men så får man også kun en P-værdi
I
Til at sammenligne styrken af sammenhænge mellem
mange variable, målt på de samme individer
I
I observationelle studier uden selektion:
Her kan korrelationen fortolkes, hvis der er tale om en
todimensional normalfordeling
men spørgsmålet er stadig, om det giver den information, der
er ønskelig:
Eksempelvis:
Spørgsmål: Hvor meget stiger blodtrykket med alderen?
Svar: Korrelationen er 0.42.....
38 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Sammenligning af målemetoder
I en sådan situation giver det ingen mening at benytte korrelation!
I
Korrelationen udtrykker sammenhæng, ikke overensstemmelse
(der er f.eks. en sammenhæng mellem alder og blodtryk, men
der er naturligvis ikke overensstemmelse)
I
Naturligvis er der sammenhæng mellem to målemetoder, der
foregiver at måle det samme, så det behøver man ikke teste
(ellers er der i hvert fald noget helt galt)
I
Man skal i stedet kvantificere differenserne mellem de to
metoder, og udregne limits of agreement (på relevant skala)
39 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Confounding
(Kor)relationen er:
I positiv for mænd
I positiv for kvinder
I negativ for mennesker
Eks: Kolesterol vs. chokoladeindtag
40 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Confounding, II
(Kor)relationen er:
I tilsyneladende positiv
I 0 for hver aldersgruppe
X og Y vokser begge med alderen
(f.eks. kolesterol og blodtryk)
41 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Konfidensgrænser for linien
For hver x-værdi:
Fittede (predikterede, forventede) værdier: yˆi = α̂ + β̂xi
Konfidensgrænser for selve linien (smalle grænser)
I benyttes til sammenligning med andre grupper af personer
I
I
I
q
2
man benytter spredningen s n1 + (xiS−x̄)
xx
Disse grænser bliver vilkårligt snævre,
når antallet af observationer øges.
De kan ikke bruges til diagnostik!
42 / 72
university of copenhagen
Tegn konfidensgrænser for linien
proc gplot data=vcf;
plot vcf*blodsukker;
symbol v=circle c=blue i=rlclm95;
run;
43 / 72
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Prediktionsgrænser for enkeltindivider
For hver x-værdi:
Fittede (predikterede, forventede) værdier: yˆi = α̂ + β̂xi
Brede grænser, normalområder for givet x
I
I
I
De benyttes til at afgøre, om en ny person er atypisk i
forhold til normen (diagnostik), idet de omslutter ca. 95%
af fremtidige observationer, også for store n.
q
2
man benytter spredningen s 1 + n1 + (xiS−x̄)
xx
Disse grænser bliver ikke nævneværdigt snævrere, når
antallet af observationer øges.
44 / 72
university of copenhagen
Tegn prediktionsgrænser
proc gplot data=vcf;
plot vcf*blodsukker;
symbol v=circle c=blue i=rlcli95;
run;
45 / 72
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
Tegn det hele på en gang
Dette sker formentlig auromatisk for de fleste
ellers brug ods graphics
46 / 72
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Summa summarum om grænser
De smalle grænser, konfidensgrænser:
I
svarer til standard error
I
bruges til at vurdere sikkerheden i estimatet
I
afhænger kraftigt af kovariatværdien
De brede grænser, prediktionsgrænser:
I
svarer til standard deviation
I
kaldes også normalområder eller referenceområder
I
bruges til at diagnosticere individuelle patienter
I
udregnes approksimativt ved ±2 Root MSE
47 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Har vi gjort det godt nok?
Modellens konklusioner er kun rimelige,
hvis modellen selv er rimelig.
Modelkontrol: Passer modellen rimeligt til data?
Diagnostics: Passer data til modellen?
Eller er der indflydelsesrige observationer eller outliers?
Check af disse to forhold burde naturligvis foretages fra
begyndelsen, men da de kræver fit af modellen, kan de først
foretages efterfølgende.
48 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Modelkontrol
Den statistiske model var
Yi = α + βXi + εi , εi ∼ N (0, σ 2 ) uafhængige
Hvilke antagelser skal vi checke her?
I
I
I
linearitet
varianshomogenitet (εi ’erne har samme spredning)
normalfordelte afvigelser (εi ’erne)
Obs: Intet krav om normalfordeling på xi ’erne!!
49 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Grafisk modelkontrol
Fokus er her på
residualerne = modelafvigelserne
= observeret værdi - fittet værdi: ε̂i = yi − ŷi
eller en modifikation af disse (se senere)
Hvis man vil have fuld kontrol over hele modelkontrollen kan man
udregne predikterede værdier og residualer, samt gemme disse i et
nyt datasæt (ny) ved at tilføje linien
output out=ny p=predicted r=residual;
inden run; i GLM-koden
50 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Residualplots
Residualer (af passende type) plottes mod
I
den forklarende variabel xi
– for at checke linearitet
(se efter krumninger, buer)
I
de fittede værdier ŷi
– for at checke varianshomogenitet
(se efter trompeter)
I
fraktildiagram eller histogram
– for at checke normalfordelingsantagelsen
(se efter afvigelse fra en ret linie)
51 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Modelkontrol i et enkelt hug
ods graphics on;
proc glm PLOTS=(DIAGNOSTICS RESIDUALS(smooth)) data=vcf;
model vcf=blodsukker / clparm;
run;
ods graphics off;
danner en figur med mange brugbare figurer (og lidt til),
samt en figur til vurdering af lineariteten
52 / 72
university of copenhagen
Diagnostics Panel
53 / 72
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Vurdering af lineariteten
Residualer plottet mod kovariaten, med overlejret udglatning:
54 / 72
university of copenhagen
Afvigelser fra modellen
55 / 72
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
Afhjælpning af problemer
Linearitet:
Hvis lineariteten ikke holder i rimelig grad,
bliver modellen ufortolkelig.
Hvad gør man så?
I tilføjer flere kovariater, f.eks.
I
I
I
I
I
alder, køn, medicin etc.
transformerer variablene med
logaritmer
kvadratrod, invers
foretager ikke-lineær regression
56 / 72
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Afhjælpning af problemer, II
Varianshomogenitet:
Hvis varianshomogeniteten ikke holder i rimelig grad,
mister vi styrke,
og prediktionsgrænser bliver upålidelige!
Hvad gør man så?
I
I tilfælde af trompetfacon: Transformation med logaritmer
I
(Non-parametriske metoder
– men så får vi ingen kvantificeringer)
57 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Trompetfacon
kan fortolkes som
I
konstant relativ spredning
= konstant variationskoefficient
spredning
Variationskoefficient = middelværdi
I
I
58 / 72
ofte konstant, når man måler på små positive størrelser,
f.eks. koncentrationer
transformer outcome med logaritme
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Afhjælpning af problemer, III
Normalfordelte residualer:
Hvis normalfordelingen ikke holder i rimelig grad,
mister vi styrke,
og prediktionsgrænser bliver upålidelige!
Hvad gør man så?
I
I tilfælde af hale mod højre: Transformation med logaritmer
I
(Non-parametriske metoder
– men så får vi ingen kvantificeringer)
59 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Normalfordeling og varianshomogenitet
Antagelsen om normalfordeling (og varianshomogenitet) er
ikke så kritisk for selve fittet, fordi:
t-fordelingen bygger på normalfordelingen, men kun på en
normalfordelingsantagelse for estimatet β̂, og dette passer ofte, når
der er rimeligt mange observationer, på grund af
Den centrale grænseværdisætning,
der siger at summer og andre funktioner af mange observationer
bliver ’mere og mere’ normalfordelt.
Men prediktionsgrænserne bliver misvisende og ufortolkelige!!
60 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Transformation med logaritmer
– men hvilken logaritme?
Alle logaritmer er proportionale, så resultaterne bliver ens (efter
tilbagetransformation), men der er visse fif:
I
Den forklarende variabel transformeres
I
for at opnå linearitet, dvs. når det er successive fordoblinger,
der har konstant effekt.
Brug gerne 2-tals logaritmer!
Hældningen β udtrykker så effekten af en fordobling af kovariaten
61 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Transformation med logaritmer, II
I
Outcome transformeres enten
I
I
for at opnå linearitet
for at opnå ens spredninger (varianshomogenitet)
Spredning(log(y)) ≈
Spredning(y)
= CV
y
dvs. en konstant variationskoefficient (CV) på Y betyder
konstant spredning på log(Y ), (den naturlige logaritme)
(den som tidligere har heddet ln,
men som altså hedder log i computersprog)
Effekten af kovariater bliver så (når de tilbagetransformeres) til
faktorer, der skal ganges på.
62 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Numeriske check af antagelserne
er mulig, men bør kun bruges som en rettesnor
I
Linearitet:
Tilføj kvadreret kovariat,
test om 2.gradspolynomiet (parablen) er væsentlig bedre end
linien
I
Varianshomogenitet:
De findes, men ikke i GLM
I
Normalfordelingen:
Der findes test, men de kan ikke generelt anbefales
63 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Regression diagnostics
Understøttes konklusionerne af hele materialet?
Eller er der observationer med meget stor indflydelse på
resultaterne?
I
Udelad den i te person
og bestem nye estimater for samtlige parametre.
I
Udregn Cook’s afstand,
et mål for ændringen i parameterestimater.
I
Spalt Cook’s afstand ud i koordinater, som måler f.eks:
Hvor mange s.e.(β̂1 ) ændrer β̂1 sig, hvis den i te person
udelades?
Tilføj evt. sætningen
output out=ny p=predicted r=residual cookd=cook;
til GLM-linierne
64 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Cooks afstand
(se også DiagnosticsPanel tidligere)
En enkelt observation skiller sig ud i forhold til de øvrige
65 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Kun i proceduren REG
Cooks afstand kan spaltes ud i koordinater:
Hvor mange SE(β̂1 )’er ændres f.eks. β̂,
når den i’te person udelades?
proc reg data=vcf;
model vcf = blodsukker / influence;
run;
Dependent Variable: vcf
Output Statistics
-------DFBETAS------Obs Intercept
blodsukker
1
2
3
4
5
6
7
66 / 72
-0.2421
0.0014
-0.0049
0.1082
0.0150
0.4436
0.0048
0.4134
0.0005
0.0030
-0.1461
-0.0104
-0.3547
-0.0019
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
-0.0588
-0.0829
0.0008
0.0060
-0.0345
-0.8744
0.0982
0.3409
.
-0.1295
0.0181
0.0128
0.3978
0.0169
-0.2938
-0.1237
0.2419
-0.0430
0.0552
-0.0617
-0.0043
0.0277
1.1973
-0.1718
-0.2478
.
0.1086
-0.0008
-0.0907
-0.6287
-0.0476
0.2395
0.0625
-0.0856
<------------------
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Udeladelse af observation nr. 13
Estimeret linie: y = 1.098 + 0.022x
β̂ = 0.02196(0.01045),
t=
0.02196
= 2.1, P = 0.048
0.01045
Regressionsanalyse uden observation nr. 13
Estimeret linie: y = 1.189 + 0.011x
β̂ = 0.01082(0.01029),
67 / 72
t=
0.01082
= 1.05, P = 0.31
0.01029
university of copenhagen
Indflydelsen på hældningen
denne figur er lavet i R
68 / 72
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Outliers
Observationer, der ikke passer ind i sammenhængen
I
de er ikke nødvendigvis indflydelsesrige
I
de har ikke nødvendigvis et stort residual
Press-residualer
Residualer, der fremkommer efter at den pågældende observation
har været udelukket fra estimationen.
(residualer without current observation)
output out=ny p=predicted r=residual press=presid;
69 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Udeladelse af enkeltobservationer??
Hvad gør vi ved indflydelsesrige observationer og outliers?
I
ser nærmere på dem, de er tit ganske interessante
I
anfører et mål for deres indflydelse
Hvornår kan vi udelade dem?
I
hvis de ligger meget yderligt
I
I
husk at afgrænse konklusionerne tilsvarende!
hvis man kan finde årsagen
I
70 / 72
og da skal alle sådanne udelades!
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Et delvist program kunne se ud som:
data vcf;
infile ’C:\Basalstatistik\vcf.txt’ firstobs=2;
input blodsukker vcf;
blodsukker_i_anden=(blodsukker-10)**2;
run;
/* lineaer regression med automatisk modelkontroltegninger */
ods graphics on;
proc glm PLOTS=ALL;
model vcf=blodsukker / clparm;
estimate ’blodsukker=10’ intercept 1 blodsukker 10;
run;
ods graphics off;
71 / 72
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
/* modelkontrol med andengradsled */
/* dvs. test af linearitet
*/
proc glm data=vcf;
model vcf=blodsukker blodsukker_i_anden / clparm;
run;
/* eller hvis man vil danne en ny datafil, kaldet "ny" */
/* og have fuld kontrol over modelkontrollen */
proc glm data=vcf;
model vcf=blodsukker / clparm p;
output out=ny p=yhat r=resid student=stresid cookd=cook
rstudent=uresid press=press;
run;
proc print data=ny;
var blodsukker vcf yhat resid stresid h cook uresid press;
run;
72 / 72