Korrelerede målinger

university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
Korrelerede målinger
Faculty of Health Sciences
Basal statistik
Korrelerede målinger
Lene Theil Skovgaard
10. november 2015
I
Tilfældige effekter
I
Varianskomponentmodeller
I
Modeller for longitudinelle målinger
I
Korrelationsstrukturer
I
Baseline problematik
Hjemmesider: http://biostat.ku.dk/~lts/basal15_2
E-mail: [email protected]
1 / 99
2 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
En gennemgående antagelse hidtil
Uafhængighed
I
Ingen tvillinger/søskende ...
I
Kun en enkelt observation for hvert individ (unit)
men i dag har vi flere for hvert individ, og vi må forvente, at
observationer fra samme individ ser mere ens ud end observationer
fra forskellige individer, de er korrelerede.
university of copenhagen
I
Forkerte standard errors (for små eller for store)
I
Forkerte konfidensintervaller (for smalle eller for brede)
I
Forkerte konklusioner (type I eller type II fejl)
d e pa rt m e n t o f b i o s tat i s t i c s
Terminologi for korrelerede målinger
I
Multivariate responser (berøres ikke her):
Forskellige outcomes (responser) på det samme individ, f.eks.
en række hormonmålinger, der skal vurderes samlet.
I
Cluster design:
Samme outcome (respons) målt på f.eks. alle individer
i en række familier.
I
Repeated measurements / Gentagne målinger:
Samme outcome (respons) målt i forskellige situationer
(eller på forskellige steder) på samme individ.
I
Longitudinelle målinger:
Samme outcome (respons) målt gentagne gange over tid
for samme individ.
Hvis korrelationen ignoreres, så laver man fejl:
3 / 99
d e pa rt m e n t o f b i o s tat i s t i c s
4 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Mixed models
Tilfældige effekter
To typer af generaliseringer:
Variationskilder (varianskomponenter)
I
I
I
Repeated measurements/Cluster designs:
Anova −→ Varianskomponentmodeller
I
I
Longitudinelle målinger:
Regression −→ Random regression
I
SAS: Proc Mixed
Mix af systematiske og tilfældige (random) effekter
5 / 99
variation mellem arme, tænder, injektionssteder, (dage)
variation, der skyldes ukontrollable forsøgsomstændigheder
I
I
variation mellem individer, familier eller dyr
variation mellem målinger på samme individ
(within-individual)
I
I
mellem regioner, hospitaler, skoler eller lande
biologisk variation
I
Begge disse kaldes under et for Mixed Models
university of copenhagen
geografisk/miljømæssig variation
tidspunkt på dagen, temperatur, observatør
målefejl
6 / 99
d e pa rt m e n t o f b i o s tat i s t i c s
Cluster design (hierarkisk design)
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Cluster design, med kovariater
f.eks. skole (School), skole klasse (Class) og elev (Pupil)
[I] = [S*C*P] −→ [S*C] −→ S
7 / 99
[S ∗ C ∗ P]
?
Køn
8 / 99
- [S ∗ C ]
?
Klassetrin
- [S]
?
Skoletype
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Eksempler på hierarkier
level 1
individer
individer
elever
tid
→
→
→
→
→
level 2
tvillingepar
familier
klasser
patienter
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Et klassisk set-up
→
→
→
→
→
Gentagne målinger på samme individ
evt. over tid.
level 3
lande
regioner
skoler
centre
Vi skelner imellem forskellige typer af kovariater:
Målinger, der ’hører sammen’ i samme cluster ser ens ud
(er korrelerede)
I
Within-individuals kovariat (level 1):
En kovariat, der varierer indenfor person, f.eks. tid, dosis,
blodtryk
Disse effekter estimeres svarende til en parret sammenligning.
I
Between-individuals kovariat (level 2):
En kovariat, der ikke varierer indenfor person, men kun
mellem personer, f.eks. behandling, køn, genotype
Disse effekter estimeres svarende til en uparret sammenligning.
Der er tilfældig variation (varianskomponenter) på alle niveauer
(levels), og måske også kovariater
Individer kunne også være clustre, såsom
familier, hospitaler, klasser etc.
9 / 99
10 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Hvis man ignorerer korrelationen
opstår der fejl
I
muligvis bias i middelværdistruktur
I
lav efficiens (type 2 fejl) ved vurdering af
level 1 kovariater (within-individual effekter)
I
for små standard errors (type 1 fejl) for estimater af
level 2 effekter (between-individual effekter)
university of copenhagen
Formål med “mixed effects” designs
I
At opnå større præcision ved vurdering af effekt af tid, dosis
osv., ikke mindst interaktionen mellem tid og evt. behandling
(udvikler de to grupper sig forskelligt?)
I
At opnå viden om den relative størrelse af de forskellige
varianskomponenter, for derved i fremtidige undersøgelser at
kunne bruge resourcerne der, hvor de er bedst anbragt,
eksempelvis:
I
Det er altså vigtigt at medtage alle relevante variationskilder!
11 / 99
d e pa rt m e n t o f b i o s tat i s t i c s
I
12 / 99
Hvor ofte skal man måle outcome?
Skal man have data på mange børn i hver klasse, eller hellere
mange klasser på hver skole?
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
Simpelt eksempel: Hævelse ved vaccination
Scatter plot
Eksperiment:
6 kaniner, hver især vaccineret 6 gange, forskellige steder på ryggen
X-akse: Arbitrær nummerering af kaniner
d e pa rt m e n t o f b i o s tat i s t i c s
Outcome yrs : hævelse i cm2 , med notationen
r= 1, · · · ,R=6 angiver kaninen (rabbit),
s= 1, · · · ,S=6 angiver stedet (spot)
Formål med undersøgelsen:
I
Giv et estimat for “overall mean” (between-individual effect)
I
Hvor mange gange kan kaninerne genbruges, altså hvor mange stik
kan det svare sig at udføre pr. kanin?
Vi har i alt 36 målinger af hævelse, men
vi må forvente, at hævelse kan være specifikt for den enkelte kanin,
således at nogle har tendens til stor hævelse, andre til mindre hævelse.
13 / 99
university of copenhagen
14 / 99
d e pa rt m e n t o f b i o s tat i s t i c s
Naiv kvantificering af hævelse
The MEANS Procedure
Lower 95%
Upper 95%
Variable
N
Mean
Std Dev
Std Error
CL for Mean
CL for Mean
--------------------------------------------------------------------------swelling 36 7.3666667
0.9313585
0.1552264
7.0515403
7.6817930
---------------------------------------------------------------------------
Hvad er der galt med denne kvantificering?
Tænk, hvis alle målinger på samme kanin var helt ens?
Så har vi jo i virkeligheden kun 6 observationer.
Men de er jo ikke helt ens, hvad så?
15 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Naiv model (med hovedet under armen)
I
Hver kanin har et niveau (en middelværdi)
I
Herudover er der variation mellem indstikssteder
I computer sprog:
Kaninen er en faktor, analysen er en ensidet variansanalyse
(ANOVA)
proc glm data=rabbit;
class rabbit;
model swelling=rabbit / solution;
run;
16 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Output fra den naive model
Output fra den naive model, II
The GLM Procedure
Dependent Variable: swelling
Parameter
Source
Model
Error
Corrected Total
R-Square
0.422705
DF
5
30
35
Coeff Var
10.37571
Source
rabbit
DF
5
Sum of
Squares
12.83333333
17.52666667
30.36000000
Root MSE
0.764344
Type III SS
12.83333333
Mean Square
2.56666667
0.58422222
F Value
4.39
Pr > F
0.0040
swelling Mean
7.366667
Mean Square
2.56666667
F Value
4.39
Intercept
rabbit
rabbit
rabbit
rabbit
rabbit
rabbit
Estimate
1
2
3
4
5
6
7.516666667
-0.450000000
1.100000000
-0.433333333
-0.716666667
-0.400000000
0.000000000
B
B
B
B
B
B
B
Standard
Error
t Value
Pr > |t|
0.31204226
0.44129439
0.44129439
0.44129439
0.44129439
0.44129439
.
24.09
-1.02
2.49
-0.98
-1.62
-0.91
.
<.0001
0.3160
0.0184
0.3340
0.1148
0.3719
.
Men: Er det overhovedet interessant information?
Pr > F
0.0040
Kaninerne har signifikant forskellige niveauer (P=0.0040)
17 / 99
I
Vi er jo ikke interesserede i disse specifikke 6 kaniner,
men snarere kaniner i al almindelighed, som art betragtet!
Vi antager, at disse 6 kaniner er tilfældigt udvalgt
18 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Varianskomponentmodel
Systematisk vs. tilfældig effekt?
Vi vil i stedet se på en model, hvor forskellen på kaniner modelleres
som en ekstra variationskilde:
Systematisk =Fixed:
I
yrs = µ + ar + εrs
hvor ar ’erne og εrs ’erne antages at være uafhængige,
normalfordelte med
2,
Var(ar )=ωB
I
2
Var(εrs )=σW
I
Variationen mellem kaniner er nu en tilfældig effekt
(random factor),
I
2 og σ 2 er varianskomponenter, og
ωB
W
modellen kaldes også en two-level model
19 / 99
20 / 99
Alle faktorens niveauer observeres
(typisk kun et par stykker, f.eks. et antal
behandlinger)
Der kan kun drages konklusioner om netop disse
behandlinger
(ikke om andre ikke-benyttede behandlingstyper)
Vi er interesserede i forskellen på de enkelte
behandlinger
Der skal være et rimeligt antal observationer for
hvert niveau af faktoren
(ikke for få i nogen behandlingsgrupper)
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Systematisk vs. tilfældig effekt?, fortsat
Tilfældig =Random:
I
I
I
I
En repræsentativ stikprøve (sample) af
faktorniveauer er observeret
f.eks. et antal patienter, skoleklasser etc.
Vi er ikke interesserede i netop disse individer,
skoleklasser, men
vi ønsker at drage konklusioner udover de
observerede værdier af faktoren, dvs.
for andre patienter, andre skoleklasser,
altså i al almindelighed
Det er nødvendigt at lade faktoren være
tilfældig, hvis der er kovariater hørende til dette
level, f.eks. behandling, klassetrin...eller selve
niveauet (af hævelsen)
21 / 99
d e pa rt m e n t o f b i o s tat i s t i c s
Estimation i SAS
Hvad indebærer denne varianskomponentmodel
Alle observationer af hævelse har samme middelværdi
og samme varians:
2
2
yrs ∼ N (µ, ωB
+ σW
)
Men: Målinger foretaget på den samme kanin er korrelerede, med
intra-class korrelationen
Corr(yr1 , yr2 ) = ρ =
2
ωB
2 + σ2
ωB
W
Målinger på samme kanin har en tendens til at se
mere ens ud end målinger på forskellige kaniner.
Alle målinger på samme kanin ser lige ens ud. Denne
korrelationsstruktur kaldes compound symmetry (CS)
eller exchangeability.
Estimate
0.3304
0.5842
Typiske forskelle (95% prædiktionsintervaller):
Solution for Fixed Effects
Standard
Error
0.2670
DF t Value
5
27.59
d e pa rt m e n t o f b i o s tat i s t i c s
Andel af
Variation Varianskomponent Estimat variationen
2
Between
ωB
0.3304
36%
2
Within
σW
0.5842
64%
2
2
Total
ωB + σW
0.9146
100%
Covariance Parameter Estimates
Effect
Estimate
Intercept
7.3667
university of copenhagen
Fortolkning af varianskomponenter
proc mixed data=rabbit;
class rabbit;
model swelling = / s cl;
random rabbit;
run;
Lower
6.6803
Upper
8.0530
Sammenlignes med CI=(7.052, 7.682) fra tidligere:
At ignorere korrelationen fører her til en type 1 fejl,
nemlig for smalt CI.
23 / 99
d e pa rt m e n t o f b i o s tat i s t i c s
22 / 99
university of copenhagen
Cov Parm
rabbit
Residual
university of copenhagen
I
I
for to √
steder på den samme kanin
±2 × 2 × 0.5842 = ±2.16 cm 2
for to √
steder på forskellige kaniner
±2 × 2 × 0.9146 = ±2.70 cm 2
24 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Standard error på estimat for hævelse
For R=antal kaniner, fra 3 til 20:
For S=antal injektionssteder, fra 1 til 10:
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Den “effektive” sample size (teknisk)
Hvis vi kun havde en observation for hver af k kaniner, hvor mange
kaniner skulle vi så bruge til at få samme præcision?
k=
Her har vi ρ =
Var(ȳ) =
2
ωB
R
+
2
ωB
2
2
ωB +σW
=
R×S
1 + ρ(S − 1)
0.3304
0.3304+0.5842
= 0.361 ⇒ k = 12.8
Vi har altså, effektivt set, kun hvad der svarer til to uafhængige
observationer fra hver kanin!
2
σW
RS
25 / 99
26 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
Longitudinelle målinger
Pas på med gennemsnitskurver
Eksempel: Aspirin optagelse for raske og syge
(Matthews et.al.,1990)
fordi:
I
De kan skjule vigtige strukturer
I
De giver ingen fornemmelse for variationen mellem personer
Individuelle forløb bør altid tegnes
(men ikke nødvendigvis publiceres)
T-tests for hvert tidspunkt:
I
massesignifikansproblem
I
testene er ikke
uafhængige
I
27 / 99
fortolkning kan være
vanskelig
d e pa rt m e n t o f b i o s tat i s t i c s
Hvis tidsforløbene adskiller sig kvalitativt fra hinanden, (hvis de
ikke er rimeligt parallelle):
I
Tegn ikke gennemsnitskurver
I
Pas på med store altomfattende modeller
Alternativ:
Regn videre på individuelle karakteristika
28 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Individuelle tidsprofiler
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Analyse af udvalgte karakteristika
Spaghettiplot
Eksempelvis:
I
Endpoint (sidste måling), hældning
I
Maksimal værdi, toppunkt, og dettes placering
I
AUC, Arealet under kurven
Sådanne karakteristika sammenlignes med traditionelle metoder
Husk (som altid) konfidensintervaller
Har de samme facon allesammen?
Er gennemsnittet repræsentativt?
29 / 99
university of copenhagen
30 / 99
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
Fordele og ulemper ved de simple analyser
Eksempel: Calcium tilskud
Fordele:
til styrkelse af knogledannelse hos unge piger
I
simple (at forstå og forklare til andre)
I
for det meste simple at udføre
Ulemper:
I
Informationstab
I
Kræver et passende antal observationer pr. individ
I
Kræver et fornuftigt karakteristika
og ofte målinger på ens tidspunkter
I
Umuligt at inddrage tidsafhængige kovariater
I
Problemer med manglende værdier (missing values)
31 / 99
d e pa rt m e n t o f b i o s tat i s t i c s
I alt 112 11-årige piger randomiseres til at få
’tilskud’ i form af enten calcium eller placebo.
Observationer: Ygit (gruppe g, pige=individ i, visit=tid t)
Outcome: BMD=bone mineral density, i cmg 2 ,
måles 5 gange over 2 år (hvert halve år).
Det videnskabelige spørgsmål:
Kan et calciumtilskud øge knoglevæksten hos præ-pubertale piger?
og i givet fald - hvor meget?
32 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Gennemsnit for de 2 grupper
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Individuelle profiler
med konfidensgrænser (se Appendix, s. 99 for kode)
men er gennemsnitskurver rimeligt her? Ja....se næste side
33 / 99
university of copenhagen
34 / 99
d e pa rt m e n t o f b i o s tat i s t i c s
Simple analysemuligheder
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Simple sammenligninger
af hvert tidspunkt for sig:
Udvælg et (eller flere) karakteristika til sammenligning af
grupperne:
I
Gennemsnit for hvert tidspunkt
husk korrektion for massesignifikans
I
Ændringer for successive tidspunkter
husk korrektion for massesignifikans
I
Individuelle hældninger
Placebo
Calcium
Visit 1
Visit 2
Visit 3
Visit 4
Visit 5
0.870
0.880
0.890
0.903
0.914
0.938
0.942
0.965
0.958
0.988
Forskel
0.010
0.014
0.024
0.023
0.030
CI
(-0.013, 0.034)
(-0.013, 0.040)
(-0.003, 0.052)
(-0.006, 0.052)
(0.001, 0.058)
P-værdi
0.38
0.31
0.085
0.12
Med passende korrektion for massesignifikans er der
ingen forskel at spore
35 / 99
36 / 99
0.040
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Successive ændringer
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Individuelle linier for hver pige
fra et besøg til det næste, samt hele ændringen fra start til slut:
Visit 1-2
Visit 2-3
Visit 3-4
Visit 4-5
Visit 1-5
Placebo
Calcium
0.0200
0.0268
0.0241
0.0295
0.0263
0.0266
0.0164
0.0229
0.088
0.107
Forskel
CI
P-værdi
0.0068
(0, 0.0134)
0.047
0.0054
(-0.0011, 0.0119)
0.11
0.0003
(-0.056, 0.0062)
0.91
0.0065
(-0.0003, 0.0133)
0.061
0.019
(0.006, 0.032)
0.004
Scatterplot af hældninger vs. intercepter (niveau ved første besøg):
Alle disse ændringer er signifikante, for begge grupper, så
der er en effekt af tid (parrede T-test, i alt 8+2 stk)
og selv med korrektion er der også forskel på de to gruppers
ændring fra start til slut:
C-gruppen stiger mest hele tiden, (men det opdager vi ikke....)
Hældningerne i Calcium-gruppen (blå) ser ud til at være større....
37 / 99
38 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Resultater fra de individuelle regressioner
Gennemsnit og spredninger, af intercepts og hældninger:
Gruppe
Niveau ved 11 år
Hældning
P
C
0.8697 (0.0086)
0.8815 (0.0088)
0.0206 (0.0014)
0.0244 (0.0014)
Differens
0.0118 (0.0123)
0.0039 (0.0019)
0.34
0.050
P
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Struktur for Calcium-eksemplet
Level
1
2
enkeltobservationer
piger
Variation
indenfor piger
2
σW
mellem piger
2
ωB
Kovariater
x
visit, grp*visit
z
grp
Unit/Enhed
Hældningerne er på kanten af at være signifikant forskellige
Vi er specielt interesserede i within-kovariaten grp*visit,
fordi den udtrykker en forskel i mønsteret over tid.
39 / 99
40 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Analyse med proc mixed i SAS
Tilfældige effekter: i random-sætningen
proc mixed data=calcium;
class grp girl visit;
model bmd=grp visit grp*visit / ddfm=satterth s cl;
random girl(grp);
run;
I
Pigerne er nestet i grupperne,
det skrives girl(grp) i stedet for blot girl
I
ddfm=satterth kommenteres senere
(idet der dog af pladshensyn ikke er konfidensgrænser på
estimaterne på næste side....)
Cov Parm
Intercept
Residual
Subject
girl(grp)
Estimate
0.004439
0.000235
Type 3 Tests of Fixed Effects
Effect
grp
visit
grp*visit
Num
DF
1
4
4
Den
DF
110
382
382
F Value
2.63
619.42
5.30
Pr > F
0.1078
<.0001
0.0004
Analysen viser en hel klar interaktion grp*visit, dvs.
at der ikke er parallelle tidsforløb i de to grupper.
... hvis modellen altså er rimelig
41 / 99
42 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Output, fortsat
grp
C
P
C
C
C
C
C
P
P
P
P
P
visit
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
university of copenhagen
Figur af predikterede kurver
Solution for Fixed Effects
43 / 99
d e pa rt m e n t o f b i o s tat i s t i c s
og outputtet bliver:
Systematiske effekter: i model-sætning, som sædvanligt,
her begge som faktorer,
dvs. ingen bindinger på tidsudviklingen
Effect
Intercept
grp
grp
visit
visit
visit
visit
visit
grp*visit
grp*visit
grp*visit
grp*visit
grp*visit
grp*visit
grp*visit
grp*visit
grp*visit
grp*visit
university of copenhagen
Estimate
0.9576
0.02951
0
-0.08750
-0.06748
-0.04342
-0.01619
0
-0.01912
-0.01255
-0.00622
-0.00679
0
0
0
0
0
0
Standard
Error
0.009131
0.01304
.
0.003100
0.003103
0.003117
0.003148
.
0.004445
0.004448
0.004480
0.004517
.
.
.
.
.
.
DF
122
122
.
382
381
381
381
.
382
381
381
381
.
.
.
.
.
.
t Value
104.87
2.26
.
-28.22
-21.75
-13.93
-5.14
.
-4.30
-2.82
-1.39
-1.50
.
.
.
.
.
.
Pr > |t|
<.0001
0.0254
.
<.0001
<.0001
<.0001
<.0001
.
<.0001
0.0050
0.1661
0.1337
.
.
.
.
.
.
proc mixed data=calcium;
class grp girl visit;
model bmd=grp visit grp*visit /
outpm=predm outp=predi ddfm=satterth s cl;
random girl(grp);
run;
proc sgplot data=predm;
where person in (101,102);
/* vi tegner kun for 1 pige i hver gruppe */
series Y=Pred X=visit / group=grp;
run;
44 / 99
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Predikterede individuelle forløb
45 / 99
d e pa rt m e n t o f b i o s tat i s t i c s
Tekninsk detalje
ddfm=satterth (- eller kenwardrogers):
Når resultaterne er eksakte, ændrer det intet
I
i balancerede situationer
Når det er nødvendigt med approksimationer,
er det bedst at bruge en af disse to
I
I
i unbalancerede situationer,
dvs. for langt de fleste observationelle studier
hvis der er manglende værdier
I
Man får nogle underlige frihedsgrader, der ikke er hele tal
I
Beregningerne tager lidt længere tid,
men det vil I sikkert slet ikke lægge mærke til
I
Hvis man er i tvivl, bør man bruge dem!
(de skader ikke)
47 / 99
I
De predikterede forløb (2*5 estimerede middelværdier) er vist
s. 33 og 44
I
Vi fandt (s. 42) en signifikant interaktion grp*visit, dvs.
grupperne udvikler sig forskelligt over tid
I
På s. 43 ses, at forskellen på grupperne ved sluttidspunktet er
0.02951(0.01304) i C-gruppens favør
(aflæses ud for GRP C, da visit 5 er referencen)
og at dette er signifikant (P=0.0254)
I
Forskellen stiger over tid, hvilket også er forventeligt ved
kontinuerlig behandling
(ses ved, at alle grp*visit-estimaterne er negative)
46 / 99
university of copenhagen
I
d e pa rt m e n t o f b i o s tat i s t i c s
Foreløbig konklusion om calcium-eksemplet
som inkluderer de tilfældige niveauer for pigerne
(variablen Pred i datasættet predi, dannet s. 44):
I
university of copenhagen
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Modelkontrol
To typer residualer bør checkes:
De sædvanlige Observeret minus predikteret gruppe-middelværdi
(kun systematiske effekter)
De betingede Observeret minus predikteret individuel middelværdi
(systematiske og tilfældige effekter)
Vi ser på de sædvanlige tegninger:
I
Residualer plottet mod predikterede værdier
I
Histogram og fraktildiagram
Se figurerne s. 49 og 50, der fremkommer automatisk, når man
benytter ods graphics
48 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Modelkontrol, sædvanlige (store) residualer
Modelkontrol, betingede (små) residualer
49 / 99
50 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Fordeling af de tilfældige niveauer
proc mixed data=calcium;
class grp girl visit;
model bmd=grp visit grp*visit / ddfm=satterth s cl;
random girl(grp);
ods output solutionr=random_effects;
run;
university of copenhagen
Effekt af korrelerede observationer
Når korrelationen ignoreres, sker der følgende:
I
Level 1 kovariater (tidsrelaterede effekter):
Lav styrke (type 2 fejl):
Vi opdager ikke de effekter, der er der.
Her drejer det sig om grp*tid, samt (hvis denne ikke er med
i modellen) om selve tid
I
Level 2 kovariater (behandlinger, gruppe):
For små standard errors, og dermed for små P-værdier
(type 1 fejl):
Vi kommer til at finde effekter, der slet ikke er der.
Her er dette kun relevant i en model uden interaktion, hvor vi
evt. vil vurdere en generel forskel på grupperne (grp).
proc sgplot data=random_effects;
vbox Estimate / category=grp;
run;
Dette skal man ikke stole for meget på!
51 / 99
d e pa rt m e n t o f b i o s tat i s t i c s
52 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Fejlagtig analyse
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Synonymer for modellen s. 41-52
Tosidet ANOVA, korrelation ignoreret
proc glm data=calcium;
class grp visit;
model bmd=grp visit grp*visit / solution;
run;
Source
grp
visit
grp*visit
DF
1
4
4
Type III SS
0.05063714
0.64369784
0.00649557
Mean Square
0.05063714
0.16092446
0.00162389
F Value
11.05
35.10
0.35
Pr > F
0.0010
<.0001
0.8411
I
Two-level model
I
Varianskomponentmodel
I
Model med tilfældig person effekt
I
Model med tilfældige intercepter (niveauer)
I
Model med “compound symmetry” (eller “exchangeability”)
korrelationsstruktur
Her findes fejlagtigt ingen vekselvirkning,
da vi har “glemt” parringen
53 / 99
54 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Compound symmetry = Exchangeability
Varianskomponentmodellen antager, at alle målinger på samme
individ er lige stærkt korrelerede:
university of copenhagen
Korrelationsstruktur
5*5 korrelations-matrix, hvor
entry (i, j) angiver korrelationen mellem visit i og visit j.
Compound symmetry har strukturen:






ω2
Corr(Ygit1 , Ygit2 ) = ρ = 2 B 2
ωB + σW
Det betyder, at der slet ikke tages hensyn til, at observationerne er
taget over tid, altså i en bestemt rækkefølge!!
Observationerne er ombyttelige=exchangeable
55 / 99
d e pa rt m e n t o f b i o s tat i s t i c s

1 ρ ρ ρ ρ
ρ 1 ρ ρ ρ 

ρ ρ 1 ρ ρ 

ρ ρ ρ 1 ρ 
ρ ρ ρ ρ 1
som siger, at alle par er lige korrelerede.
Mere realistisk:
Observationer, der er foretaget tæt på hinanden i tid vil formentlig
være stærkere korrelerede end observationer, der tidsmæssigt ligger
længere fra hinanden (kommer senere).
56 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Estimation af korrelationen ρ
≈
til brug for senere generaliseringer
2
ωB
2 + σ2
ωB
W
random girl(grp);
0.004439
= 0.9497
0.004439 + 0.000235
random intercept / subject=girl(grp);
En så høj korrelation betyder, at den enkelte pige i høj grad
“holder sit niveau” i flokken
Bemærk, at dette er lettest, hvis pigerne er meget forskellige fra
starten
(den sædvanlige indvending overfor korrelation)
57 / 99
repeated visit / type=CS subject=girl(grp);
CS: Compund Symmetry
58 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
F.eks. specificeret ved CS:
university of copenhagen
proc mixed data=calcium;
class grp girl visit;
model bmd=grp visit grp*visit / ddfm=satterth s cl;
repeated visit / type=CS subject=girl(grp) rcorr;
run;
Covariance Parameter Estimates
Cov Parm
CS
Residual
59 / 99
Col2
0.9498
1.0000
0.9498
0.9498
0.9498
Col3
0.9498
0.9498
1.0000
0.9498
0.9498
Col4
0.9498
0.9498
0.9498
1.0000
0.9498
Subject
girl(grp)
Estimate
0.004439
0.000235
Fit Statistics
-2 Res Log Likelihood
Estimated R Correlation Matrix for girl(grp) 101 C
Col1
1.0000
0.9498
0.9498
0.9498
0.9498
d e pa rt m e n t o f b i o s tat i s t i c s
Mere output fra CS-modellen (som s. 42)
hvor vi kan få udskrevet estimatet for korrelationsmatricen ved
hjælp af option rcorr:
Row
1
2
3
4
5
d e pa rt m e n t o f b i o s tat i s t i c s
Alternative specifikationer af modellen
Korrelationen ρ estimeres direkte ud fra output s. 42
ρ = Corr(Ygdt1 , Ygdt2 ) =
university of copenhagen
-2188.8
<-----------bruges til
sammenligning af modeller
Type 3 Tests of Fixed Effects
Col5
0.9498
0.9498
0.9498
0.9498
1.0000
Effect
grp
visit
grp*visit
60 / 99
Num
DF
1
4
4
Den
DF
110
382
382
F Value
2.63
619.42
5.30
Pr > F
0.1078
<.0001
0.0004
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Valg af varians- og korrelationsstruktur?
Skal man vælge ustruktureret kovarians?
Ustruktureret:
helt uden bånd, både på korrelation og på de 5 spredninger, i alt
15 parametre, dog antaget ens i de to grupper
Fordele:
I MIXED specificeres dette som type=UN
Spredningsestimater:
Visit 1
0.0629
Visit 2
0.0688
Visit 3
0.0705
Visit 4
0.0730
Visit 5
0.0700
Col1
1.0000
0.9699
0.9414
0.9250
0.8987
Col2
0.9699
1.0000
0.9727
0.9585
0.9399
Col3
0.9414
0.9727
1.0000
0.9809
0.9592
Vi tvinger ikke en forkert kovariansstruktur ned over vores
observationer
I
Vi får indsigt i mønsteret i spredninger og korrelationer
(hvis der er tilstrækkelig information, dvs. mange personer og
ikke alt for mange tidspunkter)
Ulemper:
Korrelations struktur:
Row
1
2
3
4
5
I
Col4
0.9250
0.9585
0.9809
1.0000
0.9755
Col5
0.8987
0.9399
0.9592
0.9755
1.0000
61 / 99
university of copenhagen
I
Vi bruger en masse parametre på at beskrive kovariansen.
Resultatet kan derfor blive ustabilt, og
kan derfor ikke anvendes for små datasæt
I
Den kan kun bruges for balancerede data
(alle individer skal være målt til de samme tidspunkter)
så måske hellere noget “midt imellem”?
62 / 99
d e pa rt m e n t o f b i o s tat i s t i c s
Mulige korrelationsstrukturer
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Autoregressiv kovariansstruktur, AR(1)
Hvis tiderne er ækvidistante, er det følgende struktur

Der findes (forfærdeligt) mange muligheder
I
Autoregressive struktur
I
Autoregressive struktur, samtidig med den tilfældige effekt
(niveau) for hvert individ
I
Flere tilfældige effekter, f.eks. en tilfældig hældning
Random regression
I
Et væld af andre, prøv f.eks. at google
“sas mixed repeated type”


σ 


2

1 ρ ρ2 ρ3 ρ4
ρ 1 ρ ρ2 ρ3 


ρ2 ρ 1 ρ ρ2 

ρ3 ρ2 ρ 1 ρ 
ρ4 ρ3 ρ2 ρ 1
dvs. korrelationen falder som potenser af afstanden mellem
observationerne.
I MIXED specificeres dette som type=AR(1)
Hvis tiderne ikke er ækvidistante, bruger man SP(POW)(tid), svarende
til Corr(Ygit1 , Ygit2 ) = ρ|t1 −t2 |
63 / 99
64 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Autoregressiv korrelation
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Test af interaktionen grp*visit?
med overlejret tilfældigt niveau
– som funktion af afstanden mellem målingerne
for ρ = 0.1, . . . , 0.9
– for forskellige valg af kovariansstruktur
Kovarians struktur
Uafhængighed
Compound symmetry
CS Heterogen
Autoregressiv
(evt. med CS oveni)
Ustruktureret
Teststørrelse ∼ fordeling
P-værdi
5.30 ∼ F(4,382)
0.0004
0.35 ∼ F(4,491)
0.84
5.18 ∼ F(4,234)
0.0005
2.86 ∼ F(4,382)
0.023
2.72 ∼ F(4,107)
0.034
Altså ikke helt samme konklusion!
65 / 99
66 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Ny ide: Individuelle vækstrater?
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Stokastisk regression/Random regression
– en generalisering af ideen om tilfældigt niveau
Vi antager, at tidsudviklingen er lineær, men ikke helt lige stejl for
alle piger, dvs. vi indfører individuelle hældninger:
Lad Ygit være den observerede BMD for den i’te pige (i den g’te
gruppe) til tid t (t=1,· · · ,5). Vi specificerer modellen:
ygit = agi + bgi t + εgit ,
εgit ∼
2
)
N (0, σW
Vi lader godt nok hver pige
have
I
I
sit eget niveau agi
sin egen hældning bgi
altså en individuel linie for hver eneste pige, med intercept agi og
hældning bgi (se s. 34 og 38)
men...
67 / 99
68 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
... vi binder disse individuelle ’parametre’ (agi og bgi ) sammen med
en antagelse om Normalfordelingen (den todimensionale)
agi
bgi
!
αg
βg
∼ N2
!
,G
!
hvor G er en 2 × 2-matrix, der beskriver populationsvariationen
af linierne, dvs.
I
variationen mellem niveauerne
I
variationen mellem hældningerne
I
korrelationen mellem niveau og hældning
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Estimation i random regression
proc mixed data=calcium;
class grp girl;
model bmd=grp time time*grp / ddfm=satterth s cl;
random intercept time /
type=un subject=girl(grp) g vcorr;
estimate "forskel ved alder 13" grp 1 -1 grp*time 4 -4;
run;
Options:
g: Udskriv 2*2-matricen G
(sådan ca. svarende til figuren side 38)
vcorr: udskriv 5*5-korrelationsmatricen
Estimate-sætning:
Forskel på grupperne efter 4 halve år, dvs. til slut
69 / 99
70 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Dele af output
Dele af output,II
G-matricen, med tilhørende korrelationsmatrix:
Korrelationsmatricen for de 5 visits
Estimated G Matrix
Estimated V Correlation Matrix for girl(grp) 101 C
Row
1
2
Effect
Intercept
time
grp
C
C
girl
101
101
Col1
0.004105
3.733E-6
Col2
3.733E-6
0.000048
Estimated G Correlation Matrix
Row
1
2
Effect
grp
girl
Intercept
time
C
C
101
101
Row
1
2
3
4
5
Col1
1.0000
0.9660
0.9518
0.9300
0.9027
Col2
0.9660
1.0000
0.9677
0.9553
0.9364
Col3
0.9518
0.9677
1.0000
0.9700
0.9594
Col4
0.9300
0.9553
0.9700
1.0000
0.9725
Col5
0.9027
0.9364
0.9594
0.9725
1.0000
Spredninger ved de 5 visits
Col1
Col2
1.0000
0.008439
0.008439
1.0000
Type
Visit 1
Visit 2
Visit 3
Visit 4
Visit 5
Empirisk
Fittet
0.0629
0.0655
0.0688
0.0666
0.0705
0.0684
0.0730
0.0709
0.0700
0.0739
Stort set uafhængighed mellem intercepter og hældninger.
passer ikke helt godt....
71 / 99
72 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Dele af output, III
grp
C
P
C
P
Estimate
0.8471
0.007058
0
0.02242
0.004494
0
Label
forskel ved alder 13
Standard
Error
0.008645
0.01234
.
0.001098
0.001571
.
Estimate
0.02504
d e pa rt m e n t o f b i o s tat i s t i c s
Bemærk vedr. MIXED-notation
Solution for Fixed Effects
Effect
Intercept
grp
grp
time
time*grp
time*grp
university of copenhagen
DF
110
110
.
95.8
96.4
.
Standard
Error
0.01337
t Value
97.98
0.57
.
20.42
2.86
.
DF
109
Pr > |t|
<.0001
0.5685
.
<.0001
0.0052
.
t Value
1.87
Pr > |t|
0.0639
Vi finder en øget stigning i BMD på 0.0045(0.0016) g pr
halvår, når der gives calciumtilskud (forskellen på de to
hældninger).
cm3
pr
I
Der skal anvendes TYPE=UN i RANDOM-sætningen
for at tillade intercept og hældning en vilkårlig korrelation
I
Default option i RANDOM er TYPE=VC, der blot siger,
at der er tale om varianskomponenter med hver sin varians
I
Manglende TYPE=UN kan give konvergensproblemer,
samt helt uforståelige resultater
Her er der dog ikke den store sammenhæng
mellem intercept og hældning,
Korrelationen er her kun 0.0084, men her er interceptet (svarende
til visit=0) heller ikke langt væk fra resten.....
Estimeret fordel ved alder 13: 0.0250 (0.0134) g pr cm3
73 / 99
university of copenhagen
74 / 99
d e pa rt m e n t o f b i o s tat i s t i c s
Tidspunkt for de 5 visits
I
Der var (naturligvis) ikke præcis et halvt år mellem alle
successive målinger.
I
Pigerne var heller ikke præcis lige gamle ved start
university of copenhagen
De nye (faktiske) individuelle forløb
Hvad gør vi så?
Vi udregner en korrekt tid, eller snarere alder, og benytter denne i
stedet for visit i modellerne. Så kan vi
I
Stadig bruge CS-strukturen
I
Stadig bruge random regression
I
Ikke mere benytte UN-strukturen
I
Erstatte AR(1)-strukturen med SP(POW)(age), se side 64
75 / 99
76 / 99
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Random regression, med faktisk alder minus 11
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Output, fortsat
så nulpunktet er alder=11 år
proc mixed data=calcium;
class grp girl;
model bmd=grp age11 age11*grp / ddfm=satterth s outpm=predicted_mean;
random intercept age11 /
type=un subject=girl(grp) g vcorr;
estimate "forskel ved alder 13" grp 1 -1 grp*age11 2 -2;
run;
Solution for Fixed Effects
Effect
grp
Intercept
grp
grp
age11
age11*grp
age11*grp
C
P
C
P
Estimate
Standard
Error
DF
t Value
0.8667
0.01113
0
0.04529
0.008891
0
0.008688
0.01240
.
0.002152
0.003076
.
110
110
.
96
96.6
.
99.75
0.90
.
21.05
2.89
.
Estimated G Matrix
Row
1
2
Effect
Intercept
age11
grp
C
C
girl
101
101
Col1
0.004215
0.000095
Label
forskel ved alder 13
Col2
0.000095
0.000180
Col1
1.0000
0.9664
0.9537
0.9321
0.9056
Col2
0.9664
1.0000
0.9687
0.9566
0.9385
Col3
0.9537
0.9687
1.0000
0.9697
0.9590
Col4
0.9321
0.9566
0.9697
1.0000
0.9723
Col5
0.9056
0.9385
0.9590
0.9723
1.0000
DF
108
t Value
2.06
Pr > |t|
0.0416
Estimeret fordel ved alder 13: 0.0289 (0.0140) g pr cm3
77 / 99
78 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Sammenligning af hældninger
university of copenhagen
Kovarians
struktur
−2 log L
Kov.par.
Uafhængighed
-1245.0
Compound
Symmetry
d e pa rt m e n t o f b i o s tat i s t i c s
Resultater fra random regression
Group
Level at age 11
Slope
P
C
0.8667 (0.0087)
0.8778 (0.0088)
0.0453 (0.0022)
0.0542 (0.0022)
Difference
0.0111 (0.0124)
0.0089 (0.0031)
0.37
0.0048
i forskellige kovariansstrukturer
Differens
i hældning
P
1
0.0094 (0.0086)
0.27
-2251.7
2
0.0089 (0.0020)
< 0.0001
Autoregressiv
sp(pow)
-2372.0
2
0.0094 (0.0032)
0.0038
Random
Regression
-2350.1
4
0.0089 (0.0031)
0.0048
Sammenligning af modeller: −2 log L skal være lille,
dvs. et stort negativt tal
79 / 99
Standard
Error
0.01402
<.0001 /
0.3715----baseline forskel
.
\
<.0001 /
0.0048----forskel i slopes
.
\
I denne model kvantificerer vi effekten af calciumtilskud til
0.0089 (0.0031) g pr cm3 pr år.
Estimated V Correlation Matrix for girl(grp) 101 C
Row
1
2
3
4
5
Estimate
0.02891
Pr > |t|
P
Sammenlign med resultater fra de individuelle regressioner side 39
I
Hældningen er her ganget op med 2, da det er pr. helår
I
Hældningen er højere her (intercept lidt lavere), specielt for
C-gruppen. Hvorfor??
De med lave hældninger har generelt kortere forløb.
80 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Random regression = Stokastisk regression
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Predikterede forløb fra random regression
Fordele:
I
Bruger al forhåndenværende information
I
Optimal procedure hvis modellen holder
I
Let at inkludere kovariater
Ulemper:
I
Sværere at forstå og kommunikere videre
I
Biased i tilfælde af informative manglende værdier
f.eks. hvis piger med lav stigning konsekvent udgår af studiet
(den såkaldte “healthy worker” effekt)
Som vi tidligere har set, er der en vis forskel allerede fra starten
(ved baseline), selv om denne er insignifikant, (P=0.37).
Hvorfor ikke bare bruge individuelle linier?
(sværere, suboptimalt, somme tider umuligt, se s. 31)
Bør vi justere for baseline?
81 / 99
82 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Justering for baseline?
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Hypotetisk sammenligning af to grupper, I
uden hensyntagen til uens baselines
Vi diskuterede dette i forbindelse med “Ancova”:
I
Der skal ikke (nødvendigvis) justeres i tilfælde af
observationelle studier
I
Justering bør foretages,
hvis der er tale om randomiserede undersøgelser,
fordi vi vil sammenligne to personer, som starter med at være
ens, men som modtager forskellige behandlinger
83 / 99
I
Sandhed: Konstant forskel på de to behandlinger
I
Konklusion: Interaktion mellem tid og behandling
84 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Hypotetisk sammenligning af to grupper, II
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Hvordan korrigeres for baseline?
uden hensyntagen til ens baselines
I
Baseline inddrages som kovariat:
I
I
I
Middelværdierne i de to grupper sættes lig hinanden ved
starttidspunktet
I
I
I
Sandhed: Ingen behandlingseffekt
I
Konklusion: Konstant forskel på behandlingerne
85 / 99
ikke helt godt, fordi det svarer til at antage, at korrelationen
mellem baseline og hver af de efterfølgende observationer er
lige stærk
I så fald bør man nøjes med at se på endpont, altså alder 13
år, og så lave en kovariansanalyse
det fungerer nemt i “random regression”
men kræver lidt mere programmering, hvis tiden er en faktor,
fordi man så skal kode dummy variable for de enkelte
tidspunkter
86 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Random regression, med ens baseline
Med baseline som kovariat (ikke helt rimeligt)
Ungen grp i model-sætningen, dvs. ingen gruppeforskel ved
intercept = 11 år
Kun de 4 follow-up visits:
proc mixed data=calcium;
class grp girl;
model bmd=age11 grp*age11 / ddfm=satterth s;
random intercept age11 / type=un subject=girl(grp) g;
estimate "forskel ved alder 13" grp*age11 2 -2;
run;
Effect
Intercept
age11
age11*grp
age11*grp
grp
C
P
Estimate
0.8721
0.04534
0.008803
0
Label
forskel ved alder 13
Standard
Error
0.006193
0.002151
0.003074
.
Estimate
0.01761
Standard
Error
0.006149
DF
111
96.2
96.8
.
DF
96.8
t Value
140.84
21.08
2.86
.
t Value
2.86
Pr > |t|
<.0001
<.0001
0.0051
.
Pr > |t|
0.0051
Estimeret fordel ved alder 13: 0.0176 (0.0061) g pr cm3
87 / 99
proc mixed data=calcium; where visit>1;
class grp girl;
model bmd=baseline grp age11 grp*age11 / ddfm=satterth s;
random intercept age11 / type=un subject=girl(grp) g;
estimate "forskel ved alder 13" grp 1 -1 grp*age11 2 -2;
run;
Effect
Intercept
baseline
grp
grp
age11
age11*grp
age11*grp
grp
C
P
C
P
Estimate
-0.07369
1.0797
0.002441
0
0.04597
0.007419
0
Label
forskel ved alder 13
Standard
Error
0.02673
0.03054
0.004058
.
0.002287
0.003276
.
Estimate
0.01728
DF
103
102
103
.
93.1
93.2
.
Standard
Error
0.006236
t Value
-2.76
35.36
0.60
.
20.11
2.26
.
DF
101
Pr > |t|
0.0069
<.0001
0.5489
.
<.0001
0.0258
.
t Value
2.77
Pr > |t|
0.0067
Estimeret fordel ved alder 13: 0.0173 (0.0062) g pr cm3
88 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Effekt af at korrigere for baseline
Noget af (men ikke hele) forskellen mellem grupperne ved
alder 13 kan “bortforklares” ved, at grupperne har forskelligt
udgangspunkt (baseline værdi):
model s. 41-43
random regression(s.77 − 78)
ens baseline
med baseline som kovariat
I
d e pa rt m e n t o f b i o s tat i s t i c s
Variationskilder
Estimerede forskelle ved alder 13 år:
I
university of copenhagen
0.0295(0.0130)
0.0289(0.0140)
0.0176(0.0061)
0.0173(0.0062)
Samtidig forøges præcisionen af den estimerede forskel
(standard error bliver mindre)
1. Tilfældige/stokastiske/random effects:
2. Seriel korrelation (’korrelationsmønster’)
3. Målefejl
Forskellen bliver endda signifikant!
89 / 99
university of copenhagen
90 / 99
d e pa rt m e n t o f b i o s tat i s t i c s
SAS, PROC MIXED
I
model
beskriver den systematiske del af modellen
(middelværdistrukturen)
I
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Flere anvendelser af Mixed Models
I
Udnyttelse af alle observationer i en parret sammenligning
med manglende værdier
random
beskriver de tilfældige effekter
I
Cross-over studier, hvor forskellige behandlinger afprøves på
samme individ, i forskellig rækkefølge
I
repeated
beskriver den serielle korrelation over tid
I
Håndtering af flere forløb for hvert individ, f.eks. før og efter
en behandling, eller ved forskellig træning
I
local
tilføjer en ekstra målefejl
I
Adskillelse af individuelle effekter og populations-effekter
91 / 99
92 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Flere forløb for hvert individ
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Adskillelse af individuelle effekter og populations-effekt
I
To grupper af patienter
I
Hver patient undersøgt før og efter en
behandling/måltid/træning el.lign. (situation)
I
Målinger over tid (variabel konttid)
proc mixed data = test;
class grp situation patient tid;
model y = grp situation konttid
grp*situation grp*konttid
situation*konttid grp*situation*konttid;
random intercept / subject=patient(grp);
repeated / subject=patient*situation
type=sp(exp)(konttid) local;
run;
93 / 99
Eksempel: Læseevne, relateret til alder og kohorte
I
Folk læser bedre, når de får lidt træning (med alderen)
men
I
Ældre årgange læser dårligere
94 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
To kovariater, age1 og difage
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Forklaret variation i procent, R2
hhv alder ved første måling, samt tiden mellem de to målinger:
Vi har to (eller flere) forskellige varianser at forklare!
proc mixed data=reading;
class id;
model read=age1 difage / s;
random id;
run;
I
I
I
Covariance Parameter Estimates
Cov Parm
Estimate
id
245.35
Residual
27.0449
Effect
Intercept
age1
difage
95 / 99
Estimate
78.1267
-1.3615
0.8646
Standard
Error
19.1124
0.5722
0.3121
residualvariation (variation indenfor individer, within, σ 2 )
I
variation mellem individer between, ω 2
I
I
DF
4
5
5
t Value
4.09
-2.38
2.77
Pr > |t|
0.0150
0.0632
0.0394
falder, når vi inkluderer en vigtig x kovariat (level 1)
falder måske, når vi inkluderer en vigtig z kovariat (level 2)
falder, når vi inkluderer en vigtig z kovariat (level 2)
kan stige, når vi inkluderer en vigtig x kovariat (level 1)
Det har noget med confounding at gøre
96 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Tænkt eksempel A
Tænkt eksempel B
x’erne varierer mellem individer,
og gennemsnitligt outcome (ȳ) er derfor ret forskellige:
x’erne varierer mellem individer,
men gennemsnitligt outcome (ȳ) meget ens:
Niveauer af y, kontrolleret for x er næsten ens!
ω 2 falder når x medtages i modellen
Niveauer af y, kontrolleret for x er meget forskellige!
ω 2 stiger når x medtages i modellen
97 / 99
98 / 99
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Appendix: Programkode
Figur s. 33
ODS graphics on;
proc glimmix PLOTS=ALL data=calcium;
class grp girl visit;
model bmd=grp visit grp*visit / ddfm=satterth s;
random girl(grp);
lsmeans visit*grp
/ plots=(meanplot(join clband sliceby=grp));
run;
ODS graphics off;
99 / 99