university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen Korrelerede målinger Faculty of Health Sciences Basal statistik Korrelerede målinger Lene Theil Skovgaard 10. november 2015 I Tilfældige effekter I Varianskomponentmodeller I Modeller for longitudinelle målinger I Korrelationsstrukturer I Baseline problematik Hjemmesider: http://biostat.ku.dk/~lts/basal15_2 E-mail: [email protected] 1 / 99 2 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s En gennemgående antagelse hidtil Uafhængighed I Ingen tvillinger/søskende ... I Kun en enkelt observation for hvert individ (unit) men i dag har vi flere for hvert individ, og vi må forvente, at observationer fra samme individ ser mere ens ud end observationer fra forskellige individer, de er korrelerede. university of copenhagen I Forkerte standard errors (for små eller for store) I Forkerte konfidensintervaller (for smalle eller for brede) I Forkerte konklusioner (type I eller type II fejl) d e pa rt m e n t o f b i o s tat i s t i c s Terminologi for korrelerede målinger I Multivariate responser (berøres ikke her): Forskellige outcomes (responser) på det samme individ, f.eks. en række hormonmålinger, der skal vurderes samlet. I Cluster design: Samme outcome (respons) målt på f.eks. alle individer i en række familier. I Repeated measurements / Gentagne målinger: Samme outcome (respons) målt i forskellige situationer (eller på forskellige steder) på samme individ. I Longitudinelle målinger: Samme outcome (respons) målt gentagne gange over tid for samme individ. Hvis korrelationen ignoreres, så laver man fejl: 3 / 99 d e pa rt m e n t o f b i o s tat i s t i c s 4 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Mixed models Tilfældige effekter To typer af generaliseringer: Variationskilder (varianskomponenter) I I I Repeated measurements/Cluster designs: Anova −→ Varianskomponentmodeller I I Longitudinelle målinger: Regression −→ Random regression I SAS: Proc Mixed Mix af systematiske og tilfældige (random) effekter 5 / 99 variation mellem arme, tænder, injektionssteder, (dage) variation, der skyldes ukontrollable forsøgsomstændigheder I I variation mellem individer, familier eller dyr variation mellem målinger på samme individ (within-individual) I I mellem regioner, hospitaler, skoler eller lande biologisk variation I Begge disse kaldes under et for Mixed Models university of copenhagen geografisk/miljømæssig variation tidspunkt på dagen, temperatur, observatør målefejl 6 / 99 d e pa rt m e n t o f b i o s tat i s t i c s Cluster design (hierarkisk design) university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Cluster design, med kovariater f.eks. skole (School), skole klasse (Class) og elev (Pupil) [I] = [S*C*P] −→ [S*C] −→ S 7 / 99 [S ∗ C ∗ P] ? Køn 8 / 99 - [S ∗ C ] ? Klassetrin - [S] ? Skoletype university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Eksempler på hierarkier level 1 individer individer elever tid → → → → → level 2 tvillingepar familier klasser patienter university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Et klassisk set-up → → → → → Gentagne målinger på samme individ evt. over tid. level 3 lande regioner skoler centre Vi skelner imellem forskellige typer af kovariater: Målinger, der ’hører sammen’ i samme cluster ser ens ud (er korrelerede) I Within-individuals kovariat (level 1): En kovariat, der varierer indenfor person, f.eks. tid, dosis, blodtryk Disse effekter estimeres svarende til en parret sammenligning. I Between-individuals kovariat (level 2): En kovariat, der ikke varierer indenfor person, men kun mellem personer, f.eks. behandling, køn, genotype Disse effekter estimeres svarende til en uparret sammenligning. Der er tilfældig variation (varianskomponenter) på alle niveauer (levels), og måske også kovariater Individer kunne også være clustre, såsom familier, hospitaler, klasser etc. 9 / 99 10 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Hvis man ignorerer korrelationen opstår der fejl I muligvis bias i middelværdistruktur I lav efficiens (type 2 fejl) ved vurdering af level 1 kovariater (within-individual effekter) I for små standard errors (type 1 fejl) for estimater af level 2 effekter (between-individual effekter) university of copenhagen Formål med “mixed effects” designs I At opnå større præcision ved vurdering af effekt af tid, dosis osv., ikke mindst interaktionen mellem tid og evt. behandling (udvikler de to grupper sig forskelligt?) I At opnå viden om den relative størrelse af de forskellige varianskomponenter, for derved i fremtidige undersøgelser at kunne bruge resourcerne der, hvor de er bedst anbragt, eksempelvis: I Det er altså vigtigt at medtage alle relevante variationskilder! 11 / 99 d e pa rt m e n t o f b i o s tat i s t i c s I 12 / 99 Hvor ofte skal man måle outcome? Skal man have data på mange børn i hver klasse, eller hellere mange klasser på hver skole? university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen Simpelt eksempel: Hævelse ved vaccination Scatter plot Eksperiment: 6 kaniner, hver især vaccineret 6 gange, forskellige steder på ryggen X-akse: Arbitrær nummerering af kaniner d e pa rt m e n t o f b i o s tat i s t i c s Outcome yrs : hævelse i cm2 , med notationen r= 1, · · · ,R=6 angiver kaninen (rabbit), s= 1, · · · ,S=6 angiver stedet (spot) Formål med undersøgelsen: I Giv et estimat for “overall mean” (between-individual effect) I Hvor mange gange kan kaninerne genbruges, altså hvor mange stik kan det svare sig at udføre pr. kanin? Vi har i alt 36 målinger af hævelse, men vi må forvente, at hævelse kan være specifikt for den enkelte kanin, således at nogle har tendens til stor hævelse, andre til mindre hævelse. 13 / 99 university of copenhagen 14 / 99 d e pa rt m e n t o f b i o s tat i s t i c s Naiv kvantificering af hævelse The MEANS Procedure Lower 95% Upper 95% Variable N Mean Std Dev Std Error CL for Mean CL for Mean --------------------------------------------------------------------------swelling 36 7.3666667 0.9313585 0.1552264 7.0515403 7.6817930 --------------------------------------------------------------------------- Hvad er der galt med denne kvantificering? Tænk, hvis alle målinger på samme kanin var helt ens? Så har vi jo i virkeligheden kun 6 observationer. Men de er jo ikke helt ens, hvad så? 15 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Naiv model (med hovedet under armen) I Hver kanin har et niveau (en middelværdi) I Herudover er der variation mellem indstikssteder I computer sprog: Kaninen er en faktor, analysen er en ensidet variansanalyse (ANOVA) proc glm data=rabbit; class rabbit; model swelling=rabbit / solution; run; 16 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Output fra den naive model Output fra den naive model, II The GLM Procedure Dependent Variable: swelling Parameter Source Model Error Corrected Total R-Square 0.422705 DF 5 30 35 Coeff Var 10.37571 Source rabbit DF 5 Sum of Squares 12.83333333 17.52666667 30.36000000 Root MSE 0.764344 Type III SS 12.83333333 Mean Square 2.56666667 0.58422222 F Value 4.39 Pr > F 0.0040 swelling Mean 7.366667 Mean Square 2.56666667 F Value 4.39 Intercept rabbit rabbit rabbit rabbit rabbit rabbit Estimate 1 2 3 4 5 6 7.516666667 -0.450000000 1.100000000 -0.433333333 -0.716666667 -0.400000000 0.000000000 B B B B B B B Standard Error t Value Pr > |t| 0.31204226 0.44129439 0.44129439 0.44129439 0.44129439 0.44129439 . 24.09 -1.02 2.49 -0.98 -1.62 -0.91 . <.0001 0.3160 0.0184 0.3340 0.1148 0.3719 . Men: Er det overhovedet interessant information? Pr > F 0.0040 Kaninerne har signifikant forskellige niveauer (P=0.0040) 17 / 99 I Vi er jo ikke interesserede i disse specifikke 6 kaniner, men snarere kaniner i al almindelighed, som art betragtet! Vi antager, at disse 6 kaniner er tilfældigt udvalgt 18 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Varianskomponentmodel Systematisk vs. tilfældig effekt? Vi vil i stedet se på en model, hvor forskellen på kaniner modelleres som en ekstra variationskilde: Systematisk =Fixed: I yrs = µ + ar + εrs hvor ar ’erne og εrs ’erne antages at være uafhængige, normalfordelte med 2, Var(ar )=ωB I 2 Var(εrs )=σW I Variationen mellem kaniner er nu en tilfældig effekt (random factor), I 2 og σ 2 er varianskomponenter, og ωB W modellen kaldes også en two-level model 19 / 99 20 / 99 Alle faktorens niveauer observeres (typisk kun et par stykker, f.eks. et antal behandlinger) Der kan kun drages konklusioner om netop disse behandlinger (ikke om andre ikke-benyttede behandlingstyper) Vi er interesserede i forskellen på de enkelte behandlinger Der skal være et rimeligt antal observationer for hvert niveau af faktoren (ikke for få i nogen behandlingsgrupper) university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Systematisk vs. tilfældig effekt?, fortsat Tilfældig =Random: I I I I En repræsentativ stikprøve (sample) af faktorniveauer er observeret f.eks. et antal patienter, skoleklasser etc. Vi er ikke interesserede i netop disse individer, skoleklasser, men vi ønsker at drage konklusioner udover de observerede værdier af faktoren, dvs. for andre patienter, andre skoleklasser, altså i al almindelighed Det er nødvendigt at lade faktoren være tilfældig, hvis der er kovariater hørende til dette level, f.eks. behandling, klassetrin...eller selve niveauet (af hævelsen) 21 / 99 d e pa rt m e n t o f b i o s tat i s t i c s Estimation i SAS Hvad indebærer denne varianskomponentmodel Alle observationer af hævelse har samme middelværdi og samme varians: 2 2 yrs ∼ N (µ, ωB + σW ) Men: Målinger foretaget på den samme kanin er korrelerede, med intra-class korrelationen Corr(yr1 , yr2 ) = ρ = 2 ωB 2 + σ2 ωB W Målinger på samme kanin har en tendens til at se mere ens ud end målinger på forskellige kaniner. Alle målinger på samme kanin ser lige ens ud. Denne korrelationsstruktur kaldes compound symmetry (CS) eller exchangeability. Estimate 0.3304 0.5842 Typiske forskelle (95% prædiktionsintervaller): Solution for Fixed Effects Standard Error 0.2670 DF t Value 5 27.59 d e pa rt m e n t o f b i o s tat i s t i c s Andel af Variation Varianskomponent Estimat variationen 2 Between ωB 0.3304 36% 2 Within σW 0.5842 64% 2 2 Total ωB + σW 0.9146 100% Covariance Parameter Estimates Effect Estimate Intercept 7.3667 university of copenhagen Fortolkning af varianskomponenter proc mixed data=rabbit; class rabbit; model swelling = / s cl; random rabbit; run; Lower 6.6803 Upper 8.0530 Sammenlignes med CI=(7.052, 7.682) fra tidligere: At ignorere korrelationen fører her til en type 1 fejl, nemlig for smalt CI. 23 / 99 d e pa rt m e n t o f b i o s tat i s t i c s 22 / 99 university of copenhagen Cov Parm rabbit Residual university of copenhagen I I for to √ steder på den samme kanin ±2 × 2 × 0.5842 = ±2.16 cm 2 for to √ steder på forskellige kaniner ±2 × 2 × 0.9146 = ±2.70 cm 2 24 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Standard error på estimat for hævelse For R=antal kaniner, fra 3 til 20: For S=antal injektionssteder, fra 1 til 10: university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Den “effektive” sample size (teknisk) Hvis vi kun havde en observation for hver af k kaniner, hvor mange kaniner skulle vi så bruge til at få samme præcision? k= Her har vi ρ = Var(ȳ) = 2 ωB R + 2 ωB 2 2 ωB +σW = R×S 1 + ρ(S − 1) 0.3304 0.3304+0.5842 = 0.361 ⇒ k = 12.8 Vi har altså, effektivt set, kun hvad der svarer til to uafhængige observationer fra hver kanin! 2 σW RS 25 / 99 26 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen Longitudinelle målinger Pas på med gennemsnitskurver Eksempel: Aspirin optagelse for raske og syge (Matthews et.al.,1990) fordi: I De kan skjule vigtige strukturer I De giver ingen fornemmelse for variationen mellem personer Individuelle forløb bør altid tegnes (men ikke nødvendigvis publiceres) T-tests for hvert tidspunkt: I massesignifikansproblem I testene er ikke uafhængige I 27 / 99 fortolkning kan være vanskelig d e pa rt m e n t o f b i o s tat i s t i c s Hvis tidsforløbene adskiller sig kvalitativt fra hinanden, (hvis de ikke er rimeligt parallelle): I Tegn ikke gennemsnitskurver I Pas på med store altomfattende modeller Alternativ: Regn videre på individuelle karakteristika 28 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Individuelle tidsprofiler university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Analyse af udvalgte karakteristika Spaghettiplot Eksempelvis: I Endpoint (sidste måling), hældning I Maksimal værdi, toppunkt, og dettes placering I AUC, Arealet under kurven Sådanne karakteristika sammenlignes med traditionelle metoder Husk (som altid) konfidensintervaller Har de samme facon allesammen? Er gennemsnittet repræsentativt? 29 / 99 university of copenhagen 30 / 99 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen Fordele og ulemper ved de simple analyser Eksempel: Calcium tilskud Fordele: til styrkelse af knogledannelse hos unge piger I simple (at forstå og forklare til andre) I for det meste simple at udføre Ulemper: I Informationstab I Kræver et passende antal observationer pr. individ I Kræver et fornuftigt karakteristika og ofte målinger på ens tidspunkter I Umuligt at inddrage tidsafhængige kovariater I Problemer med manglende værdier (missing values) 31 / 99 d e pa rt m e n t o f b i o s tat i s t i c s I alt 112 11-årige piger randomiseres til at få ’tilskud’ i form af enten calcium eller placebo. Observationer: Ygit (gruppe g, pige=individ i, visit=tid t) Outcome: BMD=bone mineral density, i cmg 2 , måles 5 gange over 2 år (hvert halve år). Det videnskabelige spørgsmål: Kan et calciumtilskud øge knoglevæksten hos præ-pubertale piger? og i givet fald - hvor meget? 32 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Gennemsnit for de 2 grupper university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Individuelle profiler med konfidensgrænser (se Appendix, s. 99 for kode) men er gennemsnitskurver rimeligt her? Ja....se næste side 33 / 99 university of copenhagen 34 / 99 d e pa rt m e n t o f b i o s tat i s t i c s Simple analysemuligheder university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Simple sammenligninger af hvert tidspunkt for sig: Udvælg et (eller flere) karakteristika til sammenligning af grupperne: I Gennemsnit for hvert tidspunkt husk korrektion for massesignifikans I Ændringer for successive tidspunkter husk korrektion for massesignifikans I Individuelle hældninger Placebo Calcium Visit 1 Visit 2 Visit 3 Visit 4 Visit 5 0.870 0.880 0.890 0.903 0.914 0.938 0.942 0.965 0.958 0.988 Forskel 0.010 0.014 0.024 0.023 0.030 CI (-0.013, 0.034) (-0.013, 0.040) (-0.003, 0.052) (-0.006, 0.052) (0.001, 0.058) P-værdi 0.38 0.31 0.085 0.12 Med passende korrektion for massesignifikans er der ingen forskel at spore 35 / 99 36 / 99 0.040 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Successive ændringer university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Individuelle linier for hver pige fra et besøg til det næste, samt hele ændringen fra start til slut: Visit 1-2 Visit 2-3 Visit 3-4 Visit 4-5 Visit 1-5 Placebo Calcium 0.0200 0.0268 0.0241 0.0295 0.0263 0.0266 0.0164 0.0229 0.088 0.107 Forskel CI P-værdi 0.0068 (0, 0.0134) 0.047 0.0054 (-0.0011, 0.0119) 0.11 0.0003 (-0.056, 0.0062) 0.91 0.0065 (-0.0003, 0.0133) 0.061 0.019 (0.006, 0.032) 0.004 Scatterplot af hældninger vs. intercepter (niveau ved første besøg): Alle disse ændringer er signifikante, for begge grupper, så der er en effekt af tid (parrede T-test, i alt 8+2 stk) og selv med korrektion er der også forskel på de to gruppers ændring fra start til slut: C-gruppen stiger mest hele tiden, (men det opdager vi ikke....) Hældningerne i Calcium-gruppen (blå) ser ud til at være større.... 37 / 99 38 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Resultater fra de individuelle regressioner Gennemsnit og spredninger, af intercepts og hældninger: Gruppe Niveau ved 11 år Hældning P C 0.8697 (0.0086) 0.8815 (0.0088) 0.0206 (0.0014) 0.0244 (0.0014) Differens 0.0118 (0.0123) 0.0039 (0.0019) 0.34 0.050 P university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Struktur for Calcium-eksemplet Level 1 2 enkeltobservationer piger Variation indenfor piger 2 σW mellem piger 2 ωB Kovariater x visit, grp*visit z grp Unit/Enhed Hældningerne er på kanten af at være signifikant forskellige Vi er specielt interesserede i within-kovariaten grp*visit, fordi den udtrykker en forskel i mønsteret over tid. 39 / 99 40 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Analyse med proc mixed i SAS Tilfældige effekter: i random-sætningen proc mixed data=calcium; class grp girl visit; model bmd=grp visit grp*visit / ddfm=satterth s cl; random girl(grp); run; I Pigerne er nestet i grupperne, det skrives girl(grp) i stedet for blot girl I ddfm=satterth kommenteres senere (idet der dog af pladshensyn ikke er konfidensgrænser på estimaterne på næste side....) Cov Parm Intercept Residual Subject girl(grp) Estimate 0.004439 0.000235 Type 3 Tests of Fixed Effects Effect grp visit grp*visit Num DF 1 4 4 Den DF 110 382 382 F Value 2.63 619.42 5.30 Pr > F 0.1078 <.0001 0.0004 Analysen viser en hel klar interaktion grp*visit, dvs. at der ikke er parallelle tidsforløb i de to grupper. ... hvis modellen altså er rimelig 41 / 99 42 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Output, fortsat grp C P C C C C C P P P P P visit 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 university of copenhagen Figur af predikterede kurver Solution for Fixed Effects 43 / 99 d e pa rt m e n t o f b i o s tat i s t i c s og outputtet bliver: Systematiske effekter: i model-sætning, som sædvanligt, her begge som faktorer, dvs. ingen bindinger på tidsudviklingen Effect Intercept grp grp visit visit visit visit visit grp*visit grp*visit grp*visit grp*visit grp*visit grp*visit grp*visit grp*visit grp*visit grp*visit university of copenhagen Estimate 0.9576 0.02951 0 -0.08750 -0.06748 -0.04342 -0.01619 0 -0.01912 -0.01255 -0.00622 -0.00679 0 0 0 0 0 0 Standard Error 0.009131 0.01304 . 0.003100 0.003103 0.003117 0.003148 . 0.004445 0.004448 0.004480 0.004517 . . . . . . DF 122 122 . 382 381 381 381 . 382 381 381 381 . . . . . . t Value 104.87 2.26 . -28.22 -21.75 -13.93 -5.14 . -4.30 -2.82 -1.39 -1.50 . . . . . . Pr > |t| <.0001 0.0254 . <.0001 <.0001 <.0001 <.0001 . <.0001 0.0050 0.1661 0.1337 . . . . . . proc mixed data=calcium; class grp girl visit; model bmd=grp visit grp*visit / outpm=predm outp=predi ddfm=satterth s cl; random girl(grp); run; proc sgplot data=predm; where person in (101,102); /* vi tegner kun for 1 pige i hver gruppe */ series Y=Pred X=visit / group=grp; run; 44 / 99 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Predikterede individuelle forløb 45 / 99 d e pa rt m e n t o f b i o s tat i s t i c s Tekninsk detalje ddfm=satterth (- eller kenwardrogers): Når resultaterne er eksakte, ændrer det intet I i balancerede situationer Når det er nødvendigt med approksimationer, er det bedst at bruge en af disse to I I i unbalancerede situationer, dvs. for langt de fleste observationelle studier hvis der er manglende værdier I Man får nogle underlige frihedsgrader, der ikke er hele tal I Beregningerne tager lidt længere tid, men det vil I sikkert slet ikke lægge mærke til I Hvis man er i tvivl, bør man bruge dem! (de skader ikke) 47 / 99 I De predikterede forløb (2*5 estimerede middelværdier) er vist s. 33 og 44 I Vi fandt (s. 42) en signifikant interaktion grp*visit, dvs. grupperne udvikler sig forskelligt over tid I På s. 43 ses, at forskellen på grupperne ved sluttidspunktet er 0.02951(0.01304) i C-gruppens favør (aflæses ud for GRP C, da visit 5 er referencen) og at dette er signifikant (P=0.0254) I Forskellen stiger over tid, hvilket også er forventeligt ved kontinuerlig behandling (ses ved, at alle grp*visit-estimaterne er negative) 46 / 99 university of copenhagen I d e pa rt m e n t o f b i o s tat i s t i c s Foreløbig konklusion om calcium-eksemplet som inkluderer de tilfældige niveauer for pigerne (variablen Pred i datasættet predi, dannet s. 44): I university of copenhagen university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Modelkontrol To typer residualer bør checkes: De sædvanlige Observeret minus predikteret gruppe-middelværdi (kun systematiske effekter) De betingede Observeret minus predikteret individuel middelværdi (systematiske og tilfældige effekter) Vi ser på de sædvanlige tegninger: I Residualer plottet mod predikterede værdier I Histogram og fraktildiagram Se figurerne s. 49 og 50, der fremkommer automatisk, når man benytter ods graphics 48 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Modelkontrol, sædvanlige (store) residualer Modelkontrol, betingede (små) residualer 49 / 99 50 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Fordeling af de tilfældige niveauer proc mixed data=calcium; class grp girl visit; model bmd=grp visit grp*visit / ddfm=satterth s cl; random girl(grp); ods output solutionr=random_effects; run; university of copenhagen Effekt af korrelerede observationer Når korrelationen ignoreres, sker der følgende: I Level 1 kovariater (tidsrelaterede effekter): Lav styrke (type 2 fejl): Vi opdager ikke de effekter, der er der. Her drejer det sig om grp*tid, samt (hvis denne ikke er med i modellen) om selve tid I Level 2 kovariater (behandlinger, gruppe): For små standard errors, og dermed for små P-værdier (type 1 fejl): Vi kommer til at finde effekter, der slet ikke er der. Her er dette kun relevant i en model uden interaktion, hvor vi evt. vil vurdere en generel forskel på grupperne (grp). proc sgplot data=random_effects; vbox Estimate / category=grp; run; Dette skal man ikke stole for meget på! 51 / 99 d e pa rt m e n t o f b i o s tat i s t i c s 52 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Fejlagtig analyse university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Synonymer for modellen s. 41-52 Tosidet ANOVA, korrelation ignoreret proc glm data=calcium; class grp visit; model bmd=grp visit grp*visit / solution; run; Source grp visit grp*visit DF 1 4 4 Type III SS 0.05063714 0.64369784 0.00649557 Mean Square 0.05063714 0.16092446 0.00162389 F Value 11.05 35.10 0.35 Pr > F 0.0010 <.0001 0.8411 I Two-level model I Varianskomponentmodel I Model med tilfældig person effekt I Model med tilfældige intercepter (niveauer) I Model med “compound symmetry” (eller “exchangeability”) korrelationsstruktur Her findes fejlagtigt ingen vekselvirkning, da vi har “glemt” parringen 53 / 99 54 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Compound symmetry = Exchangeability Varianskomponentmodellen antager, at alle målinger på samme individ er lige stærkt korrelerede: university of copenhagen Korrelationsstruktur 5*5 korrelations-matrix, hvor entry (i, j) angiver korrelationen mellem visit i og visit j. Compound symmetry har strukturen: ω2 Corr(Ygit1 , Ygit2 ) = ρ = 2 B 2 ωB + σW Det betyder, at der slet ikke tages hensyn til, at observationerne er taget over tid, altså i en bestemt rækkefølge!! Observationerne er ombyttelige=exchangeable 55 / 99 d e pa rt m e n t o f b i o s tat i s t i c s 1 ρ ρ ρ ρ ρ 1 ρ ρ ρ ρ ρ 1 ρ ρ ρ ρ ρ 1 ρ ρ ρ ρ ρ 1 som siger, at alle par er lige korrelerede. Mere realistisk: Observationer, der er foretaget tæt på hinanden i tid vil formentlig være stærkere korrelerede end observationer, der tidsmæssigt ligger længere fra hinanden (kommer senere). 56 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Estimation af korrelationen ρ ≈ til brug for senere generaliseringer 2 ωB 2 + σ2 ωB W random girl(grp); 0.004439 = 0.9497 0.004439 + 0.000235 random intercept / subject=girl(grp); En så høj korrelation betyder, at den enkelte pige i høj grad “holder sit niveau” i flokken Bemærk, at dette er lettest, hvis pigerne er meget forskellige fra starten (den sædvanlige indvending overfor korrelation) 57 / 99 repeated visit / type=CS subject=girl(grp); CS: Compund Symmetry 58 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s F.eks. specificeret ved CS: university of copenhagen proc mixed data=calcium; class grp girl visit; model bmd=grp visit grp*visit / ddfm=satterth s cl; repeated visit / type=CS subject=girl(grp) rcorr; run; Covariance Parameter Estimates Cov Parm CS Residual 59 / 99 Col2 0.9498 1.0000 0.9498 0.9498 0.9498 Col3 0.9498 0.9498 1.0000 0.9498 0.9498 Col4 0.9498 0.9498 0.9498 1.0000 0.9498 Subject girl(grp) Estimate 0.004439 0.000235 Fit Statistics -2 Res Log Likelihood Estimated R Correlation Matrix for girl(grp) 101 C Col1 1.0000 0.9498 0.9498 0.9498 0.9498 d e pa rt m e n t o f b i o s tat i s t i c s Mere output fra CS-modellen (som s. 42) hvor vi kan få udskrevet estimatet for korrelationsmatricen ved hjælp af option rcorr: Row 1 2 3 4 5 d e pa rt m e n t o f b i o s tat i s t i c s Alternative specifikationer af modellen Korrelationen ρ estimeres direkte ud fra output s. 42 ρ = Corr(Ygdt1 , Ygdt2 ) = university of copenhagen -2188.8 <-----------bruges til sammenligning af modeller Type 3 Tests of Fixed Effects Col5 0.9498 0.9498 0.9498 0.9498 1.0000 Effect grp visit grp*visit 60 / 99 Num DF 1 4 4 Den DF 110 382 382 F Value 2.63 619.42 5.30 Pr > F 0.1078 <.0001 0.0004 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Valg af varians- og korrelationsstruktur? Skal man vælge ustruktureret kovarians? Ustruktureret: helt uden bånd, både på korrelation og på de 5 spredninger, i alt 15 parametre, dog antaget ens i de to grupper Fordele: I MIXED specificeres dette som type=UN Spredningsestimater: Visit 1 0.0629 Visit 2 0.0688 Visit 3 0.0705 Visit 4 0.0730 Visit 5 0.0700 Col1 1.0000 0.9699 0.9414 0.9250 0.8987 Col2 0.9699 1.0000 0.9727 0.9585 0.9399 Col3 0.9414 0.9727 1.0000 0.9809 0.9592 Vi tvinger ikke en forkert kovariansstruktur ned over vores observationer I Vi får indsigt i mønsteret i spredninger og korrelationer (hvis der er tilstrækkelig information, dvs. mange personer og ikke alt for mange tidspunkter) Ulemper: Korrelations struktur: Row 1 2 3 4 5 I Col4 0.9250 0.9585 0.9809 1.0000 0.9755 Col5 0.8987 0.9399 0.9592 0.9755 1.0000 61 / 99 university of copenhagen I Vi bruger en masse parametre på at beskrive kovariansen. Resultatet kan derfor blive ustabilt, og kan derfor ikke anvendes for små datasæt I Den kan kun bruges for balancerede data (alle individer skal være målt til de samme tidspunkter) så måske hellere noget “midt imellem”? 62 / 99 d e pa rt m e n t o f b i o s tat i s t i c s Mulige korrelationsstrukturer university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Autoregressiv kovariansstruktur, AR(1) Hvis tiderne er ækvidistante, er det følgende struktur Der findes (forfærdeligt) mange muligheder I Autoregressive struktur I Autoregressive struktur, samtidig med den tilfældige effekt (niveau) for hvert individ I Flere tilfældige effekter, f.eks. en tilfældig hældning Random regression I Et væld af andre, prøv f.eks. at google “sas mixed repeated type” σ 2 1 ρ ρ2 ρ3 ρ4 ρ 1 ρ ρ2 ρ3 ρ2 ρ 1 ρ ρ2 ρ3 ρ2 ρ 1 ρ ρ4 ρ3 ρ2 ρ 1 dvs. korrelationen falder som potenser af afstanden mellem observationerne. I MIXED specificeres dette som type=AR(1) Hvis tiderne ikke er ækvidistante, bruger man SP(POW)(tid), svarende til Corr(Ygit1 , Ygit2 ) = ρ|t1 −t2 | 63 / 99 64 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Autoregressiv korrelation university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Test af interaktionen grp*visit? med overlejret tilfældigt niveau – som funktion af afstanden mellem målingerne for ρ = 0.1, . . . , 0.9 – for forskellige valg af kovariansstruktur Kovarians struktur Uafhængighed Compound symmetry CS Heterogen Autoregressiv (evt. med CS oveni) Ustruktureret Teststørrelse ∼ fordeling P-værdi 5.30 ∼ F(4,382) 0.0004 0.35 ∼ F(4,491) 0.84 5.18 ∼ F(4,234) 0.0005 2.86 ∼ F(4,382) 0.023 2.72 ∼ F(4,107) 0.034 Altså ikke helt samme konklusion! 65 / 99 66 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Ny ide: Individuelle vækstrater? university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Stokastisk regression/Random regression – en generalisering af ideen om tilfældigt niveau Vi antager, at tidsudviklingen er lineær, men ikke helt lige stejl for alle piger, dvs. vi indfører individuelle hældninger: Lad Ygit være den observerede BMD for den i’te pige (i den g’te gruppe) til tid t (t=1,· · · ,5). Vi specificerer modellen: ygit = agi + bgi t + εgit , εgit ∼ 2 ) N (0, σW Vi lader godt nok hver pige have I I sit eget niveau agi sin egen hældning bgi altså en individuel linie for hver eneste pige, med intercept agi og hældning bgi (se s. 34 og 38) men... 67 / 99 68 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s ... vi binder disse individuelle ’parametre’ (agi og bgi ) sammen med en antagelse om Normalfordelingen (den todimensionale) agi bgi ! αg βg ∼ N2 ! ,G ! hvor G er en 2 × 2-matrix, der beskriver populationsvariationen af linierne, dvs. I variationen mellem niveauerne I variationen mellem hældningerne I korrelationen mellem niveau og hældning university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Estimation i random regression proc mixed data=calcium; class grp girl; model bmd=grp time time*grp / ddfm=satterth s cl; random intercept time / type=un subject=girl(grp) g vcorr; estimate "forskel ved alder 13" grp 1 -1 grp*time 4 -4; run; Options: g: Udskriv 2*2-matricen G (sådan ca. svarende til figuren side 38) vcorr: udskriv 5*5-korrelationsmatricen Estimate-sætning: Forskel på grupperne efter 4 halve år, dvs. til slut 69 / 99 70 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Dele af output Dele af output,II G-matricen, med tilhørende korrelationsmatrix: Korrelationsmatricen for de 5 visits Estimated G Matrix Estimated V Correlation Matrix for girl(grp) 101 C Row 1 2 Effect Intercept time grp C C girl 101 101 Col1 0.004105 3.733E-6 Col2 3.733E-6 0.000048 Estimated G Correlation Matrix Row 1 2 Effect grp girl Intercept time C C 101 101 Row 1 2 3 4 5 Col1 1.0000 0.9660 0.9518 0.9300 0.9027 Col2 0.9660 1.0000 0.9677 0.9553 0.9364 Col3 0.9518 0.9677 1.0000 0.9700 0.9594 Col4 0.9300 0.9553 0.9700 1.0000 0.9725 Col5 0.9027 0.9364 0.9594 0.9725 1.0000 Spredninger ved de 5 visits Col1 Col2 1.0000 0.008439 0.008439 1.0000 Type Visit 1 Visit 2 Visit 3 Visit 4 Visit 5 Empirisk Fittet 0.0629 0.0655 0.0688 0.0666 0.0705 0.0684 0.0730 0.0709 0.0700 0.0739 Stort set uafhængighed mellem intercepter og hældninger. passer ikke helt godt.... 71 / 99 72 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Dele af output, III grp C P C P Estimate 0.8471 0.007058 0 0.02242 0.004494 0 Label forskel ved alder 13 Standard Error 0.008645 0.01234 . 0.001098 0.001571 . Estimate 0.02504 d e pa rt m e n t o f b i o s tat i s t i c s Bemærk vedr. MIXED-notation Solution for Fixed Effects Effect Intercept grp grp time time*grp time*grp university of copenhagen DF 110 110 . 95.8 96.4 . Standard Error 0.01337 t Value 97.98 0.57 . 20.42 2.86 . DF 109 Pr > |t| <.0001 0.5685 . <.0001 0.0052 . t Value 1.87 Pr > |t| 0.0639 Vi finder en øget stigning i BMD på 0.0045(0.0016) g pr halvår, når der gives calciumtilskud (forskellen på de to hældninger). cm3 pr I Der skal anvendes TYPE=UN i RANDOM-sætningen for at tillade intercept og hældning en vilkårlig korrelation I Default option i RANDOM er TYPE=VC, der blot siger, at der er tale om varianskomponenter med hver sin varians I Manglende TYPE=UN kan give konvergensproblemer, samt helt uforståelige resultater Her er der dog ikke den store sammenhæng mellem intercept og hældning, Korrelationen er her kun 0.0084, men her er interceptet (svarende til visit=0) heller ikke langt væk fra resten..... Estimeret fordel ved alder 13: 0.0250 (0.0134) g pr cm3 73 / 99 university of copenhagen 74 / 99 d e pa rt m e n t o f b i o s tat i s t i c s Tidspunkt for de 5 visits I Der var (naturligvis) ikke præcis et halvt år mellem alle successive målinger. I Pigerne var heller ikke præcis lige gamle ved start university of copenhagen De nye (faktiske) individuelle forløb Hvad gør vi så? Vi udregner en korrekt tid, eller snarere alder, og benytter denne i stedet for visit i modellerne. Så kan vi I Stadig bruge CS-strukturen I Stadig bruge random regression I Ikke mere benytte UN-strukturen I Erstatte AR(1)-strukturen med SP(POW)(age), se side 64 75 / 99 76 / 99 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Random regression, med faktisk alder minus 11 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Output, fortsat så nulpunktet er alder=11 år proc mixed data=calcium; class grp girl; model bmd=grp age11 age11*grp / ddfm=satterth s outpm=predicted_mean; random intercept age11 / type=un subject=girl(grp) g vcorr; estimate "forskel ved alder 13" grp 1 -1 grp*age11 2 -2; run; Solution for Fixed Effects Effect grp Intercept grp grp age11 age11*grp age11*grp C P C P Estimate Standard Error DF t Value 0.8667 0.01113 0 0.04529 0.008891 0 0.008688 0.01240 . 0.002152 0.003076 . 110 110 . 96 96.6 . 99.75 0.90 . 21.05 2.89 . Estimated G Matrix Row 1 2 Effect Intercept age11 grp C C girl 101 101 Col1 0.004215 0.000095 Label forskel ved alder 13 Col2 0.000095 0.000180 Col1 1.0000 0.9664 0.9537 0.9321 0.9056 Col2 0.9664 1.0000 0.9687 0.9566 0.9385 Col3 0.9537 0.9687 1.0000 0.9697 0.9590 Col4 0.9321 0.9566 0.9697 1.0000 0.9723 Col5 0.9056 0.9385 0.9590 0.9723 1.0000 DF 108 t Value 2.06 Pr > |t| 0.0416 Estimeret fordel ved alder 13: 0.0289 (0.0140) g pr cm3 77 / 99 78 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Sammenligning af hældninger university of copenhagen Kovarians struktur −2 log L Kov.par. Uafhængighed -1245.0 Compound Symmetry d e pa rt m e n t o f b i o s tat i s t i c s Resultater fra random regression Group Level at age 11 Slope P C 0.8667 (0.0087) 0.8778 (0.0088) 0.0453 (0.0022) 0.0542 (0.0022) Difference 0.0111 (0.0124) 0.0089 (0.0031) 0.37 0.0048 i forskellige kovariansstrukturer Differens i hældning P 1 0.0094 (0.0086) 0.27 -2251.7 2 0.0089 (0.0020) < 0.0001 Autoregressiv sp(pow) -2372.0 2 0.0094 (0.0032) 0.0038 Random Regression -2350.1 4 0.0089 (0.0031) 0.0048 Sammenligning af modeller: −2 log L skal være lille, dvs. et stort negativt tal 79 / 99 Standard Error 0.01402 <.0001 / 0.3715----baseline forskel . \ <.0001 / 0.0048----forskel i slopes . \ I denne model kvantificerer vi effekten af calciumtilskud til 0.0089 (0.0031) g pr cm3 pr år. Estimated V Correlation Matrix for girl(grp) 101 C Row 1 2 3 4 5 Estimate 0.02891 Pr > |t| P Sammenlign med resultater fra de individuelle regressioner side 39 I Hældningen er her ganget op med 2, da det er pr. helår I Hældningen er højere her (intercept lidt lavere), specielt for C-gruppen. Hvorfor?? De med lave hældninger har generelt kortere forløb. 80 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Random regression = Stokastisk regression university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Predikterede forløb fra random regression Fordele: I Bruger al forhåndenværende information I Optimal procedure hvis modellen holder I Let at inkludere kovariater Ulemper: I Sværere at forstå og kommunikere videre I Biased i tilfælde af informative manglende værdier f.eks. hvis piger med lav stigning konsekvent udgår af studiet (den såkaldte “healthy worker” effekt) Som vi tidligere har set, er der en vis forskel allerede fra starten (ved baseline), selv om denne er insignifikant, (P=0.37). Hvorfor ikke bare bruge individuelle linier? (sværere, suboptimalt, somme tider umuligt, se s. 31) Bør vi justere for baseline? 81 / 99 82 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Justering for baseline? university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Hypotetisk sammenligning af to grupper, I uden hensyntagen til uens baselines Vi diskuterede dette i forbindelse med “Ancova”: I Der skal ikke (nødvendigvis) justeres i tilfælde af observationelle studier I Justering bør foretages, hvis der er tale om randomiserede undersøgelser, fordi vi vil sammenligne to personer, som starter med at være ens, men som modtager forskellige behandlinger 83 / 99 I Sandhed: Konstant forskel på de to behandlinger I Konklusion: Interaktion mellem tid og behandling 84 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Hypotetisk sammenligning af to grupper, II university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Hvordan korrigeres for baseline? uden hensyntagen til ens baselines I Baseline inddrages som kovariat: I I I Middelværdierne i de to grupper sættes lig hinanden ved starttidspunktet I I I Sandhed: Ingen behandlingseffekt I Konklusion: Konstant forskel på behandlingerne 85 / 99 ikke helt godt, fordi det svarer til at antage, at korrelationen mellem baseline og hver af de efterfølgende observationer er lige stærk I så fald bør man nøjes med at se på endpont, altså alder 13 år, og så lave en kovariansanalyse det fungerer nemt i “random regression” men kræver lidt mere programmering, hvis tiden er en faktor, fordi man så skal kode dummy variable for de enkelte tidspunkter 86 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Random regression, med ens baseline Med baseline som kovariat (ikke helt rimeligt) Ungen grp i model-sætningen, dvs. ingen gruppeforskel ved intercept = 11 år Kun de 4 follow-up visits: proc mixed data=calcium; class grp girl; model bmd=age11 grp*age11 / ddfm=satterth s; random intercept age11 / type=un subject=girl(grp) g; estimate "forskel ved alder 13" grp*age11 2 -2; run; Effect Intercept age11 age11*grp age11*grp grp C P Estimate 0.8721 0.04534 0.008803 0 Label forskel ved alder 13 Standard Error 0.006193 0.002151 0.003074 . Estimate 0.01761 Standard Error 0.006149 DF 111 96.2 96.8 . DF 96.8 t Value 140.84 21.08 2.86 . t Value 2.86 Pr > |t| <.0001 <.0001 0.0051 . Pr > |t| 0.0051 Estimeret fordel ved alder 13: 0.0176 (0.0061) g pr cm3 87 / 99 proc mixed data=calcium; where visit>1; class grp girl; model bmd=baseline grp age11 grp*age11 / ddfm=satterth s; random intercept age11 / type=un subject=girl(grp) g; estimate "forskel ved alder 13" grp 1 -1 grp*age11 2 -2; run; Effect Intercept baseline grp grp age11 age11*grp age11*grp grp C P C P Estimate -0.07369 1.0797 0.002441 0 0.04597 0.007419 0 Label forskel ved alder 13 Standard Error 0.02673 0.03054 0.004058 . 0.002287 0.003276 . Estimate 0.01728 DF 103 102 103 . 93.1 93.2 . Standard Error 0.006236 t Value -2.76 35.36 0.60 . 20.11 2.26 . DF 101 Pr > |t| 0.0069 <.0001 0.5489 . <.0001 0.0258 . t Value 2.77 Pr > |t| 0.0067 Estimeret fordel ved alder 13: 0.0173 (0.0062) g pr cm3 88 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Effekt af at korrigere for baseline Noget af (men ikke hele) forskellen mellem grupperne ved alder 13 kan “bortforklares” ved, at grupperne har forskelligt udgangspunkt (baseline værdi): model s. 41-43 random regression(s.77 − 78) ens baseline med baseline som kovariat I d e pa rt m e n t o f b i o s tat i s t i c s Variationskilder Estimerede forskelle ved alder 13 år: I university of copenhagen 0.0295(0.0130) 0.0289(0.0140) 0.0176(0.0061) 0.0173(0.0062) Samtidig forøges præcisionen af den estimerede forskel (standard error bliver mindre) 1. Tilfældige/stokastiske/random effects: 2. Seriel korrelation (’korrelationsmønster’) 3. Målefejl Forskellen bliver endda signifikant! 89 / 99 university of copenhagen 90 / 99 d e pa rt m e n t o f b i o s tat i s t i c s SAS, PROC MIXED I model beskriver den systematiske del af modellen (middelværdistrukturen) I university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Flere anvendelser af Mixed Models I Udnyttelse af alle observationer i en parret sammenligning med manglende værdier random beskriver de tilfældige effekter I Cross-over studier, hvor forskellige behandlinger afprøves på samme individ, i forskellig rækkefølge I repeated beskriver den serielle korrelation over tid I Håndtering af flere forløb for hvert individ, f.eks. før og efter en behandling, eller ved forskellig træning I local tilføjer en ekstra målefejl I Adskillelse af individuelle effekter og populations-effekter 91 / 99 92 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Flere forløb for hvert individ university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Adskillelse af individuelle effekter og populations-effekt I To grupper af patienter I Hver patient undersøgt før og efter en behandling/måltid/træning el.lign. (situation) I Målinger over tid (variabel konttid) proc mixed data = test; class grp situation patient tid; model y = grp situation konttid grp*situation grp*konttid situation*konttid grp*situation*konttid; random intercept / subject=patient(grp); repeated / subject=patient*situation type=sp(exp)(konttid) local; run; 93 / 99 Eksempel: Læseevne, relateret til alder og kohorte I Folk læser bedre, når de får lidt træning (med alderen) men I Ældre årgange læser dårligere 94 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s To kovariater, age1 og difage university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Forklaret variation i procent, R2 hhv alder ved første måling, samt tiden mellem de to målinger: Vi har to (eller flere) forskellige varianser at forklare! proc mixed data=reading; class id; model read=age1 difage / s; random id; run; I I I Covariance Parameter Estimates Cov Parm Estimate id 245.35 Residual 27.0449 Effect Intercept age1 difage 95 / 99 Estimate 78.1267 -1.3615 0.8646 Standard Error 19.1124 0.5722 0.3121 residualvariation (variation indenfor individer, within, σ 2 ) I variation mellem individer between, ω 2 I I DF 4 5 5 t Value 4.09 -2.38 2.77 Pr > |t| 0.0150 0.0632 0.0394 falder, når vi inkluderer en vigtig x kovariat (level 1) falder måske, når vi inkluderer en vigtig z kovariat (level 2) falder, når vi inkluderer en vigtig z kovariat (level 2) kan stige, når vi inkluderer en vigtig x kovariat (level 1) Det har noget med confounding at gøre 96 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Tænkt eksempel A Tænkt eksempel B x’erne varierer mellem individer, og gennemsnitligt outcome (ȳ) er derfor ret forskellige: x’erne varierer mellem individer, men gennemsnitligt outcome (ȳ) meget ens: Niveauer af y, kontrolleret for x er næsten ens! ω 2 falder når x medtages i modellen Niveauer af y, kontrolleret for x er meget forskellige! ω 2 stiger når x medtages i modellen 97 / 99 98 / 99 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Appendix: Programkode Figur s. 33 ODS graphics on; proc glimmix PLOTS=ALL data=calcium; class grp girl visit; model bmd=grp visit grp*visit / ddfm=satterth s; random girl(grp); lsmeans visit*grp / plots=(meanplot(join clband sliceby=grp)); run; ODS graphics off; 99 / 99
© Copyright 2024