Vejledende besvarelse af hjemmeopgave, forår 2015

Vejledende besvarelse af hjemmeopgave, forår 2015
En stikprøve bestående af 65 mænd og 65 kvinder er blevet undersøgt med
henblik på at se på en evt. sammenhæng mellem kropstemperatur og puls.
På hjemmesiden
http://staff.pubhealth.ku.dk/~lts/basal15_1/hjemmeopgave.html
ligger data fra de i alt 130 personer, med variablenavne
id: Personens løbenummer (observationsnummer)
gender: Personens køn (M: mand, K: kvinde)
bodytemp: Personens kropstemperatur (angivet i Fahrenheit)
heartrate: Personens puls (slag pr. minut)
Opgaven er at se på, om kropstemperatur og puls hænger sammen, samt om
der er nogle forskelle på kønnene, enten for hver af disse to variable, eller i
deres indbyrdes relation.
Vi starter med at indlæse data direkte fra hjemmesiden:
data a1;
infile "http://staff.pubhealth.ku.dk/~lts/basal/hjemmeopgave/hjemmeopgave.txt" URL firstobs=2;
input id gender$ bodytemp heartrate;
run;
hvorved vi har dannet datasættet med det korte navn a1.
1. Først skal vi se på pulsen blandt kvinderne:
(a) Udregn passende størrelser til beskrivelse af fordelingen af puls
blandt kvinderne, og suppler med en figur, der illustrerer denne
fordeling.
For at få medianen med, når vi bruger proc means; må vi skrive
lidt mere udførligt, hvad vi gerne vil se. Her har vi (foruden de
sædvanlige, altså gennemsnit, spredning, minimum og maximum)
valgt at udregne 25, 50 og 75% fraktilerne, idet medianen jo er
50% fraktilen.
1
Desuden vil vi gerne have et visuelt indtryk af fordelingen, fordi vi lige om lidt skal udregne et normalområde, så vi tilføjer et
sgplot til fremstilling af et histogram med overlejret normalfordelingstæthed:
proc means N mean P25 median P75 stddev min max;
class gender;
var heartrate;
run;
proc sgplot data=a1; where gender=’K’;
histogram heartrate;
density heartrate;
run;
The MEANS Procedure
Analysis Variable : heartrate
N
gender
Obs
N
Mean
25th Pctl
Median
75th Pctl
-------------------------------------------------------------------------K
65
65
74.1538462
68.0000000
76.0000000
80.0000000
M
65
65
73.3692308
70.0000000
73.0000000
78.0000000
-------------------------------------------------------------------------N
gender
Obs
Std Dev
Minimum
Maximum
----------------------------------------------------------K
65
8.1052274
57.0000000
89.0000000
M
65
5.8751841
58.0000000
86.0000000
-----------------------------------------------------------
Vi har brugt konstruktionen class gender; og får derfor oplysningerne for såvel mænd som kvinder, men vi fokuserer her alene
på kvinderne. Her ser vi, at gennemsnit og median er rimeligt
tæt på hinanden (faktisk ligger medianen højest, hvilket ikke er
helt almindeligt, idet det tyder på en fordeling med en hale mod
venstre). Til gengæld ligger 25- og 75% fraktilerne ikke helt symmetrisk omkring medianen, men snarere om gennemsnittet.
Histogrammet nedenfor viser også tendensen til hale mod venstre,
men det tilhørende fraktildiagram (som kommer ud fra T-testet i
spørgsmål 1c) ser faktisk ret nydeligt ud.
2
(b) Udregn et 95% normalområde for kvinders puls. Er det almindeligt
at støde på kvinder med en puls på 80?
Baseret på de ovenstående betragtninger vedrørende fordelingen,
ser det ikke helt skævt ud at udregne et normalområde baseret
på en normalfordelingsantagelse. Det er i hvert fald ikke muligt
at gøre andet, da en direkte udregning af 2.5% og 97.5% fraktiler
ville være for ustabil på så lille et datamateriale. Vi udregner derfor
efter formlen gennemsnit ± 2 SD og finder
74.154 ± 2 × 8.105 = (57.044, 90.364)
Det er således ganske almindeligt at træffe på kvinder med en
puls på 80 (hvilket selvfølgelig også ses direkte af histogrammet).
Faktisk så vi også ovenfor, at 75% fraktilen netop var 80, så der
er altså 25% af kvinderne, der har en puls, der ligger højere end 80.
(c) Nu er en stikprøve på 65 jo ikke alverden, men nok til at give et
skøn over middelværdien af puls i den kvindelige befolkning. Angiv
et estimat for denne, med 95% konfidensgrænser. Kan middelværdien tænkes at være 80?
Dette spørgsmål kunne besvares meget hurtigt ved at tilføje clm
i proc means ovenfor, men her benyttes en anden konstruktion,
nemlig et T-test til test af hypotesen om middelværdi 80, med
tilhørende plot, der illustrerer denne hypotese. Vi skriver
3
proc ttest h0=80 plots(showh0) data=a1; where gender=’K’;
var heartrate;
run;
og finder derved
The TTEST Procedure
Variable:
N
65
heartrate
Mean
74.1538
Mean
74.1538
DF
64
Std Dev
8.1052
Std Err
1.0053
95% CL Mean
72.1455 76.1622
t Value
-5.82
Std Dev
8.1052
Minimum
57.0000
Maximum
89.0000
95% CL Std Dev
6.9120
9.8003
Pr > |t|
<.0001
Bemærk, at T-testet for en gangs skyld ikke er et test for middelværdi 0, fordi vi eksplicit har bedt om at få testet hypotesen om,
at middelværdien er 80. Dette ses at blive forkastet med en meget
lille P-værdi (P < 0.0001). Svarende til dette har vi da også 95%
konfidensintervallet (72.15, 76.16), som klart ikke indeholder 80.
På den tilhørende figur nedenfor illustreres fordelingen, dels med
en overlejret normalfordelingskurve (den blå) og dels med en såkaldt kerneudglattet tæthed (den røde), der ses at afvige en anelse,
svarende til den tidligere konstaterede tendens til hale mod venstre.
Forneden på figuren ses desuden et boxplot af fordelingen (lyseblåt) samt konfidensintervallet for middelværdien (grønt). Hypoteseværdien 80 er markeret med en lodret streg, der ligger et godt
stykke væk fra konfidensintervallet.
Middelværdien af kvinders puls er således ikke 80, men derfor kan
der selvfølgelig sagtens være kvinder, der har en puls på 80, eller
endda væsentligt over. Det illustrerer forskellen på normalområde
(til beskrivelse af enkelt individer) og konfidensinterval (til angivelse af, hvor middelværdien befinder sig).
4
2. Er der evidens for en systematisk forskel i puls for mænd og kvinder?
Her er der lagt op til at sammenligne to gruppers middelværdier for
et kvantitativt outcome, dvs. et T-test. Vi har allerede set, at normalfordelingen ser fornuftig ud, og under alle omstændigheder er det ikke
specielt kritisk med denne antagelse, når vi bare skal sammenligne to
middelværdier. Vi udfører derfor et T-test til sammenligning af mænd
og kvinder:
proc ttest plots=all data=a1;
class gender;
var heartrate;
run;
og finder outputtet
The TTEST Procedure
Variable: heartrate
gender
K
M
Diff (1-2)
N
65
65
gender
K
M
Diff (1-2)
Diff (1-2)
Method
Mean
74.1538
73.3692
0.7846
Pooled
Satterthwaite
Std Dev
8.1052
5.8752
7.0786
Std Err
1.0053
0.7287
1.2417
Mean
74.1538
73.3692
0.7846
0.7846
5
Minimum
57.0000
58.0000
95% CL Mean
72.1455 76.1622
71.9134 74.8250
-1.6722
3.2415
-1.6745
3.2437
Maximum
89.0000
86.0000
Std Dev
8.1052
5.8752
7.0786
gender
K
M
Diff (1-2)
Diff (1-2)
Method
Pooled
Satterthwaite
Method
Pooled
Satterthwaite
Variances
Equal
Unequal
95% CL Std Dev
6.9120
9.8003
5.0103
7.1038
6.3075
8.0661
DF
128
116.7
t Value
0.63
0.63
Pr > |t|
0.5286
0.5287
Equality of Variances
Method
Folded F
Num DF
64
Den DF
64
F Value
1.90
Pr > F
0.0110
Vi bemærker, at der er en del mindre spredning i pulsfordelingen hos
mænd sammenlignet med kvinder. Dette ses enten af spredningsestimaterne (i T-testet ovenfor, hvor de tillige sammenlignes og findes signifikant forskellige med P=0.011) eller allerede i proc means fra spørgsmål
1. Vi benytter derfor linierne svarende til Satterthwaite og Unequal
og finder, at de to middelværdier ikke adskiller sig signifikant fra hinanden (P=0.53). Estimatet for differensen mellem disse middelværdier
(kvinder minus mænd) er 0.7846, med et 95% konfidensinterval på
(-1.6745, 3.2437).
6
(a) Hvad er P-værdien for test af nulhypotesen om ens middelværdier?
P = 0.53
(b) Angiv estimatet for forskellen på de to middelværdier, med 95%
konfidensgrænser.
0.7846 CI=(−1.6745, 3.2437)
3. Vi vil studere sammenhængen mellem puls og kropstemperatur, i første
omgang for kvinderne alene:
Det første, man bør gøre, når man skal se på effekten af en kvantitativ forklarende variabel (kropstemperatur) på en anden kvantitativ
variabel (puls), er at tegne. Her er valgt et scatterplot med en såkaldt
loess-kurve (en udglattet kurve til beskrivelse af sammenhængen mellem de to variable):
proc sgplot data=a1; where gender=’K’;
loess Y=heartrate X=bodytemp / smooth=1 group=gender;
run;
Ud fra den udglattede kurve synes der at være en vis sammenhæng
mellem de to variable, men om den er lineær er noget svært at bedømme. Det ser ud som om den knækker ved en kropstemparetur omkring
99◦ F, men dette tilsyneladende knæk er bestemt af ret få observationer.
7
(a) Under antagelse om en lineær effekt af kropstemperatur på puls
ønskes et estimat (med 95% konfidensgrænser) for den forventede
◦
puls for en kvinde med en kropstemperatur på 37 12 C.
Vi udfører nu den lineære regressionsanalyse, idet vi samtidig laver nogle modelkontrol plots samt udregner to ekstra estimater.
Det ene af disse er den forventede puls for en kvinde med en kro◦
pstemperatur på 37 12 C. For at indse dette, skal vi først omregne
◦
37 21 C til Fahrenheit. Dette gøres ved at gange med 9, dividere
med 5 og tilsidst lægge 32 til, altså 37.5 ∗ 9/5 + 32 = 99.5.
proc glm plots=DiagnosticsPanel data=a1; where gender=’K’;
class gender;
model heartrate=bodytemp / solution clparm;
estimate ’forventet ved 37 1/2 grad’ intercept 1 bodytemp 99.5;
estimate ’effekt af 1/2 grad’ bodytemp 0.9;
run;
Vi finder hermed outputtet:
The GLM Procedure
Dependent Variable: heartrate
Source
Model
Error
Corrected Total
R-Square
0.082329
Coeff Var
10.55345
DF
1
63
64
Sum of
Squares
346.151163
3858.310375
4204.461538
Root MSE
7.825792
Mean Square
346.151163
61.243022
Standard
Error
1.74939038
1.18415079
Estimate
77.6139141
2.8152152
Parameter
forventet ved 37 1/2 grad
effekt af 1/2 grad
95% Confidence Limits
74.1180364
81.1097918
0.4488787
5.1815517
Standard
Error
129.4626953
1.3157231
Estimate
-233.6237682
3.1280169
Parameter
Intercept
bodytemp
95% Confidence Limits
-492.3343209
25.0867845
0.4987541
5.7572797
8
Pr > F
0.0205
heartrate Mean
74.15385
Parameter
forventet ved 37 1/2 grad
effekt af 1/2 grad
Parameter
Intercept
bodytemp
F Value
5.65
t Value
-1.80
2.38
t Value
44.37
2.38
Pr > |t|
<.0001
0.0205
Pr > |t|
0.0759
0.0205
Vi bemærker, at der faktisk er en signifikant effekt af kropstemperatur på puls (P=0.02), og hældningen beskriver, at ved en stigning på 1◦ F vil pulsen forventeligt stige med 3.13 slag pr. minut.
◦
Den forventede puls for kvinder med en kropstemperatur på 37 12 C
ses at blive estimeret til 77.61, med konfidensgrænser (74.12, 81.11).
(b) Hvad er prediktionsgrænserne for kvinder med denne kropstemperatur? Sammenlign dette med normalområdet fra spm 1B.
Såvel konfidensgrænser for den estimerede linie, samt prediktionsgrænser illustreres af nedenstående figur.
Ved at benytte Root MSE=7.826 fra regressionsanalyse outputtet,
kan vi desuden udregne prediktionsgrænserne for kvinder med kro◦
pstemperatur 37 12 C til
77.614 ± 2 × 7.826 = (61.962, 93.266)
Sammenlignet med normalområdet fra spørgsmål 1B ses dette interval at ligge noget højere (fordi vi ser på kvinder med en høj
kropstemperatur), men også at det er en anelse smallere, hvilket
skyldes, at vi har forklaret noget af variationen i puls vha kropstemperaturen.
9
(c) Hvad er den forventede effekt på pulsen af en øgning i kropstem◦
peratur på 12 C?
Vi har umiddelbart estimatet for effekten af en øgning på 1◦ F,
◦
men vi skal i stedet finde effekten af 12 C=0.5 ∗ 9/5 = 0.9◦ F.
Vi kunne derfor blot gange hældningen (og det tilhørende konfidensinterval) med 0.9, men vi kunne også være dovne og bruge
estimate-sætningen, som vist ovenfor, hvorved det ses, at svaret
er en pulsøgning på 2.82 (0.449, 5.182).
(d) Er der nogen indflydelsesrige observationer, du ville kigge nærmere efter i sømmene?
På det diagnostiske plot nedenfor ses en figur af Cook’s D, plottet
mod observationsnummeret. Hvis vi vil have yderligere at vide, må
vi tilføje en sætning i vores regressionsanalyse
output out=ny cookd=cook;
og så efterfølgende f.eks. skrive
proc print data=ny; where cook>0.06;
run;
Herved ville man finde ud af, at den pågældende observation er
kvinde nr. 6 (i den originale nummerering), med en kropstemperatur på 97.4 og en puls på 57. Denne kvinde er farvet rød på scatterplottet ovenfor, og det er måske umiddelbart lidt overraskende,
at netop denne kvinde har den største indflydelse, da andre ligger
længere fra linien eller mere yderligt i kovariat-værdier. Men der
må være tale om en kombination af en lav puls og så det, at hendes
kropstempertaur samtidig befinder sig i et område, hvor der ikke
er så mange andre, og hver enkelt derfor får en større betydning.
Og faktisk er hendes indflydelse heller ikke så meget større end
adskillige af de øvriges.
10
4. Definer en dikotom variabel (en 0-1-variabel), der angiver, hvorvidt en
person har feber eller ej. Vi sætter grænsen for dette til 37◦ C.
Febergrænsen på 37◦ C giver 37 ∗ 9/5 + 32 = 98.6◦ F, og vi definerer nu
en ny variabel kaldet feber ved at tilføje sætningen
feber=(bodytemp>98.6);
inden det første run; i programmet.
Her kan det gøre en forskel, om man definerer folk lige på grænsen som
havende feber eller ej....
(a) Angiv hyppighederne af feber for hvert køn, med 95% konfidensgrænser. Ser de ens ud?
Med vores nye variable, der er et 1-tal for folk med feber, og et
0 for folk uden feber, kan vi nu danne en 2-gange-2 tabel, med
tilhørende associationsmål for feber og køn:
proc freq data=a1;
11
tables gender*feber
/ nopercent nocol expected chisq riskdiff relrisk;
run;
Herved får vi et ganske stort output, som her er beskåret noget:
The FREQ Procedure
Table of gender by feber
gender
feber
Frequency|
Expected |
Row Pct |
0|
1|
---------+--------+--------+
K
|
40 |
25 |
|
45.5 |
19.5 |
| 61.54 | 38.46 |
---------+--------+--------+
M
|
51 |
14 |
|
45.5 |
19.5 |
| 78.46 | 21.54 |
---------+--------+--------+
Total
91
39
Total
65
65
130
Statistics for Table of gender by feber
Statistic
DF
Value
Prob
-----------------------------------------------------Chi-Square
1
4.4322
0.0353
Likelihood Ratio Chi-Square
1
4.4780
0.0343
Continuity Adj. Chi-Square
1
3.6630
0.0556
Fisher’s Exact Test
---------------------------------Two-sided Pr <= P
0.0549
Statistics for Table of gender by feber
Column 2 Risk Estimates
(Asymptotic) 95%
(Exact) 95%
Risk
ASE
Confidence Limits
Confidence Limits
------------------------------------------------------------------------Row 1
0.3846
0.0603
0.2663
0.5029
0.2665
0.5136
Row 2
0.2154
0.0510
0.1154
0.3153
0.1231
0.3349
Total
0.3000
0.0402
0.2212
0.3788
0.2228
0.3866
Difference
0.1692
0.0790
0.0144
0.3241
Difference is (Row 1 - Row 2)
Estimates of the Relative Risk (Row1/Row2)
Type of Study
Value
95% Confidence Limits
----------------------------------------------------------------Case-Control (Odds Ratio)
0.4392
0.2025
0.9526
12
Cohort (Col1 Risk)
Cohort (Col2 Risk)
0.7843
1.7857
0.6228
1.0234
0.9877
3.1157
Sample Size = 130
Vi ser, at der er 38.46% af kvinderne, der har (let) feber, medens
der kun er 21.54% af mændene, der har det. Ud af 100 mænd
og 100 kvinder, vil vi altså umiddelbart forvente 38.46 − 21.54 =
16.92 ≈ 17 flere kvinder end mænd med let feber.
(b) Er der evidens for forskel på hyppigheden af let feber blandt mænd
og kvinder?
Tja, χ2 -testet giver P = 0.035, men Fishers eksakte test giver
P = 0.0549. Baseret på de foventede værdier, der alle er større
end 5, må vi godt bruge det approksimative χ2 -test, men når den
kontinuitetskorrigerede version af dette, samt Fishers eksakte test
ikke mener, at der er signifikant forskel, så ville jeg ikke satse mange penge på, at den var der.
(c) Angiv estimater (med 95% konfidensgrænser) for sammenligning
af de to frekvenser, udtrykt dels i form af differensen på febersandsynlighederne og dels i form af odds ratio og relativ risiko for
feber. Prøv så vidt muligt at formulere konklusionen i ord.
Differensen mellem feberhyppighederne (kvinder minus mænd) aflæses af Column 2 Risk Estimates ovenfor til at være 0.1692,
med 95% konfidensinterval (0.0144, 0.3241), altså ca. 17% (1.4%,
32.4%) Denne differens er allerede kommenteret ovenfor.
Hvis vi dividerer hyppigheden af feber blandt kvinder med den
tilsvarende hyppighed for mænd, har vi estimatet for den relative risiko for feber, for kvinder vs. mænd. Denne ses i afsnittet
Estimates of the Relative Risk (Row1/Row2) under
Cohort (Col2 Risk), og estimeres altså til 1.78, med 95% konfidensinterval på (1.02, 3.12) Vores bedste gæt er således, at feber
er 1.78 gange så hyppigt blandt kvinder i forhold til mænd, men
vi er ikke særligt sikre på dette estimat, da den sande værdi også
kunne tænkes at være helt ned til ca. 1.02 og op til 3.12, en ganske
betragtelig spændvidde.
13
Ratioen 1 ligger lige netop udenfor dette interval, svarende til, at
χ2 -testet gav en signifikant forskel på mænd og kvinder.
Vi kan også vælge at udtrykke forskellen som en odds ratio, men
denne ses at være angivet som 0.4392, altså mindre end 1. Det
er fordi den udtrykker odds for ikke at have feber for kvinder vs.
mænd, så for at få den til at være sammenlignelig med den relative risiko ovenfor, er vi nødt til at tage den inverse, altså lave
1
= 2.28, og tilsvarende for konfidensgrænserne
udregningen 0.4392
1
1
( 0.9526 , 0.2025 ) = (1.05, 4.94).
Odds for at en kvinde har let feber estimeres altså til at være mere
end dobbelt så stor som odds for en mand, men igen med ganske
brede konfidensgrænser.
(d) Kan der være tale om dobbelt så stor risiko for feber for det ene
køn?
Ja, det så vi ovenfor, idet konfidensintervallet for den relative risiko for feber for kvinder vs. mænd blev fundet til (1.02, 3.12). Der
kan altså snildt være en 3 gange så stor risiko for kvinder.
5. I spm 3 så vi på en lineær regression af puls på kropstemperatur for
kvinder, men vi skal nu se, om denne linie evt kunne tænkes at have et
knæk ved feber-grænsen 37◦ C:
Figuren med den udglattede loess-kurve tydede på en vis affladning,
eller måske et knæk.
(a) Konstruer en ekstra kovariat, der angiver graden af feber (dvs enten 0 eller kropstemperatur minus 37) og fit en lineær spline.
Vi har tidligere konstateret, at 37◦ C=98.6◦ F, og vi definerer derfor
den nye variabel over_feber ved at skrive
over_feber=feber*(bodytemp-98.6);
igen inden det første run; i programmet. Da feber er en 0-1variabel, vil over_feber være 0 for de, der ikke har feber (fordi
14
vi ganger med 0), men for dem med feber, ganger vi med et 1-tal,
dvs. så får vi værdien bodytemp-98.6, altså hvor mange ◦ F, man
ligger over febergrænsen.
Vi fitter nu den lineære spline (en “linie”, der knækker i 98.6◦ F)
ved at benytte såvel bodytemp som over_feber som forklarende
variable:
proc glm plots=all data=a1; by gender; where gender=’K’;
model heartrate=bodytemp over_feber / solution clparm;
estimate "forventet 37 1/2 grad" intercept 1 bodytemp 99.5 over_feber 0.9;
output out=pred p=forventet;
run;
I ovenstående kode har vi også tilføjet en estimate-sætning, samt
en output-sætning. Disse vil blive kommenteret senere. Der er også tilføjet to sætninger by gender; og where gender=’K’;. Vi
skal jo kun se på kvinderne, så egentlig ville where gender=’K’;
være tilstrækkeligt, men by gender; er medtaget for at få overskrift på outputtet, så man kan se, at der kun er tale om kvinderne.
Outputtet bliver:
gender=K
The GLM Procedure
Number of Observations Read
Number of Observations Used
65
65
Dependent Variable: heartrate
Source
Model
Error
Corrected Total
R-Square
0.113689
Coeff Var
10.45487
DF
2
62
64
Sum of
Squares
477.999905
3726.461634
4204.461538
Root MSE
7.752691
Mean Square
238.999952
60.104220
F Value
3.98
Pr > F
0.0237
heartrate Mean
74.15385
Source
bodytemp
over_feber
DF
1
1
Type I SS
346.1511633
131.8487415
Mean Square
346.1511633
131.8487415
F Value
5.76
2.19
Pr > F
0.0194
0.1436
Source
bodytemp
over_feber
DF
1
1
Type III SS
431.5005375
131.8487415
Mean Square
431.5005375
131.8487415
F Value
7.18
2.19
Pr > F
0.0094
0.1436
15
Standard
Error
2.05368433
Parameter
forventet 37 1/2 grad
Estimate
75.9819019
Parameter
forventet 37 1/2 grad
95% Confidence Limits
71.8766454
80.0871584
Standard
Error
198.3882385
2.0216981
3.9046700
Parameter
Intercept
bodytemp
over_feber
Estimate
-457.7993126
5.4169459
-5.7832219
Parameter
Intercept
bodytemp
over_feber
95% Confidence Limits
-854.3717507 -61.2268744
1.3756289
9.4582628
-13.5885461
2.0221024
t Value
37.00
t Value
-2.31
2.68
-1.48
Pr > |t|
<.0001
Pr > |t|
0.0244
0.0094
0.1436
(b) Hvad giver denne model som prediktion for pulsen hos en kvinde
◦
med kropstemperatur på 37 12 C? Sammenlign svaret med det fra
spørgsmål 3A.
Dette spørgsmål løses med den angivne estimate-sætning:
estimate "forventet 37 1/2 grad" intercept 1 bodytemp 99.5 over_feber 0.9;
◦
◦
idet kvinder med kropstemperatur på 37 12 C=99 12 F ligger 0.9◦ F
over febergrænsen på 98.6◦ F
Estimatet aflæses til 75.98, med 95% prediktionsgrænser, som udregnes ud fra Root MSE til
75.982 ± 2 × 7.753 = (60.476, 91.488)
I spørgsmål 3A (den simple lineære regression) fik vi dette prediktionsinterval til (61.962, 93.266). I modellen med den lineære
spline har vi altså flyttet grænserne lidt nedad, og gjort dem endnu en tak smallere (da vi har reduceret residualvariationen med
den ekstra forklarende variabel).
(c) Er der evidens for et knæk på linien, og i givet fald i hvilken retning?
16
Nej, der er ikke evidens for et knæk på linien, idet den ekstra forklarende variabel over_feber ikke er signifikant (P = 0.14).
Men selvfølgelig kan vi heller ikke udelukke et knæk, idet der jo
sagtens kunne være tale om en type 2 fejl. Hvis der er et knæk,
vil vi gætte på, at linien knækker til at blive mindre stejl, idet
koefficienten til over_feber estimeres til at være negativ.
Den estimerede sammenhæng mellem kropstemperatur og puls
kan illustreres ved at tegne de predikterede værdier af puls mod
kropstemperaturen. Derfor er der ovenfor dannet et nyt datasæt
(pred) ved at tilføje sætningen
output out=pred p=forventet;
Herefter kan vi tegne ved at skrive
proc sgplot data=pred;
series Y=forventet x=bodytemp;
run;
hvorved vi får figuren
der klart viser knækket nedad (som dog altså ikke er signifikant).
17
6. Vi skal nu sammenligne kropstemperaturen for mænd og kvinder:
Her er igen lagt op til en sammenligning af to grupper, og variablen
bodytemp er kvantitativ, så et T-test vil være det oplagte valg.
(a) Lav en passende illustration til at belyse en evt. forskel i kropstemperatur hos mænd og kvinder.
Her er brugt plottet fra det efterfølgende T-test, idet det på udmærket vis illustrerer fordelingerne, både med histogram, overlejrede tætheder og box plots.
(b) Er der evidens for forskel på middelværdierne for de to køn?
T-testet udføres:
proc ttest plots=all data=a1;
class gender;
var bodytemp;
run;
og giver outputtet
18
The TTEST Procedure
Variable: bodytemp
gender
K
M
Diff (1-2)
N
65
65
Mean
98.3938
98.1046
0.2892
gender
K
M
Diff (1-2)
Diff (1-2)
Method
gender
K
M
Diff (1-2)
Diff (1-2)
Method
Pooled
Satterthwaite
Pooled
Satterthwaite
Method
Pooled
Satterthwaite
Variances
Equal
Unequal
Std Dev
0.7435
0.6988
0.7215
Mean
98.3938
98.1046
0.2892
0.2892
Std Err
0.0922
0.0867
0.1266
Minimum
96.4000
96.3000
95% CL Mean
98.2096 98.5781
97.9315 98.2778
0.0388
0.5396
0.0388
0.5396
Maximum
100.8
99.5000
Std Dev
0.7435
0.6988
0.7215
95% CL Std Dev
0.6340
0.8990
0.5959
0.8449
0.6429
0.8221
DF
128
127.51
t Value
2.29
2.29
Pr > |t|
0.0239
0.0239
Equality of Variances
Method
Folded F
Num DF
64
Den DF
64
F Value
1.13
Pr > F
0.6211
Her ses spredningerne at være ret ens i de to grupper (P=0.62 for
test af identitet), men middelværdierne ser ikke ens ud (P=0.024),
idet kvinder har en noget højere kropstemperatur end mænd.
(c) Angiv estimatet (med 95% konfidensinterval) for forskellen i middelværdi for mænd vs. kvinder. Vil du vurdere denne forskel til
at være vigtig? Kan den tænkes at skævvride sammenligningen af
mænds og kvinders puls (fra spørgsmål 2B)? Forklar.
Forskellen i middelværdier ses at blive estimeret til 0.29◦ F, hvilket
ikke synes at være ret meget. Konfidensintervallet går fra 0.04◦ F
til 0.54◦ F. Omregnet til Celcius er dette en forskel på op til 0.3◦ C,
hvilket ville svare til en øgning i puls på ca. 1 21 slag pr. minut,
hvilket ikke ser vigtigt ud (men som faktisk er en hel del i forhold
til den ganske lille forskel, vi tidligere fandt på pulsen for mænd
og kvinder).
Men som altid skal man huske, at der er tale om to forskellige
spørgsmål, alt efter om man foretager den direkte sammenligning
19
af mænds og kvinders puls (som vi gjorde det i spm. 2) eller om
man justerer for kropstemperatur (som vi senere gør, når vi inddrager denne som kovariat i spm. 7).
7. Tegn nu pulsmålingen op mod målingen af kropstemperatur, med symboler svarende til køn og indlæg regressionslinier for hvert køn for sig.
Koden
proc sgplot data=a1;
reg Y=heartrate X=bodytemp / group=gender;
run;
giver figuren
der ikke viser nogen slående forskel på de to regressionslinier.
(a) Hvis vi antager samme effekt af kropstemperatur på puls for begge
køn, hvor stor er så den forventede øgning i puls ved en tempera◦
turstigning på 12 C. Er denne signifikant forskellig fra 0? Og hvor
stor er forskellen på kønnene, i sammenligning med resultatet fra
spørgsmål 2B?
20
En model, der antager, at effekten af kropstemperatur på puls er
den samme for begge køn, er en additiv model, altså en model uden
interaktion, med med såvel bodytemp som gender som forklarende
variable:
proc glm plots=all data=a1;
class gender;
model heartrate=bodytemp gender / solution clparm;
estimate ’forskel ved 37 1/2 grad’ gender 1 -1;
estimate ’effekt af 1/2 grad’ bodytemp 0.9;
run;
Vi får outputtet
The GLM Procedure
Class Level Information
Class
gender
Levels
2
Values
K M
Number of Observations Read
Number of Observations Used
130
130
The GLM Procedure
Dependent Variable: heartrate
Source
Model
Error
Corrected Total
R-Square
0.064374
Coeff Var
9.333547
DF
2
127
129
Sum of
Squares
414.153989
6019.453703
6433.607692
Root MSE
6.884568
Mean Square
207.076995
47.397273
F Value
4.37
Pr > F
0.0146
heartrate Mean
73.76154
Source
bodytemp
gender
DF
1
1
Type I SS
413.9484238
0.2055653
Mean Square
413.9484238
0.2055653
F Value
8.73
0.00
Pr > F
0.0037
0.9476
Source
bodytemp
gender
DF
1
1
Type III SS
394.1462968
0.2055653
Mean Square
394.1462968
0.2055653
F Value
8.32
0.00
Pr > F
0.0046
0.9476
Parameter
forskel ved 37 1/2 grad
effekt af 1/2 grad
Parameter
forskel ved 37 1/2 grad
effekt af 1/2 grad
Estimate
0.08113686
2.18901563
Standard
Error
1.23202625
0.75909620
95% Confidence Limits
-2.35682076
2.51909447
0.68690125
3.69113002
Standard
21
t Value
0.07
2.88
Pr > |t|
0.9476
0.0046
Parameter
Intercept
bodytemp
gender
K
gender
M
Estimate
-165.2446989 B
2.4322396
0.0811369 B
0.0000000 B
Error
82.74978455
0.84344022
1.23202625
.
Parameter
Intercept
bodytemp
gender
K
gender
M
95% Confidence Limits
-328.9915891
-1.4978087
0.7632236
4.1012556
-2.3568208
2.5190945
.
.
t Value
-2.00
2.88
0.07
.
Pr > |t|
0.0480
0.0046
0.9476
.
◦
Den forventede øgning i puls ved en temperaturstigning på 12 C
estimeres ved den sidste af de to estimate-sætninger til 2.189,
med konfidensinterval (0.687, 3.691), og tilhørende P-værdi P =
0.0046, altså signifikant forskellig fra 0. Der er altså stadig en signifikant effekt af kropstemperatur, selv om vi nu har medtaget
mændene, der ses at have en lidt fladere linie. Til gengæld har
det forøget antallet af observationer, og dermed medvirket til at
sænke P-værdien.
Da vi har at gøre med en additiv model, er forskellen på mænd
og kvinder antaget at være den samme for alle kropstemperaturer
(linierne er antaget at være parallelle). Derfor havde vi slet ikke
behøvet den første af de to estimate-sætninger, idet vi bare kunne
aflæse estimatet under "gender
K". Forskellen (kvinder minus
mænd) estimeres til 0.0811(−2.357, 2.519), P = 0.95. Der er altså
(stadig) ikke nogen signifikant forskel på mænd og kvinder, når
vi sammenligner nogle med samme kropstemperatur, og faktisk er
de to linier svære at skelne fra hinanden på plottet nedenfor.
22
(b) Er der evidens for, at relationen mellem kropstemperatur og puls
afhænger af, om man er mand eller kvinde?
Hvis effekten af kropstemperatur afhænger af, om man er mand
eller kvinde, har vi at gøre med interaktion. Så nu vil vi undersøge
om der er evidens for interaktion (mellem køn og kropstemperatur)
ved at inkludere leddet gender*bodytemp i model-sætningen:
proc glm plots=all data=a1;
class gender;
model heartrate=bodytemp gender gender*bodytemp / solution clparm;
estimate ’forskel ved 37 1/2 grad’ gender 1 -1 gender*bodytemp 99.5 -99.5;
run;
Herved får vi et masse output:
The GLM Procedure
Class Level Information
Class
gender
Levels
2
Values
K M
Number of Observations Read
Number of Observations Used
130
130
Dependent Variable: heartrate
Source
Model
Error
Corrected Total
R-Square
0.070049
Coeff Var
9.342046
Source
bodytemp
gender
bodytemp*gender
Parameter
forskel ved 37 1/2 grad
effekt af 1/2 grad
Parameter
forskel ved 37 1/2 grad
effekt af 1/2 grad
DF
3
126
129
Sum of
Squares
450.669897
5982.937795
6433.607692
Root MSE
6.890837
DF
1
1
1
Mean Square
377.9320645
36.4732525
36.5159083
Standard
Error
2.46211621
0.76125062
95% Confidence Limits
-2.92252170
6.82238950
0.64115272
3.65413793
Standard
23
F Value
3.16
Pr > F
0.0269
F Value
7.96
0.77
0.77
Pr > F
0.0056
0.3825
0.3822
heartrate Mean
73.76154
Type III SS
377.9320645
36.4732525
36.5159083
Estimate
1.94993390
2.14764532
Mean Square
150.223299
47.483633
t Value
-0.79
2.82
Pr > |t|
0.4299
0.0056
Parameter
Intercept
bodytemp
gender
gender
bodytemp*gender
bodytemp*gender
K
M
K
M
Estimate
-87.9665807
1.6445282
-145.6571876
0.0000000
1.4834887
0.0000000
Parameter
Intercept
bodytemp
gender
gender
bodytemp*gender
bodytemp*gender
B
B
B
B
B
B
Error
120.9363530
1.2326977
166.1944991
.
1.6916681
.
t Value
-0.73
1.33
-0.88
.
0.88
.
Pr > |t|
0.4683
0.1846
0.3825
.
0.3822
.
95% Confidence Limits
K
M
K
M
-327.2960679
-0.7949442
-474.5512154
.
-1.8642727
.
151.3629066
4.0840007
183.2368403
.
4.8312500
.
Testet for om interaktionen er 0 giver P = 0.38, så der er altså
her ingen evidens for, at de to liniers hældninger skulle være forskellige.
Vi bemærker dog (svarende til figuren med de to regresssionslinier), at linien svarende til kvinderne er 1.48 (slag pr. ◦ F) stejlere
end den for mændene, og den kunne faktisk være helt op til 4.83
stejlere....
(c) Hvad er den forventede forskel i puls på en mand og en kvinde med
◦
kropstemperatur på 37 21 C? Dette ønskes udregnet i to forskellige
modeller, nemlig med og uden interaktionen gender*bodytemp.
Kommenter forskellen på disse to (og evt. også svaret på spørgsmål 2B).
Vi har allerede udregnet dette estimat i den additive model ovenfor, men nu skal vi gøre det i interaktionsmodellen, hvilket er en hel
del sværere. Her har vi nemlig to forklarende variable i modellen,
der vedrører sammenligningen mellem mænd og kvinder, nemlig
dels gender i sig selv og dels interaktionen bodytemp*gender.
Vi benytter en (noget indviklet) estimate-sætning:
estimate ’forskel ved 37 1/2 grad’ gender -1 1 gender*bodytemp -99.5 99.5;
Parameter
forskel ved 37 1/2 grad
Estimate
1.94993390
24
Standard
Error
2.46211621
t Value
-0.79
Pr > |t|
0.4299
Parameter
forskel ved 37 1/2 grad
95% Confidence Limits
-2.92252170
6.82238950
Dette giver en estimeret forskel på kønnene (kvinder minus mænd)
på 1.95, med konfidensgrænser (-2.92, 6.82). Sammenlignet med
den additive model springer det først og fremmest i øjnene, at
intervallet er blevet meget bredere. Det skyldes, at vi har øget
usikkerheden på prediktionerne betragteligt ved at tillade to forskellige hældninger på linierne.
Vi sammenfatter de estimerede forskelle på kvinder og mænd (ved
◦
en kropstemperatur på 37 21 C) i en lille tabel:
Spørgsmål
2B
7A
7B
Estimeret forskel
0.78
0.08
1.95
25
Konfidensinterval
(-1.67, 3.24)
(-2.36, 2.52)
(-2.92, 6.82)