Download Report

Løsningsforsalg til andre sett med obligatoriske
oppgaver i STK1110 høsten 2015
R-kode for alle oppgaver er gitt bakerst.
Oppgave 1
(a) Boksplottet antyder at verdiene er høyere for kvinner enn for menn.
(b) QQ-plot antyder at normalfordeling er ganske rimlig, selv om noen av de høye verdiene er litt for høye (litt for tung hale til høyere). Det er dog veldig få målinger, noe
som gjør det vanskelig å si om det er et veldig avvik.
(c) Vi har at
T =
X̄ − Ȳ − (µX − µY )
q
Sp2 m1 + n1
er t-fordelt med m + n − 2 frihetsgrader. Dermed kan vi bruke T med µX − µY = 0 for
å teste H0 : µX = µY og forkaste H0 hvis den observerte T er større enn t0.025;m+n−2
i absoluttverdi. Tilsvarende kan vi bruke at
Pr(−t0.025;m+n−2 <
X̄ − Ȳ − (µX − µY )
q
< t0.025;m+n−2 ) = 0.95
Sp2 m1 + n1
q
for å vise at X̄ −Ȳ ±t0.025;m+n−2 Sp2 m1 + n1 er et 95% konfidensintervall for µX −µY .
Bruker vi direkte t.test funksjonen i R, får vi
Two Sample t−t e s t
data : x and y
t = −2.5901 , df = 1 8 , p−v a l u e = 0 . 0 1 8 4 8
a l t e r n a t i v e h y p o t h e s i s : t r u e d i f f e r e n c e i n means i s not equal t o 0
95 p e r c e n t c o n f i d e n c e i n t e r v a l :
−0.59767869 −0.06232131
sample e s t i m a t e s :
mean o f x mean o f y
36.60
36.93
som da gir at vi forkaster H0 på 5% signifikansnivå. vi får også et 95% konfidensintervall som er lik [−0.59767869 − 0.06232131].
(d) I dette tilfellet må vi bruke at Vi har at
T =
X̄ − Ȳ − (µX − µY )
q
S12
S2
+ n2
m
1
er tilnærmet t-fordelt med ν frihetsgrader (der ν er gitt ved formelen på side 499
i boka). Dermed kan vi bruke T med µX − µY = 0 for å teste H0 : µX = µY og
forkaste H0 hvis den observerte T er større enn t0.025;ν i absoluttverdi. Tilsvarende
kan vi bruke at
Pr(−t0.025;ν <
X̄ − Ȳ − (µX − µY )
q
< t0.025;ν ) = 0.95
S12
S22
+ n
m
q
S2
S2
for å vise at X̄ − Ȳ ± t0.025;ν m1 + n2 < t0.025;ν er et 95% konfidensintervall for
µX − µY . Bruker vi direkte t.test funksjonen i R, får vi
Welch Two Sample t−t e s t
data : x and y
t = −2.5901 , df = 1 7 . 7 3 4 , p−v a l u e = 0 . 0 1 8 6 3
a l t e r n a t i v e h y p o t h e s i s : t r u e d i f f e r e n c e i n means i s not equal t o 0
95 p e r c e n t c o n f i d e n c e i n t e r v a l :
−0.59796699 −0.06203301
sample e s t i m a t e s :
mean o f x mean o f y
36.60
36.93
som da gir at vi forkaster H0 på 5% signifikansnivå. vi får også et 95% konfidensintervall som er lik [−0.59767869 − 0.06232131].
(e) Vi har at
F =
S12
2
σX
S22
2
σY
=
(m−1)S12
2 (m−1)
σX
(n−1)S22
2 (n−1)
σY
er F -fordelt med m − 1 og n − 1 frihetsgrader. Dette følger av proposisjon på side
320 i boka, at de to utvalgene er uavhengige samt definisjonen av F -fordelingen. En
utskrift av var.test() i R gir
F t e s t t o compare two v a r i a n c e s
data : x and y
F = 1 . 2 7 9 3 , num df = 9 , denom df = 9 , p−v a l u e = 0 . 7 1 9 7
a l t e r n a t i v e h y p o t h e s i s : t r u e r a t i o o f v a r i a n c e s i s not equal t o 1
95 p e r c e n t c o n f i d e n c e i n t e r v a l :
0.3177479 5.1502577
sample e s t i m a t e s :
ratio of variances
1.279251
2
2
som ikke gir noen grunn til å forkaste H0 : σX
= σY2 . Dette gir også en forklaring på
hvorfor vi får så like resultater i (c) og (d).
(f ) Vi har at
E[X11 − Y11 ] = µX − µY
som kan estimeres ved x̄ − ȳ. Videre er
uavh
V [X11 − Y11 − (X̄ − Ȳ )] = = V [X11 ] + V [Y11 ] + V [X̄] + V [Ȳ ]
2
2
=σX
+ σY2 + m−1 σX
+ n−1 σY2
= [2 + m−1 + n−1 ]σ 2
Vi har da at
T =
X11 − Y11 − (X̄ − Ȳ )
√
Sp 2 + m−1 + n−1
er t-fordelt med m√
+ n − 2 frihetsgrader, noe som gir et prediksjonsintervall [X̄ −
Ȳ ) ± t0.025;m+n−2 Sp 2 + m−1 + n−1 . Innsatt data får vi [−1.220.56].
Vi får her et mye bredere intervall da vi må ta hensyn til usikkerheten i de nye
observasjonene.
Oppgave 2
Siden eneggede tvillinger har samme genetiske materiale, brukes såkalte tvilling-studier til
å kartlegge hvordan miljøet virker inn på ulike egenskaper. I en bok av den amerikanske
forskeren Susan Faber finner vi data for n = 31 tvillingpar der den ene tvillingen vokste
opp hos biologiske foreldre (Twin A) og den andre vokste opp hos andre familiemedlemmer,
foster- eller adoptiv-foreldre (Twin B). Nedenfor finnes en oppsummering av målt IQ for
disse personene. Spørsmålet vi ønsker å belyse er om det er forskjell i IQ hos eneggede
tvillinger der den ene tvillingen har vokst opp hos biologiske foreldre, og den andre ikke.
Twin A
Twin B
Difference
N
31
31
31
Mean
93.32
96.58
-3.26
StDev
15.41
13.84
8.81
SE Mean
2.77
2.49
1.58
I tabellen er STDev empirisk standard avvik regnet fra enkeltobservasjoner mens SE Mean
er standardfeilen til gjennomsnittet.
(a) Her vil det være urimelig å anta at observasjoner fra to tvillinger er uavhengige. Dette
vil resultere i at differansene har mindre varians og dermed kan gi mer nøyaktige
resultater.
3
(b) Vi bruker her vanlige metoder for ett-utvalgstest, dvs
t=
d¯ − ∆0
√
sD / n
som sammenliknes med kvantil i t-fordelingen med n − 1 frihetsgrader. I dette tilfellet blir t = 2.06 og en P-verdi 0.048, dvs vi vil forkaste H0 = ∆0 = 0 på 5%
signifikantnivå, men bare såvidt. Det er således endel usikkerhet rundt konklusjonen.
Kall forventet forskjell mellom Twin A og Twin B for µD .
√
(c) d¯ ± t.025;n−1 sD / n vil være et 95% konfidensintervall for µD . Her blir det [−6.49 −
0.03]. Vi har sammenhengen med at hvis konfidensintervallet ikke dekker ∆0 så kan
vi forkaste H0 mot det to-sidige alternativet. Vi får dermed samsvar med resultatet
ovenfor.
Oppgave 3
(a) Kryssplott gir en ganske klar sammenheng mellom Strength og temperature, men noe
mer uklart med Pressure. Det viser også at Pressure ikke har så mange forskjellige
verdier.
(b) Den lineære tilpasningen ser ganske god ut.
(c) Bruk av confint rutinen gir
2.5 %
97.5 %
( I n t e r c e p t ) −55.0060934 −4.6898163
Temperature
0.1436597 0.3511781
Da intervallet for Temperature ikke dekker 0, indikerer det at denne variabelen er
viktig,
(d) Ikke like klar sammenheng med Pressure, men vi får konfidensintervallene
2.5 %
97.5 %
( Intercept ) 37.769722 69.0254340
Pressure
−2.810991 −0.6118466
som også indikerer at denne variabelen er viktig (siden vi igjen får et intervall som
ikke dekker 0).
(e) Temperature gir Ra2 = 0.76 mens Pressure gir Ra2 = 0.57. Dvs vi får forklart mest av
variasjonen gjennom Temperature, og denne er dermed å foretrekke.
(f ) Her får vi følgende:
Coefficients :
Estimate Std . E r r o r t v a l u e Pr ( >| t | )
( I n t e r c e p t ) −0.72907
4 . 5 6 7 0 4 −0.160
0.878
4
Temperature 0 . 1 8 7 6 1
Pressure
−1.06551
0.01496
0.11714
1 2 . 5 4 3 4 . 7 2 e −06
−9.096 3 . 9 8 e −05
R e s i d u a l s t a n d a r d e r r o r : 1 . 1 3 1 on 7 d e g r e e s o f freedom
M u l t i p l e R−s q u a r e d : 0 . 9 8 3 7 ,
Adjusted R−s q u a r e d : 0 . 9 7 9
F−s t a t i s t i c :
211 on 2 and 7 DF, p−v a l u e : 5 . 5 5 2 e −07
Dvs begge variablene får nå lavere P-verdier og forklaringsgraden øker dramatisk. Vi
ser også at σ̂ er blitt kraftig redusert. Dette resulterer i at også sβ̂j blir mye mindre
noe som igjen gir en mye større t-verdi. Dette har noe sammenheng med at de to
variablene er korrelerte (negativt).
(g) Vi får
Coefficients :
Estimate Std . E r r o r z v a l u e Pr ( >| z | )
( I n t e r c e p t ) −31.12936
1 9 . 9 9 2 4 8 −1.557
0.119
Temperature
0.12915
0.08188
1.577
0.115
( D i s p e r s i o n parameter for binomial family taken t o be 1 )
N u l l deviance : 1 3 . 8 6 2 9
R e s i d u a l deviance : 5 . 3 8 5 1
AIC : 9 . 3 8 5 1
on 9
on 8
d e g r e e s o f freedom
d e g r e e s o f freedom
Her blir altså P-verdien tilhørende Temperature mye større og dermed blir forklaringsvariabelen mindre viktig. Dette har sammenheng med at vi nå bruker mindre
informasjon fra responsvariabelen.
5
#Oppgave 1
d <− read . table ( ” . . / o b l i g e r / o b l i g 2 1 . dat ” , header=T)
x <− d$Menn ;m <− length ( x )
y <− d$Kvinner ; n <− length ( y )
#a
boxplot ( d )
#b
par ( mfrow=c ( 1 , 2 ) )
qqnorm( x ) ; qqline ( x )
qqnorm( y ) ; qqline ( y )
#c
s 2 . p <− ( (m−1)∗var ( x)+(n−1)∗var ( y ) ) / (m+n−2)
t <− (mean( x)−mean( y ) ) /sqrt ( s2 . p∗ ( 1 /m + 1/n ) )
t . t e s t ( x , y , var . equal=TRUE)
nu <− m+n−2
p . v a l u e <− 2∗(1−pt ( abs ( t ) , nu ) )
a lp h a <− 0 . 0 5
mean( x)−mean( y)+qt ( c ( alpha /2,1− alpha / 2 ) , nu ) ∗sqrt ( s2 . p∗ ( 1 /m + 1/n ) )
t . t e s t ( x , y , var . equal=EQUAL)
#d
s e 1 <− sd ( x ) /sqrt (m)
s e 2 <− sd ( y ) /sqrt ( n )
t <− (mean( x)−mean( y ) ) /sqrt ( s e 1 ˆ2+ s e 2 ˆ2 )
nu <− ( s e 1 ˆ2+ s e 2 ˆ2)ˆ2 / ( s e 1 ˆ4/ (m−1) + s e 2 ˆ4/ ( n−1))
p . v a l u e <− 2∗(1−pt ( abs ( t ) , nu ) )
#KI
a lp h a <− 0 . 0 5
mean( x)−mean( y)+qt ( c ( alpha /2,1− alpha / 2 ) , nu ) ∗sqrt ( s e 1 ˆ2+ s e 2 ˆ2 )
t . t e s t ( x , y , var . equal=FALSE)
#e
f <− var ( x ) /var ( y )
p . v a l u e <− 2∗(1−pf ( f ,m−1,n−1))
#f
v <− s 2 . p∗ ( 2 + 1/m + 1/n )
mean( x)−mean( y)+qt ( c ( alpha /2,1− alpha / 2 ) , nu ) ∗sqrt ( v )
#Oppgave 2
#a
#b
m <− −3.26
6
se <− 1 . 5 8
n <− 31
t <− −m/se
p . v a l u e <− 2∗(1−pt ( abs ( t ) , n−1))
#c
a lp h a <− 0 . 0 5
m + qt ( c ( alpha /2,1− alpha / 2 ) , n−1)∗se
#Oppgave 3
d <− read . table ( ” . . / o b l i g e r / p l a s t i c sub . dat ” , header=T)
#a
#b
f i t <− lm( S t r e n g t h ˜Temperature , data=d )
summary( f i t )
plot ( d$Temperature , d$ S t r e n g t h )
abline ( f i t $coef )
#c
confint ( f i t )
#d )
f i t 2 <− lm( S t r e n g t h ˜ P r e s s u r e , data=d )
summary( f i t 2 )
plot ( d$ P r e s s u r e , d$ S t r e n g t h )
abline ( f i t 2 $coef )
confint ( fit2 )
#f )
f i t 3 <− lm( S t r e n g t h ˜Temperature+P r e s s u r e , data=d )
summary( f i t 3 )
plot ( d$ P r e s s u r e , d$ S t r e n g t h )
abline ( f i t 2 $coef )
#g )
d$ t r e s h <− as . integer ( d$ Strengt h >30)
f i t . glm <− glm( t r e s h ˜Temperature , data=d , family=” b i n o m i a l ” )
plot ( d$ P r e s s u r e , d$ t r e s h )
plot ( d$Temperature , d$ t r e s h )
7