TMA4245 Statistikk V˚ar 2015 - Institutt for matematiske fag

TMA4245 Statistikk
Vår 2015
Norges teknisk-naturvitenskapelige universitet
Institutt for matematiske fag
Øving nummer 11, blokk II
Løsningsskisse
Oppgave 1
a) Merk fra Venn diagram at I ikke overlapper F eller R.
P (R|F ) =
P (R|I 0 ) =
P (R \ F )
0.3
=
= 0.6
P (F )
0.5
P (R \ I 0 )
P (R)
0.4
=
=
= 0.421
0
P (I )
1 P (I)
1 0.05
b) Generelle forutsetninger for binomisk fordeling
i) Forsøksrekken består av n enkeltforsøk.
ii) Det registreres kun suksess eller ikke suksess.
iii) Sannsynligheten for suksess er lik i alle forsøk.
iv) Enkeltforsøkene er uavhengige.
For X har vi
i) Det er valgt ut n kamper.
ii) Vi registrerer kun om den som får første målet vinner(suksess) eller ikke.
iii) Sannsynligheten for suksess er p og er antatt å være konstant.
iv) Vi antar at kampene er uavhengige.
Dette er rimelige antakelser.
Sentralgrenseteoremet sier:
Dersom Z1 , Z2 , . . . , Zn er uavhengig identisk fordelte fra sannsynlighetsfordelingen fZ (z),
p
hvor E(Z) = µ og V ar(Z) = 2 , så vil Pn Z µ konvergere mot en normalfordeling med
forventning 0 og varians 1. Der Z = n1 ni=1 Zi .
For en binomisk forsøksrekke, definer Zi slik at: Zi = 1 hvis suksess, og Zi = 0 ellers.
Med andre ord:
⇢
p
hvis z = 1
P (Zi = z) =
1 p hvis z = 0
Slik at E(Zi ) = p og V ar(Zi ) = p(1
ov11-lsf-b
p).
23. mars 2015
Side 1
TMA4245 Statistikk
Vår 2015
Siden enkeltforsøkene er uavhengige så er Zi ene også uavhengige. Av sentralgrenseteop
remet følger at n p p̂ p konvergerer mot en normalfordeling med forventning 0 og
p(1 p)
1 Pn
varians 1. Der p̂ = n i=1 Zi .
c) H0 : p 0.8 mot H1 : p < 0.8
Eventuelt: H0 : p = 0.8 mot H1 : p < 0.8
Vi ønsker å forkaste dersom p̂ < k, hvor k bestemmes slik at
P (p̂ < k) = ↵ = 0.05
Vi benytter at Z =
p
n p p̂
p0
p0 (1 p0 )
er tilnærmet normalfordelt med forventing 0 og varians
1 under H0 . Da har vi fra ligningen over:
p
n(k p0 )
P (Z < p
) = 0.05
p0 (1 p0 )
p
n(k p0 )
p
= Z0.05
p0 (1 p0 )
q
Dette gir k = p0 Z0.05 p0 (1n p0 ) . Vi forkaster H0 dersom:
p̂ < p0
For n = 24 og X =
Pn
i=1 Zi
Z0.05
r
p0 (1
p0 )
n
= 0.8
1
0.658 p
n
= 17 får vi p̂ = 0.71, k = 0.67. Vi forkaster ikke H0 .
Vi kan ikke pastå at ekspertkommentatoren tar feil på 5 prosent nivå.
d) Vi ønsker at styrken på testen i alternativet p = 0.7 skal være minst 0.9. Dvs
P (p̂ < 0.8
1
0.658 p |p = 0.7) = 0.9
n
p
0.7
Vi benytter at Z = n pp̂0.7·0.3
er tilnærmet normalfordelt med forventing 0 og varians
1 under alternativet med p = 0.7. Innsatt i kravet fra ligningen over gir dette:
P (Z <
p 0.8 0.7
np
0.7 · 0.3
p
0.658
) = 0.9
0.7 · 0.3
0.1 percentilen i normalfordelingen er lik Z0.1 = 1.28. Kravet som n må oppfylle blir
dermed:
p
0.1
0.658
p
np
= 1.28
0.7 · 0.3
0.7 · 0.3
Løsningen blir n = 155.1 kamper. Dvs at vi må se minst 156 kamper for å oppnå den
ønskede styrken på testen.
Oppgave 2
ov11-lsf-b
23. mars 2015
Side 2
TMA4245 Statistikk
Vår 2015
a) For at X skal være tilnærmet binomisk fordelt må en ha at N >> n slik at det ikke
betyr noe at samme person ikke vil bli spurt mer enn en gang.
✓ ◆
n 9
P (X = 9) =
✓ (1
9
✓)
n 9
=
✓
◆
20
0.59 (1
9
tabell
P (X  9) = 1
P (X > 9) = 1
0.5)20
9
= 0.1602
0.412 = 0.588
P (X > 9 \ X  12)
P (10  X  12)
=
P (X  12)
P (X  12)
P (X  12) P (X  9) tabell 0.868 0.412
=
= 0.525
P (X  12)
0.868
P (X > 9|X  12) =
=
b) X ⇠ b(x; n, ✓)
✓ ◆
n x
L(✓) = P (X = x) =
✓ (1 ✓)n x
x
✓ ◆
n
l(✓) = ln
+ xln✓ + (n x)ln(1 ✓)
x
1
1
x n x
l0 (✓) = x + (n x)
( 1) =
✓
1 ✓
✓
1 ✓
l0 (✓) = 0
+
x
n x
=
✓
1 ✓
x(1 ✓) = ✓(n
x
dvs. SME er ✓ˆ =
X
n
c) H0 : ✓ =
1
2
mot H1 : ✓ 6=
Benytter testobservator
når H0 er riktig.
ov11-lsf-b
✓
X
n
◆
◆
✓x
✓
X
n
=
1
1
Var(X) = 2 n✓(1
n2
n
ˆ =E
E(✓)
ˆ = Var
Var(✓)
x✓ = ✓n
x
✓=
n
x)
=
1
1
E(X) = n✓ = ✓
n
n
✓) =
✓(1
✓)
n
1
2
X n 12
Z=q
⇡ N (z; 0, 1)
n 12 (1 12 )
23. mars 2015
Side 3
TMA4245 Statistikk
Vår 2015
Dvs. forkaster H0 dersom
Z<
X
p
z ↵2
eller
Z > z ↵2
m
n
2
<
n
2
z ↵2
X
eller
p
n
2
n
2
> z ↵2
Innsatt tall:
Observert verdi av testobservator:
2562
Z=
p
5000
2
5000
2
= 1.75
↵ = 0.10 gir z ↵2 = 1.645
Dvs. forkaster H0 og erklærer G som vinner av valget.
Oppgave 3
a) La ui = xi (1
xi ), i = 1, . . . , n. Modellen for avviket Yi blir da
Yi = aui + ✏i ,
i = 1, . . . , n.
Likelihood-funksjonen er sannsynlighetstettheten til y1 , . . . , yn gitt x1 , . . . , xn med parameter a, som blir
L(a) = f (y1 , . . . , xn |x1 , . . . , xn , a) = f (y1 |x1 , a) · · · f (yn |xn , a)
n
n
Y
Y
=
f (yi |xi , a) =
n(yi ; aui , 02 )
i=1
=
n
Y
i=1
1
p
2⇡
i=1
1
2 (yi
2 0
e
2
aui )2
.
0
Videre blir log-likelihoodet
n ⇢
X
1
`(a) = log L(a) =
log(2⇡
2
2
0)
i=1
=
n
log(2⇡
2
2
0)
2
Derivasjon med hensyn på a gir
@`(a)
=
@a
=
=
ov11-lsf-b
2
1
n
1 X
(yi
2
0 i=1
n
1 X
2
0 i=1
n
X
2(yi
(yi ui
2
0 i=1
n
X
1
2
0 i=1
yi u i
23. mars 2015
1
2
2 (yi
0
aui )2
aui )2 .
aui )( ui )
au2i )
n
a X
2
0 i=1
u2i .
Side 4
TMA4245 Statistikk
Vår 2015
Verdien av a som maksimerer `(a), og dermed også L(a), finnes ved å sette den deriverte
lik null, og løse for a,
@`(a)
=0
@a
n
n
a X 2
1 X
u
=
yi u i
i
2
2
0 i=1
0
Pni=1
Pn
yi u i
xi (1
i=1
a = Pn
= Pni=1
2
i=1 (xi (1
i=1 ui
xi )yi
.
xi ))2
Det følger at sannsynlighetsmaksimeringsestimatoren for a er
Pn
xi (1 xi )Yi
â = Pni=1
.
xi ))2
i=1 (xi (1
b) Foventningsverdien til estimatoren er
og variansen er
✓ Pn
◆
ui Yi
i=1
E(â) = E Pn
u2
Pn i=1 i
u E(Y )
Pn i 2 i
= i=1
u
Pn i=1 i
i=1 ui · aui
= P
n
u2
Pni=1 2 i
ui
= a Pi=1
n
2 = a,
i=1 ui
✓ Pn
◆
i=1 yi ui
P
Var(â) = Var
n
2
i=1 ui
n
X
1
= Pn
u2 Var(Yi )
2 2
u
i=1
i=1 i
Pn
2
2
u 0
= Pi=1
n
2 2
i=1 ui
2
= Pn 0
2
i=1 ui
Siden observasjonene Yi , i = 1, . . . , n er normalfordelte, og estimatoren â er en lineærkombinasjon av Y1 , . . . , Yn , vet vi at â vil være normalfordelt med forventningsverdi
E(â) og varians Var(â) som over,
!
n
X
2
2
â ⇠ N a, 0 /
ui .
i=1
c) Siden a vil være lik null for en ideell blanding, og avvike fra null for en ikke-ideell
blanding, kan følgende hypoteser brukes:
H0 : a = 0,
ov11-lsf-b
H1 : a 6= 0.
23. mars 2015
Side 5
TMA4245 Statistikk
Vår 2015
Under nullhypotesen har vi
â ⇠ N (0, Var(â)) ,
slik at observatoren
Z=p
â
Var(â)
er standard normalfordelt. Vi forkaster H0 på signifikansnivå ↵ dersom |Z| > z↵/2 , som
p
er ekvivalent med at |â| > z↵/2 P
Var(â). Med ↵ = 5% fårP
vi z↵/2 = 1.96. Variansen
n
2 = 0.0252 og kvadratsummene
0.0945 og ni=1 u2i = 0.3333 er gitt i
0
i=1 ui yi =
oppgaveteksten. Ved å sette inn disse tallverdiene finner vi estimatet
Pn
u i yi
0.0945
â = Pi=1
=
= 0.2835,
n
2
0.3333
i=1 ui
og den kritiske verdien
p
z↵/2 Var(â) = z0.025
s
2
Pn 0
2
i=1 ui
0.025
= 1.96 p
= 0.0849.
0.3333
p
Det at â < z↵/2 Var(â) betyr at |Z| > z↵/2 , så vi forkaster H0 på signifikansnivå
↵ = 5%. Det er med andre ord grunnlag for å hevde at blandingen ikke er ideell.
d) Stigningstallet til tangentlinja er
E(Y |x) z(x)
ax(1
=
x 0
x)
x
Dette skal være lik den deriverte til E(Y |x) = ax(1
@
ax(1
@x
x) = a(1
z(x)
.
x), som er
2x).
Ved å sette uttrykkene lik hverandre, får vi
ax(1
ax(1
x)
x
x)
z(x)
= a(1
2x)
z(x) = ax(1
2x)
z(x) = ax(1
x)
ax(1
2x) = ax2 .
En rimelig estimator for z(x) er dermed ẑ(x) = âx2 .
Et 95% konfidensintervall for a er
p
0
â ± z0.025 Var(â) = â ± 1.96 qP
n
2
i=1 ui
.
Et tilsvarende 95% konfidensintervall for z(x0 ) = ax20 er
s
q
2
2
2 2
0 · x0
2
0 · (x0 )
q
âx20 ± z0.025 Var(âx20 ) = âx20 ± 1.96 P
=
âx
±
1.96
.
n
0
2
Pn
i=1 ui
u2
i=1
ov11-lsf-b
23. mars 2015
i
Side 6
TMA4245 Statistikk
Vår 2015
Grensene til konfidensintervallet for z(x0 ) er altså lik grensene for intervallet for a,
multiplisert med x20 .
Med x0 = 2/3 blir konfidensintervallet for a
( 0.3684, 0.1987),
mens konfidensintervallet for z(x0 ) blir
( 0.3684 · (2/3)2 , 0.1987 · (2/3)2 )
ov11-lsf-b
23. mars 2015
eller
( 0.1637, 0.0883).
Side 7