Tentamen i Statistisk inferensteori 14 mars 2014, kl. 9

STOCKHOLMS UNIVERSITET
MATEMATISKA INSTITUTIONEN
Avd. Matematisk statistik
MT 5003
TENTAMEN
14 mars 2014
Tentamen i Statistisk inferensteori
14 mars 2014, kl. 9-14
Martin Sköld, tel. 16 45 62, [email protected].
Miniräknare. Formelsamling på tentamens sista sidor.
Återlämning: Onsdag 19/3 kl 14:00 i rum 321.
Examinator:
Tillåtna hjälpmedel:
Resonemang skall vara tydliga och lätta att följa. Eventuella regularitetsvillkor
kan antas vara uppfyllda och begöver ej speciceras närmare. Varje korrekt och
fullständigt löst uppgift ger 10 poäng. För betyg A-E krävs 25 poäng på Del 1
sammanräknat med eventuella bonuspoäng, samt att följande gränser uppnås
på Del 2:
A B C D E
25 19 13 7 0
Del 1
Paretofördelningen används bland annat för att modellera skadekostnader inom försäkringsmatematiken. Låt x = (x1 , . . . , xn ) vara en realisering av X =
(X1 , . . . , Xn ), en vektor av n oberoende P areto(1, θ)-fördelade stokastiska variabler.
Uppgift 1
a) Visa att familjen av fördelningar för X , θ > 0, utgör en exponentialfamilj
(3p).
Lösning: Tätheten kan skrivas på formen
L(θ; x) = θn
n
Y
−(θ+1)
xi
= θn exp(−θ
i=1
n
X
i=1
log(xi ))
n
Y
x−1
i
i=1
= A(θ)n exp(η(θ)T (x))h(x),
med A(θ) = θ, η(θ) = −θ, T (x) = ni=1 log(xi )) och h(x) =
Detta är formen av en exponentialfamilj.
P
Qn
i=1
x−1
i .
b) Bestäm moment- (baserat på första momentet x¯) och maximum-likelihood
skattaren av θ. För bestämning av momentskattaren kan det antas att
θ > 2. (4p).
Lösning: Momentskattaren löser ekvationen x
¯ = Eθ (X) = θ/(θ − 1),
vilket ger θˆM M = x¯/(¯x − 1). För ML-skattaren
P bestämmer vi först score
funktion; V (θ; x) = d log(L(θ; x))/dθ = n/θ − ni=1 log(xi ). ML-skattaren
P
ges sedan av lösningen till V (θ, x) = 0, d.v.s. θˆM L = n/ ni=1 log(xi ).
c) Avgör om skattarna i b) är tillräckliga (sucient) för θ (3p).
ˆM L
Lösning: Då T i exponentialfamiljformuleringen är tillräcklig är även θ
ˆ
detta då de står i ett-till-ett korrepondans. Om θM M är tillräcklig nns
1
det enligt faktoriseringskriteriet g och h så Q
att L(θ; x) = h(x)g(θˆM M , θ),
det inses att detta inte är möjligt då t.ex. ni=1 xi ej kan bestämmas ur
x
¯. Alltså är momentskattaren inte tillräcklig.
Uppgift 2
a) Bestäm en konjungerande familj av apriorifördelningar för L(θ; x) (4p).
Lösning: Givet exponentialfamiljformuleringen i 1 a) ges en konjungerande
familj av p(θ|a, b) ∝ A(θ)a exp(η(θ)b) = θa exp(−bθ) vilket känns igen som
en Gamma(a + 1, b) fördelning.
b) Bestäm aposteriorifördelningen för θ under Jerey's prior (6p).
Lösning: Jerey's prior ges av p(θ) ∝ I(θ)1/2 där I(θ) är Fisherinformationen. Vi har att I(θ) = −Eθ (V 0 (θ; X)) = n/θ2 , således p(θ) ∝ 1/θ.
Aposteriorifördelningen ges av
p(θ|x) ∝ L(θ; x)p(θ) ∝ θn exp(−θ
n
X
log(xi )) × (1/θ)
i=1
vilket känns igen som en Gamma(n,
Pn
i=1
log(xi ))-fördelning.
Uppgift 3
a) Bestäm den asymptotiska fördelningen för ML-skattaren (2p).
ˆM L är N (θ, 1/I(θ)) = N (θ, θ2 /n).
Lösning: Den asymptotiska fördelningen av θ
b) Använd resultatet i a) för att konstruera ett approximativt 95% kondensintervall för θ givet att vi observerat ML-skattningen θˆ = 3.2 och
n = 100 (4p).
ˆ ± 1.96ˆ
Lösning: Ett approximativt intervall ges t.ex. av θ
s, där sˆ är en
ˆ är ML-skattaren kan vi
skattning av skattarens
standardavvikelse,
om
θ
ˆ √n enligt a).
använda sˆ = θ/
c) Bestäm den asymptotiska fördelningen för moment-skattaren i fallet θ > 2
(4p).
√
Lösning: Enligt CGS har vi att n(¯
x −µ) →d N (0, σ 2 ), där µ = θ/(1−θ)
och √
σ 2 = V arθ (X) = θ/((θ − 1)2 (θ − 2)). Vidare följer av Deltametoden
att n(g(¯x) − g(µ)) →d N (0, σ 2 g 0 (µ)2 ) där g(µ) = µ/(µ − 1) = θ. Följer
härur att θˆM M = g(¯x) är asymptotiskt N (θ, θ(θ − 1)2 /(θ − 2)).
Del 2
Uppgift 4
Låt X ∼ P oisson(nµ) beteckna antalet cykelolyckor med personskada i en stad
över n dagar innan en upprustning av stadens cykelbanor och Y ∼ P oisson(m(µ+
λ)) antalet över m dagar efter upprustningen. Antal olyckor över disjunkta
tidsperioder kan anses oberoende och µ > 0, µ + λ > 0.
2
a) Bestäm Score-vektor och ML-skattare för (µ, λ) baserat på data (x, y)
(4p).
Lösning: Score-vektorn ges av
V (µ, λ; x, y) = (dl(µ, λ; x, y)/dµ, dl(µ, λ; x, y)/dλ)
= (−(n + m) + x/µ + y/(µ + λ), −m + y/(µ + λ)).
Lösning av V (µ, λ; x, y) = (0, 0) ger µˆ = x/n och λˆ = y/m − x/n.
b) Utför ett Likelihood-kvot test av H0 : λ = 0 på nivå 5% för n = 150,
m = 100 och (x, y) = (325, 201). Eventuella asymptotiska resultat kan
anses tillförlitliga (3p).
Lösning: Under H0 ges ML-skattaren av µ av µ
ˆ0 = (x + y)/(m + n). Med
ˆ x, y)) ≈ 0.7. Under H0 är detta
insatta värden blir −2(l(ˆµ0 , 0; x, y)−l(ˆµ, λ;
en dragning från χ2 (1). Då den är mindre än 3.84 kan vi inte förkasta H0 .
c) Om X och Y är oberoende P oisson(θ), θ > 0, så har X|X + Y = s en
Binomial(s, 1/2)-fördelning oberoende av θ. Beskriv hur man kan utnyttja
detta för att bestämma (eventuellt approximera numeriskt) ett betingat
p-värde för H0 baserat på data (x, y) och en lämpligt vald teststorhet
under förutsättning att m = n. Du behöver inte utföra några beräkningar
själv, men ditt resonemang skall kunna följas av och implementeras av en
person kunnig i R eller Matlab (3p).
Lösning: En lämplig test-statistika är t.ex. |x − y|, då denna förväntas
stor under alternativhypotesen. Med hjälp av ett programpaket som kan
räkna med sannolikhetsfunktionen för Binomialfördelningen kan vi enkelt
bestämma p-värdet PH0 (|X − y| > |x − y||X + Y = s).
Uppgift 5
Låt x = (x1 , . . . , xn ) vara en vektor oberoende dragningar från en Gamma(α, β)fördelning.
a) Visa att det aritmetiska och geometriska medlevärdena tillsammans, T (x) =
Pn
Qn
1/n
( i=1 xi /n, i=1 xi ), utgör en tillräcklig (3p) och fullständig (3p) statistika för (α, β).
Lösning: Familjen av fördelningar utgör en tvåparameter exponentialfamilj på formen
L(α, β; x) = A(α, β)n exp(α
n
X
log(xi ) − β
i=1
n
X
xi )h(x)
i=1
då det naturliga parameterrummet innehåller ett öppet intervall i R2 ges
enligt sats 4.6 en fullständig och tillräcklig statistika av
n
n
X
X
S(x) = (
log(xi ),
xi ).
i=1
i=1
Då denna står i ett-till-ett korrespondens med T är även T fullständig och
tillräcklig.
3
b) Bestäm den skattare av γ(α, β) = α/β som har minst varians i klassen av
väntevärdesriktiga skattare (4p).
Lösning: Enligt Lehmann-Sheés sats har funktioner av fullständiga och
tillräckliga statistikor lägst varians bland alla väntevärdesriktiga skattningar av sigg väntevärde. Då x¯ har väntevärde α/β , och är en funktion
av den fullständiga tillräckliga statistikan, är detta skattaren med mist
varians.
Uppgift 6
Kalle och Lisa är på semester i en större stad. Kalle påstår att det nns precis
100 busslinjer (numrerade från 1 till 100) i staden, Lisa tror Kalle överdriver som
vanligt och bestämmer sig för att testa hans hypotes mot alternativet att det
nns färre. Hon lämnar därför hotellet och noterar numret x på den första buss
hon stöter på, x kan då anses vara likformigt fördelad bland heltalen 1, . . . , N ,
där N är det okända antalet busslinjer.
a) Bestäm k så att testet som förkastar H0 : N = 100 då x < k får nivån 5%
(3p).
Pr−1
Lösning: Vi får nivå PN =100 (X < r) =
i=1 1/100 = 5% då k = 6.
b) Bestäm styrkefunktionen β(N ), N = 1, . . . , 100, för testet i a) (3p).
Lösning: β(N ) = PN (X < 6) = 5/N då N = 6, . . . , 100 och β(N ) = 1 då
N = 1, . . . , 5.
c) Visa att testet är likformigt starkast för H0 : N = 100 mot H1 : N < 100
(4p).
Lösning: Eftersom likelihood-kvoten L(100; x)/L(N ; x) är växande i x då
N < 100 ges enligt Neyman-Pearsons lemma ett optimalt test av en region
{x; x < r}. Det med rätt nivå har k = 6.
Lycka till!
Användbara fördelningar
Normalfördelningen
Täthetsfunktion:
−∞ < < ∞, 0 < σ < ∞.
X ∼ N (µ, σ 2 ),
p(x; µ, σ) = √
(x − µ)2 exp −
,
2σ 2
2πσ 2
1
−∞ < x < ∞.
E(X) = µ, V (X) = σ 2 .
Några approximativa kvantiler för N (0, 1):
P (X > 2.58) = 0.005, P (X > 2.33) = 0.01, P (X > 1.96) = 0.025, P (X > 1.64) = 0.05.
Paretofördelningen
Täthetsfunktion:
X ∼ P areto(k, θ),
k > 0, θ > 0.
p(x; k, θ) =
θk θ
,
xθ+1
k ≤ x.
E(X) = θk/(θ − 1) då θ > 1, V (X) = θk 2 /((θ − 1)2 (θ − 2)) då θ > 2.
4
Gammafördelningen
Täthetsfunktion:
X ∼ Gamma(α, β),
p(x; α, β) =
α > 0, β > 0.
β α α−1
x
exp(−βx),
Γ(α)
x ≥ 0.
E(X) = α/β , V (X) = α/β 2 .
k = 1, 2, 3, . . ..
χ2 -fördelningen X ∼ χ2 (k),
Täthetsfunktion:
p(x; k) =
x
1
k/2−1
x
exp
− ,
2
2k/2 Γ(k/2)
x ≥ 0.
E(X) = k , V (X) = 2k .
Några approximativa kvantiler:
k = 1; P (X > 3.84) = 0.05
k = 2; P (X > 5.99) = 0.05
k = 3; P (X > 7.81) = 0.05
Exponentialfördelningen
Täthetsfunktion:
θ > 0.
X ∼ Exponential(θ),
p(x; θ) =
x
1
exp − ,
θ
θ
x ≥ 0.
E(X) = θ, V (X) = θ2 .
Binomialfördelningen
Sannolikhetsfunktion:
X ∼ Binomial(n, p),
0 ≤ p ≤ 1, n = 1, 2, . . ..
n x
p(x; n, p) =
p (1 − p)n−x ,
x
x = 0, 1, . . . , n.
E(X) = np, V (X) = np(1 − p).
Poissonfördelningen
Pmf:
X ∼ P oisson(λ),
p(x; λ) =
λ > 0.
1 x
λ exp(−λ),
x!
E(X) = λ, V (X) = λ.
5
x = 0, 1, 2, . . . .