TENTAMEN I SF1901, SF1905 SANNOLIKHETSTEORI OCH

Avd. Matematisk statistik
TENTAMEN I SF1901, SF1905 SANNOLIKHETSTEORI OCH STATISTIK,
FREDAGEN DEN 13:E MARS 2015 KL 14.00–19.00.
Kursledare för F och E: Timo Koski, tel: 070 237 00 47
Kursledare för D och Medieteknik: Jimmy Olsson, tel: 08 790 72 01
Tillåtna hjälpmedel : Formel- och tabellsamling i Matematisk statistik, Mathematics Handbook
(Beta), Hjälpreda för miniräknare, räknare.
Införda beteckningar skall förklaras och definieras. Resonemang och uträkningar skall vara så
utförliga och väl motiverade att de är lätta att följa. Numeriska svar skall anges med minst
två siffrors noggrannhet. Tentamen består av 6 uppgifter. Varje korrekt lösning ger 10 poäng.
Gränsen för godkänt är preliminärt 24 poäng. Möjlighet att komplettera ges för tentander med,
preliminärt, 22–23 poäng. Tid och plats för komplettering kommer att anges på kursens hemsida.
Det ankommer på dig själv att ta reda på om du har rätt att komplettera.
Poäng från kontrollskrivning och laborationer under kursomgång period 3 VT 2015 tillgodoräknas.
Tentamen kommer att vara rättad inom tre arbetsveckor från skrivningstillfället och kommer att
finnas tillgänglig på studentexpeditionen minst sju veckor efter skrivningstillfället.
Uppgift 1
Andrej och Harald roar sig med en standardkortlek med 52 kort uppdelade på fyra färger (spader,
klöver, hjärter och ruter).
(a) Andrej låter Harald dra ett kort slumpvis ur kortleken. Låt A beteckna händelsen att kortet
är en dam och låt B beteckna händelsen att kortet är hjärter. Är A och B oberoende? (4 p)
(b) Harald drar nu slumpvis två kort ur leken utan återläggning. Proceduren upprepas och
efter varje dragning läggs de två korten tillbaka i leken, varpå denna blandas. Bestäm det
förväntade antalet dragningar Harald måste göra tills dess att de båda korten för första
gången är två ess. Räkna även med den sista, lyckade dragningen.
(6 p)
Uppgift 2
Låt X beteckna det antal vinstnummer en deltagare prickar in i Keno-3. Sannolikhetsfunktionen
för X ges då av följande tabell:
k
pX (k)
0
1
2
3
0.36 0.45 0.17 0.02
Två vinstnummer ger vinsten 5 kr och tre vinstnummer ger vinsten 90 kr. Färre än två vinstnummer ger ingen vinst. Antag att 2000 personer deltar i lotteriet oberoende av varandra; bestäm den
approximativa sannolikheten att deras sammanlagda vinst överstiger 6000 kr.
(10 p)
2
forts tentamen i SF1901 2015-03-13
Uppgift 3
Ett läkemedelsföretag eftersträvar att utveckla en nytt läkemedel mot högt blodtryck. Ett steg i
denna långa och mycket kostnadskrävande process, som sällan resulterar i en produkt på apoteksdisken, är de s.k. kliniska fas-II studierna. I en sådan studie behandlas ett litet antal patienter
med högt blodtryck med det nya läkemedlet. Studien vill undersöka om läkemedlet har en positiv
eller negativ effekt, d.v.s. om sjuka patienter har ett ändrat blodtryck.
I tabellen nedan har blodtrycket (övertryck i mm Hg) hos åtta patienter uppmätts före behandlingen, xi , och efter densamma, yi , i = 1, 2, . . . , 8.
Person
Blodtrycket före x
Blodtrycket efter y
1
2
3
4
5
6
7
8
146 147 143 149 164 140 151 141
153 141 145 138 151 128 136 129
Formulera nu en lämplig statistisk modell (Du får anta normalfördelade data) och testa hypotesen
att det inte är någon ändring i blodtrycket mot hypotesen att blodtrycket har ändrats. Signifikansnivån har av den europeiska läkemedelsmyndigheten (EMA) bestämts som 5%. Din slutsats
bör framgå tydligt.
(10 p)
Uppgift 4
Kontrollen av givarsignaler inom processindustrin går ut på att man studerar signalnivå och
mätbrus hos givare i drift utan att givaren påverkas. Signalnivån representerar mätstorheten.
För en viss givare misstänks mätbruset vara normalfördelat N(0, 1.5). 200 kontrollmätningar genomfördes, där mätbrusets nivå x observerades. Resultaten ges i tabellen nedan med en gruppering
av brusets nivåer i fyra delområden.
Nivå
x ≤ −1
−1 < x ≤ 0
0<x≤1
1<x
Antal mätningar
41
53
59
47
Testa med ett lämpligt statistiskt test hypotesen att mätbruset har normalfördelning N(0, 1.5).
Motivera Ditt val av test. Signifikansnivån är 5%. Din slutsats bör framgå tydligt.
(10 p)
Uppgift 5
En konsult noterar att större IT-projekt i en viss bransch ofta har problem med förseningar.
Det gäller emellertid för de försenade projekten att kompletteringsgraden vid projektets planerade slutdatum är rätt så hög. Konsulten har följande värden på kompletteringsgraden hos fem
försenade projekt:
x1 = 0.77, x2 = 0.82, x3 = 0.92, x4 = 0.94, x5 = 0.98.
Konsulten modellerar dessa mätvärden som oberoende utfall av en stokastisk variabel X med
täthetsfunktionen,
(
θxθ−1
om 0 ≤ x ≤ 1,
fX (x) =
0
för övrigt,
där θ > 0.
3
forts tentamen i SF1901 2015-03-13
a) Härled Maximum Likelihood-skattningen (ML-skattningen) av θ och beräkna den numeriskt
för de givna mätvärdena.
(4 p)
b) I figuren nedan har konsulten plottat för dessa mätvärden den naturliga logaritmen av likelihoodfunktionen (=loglikelihoodfunktionen) som funktion av θ i ett visst intervall. Redogör för
vad som kan utläsas ur loglikelihoodfunktionen i denna figur och ta fram loglikelihoodfunktionens
maximum (=största värde) i detta intervall med en numerisk beräkning.
(1 p)
6.1
6
5.9
5.8
5.7
5.6
5.5
5
6
7
8
9
10
11
c) Härled Minsta-Kvadrat-skattningen (MK) av θ och beräkna den numeriskt för de givna mätvärdena.
(5 p)
4
forts tentamen i SF1901 2015-03-13
Uppgift 6
Två radioaktiva källor, A och B, emitterar varje minut, oberoende av varandra, ett Po(2)- resp.
Po(4)-fördelat antal α-partiklar. De från A och B utsända partiklarna registreras av en och samma
detektor. Under en viss minut registrerar detektorn totalt 3 partiklar. Vad är sannolikheten att
minst en av dessa kommer från källa A?
(10 p)
Lycka till!
Avd. Matematisk statistik
LÖSNINGAR TILL
TENTAMEN I SF1901, SF1905 SANNOLIKHETSTEORI OCH STATISTIK I
FREDAGEN DEN 13 MARS 2015 KL 14.00–19.00.
Uppgift 1
(a) Då det föreligger likformig fördelning ger den klassiska sannolikhetsdefinitionen
P (A) P (B) =
52
1
4 13
·
= 2 = .
52 52
52
52
Då det endast finns en hjärter dam gäller dessutom att P (A ∩ B) = 1/52, vilket följaktligen
betyder att P (A) P (B) = P (A ∩ B). Alltså är A och B oberoende.
(b) Det finns 52
sätt att dra två kort ur 52 kort. Bland alla dessa 52
kombinationer av två
2
2
4
kort finns 2 kombinationer av två ess. Sannolikheten att Harald vid en dragning lyckas att
dra två ess är följaktligen, enligt den klassiska sannolikhetsdefinitionen,
4
1
6
2
=
.
p = P (Harald drar två ess) = 52 =
1326
221
2
Här skulle man alternativt kunna använda att antalet erhållna ess vid dragning av två kort
har hypergeometrisk fördelning med parametrar N = 52, Np = 4 och n = 2. Ännu ett
alternativt sätt att bestämma sannolikheten ovan är med hjälp av betingad sannolikhet: låt
E1 och E2 beteckna händelsen att det första resp. andra kortet är ett ess och räkna enligt
P (Harald drar två ess) = P (E1 ∩ E2 ) = P (E2 | E1 ) P (E1 ) =
3 4
12
1
·
=
=
.
51 52
2652
221
Då utfallet av varje ny tvåkortsdragning är oberoende av de tidigare (leken blandas ju mellan
varje dragning) kommer antalet försök X som Harald måste göra innan han lyckas att dra
två ess att vara ffg-fördelat med parameter p. Enligt formelsamlingen har denna fördelning
väntevärde
1
E (X) = = 221,
p
vilket är svaret på (b).
Uppgift 2
Vi bestämmer först väntevärde och varians för vinsten Yi för deltagare i (där i = 1, . . . , 2000).
Vinsten kan anta tre värden, nämligen 0, 5 eller 90, och enligt definitionen av väntevärde gäller
E (Yi ) = 0 · P (Yi = 0) + 5 · P (Yi = 5) + 90 · P (Yi = 90)
= 5 · P (Xi = 2) + 90 · P (Xi = 3)
= 5 · 0.17 + 90 · 0.02 = 2.65,
2
forts tentamen i SF1901 2015-03-13
där Xi betecknar antalet vinstnummer för samma deltagare. På samma sätt får vi
E Yi2 = 52 · 0.17 + 902 · 0.02 ≈ 166.25.
Ur detta erhålls variansen V (Yi ) = E (Yi2 ) − E (Yi )2 ≈ 159.23. Låt nu T =
sammanlagda vinsten för de 2000 deltagarna. Då väntevärden är linjära får vi
! 2000
2000
X
X
E (Yi ) = 2000 · 2.65 = 5300
Yi =
E (T ) = E
P2000
i=1
Yi vara den
i=1
i=1
samt, då de enskilda vinsterna Y1 , . . . , Y2000 är oberoende,
! 2000
2000
X
X
V (Yi ) ≈ 2000 · 159.23 = 318455,
V (T ) = V
Yi =
i=1
i=1
vilket ger att D (T ) ≈ 564. Då T är en summa av ett stort antal likafördelade och oberoende
variabler gäller, enligt centrala gränsvärdessatsen, att T är approximativt N(5300, 564)-fördelad.
En approximation av den sökta sannolikheten ges sålunda av
P (T > 6000) = 1 − P (T ≤ 6000) = 1 − P
T − 5300
6000 − 5300
≤
564
564
≈ 1 − Φ (1.24) ≈ 1 − 0.8925 ≈ 0.11,
där Φ betecknar den standardiserade normalfördelningens fördelningsfunktion och dess värde i
punkten x = 1.24 erhålls ur tabell.
Uppgift 3
Vi har här ett fall av stickprov i par (även kallat matchade par). Den statistiska analysen baserar
sig på att bilda differenserna
zi = yi − xi , i = 1, 2, . . . , 8.
Detta ger
z1 = 7, z2 = −6, z3 = 2, z4 = −11, z5 = −13, z6 = −12, z7 = −15, z8 = −12.
Modellen är att dessa zi :na är respektive utfall av oberoende Zi ∈ N(△, σ), där σ är okänd. Vi
har alltså nollhypotesen
H0 : △ = 0
(vi påstår att ingen genomsnittlig effekt finns) och mothypotesen
H1 : △ =
6 0.
Vi anvn̈der konfidensmetoden, d.v.s., vi konstruerar det tvåsidiga konfidensintervallet för △ med
konfidensgraden 1 − 0.05 = 0.95. Detta fordrar att vi beräknar
v
u 8
8
X
u1 X
1
z=
zi = −7.5, sz = t
(zi − z)2 = 7.95.
8 i=1
7 i=1
3
forts tentamen i SF1901 2015-03-13
Det sökta konfidensintervallet för ges i formelbladet av t-metoden som
sz
z ± √ t0.025 (8 − 1).
8
Insättning av siffrorna ovan och av t0.025 (7) = 2.36 ger
−7.5 ± 2.81 · 2.36
som är
I△ = [−14.1, −0.87].
Eftersom △ = 0 INTE ingår i detta interval, förkastas nollhypotesen på signifikansnivån 0.05.
Uppgift 4
Vi har här en nollhypotes om värdena på sannolikheterna för de fyra områdena. Dessa sannolikheter ges enligt nollhypotesen av N(0, 1.5). Statistiskt sett kräver detta en jämförelse av de
förväntade frekvenserna med de observerade frekvenserna. Vi talar anglicistiskt om testning av
s.k. goodness-of-fit.
Vi beräknar nu enligt nollhypotesen de förväntade frekvenserna för de fyra intervallen utifrån
N(0, 1.5). Vi vet att om X ∈ N(0, 1.5), så är X/1.5 ∈ N(0, 1), och med denna standardisering
av värden använder vi fördelningsfunktionen för N(0, 1), Φ(x), i de härvid erforderliga sannolikhetskalkylerna.
Vi har för x ≤ −1
−1
a = 200 · Φ
= 50.5,
1.5
för −1 < x ≤ 0
för 0 < x ≤ 1
och för 1 < x
−1
b = 200 · Φ (0) − Φ
1.5
= 49.5,
1
c = 200 · Φ
− Φ (0) = 49.5
1.5
1
d = 200 · 1 − Φ
= 50.5.
1.5
Dessa är alla ≥ 5, och vi kan använda oss av χ2 -testet. Vi bildar testvariabeln
Q = ((41 − a)2 )/a + ((53 − b)2 )/b + ((59 − c)2 )/c + ((47 − d)2 )/d = 4.09.
Enligt den statistiska teorin gäller asymptotiskt att Q ∈ χ2 (3). Vi bör således jämföra det observerade värdet 4.1 med fraktalen χ20.05 (3) = 7.81. Vi ser att Q < 7.81, d.v.s. Q hamnar inte i det
kritiska området och således kommer nollhypotesen om att mätbruset är normalfördelat N(0, 1.5)
inte att förkastas på signifikansnivån 5%.
Uppgift 5
a) Likelihoodfunktionen är för oberoende utfall given som
L(θ) = fX (x1 )fX (x2 ) · . . . · fX (xn )
4
forts tentamen i SF1901 2015-03-13
= θxθ−1
· θxθ−1
· . . . · θxθ−1
1
2
n
= θn (x1 · x2 · . . . · xn )θ−1
∗
∗
Vi vill hitta θobs
(=ML- skattningen) som maximerar L(θ). Detta är ekvivalent med att hitta θobs
som maximerar ln L(θ), ty ln är en strikt växande funktion. Vi får
ln L(θ) = n ln θ + (θ − 1) ·
Derivering ger
n
X
ln xi .
i=1
n
d
n X
ln L(θ) = +
ln xi .
dθ
θ
i=1
Vi sätter derivatan lika med noll och erhåller ekvationen
n
n X
+
ln xi = 0.
θ
i=1
Detta ger
∗
θobs
=
−
n
Pn
i=1
ln xi
=
− n1
1
Pn
i=1
ln xi
.
När vi insätter de fem givna värdena på kompletteringsgraden hos fem försenade projekt får vi
∗
θobs
=
− 15 (ln 0.77
1
≈ 7.9965 ≈ 8.0.
+ ln 0.82 + ln 0.92 + ln 0.94 + ln 0.98)
b) Figuren indikerar att den naturliga logaritmen av likelihoodfunktionen (=loglikelihoodfunktionen) har maximum i θ = 8.0.
Loglikelihoodfunktionens maximum (=största värde) är
ln L(8.0) = 5 · ln(8.0) + (8.0 − 1) · (ln 0.77 + ln 0.82 + ln 0.92 + ln 0.98) = 6.02
vilket även överenstämmer med vad som kan avläsas ur figuren.
Vi ser även att loglikelihoodfunktionen är flat kring sitt maximum 8.0 och avtar rätt långsamt,
när vi avlägsnar oss från värdet 8.0. ML-skattningen är således relativt osäker, det får minnas att
vi har endast fem observationer.
c) Minsta-Kvadrat-skattningen (MK) av θ definieras som värdet på θ som minimerar
Q(θ) =
n
X
i=1
(xi − E [Xi ])2 .
Vi behöver uppenbarligen att beräkna väntevärdet
Z ∞
Z
E [Xi ] =
x · fX (x)dx = θ
−∞
=θ
Z
1
xθ+1
x dx = θ
θ+1
θ
0
1
0
1
0
=
x · xθ−1 dx
θ
.
θ+1
5
forts tentamen i SF1901 2015-03-13
där θ > 0. Väntevärdet är detsamma för alla i. Vi har alltså
2
n X
θ
Q(θ) =
xi −
.
θ+1
i=1
Derivering m.a.p. θ ger
n n X
d
1
θ
θ
−2 X
·
.
xi −
Q(θ) = −2
xi −
=
2
2
dθ
θ
+
1
(θ
+
1)
(θ
+
1)
θ
+
1
i=1
i=1
Vi sätter
d
Q(θ)
dθ
= 0 och får
n X
i=1
θ
xi −
θ+1
=0
efter att ha dividerat bort konstanterna framför summatecknet. Detta ger enligt reglerna för
hantering av summatecken
n
X
θ
xi − n
=0
θ
+
1
i=1
d.v.s.
(θ + 1)
n
X
i=1
d.v.s.
θ
n
X
i=1
xi − nθ = 0
!
xi − n
=−
n
X
xi ,
i=1
vilket med en viss algebraisk hyfsning ger vid handen
Pn
x
∗
i=1 xi
=
Pn
.
θobsMK =
1
1−x
n 1 − n i=1 xi
där x =
1
n
Pn
i=1
xi . Insättning av de givna mätvärdena ger
x=
1
(0.77 + 0.82 + 0.92 + 0.94 + 0.98) = 0.8860,
5
och därför
∗
θobsMK
=
0.8860
= 7.719 ≈ 7.7.
1 − 0.8860
Uppgift 6
Låt XA ∈ Po(2) och XB ∈ Po(4) vara antalet från källa A resp. källa B utsända partiklar under
minuten ifråga. Vi söker
P (XA ≥ 1 | XA + XB = 3) = 1 − P (XA = 0 | XA + XB = 3) .
6
forts tentamen i SF1901 2015-03-13
Genom användning av definitionen av betingad sannolikhet och det faktum att XA och XB är
oberoende s.v. kan sannolikheten i högerledet skrivas som
P (XA = 0, XA + XB = 3)
P (XA + XB = 3)
P (XA = 0, XB = 3)
=
P (XA + XB = 3)
P (XA = 0) P (XB = 3)
.
=
P (XA + XB = 3)
P (XA = 0 | XA + XB = 3) =
Med hjälp av Poissonfördelningens sannolikhetsfunktion erhålls
−2 2
P (XA = 0) P (XB = 3) = e
0
0!
−4 4
·e
3
3!
−6 4
=e
3
3!
.
Vidare, genom användning av Poissonfördelningens additionsegenskap kan vi dessutom sluta oss
till att XA + XB ∈ Po(2 + 4) = Po(6), vilket ger
P (XA + XB = 3) = e−6
63
.
3!
Genom att kombinera de tre sista ekvationerna erhålls
e−6 43 /3!
=
P (XA = 0 | XA + XB = 3) = −6 3
e 6 /3!
3
2
,
3
vilket ger oss den sökta sannolikheten
3
2
P (XA ≥ 1 | XA + XB = 3) = 1 −
≈ 0.70.
3
Vi konstaterar slutligen att man istället för att använda additionsegenskapen kan alternativt
bestämma sannolikheten P (XA + XB = 3) enligt den direkta beräkningen
P (XA + XB = 3) =P (XA = 0, XB = 3) + P (XA = 1, XB = 2)
+ P (XA = 2, XB = 1) + P (XA = 3, XB = 0)
=P (XA = 0) P (XB = 3) + P (XA = 1) P (XB = 2)
+ P (XA = 2) P (XB = 1) + P (XA = 3) P (XB = 0)
3
4
42 22
23
−6
=e
+2 + 4+
3!
2!
2!
3!
3
6
=e−6 .
3!