Avd. Matematisk statistik TENTAMEN I SF1901, SF1905 SANNOLIKHETSTEORI OCH STATISTIK, FREDAGEN DEN 13:E MARS 2015 KL 14.00–19.00. Kursledare för F och E: Timo Koski, tel: 070 237 00 47 Kursledare för D och Medieteknik: Jimmy Olsson, tel: 08 790 72 01 Tillåtna hjälpmedel : Formel- och tabellsamling i Matematisk statistik, Mathematics Handbook (Beta), Hjälpreda för miniräknare, räknare. Införda beteckningar skall förklaras och definieras. Resonemang och uträkningar skall vara så utförliga och väl motiverade att de är lätta att följa. Numeriska svar skall anges med minst två siffrors noggrannhet. Tentamen består av 6 uppgifter. Varje korrekt lösning ger 10 poäng. Gränsen för godkänt är preliminärt 24 poäng. Möjlighet att komplettera ges för tentander med, preliminärt, 22–23 poäng. Tid och plats för komplettering kommer att anges på kursens hemsida. Det ankommer på dig själv att ta reda på om du har rätt att komplettera. Poäng från kontrollskrivning och laborationer under kursomgång period 3 VT 2015 tillgodoräknas. Tentamen kommer att vara rättad inom tre arbetsveckor från skrivningstillfället och kommer att finnas tillgänglig på studentexpeditionen minst sju veckor efter skrivningstillfället. Uppgift 1 Andrej och Harald roar sig med en standardkortlek med 52 kort uppdelade på fyra färger (spader, klöver, hjärter och ruter). (a) Andrej låter Harald dra ett kort slumpvis ur kortleken. Låt A beteckna händelsen att kortet är en dam och låt B beteckna händelsen att kortet är hjärter. Är A och B oberoende? (4 p) (b) Harald drar nu slumpvis två kort ur leken utan återläggning. Proceduren upprepas och efter varje dragning läggs de två korten tillbaka i leken, varpå denna blandas. Bestäm det förväntade antalet dragningar Harald måste göra tills dess att de båda korten för första gången är två ess. Räkna även med den sista, lyckade dragningen. (6 p) Uppgift 2 Låt X beteckna det antal vinstnummer en deltagare prickar in i Keno-3. Sannolikhetsfunktionen för X ges då av följande tabell: k pX (k) 0 1 2 3 0.36 0.45 0.17 0.02 Två vinstnummer ger vinsten 5 kr och tre vinstnummer ger vinsten 90 kr. Färre än två vinstnummer ger ingen vinst. Antag att 2000 personer deltar i lotteriet oberoende av varandra; bestäm den approximativa sannolikheten att deras sammanlagda vinst överstiger 6000 kr. (10 p) 2 forts tentamen i SF1901 2015-03-13 Uppgift 3 Ett läkemedelsföretag eftersträvar att utveckla en nytt läkemedel mot högt blodtryck. Ett steg i denna långa och mycket kostnadskrävande process, som sällan resulterar i en produkt på apoteksdisken, är de s.k. kliniska fas-II studierna. I en sådan studie behandlas ett litet antal patienter med högt blodtryck med det nya läkemedlet. Studien vill undersöka om läkemedlet har en positiv eller negativ effekt, d.v.s. om sjuka patienter har ett ändrat blodtryck. I tabellen nedan har blodtrycket (övertryck i mm Hg) hos åtta patienter uppmätts före behandlingen, xi , och efter densamma, yi , i = 1, 2, . . . , 8. Person Blodtrycket före x Blodtrycket efter y 1 2 3 4 5 6 7 8 146 147 143 149 164 140 151 141 153 141 145 138 151 128 136 129 Formulera nu en lämplig statistisk modell (Du får anta normalfördelade data) och testa hypotesen att det inte är någon ändring i blodtrycket mot hypotesen att blodtrycket har ändrats. Signifikansnivån har av den europeiska läkemedelsmyndigheten (EMA) bestämts som 5%. Din slutsats bör framgå tydligt. (10 p) Uppgift 4 Kontrollen av givarsignaler inom processindustrin går ut på att man studerar signalnivå och mätbrus hos givare i drift utan att givaren påverkas. Signalnivån representerar mätstorheten. För en viss givare misstänks mätbruset vara normalfördelat N(0, 1.5). 200 kontrollmätningar genomfördes, där mätbrusets nivå x observerades. Resultaten ges i tabellen nedan med en gruppering av brusets nivåer i fyra delområden. Nivå x ≤ −1 −1 < x ≤ 0 0<x≤1 1<x Antal mätningar 41 53 59 47 Testa med ett lämpligt statistiskt test hypotesen att mätbruset har normalfördelning N(0, 1.5). Motivera Ditt val av test. Signifikansnivån är 5%. Din slutsats bör framgå tydligt. (10 p) Uppgift 5 En konsult noterar att större IT-projekt i en viss bransch ofta har problem med förseningar. Det gäller emellertid för de försenade projekten att kompletteringsgraden vid projektets planerade slutdatum är rätt så hög. Konsulten har följande värden på kompletteringsgraden hos fem försenade projekt: x1 = 0.77, x2 = 0.82, x3 = 0.92, x4 = 0.94, x5 = 0.98. Konsulten modellerar dessa mätvärden som oberoende utfall av en stokastisk variabel X med täthetsfunktionen, ( θxθ−1 om 0 ≤ x ≤ 1, fX (x) = 0 för övrigt, där θ > 0. 3 forts tentamen i SF1901 2015-03-13 a) Härled Maximum Likelihood-skattningen (ML-skattningen) av θ och beräkna den numeriskt för de givna mätvärdena. (4 p) b) I figuren nedan har konsulten plottat för dessa mätvärden den naturliga logaritmen av likelihoodfunktionen (=loglikelihoodfunktionen) som funktion av θ i ett visst intervall. Redogör för vad som kan utläsas ur loglikelihoodfunktionen i denna figur och ta fram loglikelihoodfunktionens maximum (=största värde) i detta intervall med en numerisk beräkning. (1 p) 6.1 6 5.9 5.8 5.7 5.6 5.5 5 6 7 8 9 10 11 c) Härled Minsta-Kvadrat-skattningen (MK) av θ och beräkna den numeriskt för de givna mätvärdena. (5 p) 4 forts tentamen i SF1901 2015-03-13 Uppgift 6 Två radioaktiva källor, A och B, emitterar varje minut, oberoende av varandra, ett Po(2)- resp. Po(4)-fördelat antal α-partiklar. De från A och B utsända partiklarna registreras av en och samma detektor. Under en viss minut registrerar detektorn totalt 3 partiklar. Vad är sannolikheten att minst en av dessa kommer från källa A? (10 p) Lycka till! Avd. Matematisk statistik LÖSNINGAR TILL TENTAMEN I SF1901, SF1905 SANNOLIKHETSTEORI OCH STATISTIK I FREDAGEN DEN 13 MARS 2015 KL 14.00–19.00. Uppgift 1 (a) Då det föreligger likformig fördelning ger den klassiska sannolikhetsdefinitionen P (A) P (B) = 52 1 4 13 · = 2 = . 52 52 52 52 Då det endast finns en hjärter dam gäller dessutom att P (A ∩ B) = 1/52, vilket följaktligen betyder att P (A) P (B) = P (A ∩ B). Alltså är A och B oberoende. (b) Det finns 52 sätt att dra två kort ur 52 kort. Bland alla dessa 52 kombinationer av två 2 2 4 kort finns 2 kombinationer av två ess. Sannolikheten att Harald vid en dragning lyckas att dra två ess är följaktligen, enligt den klassiska sannolikhetsdefinitionen, 4 1 6 2 = . p = P (Harald drar två ess) = 52 = 1326 221 2 Här skulle man alternativt kunna använda att antalet erhållna ess vid dragning av två kort har hypergeometrisk fördelning med parametrar N = 52, Np = 4 och n = 2. Ännu ett alternativt sätt att bestämma sannolikheten ovan är med hjälp av betingad sannolikhet: låt E1 och E2 beteckna händelsen att det första resp. andra kortet är ett ess och räkna enligt P (Harald drar två ess) = P (E1 ∩ E2 ) = P (E2 | E1 ) P (E1 ) = 3 4 12 1 · = = . 51 52 2652 221 Då utfallet av varje ny tvåkortsdragning är oberoende av de tidigare (leken blandas ju mellan varje dragning) kommer antalet försök X som Harald måste göra innan han lyckas att dra två ess att vara ffg-fördelat med parameter p. Enligt formelsamlingen har denna fördelning väntevärde 1 E (X) = = 221, p vilket är svaret på (b). Uppgift 2 Vi bestämmer först väntevärde och varians för vinsten Yi för deltagare i (där i = 1, . . . , 2000). Vinsten kan anta tre värden, nämligen 0, 5 eller 90, och enligt definitionen av väntevärde gäller E (Yi ) = 0 · P (Yi = 0) + 5 · P (Yi = 5) + 90 · P (Yi = 90) = 5 · P (Xi = 2) + 90 · P (Xi = 3) = 5 · 0.17 + 90 · 0.02 = 2.65, 2 forts tentamen i SF1901 2015-03-13 där Xi betecknar antalet vinstnummer för samma deltagare. På samma sätt får vi E Yi2 = 52 · 0.17 + 902 · 0.02 ≈ 166.25. Ur detta erhålls variansen V (Yi ) = E (Yi2 ) − E (Yi )2 ≈ 159.23. Låt nu T = sammanlagda vinsten för de 2000 deltagarna. Då väntevärden är linjära får vi ! 2000 2000 X X E (Yi ) = 2000 · 2.65 = 5300 Yi = E (T ) = E P2000 i=1 Yi vara den i=1 i=1 samt, då de enskilda vinsterna Y1 , . . . , Y2000 är oberoende, ! 2000 2000 X X V (Yi ) ≈ 2000 · 159.23 = 318455, V (T ) = V Yi = i=1 i=1 vilket ger att D (T ) ≈ 564. Då T är en summa av ett stort antal likafördelade och oberoende variabler gäller, enligt centrala gränsvärdessatsen, att T är approximativt N(5300, 564)-fördelad. En approximation av den sökta sannolikheten ges sålunda av P (T > 6000) = 1 − P (T ≤ 6000) = 1 − P T − 5300 6000 − 5300 ≤ 564 564 ≈ 1 − Φ (1.24) ≈ 1 − 0.8925 ≈ 0.11, där Φ betecknar den standardiserade normalfördelningens fördelningsfunktion och dess värde i punkten x = 1.24 erhålls ur tabell. Uppgift 3 Vi har här ett fall av stickprov i par (även kallat matchade par). Den statistiska analysen baserar sig på att bilda differenserna zi = yi − xi , i = 1, 2, . . . , 8. Detta ger z1 = 7, z2 = −6, z3 = 2, z4 = −11, z5 = −13, z6 = −12, z7 = −15, z8 = −12. Modellen är att dessa zi :na är respektive utfall av oberoende Zi ∈ N(△, σ), där σ är okänd. Vi har alltså nollhypotesen H0 : △ = 0 (vi påstår att ingen genomsnittlig effekt finns) och mothypotesen H1 : △ = 6 0. Vi anvn̈der konfidensmetoden, d.v.s., vi konstruerar det tvåsidiga konfidensintervallet för △ med konfidensgraden 1 − 0.05 = 0.95. Detta fordrar att vi beräknar v u 8 8 X u1 X 1 z= zi = −7.5, sz = t (zi − z)2 = 7.95. 8 i=1 7 i=1 3 forts tentamen i SF1901 2015-03-13 Det sökta konfidensintervallet för ges i formelbladet av t-metoden som sz z ± √ t0.025 (8 − 1). 8 Insättning av siffrorna ovan och av t0.025 (7) = 2.36 ger −7.5 ± 2.81 · 2.36 som är I△ = [−14.1, −0.87]. Eftersom △ = 0 INTE ingår i detta interval, förkastas nollhypotesen på signifikansnivån 0.05. Uppgift 4 Vi har här en nollhypotes om värdena på sannolikheterna för de fyra områdena. Dessa sannolikheter ges enligt nollhypotesen av N(0, 1.5). Statistiskt sett kräver detta en jämförelse av de förväntade frekvenserna med de observerade frekvenserna. Vi talar anglicistiskt om testning av s.k. goodness-of-fit. Vi beräknar nu enligt nollhypotesen de förväntade frekvenserna för de fyra intervallen utifrån N(0, 1.5). Vi vet att om X ∈ N(0, 1.5), så är X/1.5 ∈ N(0, 1), och med denna standardisering av värden använder vi fördelningsfunktionen för N(0, 1), Φ(x), i de härvid erforderliga sannolikhetskalkylerna. Vi har för x ≤ −1 −1 a = 200 · Φ = 50.5, 1.5 för −1 < x ≤ 0 för 0 < x ≤ 1 och för 1 < x −1 b = 200 · Φ (0) − Φ 1.5 = 49.5, 1 c = 200 · Φ − Φ (0) = 49.5 1.5 1 d = 200 · 1 − Φ = 50.5. 1.5 Dessa är alla ≥ 5, och vi kan använda oss av χ2 -testet. Vi bildar testvariabeln Q = ((41 − a)2 )/a + ((53 − b)2 )/b + ((59 − c)2 )/c + ((47 − d)2 )/d = 4.09. Enligt den statistiska teorin gäller asymptotiskt att Q ∈ χ2 (3). Vi bör således jämföra det observerade värdet 4.1 med fraktalen χ20.05 (3) = 7.81. Vi ser att Q < 7.81, d.v.s. Q hamnar inte i det kritiska området och således kommer nollhypotesen om att mätbruset är normalfördelat N(0, 1.5) inte att förkastas på signifikansnivån 5%. Uppgift 5 a) Likelihoodfunktionen är för oberoende utfall given som L(θ) = fX (x1 )fX (x2 ) · . . . · fX (xn ) 4 forts tentamen i SF1901 2015-03-13 = θxθ−1 · θxθ−1 · . . . · θxθ−1 1 2 n = θn (x1 · x2 · . . . · xn )θ−1 ∗ ∗ Vi vill hitta θobs (=ML- skattningen) som maximerar L(θ). Detta är ekvivalent med att hitta θobs som maximerar ln L(θ), ty ln är en strikt växande funktion. Vi får ln L(θ) = n ln θ + (θ − 1) · Derivering ger n X ln xi . i=1 n d n X ln L(θ) = + ln xi . dθ θ i=1 Vi sätter derivatan lika med noll och erhåller ekvationen n n X + ln xi = 0. θ i=1 Detta ger ∗ θobs = − n Pn i=1 ln xi = − n1 1 Pn i=1 ln xi . När vi insätter de fem givna värdena på kompletteringsgraden hos fem försenade projekt får vi ∗ θobs = − 15 (ln 0.77 1 ≈ 7.9965 ≈ 8.0. + ln 0.82 + ln 0.92 + ln 0.94 + ln 0.98) b) Figuren indikerar att den naturliga logaritmen av likelihoodfunktionen (=loglikelihoodfunktionen) har maximum i θ = 8.0. Loglikelihoodfunktionens maximum (=största värde) är ln L(8.0) = 5 · ln(8.0) + (8.0 − 1) · (ln 0.77 + ln 0.82 + ln 0.92 + ln 0.98) = 6.02 vilket även överenstämmer med vad som kan avläsas ur figuren. Vi ser även att loglikelihoodfunktionen är flat kring sitt maximum 8.0 och avtar rätt långsamt, när vi avlägsnar oss från värdet 8.0. ML-skattningen är således relativt osäker, det får minnas att vi har endast fem observationer. c) Minsta-Kvadrat-skattningen (MK) av θ definieras som värdet på θ som minimerar Q(θ) = n X i=1 (xi − E [Xi ])2 . Vi behöver uppenbarligen att beräkna väntevärdet Z ∞ Z E [Xi ] = x · fX (x)dx = θ −∞ =θ Z 1 xθ+1 x dx = θ θ+1 θ 0 1 0 1 0 = x · xθ−1 dx θ . θ+1 5 forts tentamen i SF1901 2015-03-13 där θ > 0. Väntevärdet är detsamma för alla i. Vi har alltså 2 n X θ Q(θ) = xi − . θ+1 i=1 Derivering m.a.p. θ ger n n X d 1 θ θ −2 X · . xi − Q(θ) = −2 xi − = 2 2 dθ θ + 1 (θ + 1) (θ + 1) θ + 1 i=1 i=1 Vi sätter d Q(θ) dθ = 0 och får n X i=1 θ xi − θ+1 =0 efter att ha dividerat bort konstanterna framför summatecknet. Detta ger enligt reglerna för hantering av summatecken n X θ xi − n =0 θ + 1 i=1 d.v.s. (θ + 1) n X i=1 d.v.s. θ n X i=1 xi − nθ = 0 ! xi − n =− n X xi , i=1 vilket med en viss algebraisk hyfsning ger vid handen Pn x ∗ i=1 xi = Pn . θobsMK = 1 1−x n 1 − n i=1 xi där x = 1 n Pn i=1 xi . Insättning av de givna mätvärdena ger x= 1 (0.77 + 0.82 + 0.92 + 0.94 + 0.98) = 0.8860, 5 och därför ∗ θobsMK = 0.8860 = 7.719 ≈ 7.7. 1 − 0.8860 Uppgift 6 Låt XA ∈ Po(2) och XB ∈ Po(4) vara antalet från källa A resp. källa B utsända partiklar under minuten ifråga. Vi söker P (XA ≥ 1 | XA + XB = 3) = 1 − P (XA = 0 | XA + XB = 3) . 6 forts tentamen i SF1901 2015-03-13 Genom användning av definitionen av betingad sannolikhet och det faktum att XA och XB är oberoende s.v. kan sannolikheten i högerledet skrivas som P (XA = 0, XA + XB = 3) P (XA + XB = 3) P (XA = 0, XB = 3) = P (XA + XB = 3) P (XA = 0) P (XB = 3) . = P (XA + XB = 3) P (XA = 0 | XA + XB = 3) = Med hjälp av Poissonfördelningens sannolikhetsfunktion erhålls −2 2 P (XA = 0) P (XB = 3) = e 0 0! −4 4 ·e 3 3! −6 4 =e 3 3! . Vidare, genom användning av Poissonfördelningens additionsegenskap kan vi dessutom sluta oss till att XA + XB ∈ Po(2 + 4) = Po(6), vilket ger P (XA + XB = 3) = e−6 63 . 3! Genom att kombinera de tre sista ekvationerna erhålls e−6 43 /3! = P (XA = 0 | XA + XB = 3) = −6 3 e 6 /3! 3 2 , 3 vilket ger oss den sökta sannolikheten 3 2 P (XA ≥ 1 | XA + XB = 3) = 1 − ≈ 0.70. 3 Vi konstaterar slutligen att man istället för att använda additionsegenskapen kan alternativt bestämma sannolikheten P (XA + XB = 3) enligt den direkta beräkningen P (XA + XB = 3) =P (XA = 0, XB = 3) + P (XA = 1, XB = 2) + P (XA = 2, XB = 1) + P (XA = 3, XB = 0) =P (XA = 0) P (XB = 3) + P (XA = 1) P (XB = 2) + P (XA = 2) P (XB = 1) + P (XA = 3) P (XB = 0) 3 4 42 22 23 −6 =e +2 + 4+ 3! 2! 2! 3! 3 6 =e−6 . 3!
© Copyright 2024