TMA4245 Statistikk Vår 2015 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer 11, blokk II Løsningsskisse Oppgave 1 a) Merk fra Venn diagram at I ikke overlapper F eller R. P (R|F ) = P (R|I 0 ) = P (R \ F ) 0.3 = = 0.6 P (F ) 0.5 P (R \ I 0 ) P (R) 0.4 = = = 0.421 0 P (I ) 1 P (I) 1 0.05 b) Generelle forutsetninger for binomisk fordeling i) Forsøksrekken består av n enkeltforsøk. ii) Det registreres kun suksess eller ikke suksess. iii) Sannsynligheten for suksess er lik i alle forsøk. iv) Enkeltforsøkene er uavhengige. For X har vi i) Det er valgt ut n kamper. ii) Vi registrerer kun om den som får første målet vinner(suksess) eller ikke. iii) Sannsynligheten for suksess er p og er antatt å være konstant. iv) Vi antar at kampene er uavhengige. Dette er rimelige antakelser. Sentralgrenseteoremet sier: Dersom Z1 , Z2 , . . . , Zn er uavhengig identisk fordelte fra sannsynlighetsfordelingen fZ (z), p hvor E(Z) = µ og V ar(Z) = 2 , så vil Pn Z µ konvergere mot en normalfordeling med forventning 0 og varians 1. Der Z = n1 ni=1 Zi . For en binomisk forsøksrekke, definer Zi slik at: Zi = 1 hvis suksess, og Zi = 0 ellers. Med andre ord: ⇢ p hvis z = 1 P (Zi = z) = 1 p hvis z = 0 Slik at E(Zi ) = p og V ar(Zi ) = p(1 ov11-lsf-b p). 23. mars 2015 Side 1 TMA4245 Statistikk Vår 2015 Siden enkeltforsøkene er uavhengige så er Zi ene også uavhengige. Av sentralgrenseteop remet følger at n p p̂ p konvergerer mot en normalfordeling med forventning 0 og p(1 p) 1 Pn varians 1. Der p̂ = n i=1 Zi . c) H0 : p 0.8 mot H1 : p < 0.8 Eventuelt: H0 : p = 0.8 mot H1 : p < 0.8 Vi ønsker å forkaste dersom p̂ < k, hvor k bestemmes slik at P (p̂ < k) = ↵ = 0.05 Vi benytter at Z = p n p p̂ p0 p0 (1 p0 ) er tilnærmet normalfordelt med forventing 0 og varians 1 under H0 . Da har vi fra ligningen over: p n(k p0 ) P (Z < p ) = 0.05 p0 (1 p0 ) p n(k p0 ) p = Z0.05 p0 (1 p0 ) q Dette gir k = p0 Z0.05 p0 (1n p0 ) . Vi forkaster H0 dersom: p̂ < p0 For n = 24 og X = Pn i=1 Zi Z0.05 r p0 (1 p0 ) n = 0.8 1 0.658 p n = 17 får vi p̂ = 0.71, k = 0.67. Vi forkaster ikke H0 . Vi kan ikke pastå at ekspertkommentatoren tar feil på 5 prosent nivå. d) Vi ønsker at styrken på testen i alternativet p = 0.7 skal være minst 0.9. Dvs P (p̂ < 0.8 1 0.658 p |p = 0.7) = 0.9 n p 0.7 Vi benytter at Z = n pp̂0.7·0.3 er tilnærmet normalfordelt med forventing 0 og varians 1 under alternativet med p = 0.7. Innsatt i kravet fra ligningen over gir dette: P (Z < p 0.8 0.7 np 0.7 · 0.3 p 0.658 ) = 0.9 0.7 · 0.3 0.1 percentilen i normalfordelingen er lik Z0.1 = 1.28. Kravet som n må oppfylle blir dermed: p 0.1 0.658 p np = 1.28 0.7 · 0.3 0.7 · 0.3 Løsningen blir n = 155.1 kamper. Dvs at vi må se minst 156 kamper for å oppnå den ønskede styrken på testen. Oppgave 2 ov11-lsf-b 23. mars 2015 Side 2 TMA4245 Statistikk Vår 2015 a) For at X skal være tilnærmet binomisk fordelt må en ha at N >> n slik at det ikke betyr noe at samme person ikke vil bli spurt mer enn en gang. ✓ ◆ n 9 P (X = 9) = ✓ (1 9 ✓) n 9 = ✓ ◆ 20 0.59 (1 9 tabell P (X 9) = 1 P (X > 9) = 1 0.5)20 9 = 0.1602 0.412 = 0.588 P (X > 9 \ X 12) P (10 X 12) = P (X 12) P (X 12) P (X 12) P (X 9) tabell 0.868 0.412 = = 0.525 P (X 12) 0.868 P (X > 9|X 12) = = b) X ⇠ b(x; n, ✓) ✓ ◆ n x L(✓) = P (X = x) = ✓ (1 ✓)n x x ✓ ◆ n l(✓) = ln + xln✓ + (n x)ln(1 ✓) x 1 1 x n x l0 (✓) = x + (n x) ( 1) = ✓ 1 ✓ ✓ 1 ✓ l0 (✓) = 0 + x n x = ✓ 1 ✓ x(1 ✓) = ✓(n x dvs. SME er ✓ˆ = X n c) H0 : ✓ = 1 2 mot H1 : ✓ 6= Benytter testobservator når H0 er riktig. ov11-lsf-b ✓ X n ◆ ◆ ✓x ✓ X n = 1 1 Var(X) = 2 n✓(1 n2 n ˆ =E E(✓) ˆ = Var Var(✓) x✓ = ✓n x ✓= n x) = 1 1 E(X) = n✓ = ✓ n n ✓) = ✓(1 ✓) n 1 2 X n 12 Z=q ⇡ N (z; 0, 1) n 12 (1 12 ) 23. mars 2015 Side 3 TMA4245 Statistikk Vår 2015 Dvs. forkaster H0 dersom Z< X p z ↵2 eller Z > z ↵2 m n 2 < n 2 z ↵2 X eller p n 2 n 2 > z ↵2 Innsatt tall: Observert verdi av testobservator: 2562 Z= p 5000 2 5000 2 = 1.75 ↵ = 0.10 gir z ↵2 = 1.645 Dvs. forkaster H0 og erklærer G som vinner av valget. Oppgave 3 a) La ui = xi (1 xi ), i = 1, . . . , n. Modellen for avviket Yi blir da Yi = aui + ✏i , i = 1, . . . , n. Likelihood-funksjonen er sannsynlighetstettheten til y1 , . . . , yn gitt x1 , . . . , xn med parameter a, som blir L(a) = f (y1 , . . . , xn |x1 , . . . , xn , a) = f (y1 |x1 , a) · · · f (yn |xn , a) n n Y Y = f (yi |xi , a) = n(yi ; aui , 02 ) i=1 = n Y i=1 1 p 2⇡ i=1 1 2 (yi 2 0 e 2 aui )2 . 0 Videre blir log-likelihoodet n ⇢ X 1 `(a) = log L(a) = log(2⇡ 2 2 0) i=1 = n log(2⇡ 2 2 0) 2 Derivasjon med hensyn på a gir @`(a) = @a = = ov11-lsf-b 2 1 n 1 X (yi 2 0 i=1 n 1 X 2 0 i=1 n X 2(yi (yi ui 2 0 i=1 n X 1 2 0 i=1 yi u i 23. mars 2015 1 2 2 (yi 0 aui )2 aui )2 . aui )( ui ) au2i ) n a X 2 0 i=1 u2i . Side 4 TMA4245 Statistikk Vår 2015 Verdien av a som maksimerer `(a), og dermed også L(a), finnes ved å sette den deriverte lik null, og løse for a, @`(a) =0 @a n n a X 2 1 X u = yi u i i 2 2 0 i=1 0 Pni=1 Pn yi u i xi (1 i=1 a = Pn = Pni=1 2 i=1 (xi (1 i=1 ui xi )yi . xi ))2 Det følger at sannsynlighetsmaksimeringsestimatoren for a er Pn xi (1 xi )Yi â = Pni=1 . xi ))2 i=1 (xi (1 b) Foventningsverdien til estimatoren er og variansen er ✓ Pn ◆ ui Yi i=1 E(â) = E Pn u2 Pn i=1 i u E(Y ) Pn i 2 i = i=1 u Pn i=1 i i=1 ui · aui = P n u2 Pni=1 2 i ui = a Pi=1 n 2 = a, i=1 ui ✓ Pn ◆ i=1 yi ui P Var(â) = Var n 2 i=1 ui n X 1 = Pn u2 Var(Yi ) 2 2 u i=1 i=1 i Pn 2 2 u 0 = Pi=1 n 2 2 i=1 ui 2 = Pn 0 2 i=1 ui Siden observasjonene Yi , i = 1, . . . , n er normalfordelte, og estimatoren â er en lineærkombinasjon av Y1 , . . . , Yn , vet vi at â vil være normalfordelt med forventningsverdi E(â) og varians Var(â) som over, ! n X 2 2 â ⇠ N a, 0 / ui . i=1 c) Siden a vil være lik null for en ideell blanding, og avvike fra null for en ikke-ideell blanding, kan følgende hypoteser brukes: H0 : a = 0, ov11-lsf-b H1 : a 6= 0. 23. mars 2015 Side 5 TMA4245 Statistikk Vår 2015 Under nullhypotesen har vi â ⇠ N (0, Var(â)) , slik at observatoren Z=p â Var(â) er standard normalfordelt. Vi forkaster H0 på signifikansnivå ↵ dersom |Z| > z↵/2 , som p er ekvivalent med at |â| > z↵/2 P Var(â). Med ↵ = 5% fårP vi z↵/2 = 1.96. Variansen n 2 = 0.0252 og kvadratsummene 0.0945 og ni=1 u2i = 0.3333 er gitt i 0 i=1 ui yi = oppgaveteksten. Ved å sette inn disse tallverdiene finner vi estimatet Pn u i yi 0.0945 â = Pi=1 = = 0.2835, n 2 0.3333 i=1 ui og den kritiske verdien p z↵/2 Var(â) = z0.025 s 2 Pn 0 2 i=1 ui 0.025 = 1.96 p = 0.0849. 0.3333 p Det at â < z↵/2 Var(â) betyr at |Z| > z↵/2 , så vi forkaster H0 på signifikansnivå ↵ = 5%. Det er med andre ord grunnlag for å hevde at blandingen ikke er ideell. d) Stigningstallet til tangentlinja er E(Y |x) z(x) ax(1 = x 0 x) x Dette skal være lik den deriverte til E(Y |x) = ax(1 @ ax(1 @x x) = a(1 z(x) . x), som er 2x). Ved å sette uttrykkene lik hverandre, får vi ax(1 ax(1 x) x x) z(x) = a(1 2x) z(x) = ax(1 2x) z(x) = ax(1 x) ax(1 2x) = ax2 . En rimelig estimator for z(x) er dermed ẑ(x) = âx2 . Et 95% konfidensintervall for a er p 0 â ± z0.025 Var(â) = â ± 1.96 qP n 2 i=1 ui . Et tilsvarende 95% konfidensintervall for z(x0 ) = ax20 er s q 2 2 2 2 0 · x0 2 0 · (x0 ) q âx20 ± z0.025 Var(âx20 ) = âx20 ± 1.96 P = âx ± 1.96 . n 0 2 Pn i=1 ui u2 i=1 ov11-lsf-b 23. mars 2015 i Side 6 TMA4245 Statistikk Vår 2015 Grensene til konfidensintervallet for z(x0 ) er altså lik grensene for intervallet for a, multiplisert med x20 . Med x0 = 2/3 blir konfidensintervallet for a ( 0.3684, 0.1987), mens konfidensintervallet for z(x0 ) blir ( 0.3684 · (2/3)2 , 0.1987 · (2/3)2 ) ov11-lsf-b 23. mars 2015 eller ( 0.1637, 0.0883). Side 7
© Copyright 2025