Innehåll Fö2 TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder I I Punktskattningar Egenskaper I I Martin Singull MAI - LiU I Väntevärdesriktig Effektiv Konsistent I Punktskattning för väntevärde och varians I Minsta-kvadrat-metoden I Likelihoodfunktionen I Maximum-Likelihood-Metoden Linköping 26 mars, 2015 Punktskattning Stickprovsvariabeln Låt x1 , ..., xn vara observationer av oberoende s.v. X1 , ..., Xn , vars sannolikhetsfunktion p(k; θ) eller täthetsfunktion f (x; θ) innehåller en okänd parameter θ. Vi söker ett approximativt värde på θ, dvs. en punktskattning baserad på x1 , ..., xn . Det fixa värdet θ̂ (eng. estimate) är observation av stickprovsvariabeln (eng. estimator) b = g (X1 , ..., Xn ). Θ Definition b = θ∗ (X). I boken har vi notationen Θ En punktskattning är en funktion av de observerade mätvärdena, det vill säga b för skattningsvariabel eller (punkt-) Ibland kallar vi även Θ skattning. θ̂ = g (x1 , ..., xn ). b beskriver vilka värden vi kan få på θ̂ för olika Fördelningen för Θ observationsserier. I boken har vi notationen θ̂ = θ∗ (x). Exempel - Punktskattning Väntevärdesriktighet m.m. Definition Antag att vi har tre oberoende mätningar x1 , x2 , x3 från en och samma population med väntevärdet µ och standardavvikelsen σ. Vi kan till exempel skatta µ på två olika sätt 1 µ̂1 = (x1 + x2 + x3 ) 3 1 µ̂2 = (x1 + 2x2 + 3x3 ). 6 Antag att x1 , = 1.32, x2 = 2.41 och x3 = 1.97 då blir de observerade skattningarna 1 µ̂1 = (1.32 + 2.41 + 1.97) = 1.90 3 1 µ̂2 = (1.32 + 2 · 2.41 + 3 · 1.97) = 2.01. 6 b kallas väntevärdesriktig (vvr) om Θ b =θ E(Θ) (eng. unbiased). Definition b − θ = systematiskt Ett systematiskt fel är definierat som E (Θ) fel (eng. bias). Definition b 1 och Θ b 2 är väntevärdesriktiga skattningar av θ, så kallas Θ b1 Om Θ b 2 om effektivare än Θ b 1 ) < var(Θ b 2 ). var(Θ Exempel, forts. Exempel Låt x1 , ..., x7 vara ett stickprov från en slumpvariabel X med E(X ) = µ och var(X ) = σ 2 . Betrakta skattningen av σ 2 enligt Väntevärdesriktiga? 1 (X1 + X2 + X3 ) = ... = µ, 3 1 b 2) = E E(M (X1 + 2X2 + 3X3 ) = ... = µ 6 b 1) = E E(M Alltså, båda skattningarna är vvr skattningar av µ, men vilken skattning är effektivast? 1 1 σ2 b var(M1 ) = var (X1 + X2 + X3 ) = (σ 2 + σ 2 + σ 2 ) = , 3 9 3 1 1 14 b var(M2 ) = var (X1 + 2X2 + 3X3 ) = (σ 2 + 4σ 2 + 9σ 2 ) = σ 2 . 6 36 36 b 1 ) < var(M b 2 ) och skattningen µ1 (M b 1 ) är Alltså gäller att var(M effektivare och bör användas. σ̂ 2 = Är denna skattning vvr? x22 + x62 − (x2 + x6 )/2 . 2 Konsistent skattning Bevis Om man har stora stickprov är även asymptotiska egenskaper hos punktskattningar intressanta. Definition b n är definierad för varje stickprovsstorlek n. Om för Anta att Θ varje ε > 0 gäller att b n − θ| > ε) → 0 då n → ∞, P(|Θ b n vara en konsistent skattning. så sägs Θ När man ska bevisa att en skattning är konsistent har man ofta nytta av följande sats. Sats b n ) = θ och var(Θ b n ) → 0 då n → ∞, så är Θ b n en Om E(Θ konsistent skattning av θ. Skattning av väntevärdet Bevis Låt x1 , . . . , xn vara observationer av oberoende s.v. X1 , . . . , Xn med E(Xi ) = µ och var(Xi ) = σ 2 . Sats Det gäller att stickprovsmedelvärdet n X b = X̄ = 1 M Xi n i=1 är en väntevärdesriktig och konsistent skattning av µ. Bevis Kom ihåg att definitionen på varians är var(X ) = E (X − µ)2 . Vi har nu följande sats. Sats Det gäller att stickprovsvariansen n 1 X S = (Xi − X̄ )2 n−1 2 i=1 är en väntevärdesriktig skattning av σ 2 . Bevis forts. Anm. S är inte en väntevärdesriktig skattning av σ, eftersom 0 < var(S) = E(S 2 ) − [E(S)]2 = σ 2 − [E(S)]2 dvs. [E(S)]2 < σ 2 och då är E(S) < σ. Hemuppgift Leta upp s på din räknare och lär dig använda den rutinen. Heter ibland σn−1 . Minsta-kvadrat-metoden Exempel - Normalfördelning Låt x1 , . . . , xn vara observationer av oberoende stokastiska variabler X1 , . . . , Xn med E(Xi ) = µi (θ) och var(Xi ) = σ 2 . Låt x1 , ..., xn vara observationer av oberoende s.v. X1 , ..., Xn , där Xi ∼ N (µ, σ) och σ är känt. Skatta µ med minsta-kvadratmetoden. Det värde θ̂ som minimerar n X Q(θ) = (xi − µi (θ))2 , i=1 kallas minsta-kvadrat-skattningen (MK-skattningen) av parametern θ. Här behöver inte θ vara endimensionell, se tex. avsnittet om regressionsanalys. Tänk på att när vi minimerar Q(θ), så betraktar vi θ som en variabel, medan x1 , . . . , xn är fixa tal (mätvärden). Exempel - Linjär regression Exempel, forts. I en studie har man velat undersöka sambandet mellan skadekostnader och avstånd till närmaste brandstation vid bränder i bostadshus. Distance from Fire Station x, miles 3.4 1.8 4.6 2.3 3.1 5.5 0.7 3.0 2.6 4.3 2.1 1.1 6.1 4.8 3.8 Fire Damage y , thousands of dollars 26.2 17.8 31.3 23.1 27.5 36.0 14.1 22.3 19.6 31.3 24.0 17.3 43.2 36.4 26.1 Ett approximativt linjärt samband verkar fullt rimligt. Exempel, forts. Exempel, forts. Vi har värdepar (xj , yj ), där yj är observation av den stokastiska variabeln Yj = µj + εj = β0 + β1 xj + εj , Problem: (i) Hur hittar man den räta linje som passar bäst till punkterna? (ii) Skulle en ny försöksserie ge ungefär samma linje? för j = 1, . . . , n, där µj = β0 + β1 xj och x1 , . . . , xn är fixa tal medan ε1 , . . . , εn är oberoende stokastiska variabler med E(εj ) = 0 och var(εj ) = σ 2 . Modellen ger att (iii) Hur beskriver vi avvikelserna från linjen? E(Yj ) = µj = β0 + β1 xj Vi besvarar fråga (iii) genom att göra en modell för mätvärdena som innebär att vi betraktar avvikelserna från linjen som slumpvariabler. var(Yj ) = σ 2 . och Vi skattar β0 och β1 med hjälp av minsta-kvadrat-metoden, d.v.s. minimerar n n X X 2 Q(β0 , β1 ) = (yj − E(Yj )) = (yj − β0 − β1 xj )2 1 1 med avseende på β0 och β1 . Exempel, forts. Detta innebär att vi väljer den räta linje som minimerar summan av kvadraterna på avstånden i y -led från punkterna till den den räta linjen. Exempel, forts. I vårt exempel har vi n = 15 och minimeringen ger β̂0 = 10.278 och β̂1 = 4.9193. Vi får den skattade regressionslinjen y = β̂0 + β̂1 x = 10.278 + 4.9193x som ger de skattade väntevärdena för olika x-värden. Därmed har vi besvarat även fråga (i). Vi återkommer till fråga (ii) senare i kursen. Exempel - Hypergeometrisk fördelning Exempel - Hypergeometrisk fördelning I en urna finns N kulor varav Np är vita och N(1 − p) är svarta. Bland 200 ekonomiska transaktioner i ett företag väljer man ut 25 st och finner bland dem 3 felaktiga. Uppskatta p = andelen felaktiga transaktioner. Man väljer slumpmässigt n stycken utan återläggning och får då X vita kulor. Då gäller att X har hypergeometrisk fördelning, X ∼ Hyp(N, n, p) dvs. Np N(1−p) pX (x) = P(X = x) = x n−x N n , för 0 ≤ x ≤ Np och 0 ≤ n − x ≤ N(1 − p). Exempel - Exponentialfördelning Exempel forts. För att se hur datamaterialet ser ut gör vi ett histogram. Under en ”kort” geologisk period kan det vara rimligt att anta att tiderna mellan successiva utbrott för en vulkan är oberoende och exponentialfördelade med ett väntevärde µ som är karakteristiskt för den enskilda vulkanen. I tabellen nedan finns tiderna i månader mellan 37 successiva utbrott för vulkanen Mauna Loa på Hawaii 1832-1950. 126 73 26 6 41 26 73 23 21 18 11 3 3 2 6 6 12 38 6 65 68 41 38 50 37 94 16 40 77 91 23 51 20 18 61 12 Tiderna mellan utbrott varierar mycket. Histogrammets form antyder att exponentialfördelning kan vara ett lämpligt antagande. Exempel forts. Exempel forts. Om X är tiden mellan två utbrott så skulle täthetsfunktionen vara f (x) = 1 −x/µ e µ för x ≥ 0. Parametern µ är väntevärdet och vi vet att µ > 0. För att kunna beskriva variationerna i tidsavstånden mellan utbrotten och kunna beräkna intressanta sannolikheter behöver vi ett approximativt värde på µ. Alltså, vi behöver punkskatta µ. Anta t.ex. att ett utbrott just är över. Uppskatta, utgående från antagandet om exponentialfördelning, sannolikheten att det dröjer mer än sex månader till nästa utbrott. Alltså vi ska beräkna Z p̂ = P(X > 6) = ∞ Z f (x)dx = 6 6 ∞ 1 −x/µ̂ e dx µ̂ Vi återkommer till det här exemplet senare. Förslag? Exempel - Binomialfördelning Maximum-Likelihood-Metoden Låt x1 , ..., xn vara observationer av oberoende s.v. X1 , ..., Xn med täthetsfunktion f (x; θ) eller sannolikhetsfunktion p(x; θ). För ett datorsystem är det önskvärt att svarstiden, då man ger en viss typ av kommando, är under tre sekunder. Vid 66 oberoende testningar fick man 14 svarstider som var längre än tre sekunder. Vi vill uppskatta p = sannolikheten att en svarstid är > 3s. Definition Funktionen Qn i=1 f (xi ; θ) = f (x1 ; θ) · ... · f (xn ; θ) kontinuerlig s.v. L(θ) = Qn i=1 p(xi ; θ) = p(x1 ; θ) · ... · p(xn ; θ) diskret s.v. kallas likelihoodfunktionen. Modell: x = 14 är observation av X ∼ Bin(n, p) där n = 66. Definition Hur ska vi skatta p? Förslag? Det värde på θ̂ som maximerar likelihoodfunktionen L(θ), då θ ∈ A = {tillåtna värden på θ}, kallas maximum-likelihoodskattningen (ML-skattningen) av θ. Vi återkommer också till det här exemplet senare. Vad är det vi maximerar? I det diskreta fallet är det helt enkelt sannolikheten för det observerade stickprovet. Exempel - ML-metoden Stickprov x = (−0.5, 0, 0.3, 0.5, 0.7, 0.8, 0.95, 1.15, 1.25, 1.30, 1.6, 1.9, 2.7, 3.5). Då θ ändras från θ1 till θ2 får vi en ”ny” täthetsfunktion. ML-metoden väljer den täthetsfunktion som gör L(θ) så stor som möjligt. Anmärkningar Q Anm. 1 Vid maximeringen av L(θ) = ni=1 f (xi ; θ) ska vi betrakta θ som en variabel och xi som konstant. Anm. 2 Det är oftare enklare att maximera ln L(θ) = n X ln f (xi ; θ). i=1 b som hör ihop med ML- skattningen Anm. 3 Skattningsvariabeln Θ har goda asymptotiska egenskaper vilket gör att man åtminstone för stora stickprov föredrar ML-skattningen framför andra typer av skattningar. b är konsistent Under ganska generella villkor gäller att den s.v. Θ och asymptotiskt normalfördelad med optimal varians. Generaliseringar Exempel forts. - Exponentialfördelning I exemplet ovan har vi x1 , . . . , xn , n = 36 och f (x) = a) Parametern θ kan vara flerdimensionell, t.ex. två som i normalfördelningsfallet. b) Man har observationer x1 , . . . , xn och y1 , . . . , ym , där de s.v. Xi har en fördelning och de s.v. Yj en annan fördelning, men båda fördelningarna innehåller samma parameter θ. Då är L(θ) = L1 (θ) · L2 (θ). 1 −x/µ e . µ Exempel forts. Exempel forts. - Binomial Vi har att x = 14 är en observation av X ∼ Bin(n, p), där n = 66. ML-skattningarna i normalfördelningsfallet Vi har observationer x1 , . . . , xn av oberoende s.v. X1 , . . . , Xn , där Xi ∼ N(µ, σ). Fall 1: σ känd och µ okänd. Då är µ̂ = x̄. ML-skattningarna i normalfördelningsfallet Fall 2: σ okänd och µ känd. Då är σ̂ 2 = 1 n Pn i=1 (xi − µ)2 . (Hemuppgift) Fall 3: Både µ och σ okända. Likelihoodfunktionen ges av i h 1 i 1 2 2 2 2 √ e −(x1 −µ) /2σ · . . . · √ e −(xn −µ) /2σ σ 2π σ 2π 1 n 1 Pn 2 = √ σ −n e − 2σ2 i=1 (xi −µ) . 2π L(µ, σ) = h Vidare får vi n 1 X l(µ, σ) = ln L(µ, σ) = konst − n ln σ − 2 (xi − µ)2 . 2σ i=1 Både µ och σ okända Man kan visa att maximum antas i ett nollställe till de partiella derivatorna. ! n n 1 X ∂l 1 X =− 2 2(xi − µ)(−1) = 2 xi − nµ ∂µ 2σ σ i=1 n 1 ∂l =− + 3 ∂σ σ σ ∂l ∂µ ∂l ∂σ =0 ger i=1 n X i=1 µ̂ = =0 (xi − µ)2 1 n σ̂ 2 = Pn i=1 xi 1 n = x̄ Pn i=1 (xi (vvr) − x̄)2 (ej vvr) Korrigerad ML-skattning Exempel - Normalfördelning Korrigerad ML-skattning av σ 2 är den vanliga stickprovsvariansen n 1 X (xi − x̄)2 . s = n−1 2 i=1 En affär har bestämt bemanningen på lördagar så att man behöver sälja för 25 000 kronor för att ”gå runt” den enskilda lördagen. Man vill bedöma hur vanlig en försäljningssumma under 25 000 är och även studera den genomsnittliga försälj- ningen för lördagar. Försäljningssiffror för 40 lördagar: Vid ett stickprov från normalfördelning har vi alltså skattningarna µ̂ = x̄ och n σ̂ 2 = s 2 = 1 X (xi − x̄)2 , n−1 i=1 då båda parametrarna µ och σ 2 är okända. 29 725.3 30 674.9 29 848.2 22 683.1 31 119.2 38 009.9 34 629.1 ... 40 249.5 26 723.1 25 657.4 27 044.4 Exempel forts.- Normalfördelning Modell: Försäljningen i tusentals kronor en slumpmässigt vald lördag är en s.v. X ∼ N(µ, σ). Här beskriver parametern µ den genomsnittliga försäljningen ”i det långa loppet”. En annan intressant parameter är 25000 − µ 25000 − µ X −µ < =Φ p = P(X < 25000) = P σ σ σ Vi behöver approximativa värden på µ och σ och de är µ̂ = x̄ = 29323, v u 40 X 1 u σ̂ = s = √ t (xi − x̄)2 = 5517.4. 39 1 Exempel forts.- Normalfördelning De approximativa värdena på µ och σ ger 25000 − µ̂ p̂ = Φ = Φ(−0.7835) = 1 − Φ(0.7835) ≈ 0.22 s Tolkning: Ungefär 22% av lördagarna ligger försäljningen under 25000 kronor. Den genomsnittliga försäljningen µ på lördagar är ungefär 29300 kronor. Flera stickprov från normalfördelning Hur säker information har vi om µ och σ 2 via våra punktskattningar? Antag nu att vi har flera stickprov från normalfördelning. Vi har observationer x1 , . . . , xm , där X1 , . . . , Xm är oberoende och N(µ1 , σ) b och S 2 . Vi har att Vi behöver studera fördelningarna för de s.v. M n X 1 σ b = X̄ = M Xi ∼ N µ, √ n n S2 = 1 n−1 i=1 n X Xi − X̄ 2 ∼??? - se nästa föreläsning. i=1 y1 , . . . , yn , där Y1 , . . . , Yn är oberoende och N(µ2 , σ) På liknande sätt som vid fallet med ett stickprov från normalfördelning kan man härleda skattningarna av de tre parametrarna. Använd a) och b) på sid. 35 så får man likelihoodfunktionen L(µ1 , µ2 , σ 2 ) = L(µ1 , σ 2 )L(µ2 , σ 2 ) Vi återkommer till detta i samband med intervallskattning. = Qm i=1 (xi −µ1 )2 1 √ e − 2σ2 σ 2π Qn i=1 (yi −µ2 )2 1 √ e − 2σ2 σ 2π Flera stickprov från normalfördelning Medelfel för en skattning Vid två stickprov från normalfördelningar med skilda väntevärden och en gemensam standardavvikelse har vi ML-skattningarna µ̂1 = x̄, µ̂2 = ȳ , samt den korrigerade σ 2 -skattningen s2 = 1)s12 1)s22 (m − + (n − (m − 1) + (n − 1) b eller standardavvikelsen Vi har använt oss av variansen var(Θ) b b Ju mindre varians, D(Θ) som ett precisionsmått för skattningen Θ. desto bättre skattning. Problem Variansen och standardavvikelsen är ofta okända, då de kan bero på just den parameter som vi vill skatta (och kanske ytterligare andra okända parametrar). , där Definition s12 = 1 m−1 m X (xi − x̄)2 och s22 = 1 1 n−1 n X (yi − ȳ )2 , i=1 b kallas medelfelet för Θ b och betecknas En skattning av D(Θ) b d = d(Θ) d.v.s. stickprovsvariansen för respektive stickprovet. Det här resultatet kan generaliseras till flera stickprov (se F-S). Exempel – Medelfel för en skattning N(µ, σ) Låt X1 , ..., Xn vara oberoende och N(µ, σ), där µ och σ okända. Vi vet att en skattning av µ är µ̂ = x̄. b = √σ , vilken beror Denna skattning har standardavvikelsen D(M) n på σ som är okänt. b = √s . Vi skattar variansen σ 2 med s 2 och medelfelet blir d(M) n Exempel – Medelfel för en skattning Bin(n, p) Appendix - Summor och Produkter Appendix - Logaritmlagarna Summor n X xi = x1 + x2 + . . . + xn ln(a · b) = ln a + ln b i=1 n X axi = ax1 + ax2 + . . . + axn = a(x1 + x2 + . . . + xn ) = a i=1 n X n X xi ln i=1 a = ln a − ln b b c =n·c ln ac = c ln a i=1 Produkter n Y ln e a = a xi = x1 · x2 · . . . · xn i=1 n Y n Y i=1 i=1 (axi ) = (ax1 ) · (ax2 ) · . . . · (axn ) = an · x1 · x2 · . . . · xn = an e ln b = b xi
© Copyright 2024