TAMS65 - Föreläsning 2 Parameterskattningar

Innehåll Fö2
TAMS65 - Föreläsning 2
Parameterskattningar - olika metoder
I
I
Punktskattningar
Egenskaper
I
I
Martin Singull
MAI - LiU
I
Väntevärdesriktig
Effektiv
Konsistent
I
Punktskattning för väntevärde och varians
I
Minsta-kvadrat-metoden
I
Likelihoodfunktionen
I
Maximum-Likelihood-Metoden
Linköping
26 mars, 2015
Punktskattning
Stickprovsvariabeln
Låt x1 , ..., xn vara observationer av oberoende s.v. X1 , ..., Xn , vars
sannolikhetsfunktion p(k; θ) eller täthetsfunktion f (x; θ) innehåller
en okänd parameter θ.
Vi söker ett approximativt värde på θ, dvs. en punktskattning
baserad på x1 , ..., xn .
Det fixa värdet θ̂ (eng. estimate) är observation av stickprovsvariabeln (eng. estimator)
b = g (X1 , ..., Xn ).
Θ
Definition
b = θ∗ (X).
I boken har vi notationen Θ
En punktskattning är en funktion av de observerade mätvärdena, det vill säga
b för skattningsvariabel eller (punkt-)
Ibland kallar vi även Θ
skattning.
θ̂ = g (x1 , ..., xn ).
b beskriver vilka värden vi kan få på θ̂ för olika
Fördelningen för Θ
observationsserier.
I boken har vi notationen θ̂ = θ∗ (x).
Exempel - Punktskattning
Väntevärdesriktighet m.m.
Definition
Antag att vi har tre oberoende mätningar x1 , x2 , x3 från en och
samma population med väntevärdet µ och standardavvikelsen σ.
Vi kan till exempel skatta µ på två olika sätt
1
µ̂1 = (x1 + x2 + x3 )
3
1
µ̂2 = (x1 + 2x2 + 3x3 ).
6
Antag att x1 , = 1.32, x2 = 2.41 och x3 = 1.97 då blir de
observerade skattningarna
1
µ̂1 = (1.32 + 2.41 + 1.97) = 1.90
3
1
µ̂2 = (1.32 + 2 · 2.41 + 3 · 1.97) = 2.01.
6
b kallas väntevärdesriktig (vvr) om
Θ
b =θ
E(Θ)
(eng. unbiased).
Definition
b − θ = systematiskt
Ett systematiskt fel är definierat som E (Θ)
fel (eng. bias).
Definition
b 1 och Θ
b 2 är väntevärdesriktiga skattningar av θ, så kallas Θ
b1
Om Θ
b 2 om
effektivare än Θ
b 1 ) < var(Θ
b 2 ).
var(Θ
Exempel, forts.
Exempel
Låt x1 , ..., x7 vara ett stickprov från en slumpvariabel X med
E(X ) = µ och var(X ) = σ 2 . Betrakta skattningen av σ 2 enligt
Väntevärdesriktiga?
1
(X1 + X2 + X3 ) = ... = µ,
3
1
b 2) = E
E(M
(X1 + 2X2 + 3X3 ) = ... = µ
6
b 1) = E
E(M
Alltså, båda skattningarna är vvr skattningar av µ, men vilken
skattning är effektivast?
1
1
σ2
b
var(M1 ) = var
(X1 + X2 + X3 ) = (σ 2 + σ 2 + σ 2 ) =
,
3
9
3
1
1
14
b
var(M2 ) = var
(X1 + 2X2 + 3X3 ) = (σ 2 + 4σ 2 + 9σ 2 ) = σ 2 .
6
36
36
b 1 ) < var(M
b 2 ) och skattningen µ1 (M
b 1 ) är
Alltså gäller att var(M
effektivare och bör användas.
σ̂ 2 =
Är denna skattning vvr?
x22 + x62 − (x2 + x6 )/2
.
2
Konsistent skattning
Bevis
Om man har stora stickprov är även asymptotiska egenskaper hos
punktskattningar intressanta.
Definition
b n är definierad för varje stickprovsstorlek n. Om för
Anta att Θ
varje ε > 0 gäller att
b n − θ| > ε) → 0 då n → ∞,
P(|Θ
b n vara en konsistent skattning.
så sägs Θ
När man ska bevisa att en skattning är konsistent har man ofta
nytta av följande sats.
Sats
b n ) = θ och var(Θ
b n ) → 0 då n → ∞, så är Θ
b n en
Om E(Θ
konsistent skattning av θ.
Skattning av väntevärdet
Bevis
Låt x1 , . . . , xn vara observationer av oberoende s.v. X1 , . . . , Xn med
E(Xi ) = µ och var(Xi ) = σ 2 .
Sats
Det gäller att stickprovsmedelvärdet
n
X
b = X̄ = 1
M
Xi
n
i=1
är en väntevärdesriktig och konsistent skattning av µ.
Bevis
Kom ihåg att definitionen på varians är
var(X ) = E (X − µ)2 .
Vi har nu följande sats.
Sats
Det gäller att stickprovsvariansen
n
1 X
S =
(Xi − X̄ )2
n−1
2
i=1
är en väntevärdesriktig skattning av σ 2 .
Bevis forts.
Anm. S är inte en väntevärdesriktig skattning av σ, eftersom
0 < var(S) = E(S 2 ) − [E(S)]2 = σ 2 − [E(S)]2
dvs. [E(S)]2 < σ 2 och då är E(S) < σ.
Hemuppgift
Leta upp s på din räknare och lär dig använda den rutinen. Heter
ibland σn−1 .
Minsta-kvadrat-metoden
Exempel - Normalfördelning
Låt x1 , . . . , xn vara observationer av oberoende stokastiska
variabler X1 , . . . , Xn med E(Xi ) = µi (θ) och var(Xi ) = σ 2 .
Låt x1 , ..., xn vara observationer av oberoende s.v. X1 , ..., Xn , där
Xi ∼ N (µ, σ) och σ är känt. Skatta µ med minsta-kvadratmetoden.
Det värde θ̂ som minimerar
n
X
Q(θ) =
(xi − µi (θ))2 ,
i=1
kallas minsta-kvadrat-skattningen (MK-skattningen) av
parametern θ.
Här behöver inte θ vara endimensionell, se tex. avsnittet om
regressionsanalys.
Tänk på att när vi minimerar Q(θ), så betraktar vi θ som en
variabel, medan x1 , . . . , xn är fixa tal (mätvärden).
Exempel - Linjär regression
Exempel, forts.
I en studie har man velat undersöka sambandet mellan
skadekostnader och avstånd till närmaste brandstation vid bränder
i bostadshus.
Distance from Fire Station
x, miles
3.4
1.8
4.6
2.3
3.1
5.5
0.7
3.0
2.6
4.3
2.1
1.1
6.1
4.8
3.8
Fire Damage
y , thousands of dollars
26.2
17.8
31.3
23.1
27.5
36.0
14.1
22.3
19.6
31.3
24.0
17.3
43.2
36.4
26.1
Ett approximativt linjärt samband verkar fullt rimligt.
Exempel, forts.
Exempel, forts.
Vi har värdepar (xj , yj ), där yj är observation av den stokastiska
variabeln
Yj = µj + εj = β0 + β1 xj + εj ,
Problem:
(i) Hur hittar man den räta linje som passar bäst till punkterna?
(ii) Skulle en ny försöksserie ge ungefär samma linje?
för j = 1, . . . , n, där µj = β0 + β1 xj och x1 , . . . , xn är fixa tal
medan ε1 , . . . , εn är oberoende stokastiska variabler med E(εj ) = 0
och var(εj ) = σ 2 . Modellen ger att
(iii) Hur beskriver vi avvikelserna från linjen?
E(Yj ) = µj = β0 + β1 xj
Vi besvarar fråga (iii) genom att göra en modell för mätvärdena
som innebär att vi betraktar avvikelserna från linjen som
slumpvariabler.
var(Yj ) = σ 2 .
och
Vi skattar β0 och β1 med hjälp av minsta-kvadrat-metoden, d.v.s.
minimerar
n
n
X
X
2
Q(β0 , β1 ) =
(yj − E(Yj )) =
(yj − β0 − β1 xj )2
1
1
med avseende på β0 och β1 .
Exempel, forts.
Detta innebär att vi väljer den räta linje som minimerar summan
av kvadraterna på avstånden i y -led från punkterna
till den den räta linjen.
Exempel, forts.
I vårt exempel har vi n = 15 och minimeringen ger
β̂0 = 10.278
och
β̂1 = 4.9193.
Vi får den skattade regressionslinjen
y = β̂0 + β̂1 x = 10.278 + 4.9193x
som ger de skattade väntevärdena för olika x-värden.
Därmed har vi besvarat även fråga (i). Vi återkommer till fråga (ii)
senare i kursen.
Exempel - Hypergeometrisk fördelning
Exempel - Hypergeometrisk fördelning
I en urna finns N kulor varav Np är vita och N(1 − p) är svarta.
Bland 200 ekonomiska transaktioner i ett företag väljer man ut 25
st och finner bland dem 3 felaktiga. Uppskatta p = andelen
felaktiga transaktioner.
Man väljer slumpmässigt n stycken utan återläggning och får då X
vita kulor.
Då gäller att X har hypergeometrisk fördelning, X ∼ Hyp(N, n, p)
dvs.
Np N(1−p)
pX (x) = P(X = x) =
x
n−x
N
n
,
för 0 ≤ x ≤ Np och 0 ≤ n − x ≤ N(1 − p).
Exempel - Exponentialfördelning
Exempel forts.
För att se hur datamaterialet ser ut gör vi ett histogram.
Under en ”kort” geologisk period kan det vara rimligt att anta att
tiderna mellan successiva utbrott för en vulkan är oberoende och
exponentialfördelade med ett väntevärde µ som är karakteristiskt
för den enskilda vulkanen. I tabellen nedan finns tiderna i månader
mellan 37 successiva utbrott för vulkanen Mauna Loa på Hawaii
1832-1950.
126
73
26
6
41
26
73
23
21
18
11
3
3
2
6
6
12
38
6
65
68
41
38
50
37
94
16
40
77
91
23
51
20
18
61
12
Tiderna mellan utbrott varierar mycket. Histogrammets form
antyder att exponentialfördelning kan vara ett lämpligt antagande.
Exempel forts.
Exempel forts.
Om X är tiden mellan två utbrott så skulle täthetsfunktionen vara
f (x) =
1 −x/µ
e
µ
för x ≥ 0.
Parametern µ är väntevärdet och vi vet att µ > 0.
För att kunna beskriva variationerna i tidsavstånden mellan
utbrotten och kunna beräkna intressanta sannolikheter behöver vi
ett approximativt värde på µ.
Alltså, vi behöver punkskatta µ.
Anta t.ex. att ett utbrott just är över. Uppskatta, utgående från
antagandet om exponentialfördelning, sannolikheten att det dröjer
mer än sex månader till nästa utbrott.
Alltså vi ska beräkna
Z
p̂ = P(X > 6) =
∞
Z
f (x)dx =
6
6
∞
1 −x/µ̂
e
dx
µ̂
Vi återkommer till det här exemplet senare.
Förslag?
Exempel - Binomialfördelning
Maximum-Likelihood-Metoden
Låt x1 , ..., xn vara observationer av oberoende s.v. X1 , ..., Xn med
täthetsfunktion f (x; θ) eller sannolikhetsfunktion p(x; θ).
För ett datorsystem är det önskvärt att svarstiden, då man ger en
viss typ av kommando, är under tre sekunder. Vid 66 oberoende
testningar fick man 14 svarstider som var längre än tre sekunder.
Vi vill uppskatta
p = sannolikheten att en svarstid är > 3s.
Definition
Funktionen
 Qn
 i=1 f (xi ; θ) = f (x1 ; θ) · ... · f (xn ; θ) kontinuerlig s.v.
L(θ) =
 Qn
i=1 p(xi ; θ) = p(x1 ; θ) · ... · p(xn ; θ) diskret s.v.
kallas likelihoodfunktionen.
Modell: x = 14 är observation av X ∼ Bin(n, p) där n = 66.
Definition
Hur ska vi skatta p? Förslag?
Det värde på θ̂ som maximerar likelihoodfunktionen L(θ), då
θ ∈ A = {tillåtna värden på θ}, kallas maximum-likelihoodskattningen (ML-skattningen) av θ.
Vi återkommer också till det här exemplet senare.
Vad är det vi maximerar? I det diskreta fallet är det helt enkelt
sannolikheten för det observerade stickprovet.
Exempel - ML-metoden
Stickprov x = (−0.5, 0, 0.3, 0.5, 0.7, 0.8, 0.95, 1.15, 1.25, 1.30, 1.6, 1.9, 2.7, 3.5).
Då θ ändras från θ1 till θ2 får vi en ”ny” täthetsfunktion. ML-metoden väljer
den täthetsfunktion som gör L(θ) så stor som möjligt.
Anmärkningar
Q
Anm. 1 Vid maximeringen av L(θ) = ni=1 f (xi ; θ) ska vi betrakta
θ som en variabel och xi som konstant.
Anm. 2 Det är oftare enklare att maximera
ln L(θ) =
n
X
ln f (xi ; θ).
i=1
b som hör ihop med ML- skattningen
Anm. 3 Skattningsvariabeln Θ
har goda asymptotiska egenskaper vilket gör att man åtminstone
för stora stickprov föredrar ML-skattningen framför andra typer av
skattningar.
b är konsistent
Under ganska generella villkor gäller att den s.v. Θ
och asymptotiskt normalfördelad med optimal varians.
Generaliseringar
Exempel forts. - Exponentialfördelning
I exemplet ovan har vi x1 , . . . , xn , n = 36 och f (x) =
a) Parametern θ kan vara flerdimensionell, t.ex. två som i
normalfördelningsfallet.
b) Man har observationer x1 , . . . , xn och y1 , . . . , ym , där de s.v.
Xi har en fördelning och de s.v. Yj en annan fördelning, men
båda fördelningarna innehåller samma parameter θ. Då är
L(θ) = L1 (θ) · L2 (θ).
1 −x/µ
e
.
µ
Exempel forts.
Exempel forts. - Binomial
Vi har att x = 14 är en observation av X ∼ Bin(n, p), där n = 66.
ML-skattningarna i normalfördelningsfallet
Vi har observationer x1 , . . . , xn av oberoende s.v. X1 , . . . , Xn , där
Xi ∼ N(µ, σ).
Fall 1: σ känd och µ okänd. Då är µ̂ = x̄.
ML-skattningarna i normalfördelningsfallet
Fall 2: σ okänd och µ känd. Då är σ̂ 2 =
1
n
Pn
i=1 (xi
− µ)2 .
(Hemuppgift)
Fall 3: Både µ och σ okända.
Likelihoodfunktionen ges av
i
h 1
i
1
2
2
2
2
√ e −(x1 −µ) /2σ · . . . · √ e −(xn −µ) /2σ
σ 2π
σ 2π
1 n
1 Pn
2
= √
σ −n e − 2σ2 i=1 (xi −µ) .
2π
L(µ, σ) =
h
Vidare får vi
n
1 X
l(µ, σ) = ln L(µ, σ) = konst − n ln σ − 2
(xi − µ)2 .
2σ
i=1
Både µ och σ okända
Man kan visa att maximum antas i ett nollställe till de partiella
derivatorna.
!
n
n
1 X
∂l
1 X
=− 2
2(xi − µ)(−1) = 2
xi − nµ
∂µ
2σ
σ
i=1
n
1
∂l
=− + 3
∂σ
σ σ


∂l
∂µ

∂l
∂σ
=0
ger
i=1
n
X
i=1

 µ̂ =

=0
(xi − µ)2
1
n
σ̂ 2 =
Pn
i=1 xi
1
n
= x̄
Pn
i=1 (xi
(vvr)
− x̄)2 (ej vvr)
Korrigerad ML-skattning
Exempel - Normalfördelning
Korrigerad ML-skattning av σ 2 är den vanliga stickprovsvariansen
n
1 X
(xi − x̄)2 .
s =
n−1
2
i=1
En affär har bestämt bemanningen på lördagar så att man behöver
sälja för 25 000 kronor för att ”gå runt” den enskilda lördagen.
Man vill bedöma hur vanlig en försäljningssumma under 25 000 är
och även studera den genomsnittliga försälj- ningen för lördagar.
Försäljningssiffror för 40 lördagar:
Vid ett stickprov från normalfördelning har vi alltså skattningarna
µ̂ = x̄
och
n
σ̂ 2 = s 2 =
1 X
(xi − x̄)2 ,
n−1
i=1
då båda parametrarna µ och σ 2 är okända.
29 725.3
30 674.9
29 848.2
22 683.1
31 119.2
38 009.9
34 629.1
...
40 249.5
26 723.1
25 657.4
27 044.4
Exempel forts.- Normalfördelning
Modell: Försäljningen i tusentals kronor en slumpmässigt vald
lördag är en s.v. X ∼ N(µ, σ). Här beskriver parametern µ den
genomsnittliga försäljningen ”i det långa loppet”. En annan
intressant parameter är
25000 − µ
25000 − µ
X −µ
<
=Φ
p = P(X < 25000) = P
σ
σ
σ
Vi behöver approximativa värden på µ och σ och de är
µ̂ = x̄ = 29323,
v
u 40
X
1 u
σ̂ = s = √ t (xi − x̄)2 = 5517.4.
39
1
Exempel forts.- Normalfördelning
De approximativa värdena på µ och σ ger
25000 − µ̂
p̂ = Φ
= Φ(−0.7835) = 1 − Φ(0.7835) ≈ 0.22
s
Tolkning: Ungefär 22% av lördagarna ligger försäljningen under
25000 kronor.
Den genomsnittliga försäljningen µ på lördagar är ungefär 29300
kronor.
Flera stickprov från normalfördelning
Hur säker information har vi om µ och σ 2 via våra punktskattningar?
Antag nu att vi har flera stickprov från normalfördelning. Vi har
observationer
x1 , . . . , xm , där X1 , . . . , Xm är oberoende och N(µ1 , σ)
b och S 2 . Vi har att
Vi behöver studera fördelningarna för de s.v. M
n
X
1
σ
b = X̄ =
M
Xi ∼ N µ, √
n
n
S2 =
1
n−1
i=1
n
X
Xi − X̄
2
∼??? - se nästa föreläsning.
i=1
y1 , . . . , yn , där Y1 , . . . , Yn är oberoende och N(µ2 , σ)
På liknande sätt som vid fallet med ett stickprov från normalfördelning kan man härleda skattningarna av de tre parametrarna.
Använd a) och b) på sid. 35 så får man likelihoodfunktionen
L(µ1 , µ2 , σ 2 ) = L(µ1 , σ 2 )L(µ2 , σ 2 )
Vi återkommer till detta i samband med intervallskattning.
=
Qm
i=1
(xi −µ1 )2
1
√ e − 2σ2
σ 2π
Qn
i=1
(yi −µ2 )2
1
√ e − 2σ2
σ 2π
Flera stickprov från normalfördelning
Medelfel för en skattning
Vid två stickprov från normalfördelningar med skilda väntevärden
och en gemensam standardavvikelse har vi ML-skattningarna
µ̂1 = x̄,
µ̂2 = ȳ ,
samt den korrigerade σ 2 -skattningen
s2 =
1)s12
1)s22
(m −
+ (n −
(m − 1) + (n − 1)
b eller standardavvikelsen
Vi har använt oss av variansen var(Θ)
b
b Ju mindre varians,
D(Θ) som ett precisionsmått för skattningen Θ.
desto bättre skattning.
Problem Variansen och standardavvikelsen är ofta okända, då de
kan bero på just den parameter som vi vill skatta (och kanske
ytterligare andra okända parametrar).
,
där
Definition
s12 =
1
m−1
m
X
(xi − x̄)2
och s22 =
1
1
n−1
n
X
(yi − ȳ )2 ,
i=1
b kallas medelfelet för Θ
b och betecknas
En skattning av D(Θ)
b
d = d(Θ)
d.v.s. stickprovsvariansen för respektive stickprovet. Det här
resultatet kan generaliseras till flera stickprov (se F-S).
Exempel – Medelfel för en skattning N(µ, σ)
Låt X1 , ..., Xn vara oberoende och N(µ, σ), där µ och σ okända.
Vi vet att en skattning av µ är µ̂ = x̄.
b = √σ , vilken beror
Denna skattning har standardavvikelsen D(M)
n
på σ som är okänt.
b = √s .
Vi skattar variansen σ 2 med s 2 och medelfelet blir d(M)
n
Exempel – Medelfel för en skattning Bin(n, p)
Appendix - Summor och Produkter
Appendix - Logaritmlagarna
Summor
n
X
xi = x1 + x2 + . . . + xn
ln(a · b) = ln a + ln b
i=1
n
X
axi = ax1 + ax2 + . . . + axn = a(x1 + x2 + . . . + xn ) = a
i=1
n
X
n
X
xi
ln
i=1
a
= ln a − ln b
b
c =n·c
ln ac = c ln a
i=1
Produkter
n
Y
ln e a = a
xi = x1 · x2 · . . . · xn
i=1
n
Y
n
Y
i=1
i=1
(axi ) = (ax1 ) · (ax2 ) · . . . · (axn ) = an · x1 · x2 · . . . · xn = an
e ln b = b
xi