Föreläsning 10, Matematisk statistik +E

Statistik Skattningar
Föreläsning 10, Matematisk statistik Π + E
Johan Lindström
20 Januari, 2015
Johan Lindström - [email protected]
FMS012 F10
1/17
Statistik Skattningar
Översikt Exempel Repetition Exempel
Matematisk statistik – slumpens matematik
Sannolikhetsteori: Hur beskriver man slumpen och
slumpmässiga händelser?
I Slh. för 3 1:or på 10 tärningsslag?
I Givet fördelningen för vågor, hur höga/stora
kan de 5% “värsta” vågorna vara?
I Vi observerar ett radioaktivt material med
känd halveringstid under 10 mintuer; vilken
fördelning kommer det observerade antalet
sönderfall att följa?
Statistikteori: Vilka slutsatser kan man dra av ett
datamaterial?
I Givet 3 1:or på 10 tärningslag, är tärningen
“rättvis”?
I Givet 10 års mätningar av vågor, vad kan vi
säga om fördelningen?
I Under 10 minuter observerar vi 5 sönderfall,
Johan Lindström - [email protected]
FMS012 F10
2/17
Statistik Skattningar
Översikt Exempel Repetition Exempel
Statistik
Från mätningar (insamlad data) dra slutsatser om verkligheten.
Vi behöver då en modell för våra mätingar!
Ofta innehåller vår modell okända parametrar samt ett
antagande om fördelning för observationerna.
Johan Lindström - [email protected]
FMS012 F10
3/17
Statistik Skattningar
Översikt Exempel Repetition Exempel
Exempel: Kvalitetskontroll
Vi kontrollerar N st slumpmässigt utvalda komponenter från ett
stort parti och ser om de fungerar.
Modell: X =antalet trasiga komponenter
Bin(N, p), där p är andelen trasiga kommponenter. p är
X∈
∼
okänd en parameter i fördelningen.
Möjliga frågeställlningar:
1. Vad är en bra uppskattning av p?
2. Hur stor är osäkerheten i uppskattningen?
3. Vilket intervall tror vi p ligger inom?
4. Hur stort måste N vara för att uppnå en “tillräckligt liten”
osäkerhet?
Johan Lindström - [email protected]
FMS012 F10
4/17
Statistik Skattningar
Översikt Exempel Repetition Exempel
Statistikteori – översikt
Punktskattning
Hur gör man en bra gissning av en okänd storhet?
Hur vet man att den är bra?
Intervallskattning
Hitta istället ett intervall som täcker den okända
storheten med en given (stor) sannolikhet.
Hypotestest
Om gissningen blev 0.013, kan rätt värde på den
okända storheten ändå vara 0.01?
Regression
Sambandsanalys, hur vet vi om två variabler
påverkar varandra?
Johan Lindström - [email protected]
FMS012 F10
5/17
Statistik Skattningar
Översikt Exempel Repetition Exempel
Statistikteori, grundläggande begrepp
Stickprov
Ett stickprov, x1 , x2 , . . . , xn , är observationer av s.v. X1 , . . . , Xn
från någon fördelning Xi ∈ F(θ) där θ är en okänd parameter.
Skattning
En skattning av θ, θ∗ (x1 , . . . , xn ) är en observation av den s.v.
θ∗ (X1 , . . . , Xn ). Båda betecknas oftast bara med θ∗ .
Bra egenskaper för en skattning är
Väntevärdesriktig: E(θ∗ ) = θ, inget systematiskt fel.
Effektiv: liten varians (osäkerhet) V(θ∗ ).
Konsistent: P(|θ∗n − θ| > ε) → 0, n → ∞, dvs ”Bli bättre när
vi får fler observationer”,
Johan Lindström - [email protected]
FMS012 F10
6/17
Statistik Skattningar
Översikt Exempel Repetition Exempel
En skattning θ∗ är ett tal, en s.v. och en funktion
θ∗
Tal
S.V.
x1
x2
X1
X2
θ∗ (x1 , . . . , xn )
θ∗ (X)
θ∗
Xi ∈ F(θ)
Funktion
Johan Lindström - [email protected]
FMS012 F10
7/17
Statistik Skattningar
Översikt Exempel Repetition Exempel
Modell för mätning med slumpmässigt mätfel
Antag att vi vill mäta en storhet μ. Om man tar upp n st
mätvärden, x1 , . . . , xn är dessa observationer av
Xi = μ + εi = ”Rätt värde” + ”Mätfel”
där εi är ett slumpmässigt mätfel.
Ofta antas att εi är oberoende och
εi ∈ N(0, σ)
Detta ger att våra observationer blir
Xi ∈ N(μ, σ)
Vi ser att väntevärdet är den storhet vi försöker mäta upp.
Johan Lindström - [email protected]
FMS012 F10
8/17
Statistik Skattningar
Översikt Exempel Repetition Exempel
Väntevärde och Varians
Väntevärdet anger tyngdpunkten för fördelningen
(R ∞
−∞ xfX (x) dx Kont.
E(X) = P
Diskr.
k kpX (k)
Variansen anger hur utspridd X är kring sitt väntevärde.
h
i2 V(X) = E X − E(X)
= E(X2 ) − E(X)2 ≥ 0.
E
X
X
ai Xi + bi =
ai E(Xi ) + bi
!
X
X
X
V
ai Xi =
a2i V(Xi ) + 2
ai aj C(Xi , Xj )
i
i
i<j
|
=0
Johan Lindström - [email protected]
FMS012 F10
{z
}
om oberoende
9/17
Statistik Skattningar
Översikt Exempel Repetition Exempel
Variation i observationer ger variation i skattningen
n
μ∗n =
1X
Xi
n
E(μ∗n ) = μ
V(μ∗n ) =
i=1
1
2
3
4
5
6
7
8
..
.
Observationer, xjk
4.83
4.93
5.24
5.09
5.13
4.53
5.53
5.10
4.34
4.48
5.10
4.75
5.14
5.10
4.79
4.80
5.33
5.22
5.20
5.26
5.49
4.48
4.81
4.62
5.12
4.59
5.05
5.17
5.48
5.26
5.60
4.61
Johan Lindström - [email protected]
5.10
4.70
5.21
4.98
4.70
4.45
4.83
5.04
4.69
4.10
4.43
5.01
5.89
4.12
5.28
4.81
5.62
4.96
4.30
5.82
5.22
5.29
4.38
4.32
FMS012 F10
4.73
5.26
4.56
5.12
5.91
5.09
5.18
4.41
σ2
n
μ∗ = x̄j
5.03
4.79
4.82
5.05
5.28
4.95
5.15
4.64
10/17
Statistik Skattningar
Översikt Exempel Repetition Exempel
Observationernas fördelning
0.8
0.6
0.4
0.2
0
3
3.5
4
4.5
5
5.5
6
6.5
7
6
6.5
7
Skattningarnas fördelning
2.5
2
1.5
1
0.5
0
3
3.5
4
4.5
Johan Lindström - [email protected]
5
5.5
FMS012 F10
11/17
Statistik Skattningar
MK ML Exempel Medelfel
Minsta kvadrat-metoden, MK
Om E(Xi ) = μi (θ) så fås MK-skattningen av θ genom att
minimera förlustfunktionen
Q(θ) =
n X
xi − μi (θ)
2
i=1
m.a.p. θ.
I
Bestäm hur väntevärdet beror av θ, E(Xi ) = μi (θ).
I
Sätt upp Q(θ)
I
Derivera, sätt lika med noll och lös m.a.p. θ.
I
Det θ som minimerar Q(θ) är MK-skattningen, θ∗MK .
Johan Lindström - [email protected]
FMS012 F10
12/17
Statistik Skattningar
MK ML Exempel Medelfel
Maximum likelihood-metoden, ML
ML-skattningen av θ fås genom att maximera
likelihood-funktionen L(θ; x1 , . . . , xn ) m.a.p. θ.
L(θ) = pX (x1 ) · . . . · pX (xn )
(diskr.)
L(θ) = fX (x1 ) · . . . · fX (xn )
(kont.)
I det diskreta fallet anger L-funktionen:
”Sannolikheten att få det stickprov vi fått”.
I
Sätt upp L(θ)
I
Logaritmera — ln L(θ) maximeras av samma θ som L(θ).
I
Derivera, sätt lika med noll och lös m.a.p. θ.
I
Det θ som maximerar L(θ) är ML-skattningen θ∗ML .
Johan Lindström - [email protected]
FMS012 F10
13/17
Statistik Skattningar
MK ML Exempel Medelfel
Exempel: Radon
Radonkoncentrationen i inomhusluft
kan mätas genom att hänga upp en
α-känslig film. Antalet hål i filmen
beskrivs av en Poisson-process med
Xi ∈ Po(μKi ).
Där μ är den okända Radonkoncentrationen och Ki är kända konstanter
som beror på bl.a. filmens känslighet,
storlek och exponeringstiden.
Radon-data återkommer i lab 4.
Johan Lindström - [email protected]
FMS012 F10
14/17
Statistik Skattningar
MK ML Exempel Medelfel
Exempel: Poissonfördelning
Låt Xi , i = 1, · · · , n vara n oberoende observationer från
Poisson- fördelningar där Xi ∈ Po(μKi ) där μ är en okänd
parameter och Ki kända positiva tal.
I
Hur ser ML-skattningen av μ ut?
I
Hur ser MK-skattningen av μ ut?
I
Är skattningarna väntesvärderiktiga?
I
Vilken av skattningarna har lägst varians?
Johan Lindström - [email protected]
FMS012 F10
15/17
Statistik Skattningar
MK ML Exempel Medelfel
Ex: Normalfördelning
Om x1 , . . . , xn är observationer av Xi ∈ N(μ, σ) blir ML- och
MK-skattningen av μ och en korrigerad
ML-skattning(MK-skattning) av σ2
μ∗ = x̄
n
(σ2 )∗ = s2 =
1 X
(xi − x̄)2
n−1
i=1
Dessa används även för att skatta väntevärde och varians vid
okänd fördelning
Johan Lindström - [email protected]
FMS012 F10
16/17
Statistik Skattningar
MK ML Exempel Medelfel
Medelfel
Om standardavvikelsen, D(θ∗ ), för en skattning innehåller
okända parametrar kan man inte räkna ut ett nummeriskt
värde på den. Om vi stoppar in skattningar på de okända
parametrarna fås medelfelet
d(θ∗ ). Ex.
X
∗
p = , där X ∈ Bin(n, p) (V(X) = npq)
n
X
1
1
pq
∗
V(p ) = V( ) = 2 V(X) = 2 npq =
n
n
n
n
r
∗
∗
p q
d(p∗ ) =
n
Ex.
μ∗ = X̄, där X ∈ N(μ, σ), σ okänd
v
u
n
2
u 1 X
σ
s
∗
∗
V(μ ) = , d(μ ) = √ , där s = t
(xi − x̄)2
n
n−1
n
i=1
Johan Lindström - [email protected]
FMS012 F10
17/17