Formelsamling (2015).

L UNDS TEKNISKA H ÖGSKOLA
M ATEMATIKCENTRUM
M ATEMATISK STATISTIK
F ORMELSAMLING HT-15
M ATEMATISK STATISTIK F ÖR B, K, N, BME OCH K EMISTER ; FMS086 & MASB02
Sannolikhetsteori
• Följande gäller för sannolikheter:
∗ 0 ≤ P(A) ≤ 1
∗ P(Ω) = 1
∗ P(A ∪ B) = P(A) + P(B), om händelserna A och B är oförenliga (disjunkta).
• Additionssatsen för två händelser: P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
• Betingad sannolikhet: P(B | A) =
P(A ∩ B)
.
P(A)
• ”Satsen om total sannolikhet”: P(A) =
n
X
P(A | Hi ) P(Hi ),
i=1
där händelserna H1 ,. . . ,Hn är parvis oförenliga (disjunkta) händelser och
n
[
i=1
• A och B är oberoende ⇐⇒ P(A ∩ B) = P(A) P(B).
Beskrivning av data
n
1X
xi
• Medelvärde: x̄ =
n
i=1
#
" n
n
X
1
1 X
2
2
2
(xi − x̄) =
xi − n · x̄
• Varians: s =
n−1
n−1
2
i=1
• Variationskoefficient:
i=1
s
x̄
" n
#
n
X
1 X
1
(xi − x̄)(yi − ȳ) =
• Kovarians: cxy =
xi yi − nx̄ȳ
n−1
n−1
i=1
• Korrelationskoefficient: rxy =
i=1
cxy
sx sy
Läges-, spridnings- och beroendemått
• Väntevärdet av g(X ):
 ∞
X



g(k)pX (k) (diskreta s.v.)

k=−∞
E[g(X )] =
Z
∞




g(x)fX (x) dx (kontinuerliga s.v.)
−∞
Hi = Ω.
• Varians: V(X ) = E[(X − E(X ))2 ] = E(X 2 ) − [E(X )]2 .
√
• Standardavvikelse: D(X ) = V(X ).
• Kovarians: C(X , Y ) = E[(X − E(X ))(Y − E(Y ))] = E(XY ) − E(X ) E(Y ).
!
n
n
X
X
• Väntevärde av linjärkombination: E
ai Xi + b =
ai E(Xi ) + b
i=1
• Varians av linjärkombination: V
n
X
i=1
!
ai Xi + b
=
i=1
n
X
ai2 V(Xi ) + 2
i=1
n X
n
X
ai aj C(Xi , Xj ).
i=1 j=i+1
• X1 , . . . , Xn oberoende ⇒ X1 , . . . , Xn okorrelerade, dvs C(Xi , Xj ) = 0, i 6= j.
Fördelningar
Vanliga fördelningar
Fördelning
Väntevärde
Varians
k = 0, 1, . . . , n
np
np(1 − p)
k = 0, 1, 2, . . .
μ
μ
a+b
2
(a − b)2
12
Binomialfördelning,
Bin n, p
n
p(k) =
pk (1 − p)n−k
k
Poissonfördelning,
Po μ
p(k) = e−μ
Rektangelfördelning,
R(a, b)
f (x) =
1
b−a
a≤x≤b
Exponentialfördelning,
Exp(a)
f (x) =
1 −x/a
e
a
x≥0
a
a2
1,
Normalfördelning
N μ, σ2
f (x) = √
−∞ < x < ∞
μ
σ2
χ2 -fördelning,
χ2 (n)
f (x) =
x≥0
n
2n
t-fördelning,
t(n)
1 Γ ( n+1
2 )
f (x) = √
n
nπ Γ ( 2 )
0, n > 1
n
,n>2
n−2
F-fördelning,
F(n, m)
f (x) =
m
m−2
m2 (2m + 2n − 4)
,m>4
n(m − 2)2 (m − 4)
I övningshäftet och matlab N μ, σ
1
2πσ2
e−
(x−μ)2
2σ2
1 −x/2 x n/2−1
(2)
2e
Γ ( n2 )
− n+1
2
x2
1+
n
Γ ( n+m
nn/2 mm/2
2 )
·
Γ ( n2 )Γ ( m2 )
x (n−2)/2
·
1
μk
k!
−∞ < x < ∞
x≥0
(m + nx)(n+m)/2
2
Additionsformler
Om X och Y oberoende så gäller:
X ∈ Bin n1 , p , Y ∈ Bin n2 , p ⇒ X + Y ∈ Bin n1 + n2 , p .
X ∈ Po μ1 , Y ∈ Po μ2
⇒ X + Y ∈ Po μ1 + μ2 .
X ∈ χ2 (n), Y ∈ χ2 (m)
⇒ X + Y ∈ χ2 (n + m).
Normalfördelning
X −μ
• X ∈ N μ, σ2 ⇒ Z =
∈ N(0, 1)
σ
x−μ
där Φ(·) ges av tabell
• FX (x) = Φ
σ
• X1 , . . . , Xn oberoende och N μ1 , !
σ21 , . . . , N μn , σ2n ⇒
n
n
n
X
X
X
ai Xi ∈ N
ai μi ,
ai2 σ2i
i=1
i=1
i=1
Centrala gränsvärdessatsen
• X1 , X2 , . . . oberoende och likafördelade med E(Xi ) = μ, V(Xi ) = σ2 ⇒
n
X
Xi ∈
N nμ, nσ2 om n är stort nog
∼
i=1
• Med utnyttjande av, bland annat, CGS gäller följande approximationer:
Bin n, p → Po np
om p ≤ 0.1 och n ≥ 10.
Bin n,
p
→
N
np,
np(1
−
p)
om np(1 − p) ≥ 10.
Po μ
→ N μ, μ
om μ ≥ 15.
Gauss approximationsformler:
Med μ = E(X ) gäller att
E g(X ) ≈ g(μ),
2
V g(X ) ≈ g 0 (μ) · V(X ).
Med μi = E(Xi ) och ci = gi0 (μ1 , . . . , μk ) gäller att
E g(X1 , . . . , Xn ) ≈ g(μ1 , . . . , μk ),
n
k X
k
X
X
V g(X1 , . . . , Xn ) ≈
ci2 V(Xi ) + 2
ci cj C(Xi , Xj ).
i=1
i=1 j=i+1
Obs: X1 , . . . , Xn oberoende ⇒ X1 , . . . , Xn okorrelerade, dvs C(Xi , Xj ) = 0, i 6= j.
3
Fördelningar besläktade med normalfördelningar
• X1 , . . . , Xn oberoende och N(0, 1) ⇒
n
X
Xi2 ∈ χ2 (n)
i=1
n
1 X
(Xi − X̄ )2 ∈ χ2 (n − 1)
• X1 , . . . , Xn oberoende och N μ, σ2 ⇒ 2
σ
i=1
X
∈ t(n)
• X ∈ N(0, 1), Y ∈ χ2 (n) samt oberoende ⇒ p
Y /n
• X ∈ χ2 (n), Y ∈ χ2 (m) samt oberoende ⇒
X /n
∈ F (n, m)
Y /m
• F1−α (n, m) = 1/Fα (m, n)
Konfidensintervall
• Konfidensintervall med konfidensgrad 1 − α för väntevärdet av en normalfördelad skattning:
Om θ∗ ∈ N θ, D(θ∗ )2 så
I θ = (θ∗ ± λα/2 · D(θ∗ )),
om D(θ∗ ) är känd
I θ = (θ∗ ± λα/2 · d(θ∗ )),
om D(θ∗ ) skattas med d(θ∗ ),
eller θ∗ ∈
N enl. CGS.
∼
om D(θ∗ ) = c · σ där σ okänd och skattad med
Q
Q
I θ = (θ ± tα/2 (f ) · d(θ )),
med 2 ∈ χ2 (f )
(σ2 )∗ = s2 =
f
σ
Intervallen är approximativa vid normalapproximation av skattaren, θ∗ ∈
N θ, D(θ∗ )2 .
∼
∗
∗
• Konfidensintervall med konfidensgrad 1 − α för variansen i en normalfördelning:
Q
Q
Om X1 , . . . , Xn ∈ N μ, σ2 med (σ2 )∗ = s2 =
och 2 ∈ χ2 (f ) så
f
σ
!
f · s2
f · s2
,
I σ2 =
χ2α/2 (f ) χ21−α/2 (f )
• Konfidensintervall med konfidensgrad 1 − α för kvoten mellan varianserna i två normalfördelningar:
Om X1 , . . . , Xn1 ∈ N μ1 , σ21 och Y1 , . . . , Yn2 ∈ N μ2 , σ22 och μ1 , μ2 är okända:
I σ21 /σ22 =
s12
s12
F
(n
−
1,
n
−
1),
F (n2 − 1, n1 − 1)
2
1
1−α/2
s22
s22 α/2
4
Skattning av σ2
• Om Xi ∈ N μ, σ2 , i = 1, . . . , n är oberoende och μ okänd skattas variansen med
n
(σ2 )∗ = s2 =
2
Q
1 X
=
Xi − X̄
n−1
n−1
Q
∈ χ2 (n − 1)
σ2
och
i=1
• Poolade variansskattningen vid 2 stickprov:
(σ2 )∗ = sp2 =
Q
(n1 − 1)s12 + (n2 − 1)s22
=
f
n1 + n2 − 2
Q
∈ χ2 (n1 + n2 − 2)
σ2
och
• Poolade variansskattning vid k stickprov:
(σ2 )∗ = sp2 =
med f =
P
(n1 − 1)s12 + (n2 − 1)s22 + · · · + (nk − 1)sk2
Q
=
f
(n1 − 1) + (n2 − 1) + · · · + (nk − 1)
och
Q
∈ χ2 (f )
σ2
ni − k frihetsgrader.
Vanliga medelfel
Modell
Skattning
Medelfel
Xi ∈ N μ, σ2 , i = 1, . . . , n
μ∗ = x̄
σ
D(μ∗ ) = √
n
Xi ∈ N μ1 , σ2 , i = 1, . . . , n1
Yj ∈ N μ2 , σ2 , j = 1, . . . , n2
μ∗1 = x̄
μ∗2 = ȳ
D(μ∗1
X ∈ Bin n, p
x
p∗ =
n
X1 ∈ Bin n1 , p1 X2 ∈ Bin n2 , p2
X ∈ Po μ
p∗i =
xi
ni
μ∗ = x
−
μ∗2 )
r
1
1
+
=σ
n1 n2
r
p∗ (1 − p∗ )
n
s
p∗1 (1 − p∗1 ) p∗2 (1 − p∗2 )
d(p∗1 − p∗2 ) =
+
n1
n2
√
d(μ∗ ) = x
d(p∗ ) =
Intervall för skillnad i medelvärde vid olika varianser (Welchs t-test)
Om Xi ∈ N μ1 , σ21 , i = 1, . . . , n1 , Yj ∈ N μ2 , σ22 , j = 1, . . . , n2 och σ1 6= σ2 är okända (approximativt):
2


s
s1
s22 2
+
2
s12
n1
n2
s
+ 2
där
f = (s2 /n )2 (s2 /n )2
I μ1 −μ2 = x̄ − ȳ ± tα/2 f
1
n1 n2
1
+ 2 2
n1 −1
n2 −1
Hypotestest
• Direktmetoden: P Få det vi fått eller längre från H 0 k H 0 sann ,
jmf. med signifikansnivån α.
• Teststorhet, om skattningen θ∗ är (approximativt) normalfördelad,
T =
θ∗ − θ0
,
dH 0 (θ∗ )
jmf. med λ eller t(f )-kvantil.
• Styrkefunktion: h(θ) = P(H 0 förkastas k θ är det rätta parametervärdet)
• Speciellt: Signifikansnivån, α = P(H 0 förkastas k H 0 sann)
5
Regression
Enkel linjär regression:
• Modell: yi = α + βxi + εi , i = 1, . . . , n, där εi ∈ N 0, σ2 är oberoende.
• Parameterskattningar:
Sxy
σ2
∗
∈ N β,
β =
Sxx
Sxx
s2 =
Sxx =
Q0
n−2
n
X
x̄ 2
2 1
α = ȳ − β x̄ ∈ N α, σ
+
n Sxx
n
2
X
Sxy
∗
∗ 2
där Q0 =
(yi − α − β xi ) = Syy −
Sxx
∗
∗
n
X
2
i=1
2
(xi − x̄) ,
i=1
Syy =
(yi − ȳ) ,
Sxy =
i=1
n
X
(xi − x̄)(yi − ȳ)
i=1
• Ett tvåsidigt konfidensintervall med konfidensgrad 1 − p för μY (x0 ) = α + βx0 ges av


s
2
(x
−
x̄)
1
0

+
I μY (x0 ) = α∗ + β ∗ x0 ± tp/2 (n − 2) s
n
Sxx
• Ett prediktionsintervall för y(x0 ) = α + βx0 + ε0 ges av


s
2
1
(x
−
x̄)
0

I y(x0 ) = α∗ + β ∗ x0 ± tp/2 (n − 2) s 1 + +
n
Sxx
y0 − α
ges av
β


s
∗
2
1 (x − x̄) 
s
där
= x0∗ ± tp/2 (n − 2) · ∗ · 1 + + 0
|β |
n
Sxx
• Ett kalibreringsintervall med konfidensgrad 1 − p för x0 =
I x0
x0∗ =
y0 − α∗
β∗
Multipel linjär regression:
• Modell: yi = β0 + β1 x1i + β2 x2i + . . . + βp xpi + εi , där εi ∈ N 0, σ2 är oberoende.
• Med matrisrepresentation kan modellen skrivas som Y = X β + E.
• Parameterskattningar:
β ∗ = (X T X )−1 X T Y
s2 =
Q0
n − (p + 1)
V(β ∗ ) = σ2 (X T X )−1
n
X
där Q0 =
(yi − β0∗ − β1∗ x1i − . . . − βp∗ xpi )2 = Y T Y − β ∗ T X T Y
i=1
• Konfidensintervall för βi :
I βi = βi∗ ± tα/2 n − p − 1 · d(βi∗ )
där
d(βi∗ ) = s
p
element(ii) i (X T X )−1
• Konfidensintervall för μY (x0 ) = β0 + β1 x01 + . . . + βp x0p :
q
T
∗ 0
0
T
−1
0
I μY (x0 ) = μY (x ) ± tα/2 n − p − 1 · s x (X X ) x
• Vid stegvis regression baseras valet av modell i varje steg på variablernas testkvantiteter |T | =
6
|βi∗ |
d(βi∗ )
Faktorförsök
2k -försök
Varje faktor kan anta låg (–) och hög (+) nivå. För t.ex. ett 23 -försök med n observationer per faktorkombination
är modellen
yijkl = μ ± A ± B ± C(±)(±)AB(±)(±)AC(±)(±)BC(±)(±)(±)ABC + εijkl
Effekten skattas med hjälp av ett teckenschema. Dividera med 23 (allmänt med 2k )
Förs
(1)
(a)
(b)
(ab)
(c)
(ac)
(bc)
(abc)
Medelv
ȳ−−−
ȳ+−−
ȳ−+−
ȳ++−
ȳ−−+
ȳ+−+
ȳ−++
ȳ+++
μ
+
+
+
+
+
+
+
+
A
−
+
−
+
−
+
−
+
B
−
−
+
+
−
−
+
+
C
−
−
−
−
+
+
+
+
AB
+
−
−
+
+
−
−
+
AC
+
−
+
−
−
+
−
+
BC
+
+
−
−
−
−
+
+
ABC
−
+
+
−
+
−
−
+
s
, där s2 är den poolade variansskattningen från de olika försökspunkterna om n ≥ 2.
2k n
Om n = 1 kan en variansskattning erhållas från samspel av högre ordning. För dessa måste då antas E((effekt)2 ) =
σ2 /2k .
Medelfelet d(effekt) = √
2k−1 -försök
Vanligen kopplas högsta samspelet till I . För k = 4, t.ex., blir kopplingen I = ±ABCD.
Härur erhålles kopplingar mellan övriga effekter. Försökspunkterna fås genom att i teckenschemat för 2k -försöket
välja de rader som antingen har + eller − för högsta samspelet. Effekterna skattas med hjälp av det så erhållna
s
halverade teckenschemat. Dividera med 2k−1 . Medelfelet d(effekt) = √
.
2k−1
Variansanalys
Ensidig indelning
yij = μ + αi + εij där εij ∈ N 0, σ2 , i = 1, 2, . . . , k, j = 1, 2, . . . , ni .
Q = QA + Q0
där
Q=
XX
QA =
(yij − ȳ·· )2 =
i
j
X
ni (ȳi· − ȳ·· )2 =
XX
i
i
yij2 − (ȳ·· )2 ·
X
j
X
ni
i
ni ȳi·2 − (ȳ·· )2 ·
i
X
ni
i
XX
XX
X
Q0 =
(yij − ȳi· )2 =
yij2 −
ni ȳi·2
i
j
i
j
i
7
Variansanalystabell
f
Medelkvadrat
Variation Kvadratsumma
2 = Q /(k − 1)
Faktor A
QA
k
−
1
s
AP
A
P
Q0
ni − k s2 = Q0 /( ni − k)
Residual
P
Totalt
Q
ni − 1
P
sA2
obs av F (k − 1,
ni − k) om alla αi = 0.
2
s
Vid slumpmässiga effekter (varianskomponentmodell) antas αi ∈ N 0, σ2A . Om alla ni = n skattas σ2A med
Testkvantitet
(σ2A )∗ = n1 (sA2 − s2 )
För att göra konfidensintervall för μ i detta fallet betraktar man medelvärdena ȳ1 , . . . , ȳk som ett stickprov av en
normalfördelning.
Tvåsidig indelning
yijk = μ + αi + βj + (αβ)ij + εijk där εijk ∈ N 0, σ2 , i = 1, 2, . . . , a, j = 1, 2, . . . , b, k = 1, 2, . . . , n
Q = QA + QB + QAB + Q0
där
Q=
XXX
i
j
(yijk − ȳ··· )2 =
k
X
2
2
yijk
− a · b · n · ȳ···
i,j,k
XXX
X
2
2
QA =
(ȳi·· − ȳ··· )2 = b · n
ȳi··
− a · b · n · ȳ···
i
QB =
j
i
k
XXX
i
QAB =
j
(ȳ·j· − ȳ··· )2 = a · n
j
2
2
ȳ·j·
− a · b · n · ȳ···
j
k
XXX
i
X
(ȳij· − ȳi·· − ȳ·j· + ȳ··· )2 = Q − QA − QB − Q0
k
X
XXX
X
2
2
−n
ȳij·
Q0 =
(yijk − ȳij· )2 =
yijk
i
j
k
i,j,k
i,j
Variansanalystabell
Variation Kvadratsumma
f
Medelkvadrat
2
Faktor A
QA
a−1
sA = QA /(a − 1)
QB
b−1
sB2 = QB /(b − 1)
Faktor B
2 = Q /((a − 1)(b − 1))
QAB
(a − 1)(b − 1) sAB
Samspel AB
AB
Residual
Q0
ab(n − 1)
s2 = Q0 /ab(n − 1)
Totalt
Q
abn − 1
2
sAB
obs av F ((a − 1)(b − 1), ab(n − 1)) om (αβ)ij = 0
s2
sA2
obs av F (a − 1, ab(n − 1)) om αi = 0
s2
sB2
obs av F (b − 1, ab(n − 1)) om βj = 0
s2
8