L UNDS TEKNISKA H ÖGSKOLA M ATEMATIKCENTRUM M ATEMATISK STATISTIK F ORMELSAMLING HT-15 M ATEMATISK STATISTIK F ÖR B, K, N, BME OCH K EMISTER ; FMS086 & MASB02 Sannolikhetsteori • Följande gäller för sannolikheter: ∗ 0 ≤ P(A) ≤ 1 ∗ P(Ω) = 1 ∗ P(A ∪ B) = P(A) + P(B), om händelserna A och B är oförenliga (disjunkta). • Additionssatsen för två händelser: P(A ∪ B) = P(A) + P(B) − P(A ∩ B). • Betingad sannolikhet: P(B | A) = P(A ∩ B) . P(A) • ”Satsen om total sannolikhet”: P(A) = n X P(A | Hi ) P(Hi ), i=1 där händelserna H1 ,. . . ,Hn är parvis oförenliga (disjunkta) händelser och n [ i=1 • A och B är oberoende ⇐⇒ P(A ∩ B) = P(A) P(B). Beskrivning av data n 1X xi • Medelvärde: x̄ = n i=1 # " n n X 1 1 X 2 2 2 (xi − x̄) = xi − n · x̄ • Varians: s = n−1 n−1 2 i=1 • Variationskoefficient: i=1 s x̄ " n # n X 1 X 1 (xi − x̄)(yi − ȳ) = • Kovarians: cxy = xi yi − nx̄ȳ n−1 n−1 i=1 • Korrelationskoefficient: rxy = i=1 cxy sx sy Läges-, spridnings- och beroendemått • Väntevärdet av g(X ): ∞ X g(k)pX (k) (diskreta s.v.) k=−∞ E[g(X )] = Z ∞ g(x)fX (x) dx (kontinuerliga s.v.) −∞ Hi = Ω. • Varians: V(X ) = E[(X − E(X ))2 ] = E(X 2 ) − [E(X )]2 . √ • Standardavvikelse: D(X ) = V(X ). • Kovarians: C(X , Y ) = E[(X − E(X ))(Y − E(Y ))] = E(XY ) − E(X ) E(Y ). ! n n X X • Väntevärde av linjärkombination: E ai Xi + b = ai E(Xi ) + b i=1 • Varians av linjärkombination: V n X i=1 ! ai Xi + b = i=1 n X ai2 V(Xi ) + 2 i=1 n X n X ai aj C(Xi , Xj ). i=1 j=i+1 • X1 , . . . , Xn oberoende ⇒ X1 , . . . , Xn okorrelerade, dvs C(Xi , Xj ) = 0, i 6= j. Fördelningar Vanliga fördelningar Fördelning Väntevärde Varians k = 0, 1, . . . , n np np(1 − p) k = 0, 1, 2, . . . μ μ a+b 2 (a − b)2 12 Binomialfördelning, Bin n, p n p(k) = pk (1 − p)n−k k Poissonfördelning, Po μ p(k) = e−μ Rektangelfördelning, R(a, b) f (x) = 1 b−a a≤x≤b Exponentialfördelning, Exp(a) f (x) = 1 −x/a e a x≥0 a a2 1, Normalfördelning N μ, σ2 f (x) = √ −∞ < x < ∞ μ σ2 χ2 -fördelning, χ2 (n) f (x) = x≥0 n 2n t-fördelning, t(n) 1 Γ ( n+1 2 ) f (x) = √ n nπ Γ ( 2 ) 0, n > 1 n ,n>2 n−2 F-fördelning, F(n, m) f (x) = m m−2 m2 (2m + 2n − 4) ,m>4 n(m − 2)2 (m − 4) I övningshäftet och matlab N μ, σ 1 2πσ2 e− (x−μ)2 2σ2 1 −x/2 x n/2−1 (2) 2e Γ ( n2 ) − n+1 2 x2 1+ n Γ ( n+m nn/2 mm/2 2 ) · Γ ( n2 )Γ ( m2 ) x (n−2)/2 · 1 μk k! −∞ < x < ∞ x≥0 (m + nx)(n+m)/2 2 Additionsformler Om X och Y oberoende så gäller: X ∈ Bin n1 , p , Y ∈ Bin n2 , p ⇒ X + Y ∈ Bin n1 + n2 , p . X ∈ Po μ1 , Y ∈ Po μ2 ⇒ X + Y ∈ Po μ1 + μ2 . X ∈ χ2 (n), Y ∈ χ2 (m) ⇒ X + Y ∈ χ2 (n + m). Normalfördelning X −μ • X ∈ N μ, σ2 ⇒ Z = ∈ N(0, 1) σ x−μ där Φ(·) ges av tabell • FX (x) = Φ σ • X1 , . . . , Xn oberoende och N μ1 , ! σ21 , . . . , N μn , σ2n ⇒ n n n X X X ai Xi ∈ N ai μi , ai2 σ2i i=1 i=1 i=1 Centrala gränsvärdessatsen • X1 , X2 , . . . oberoende och likafördelade med E(Xi ) = μ, V(Xi ) = σ2 ⇒ n X Xi ∈ N nμ, nσ2 om n är stort nog ∼ i=1 • Med utnyttjande av, bland annat, CGS gäller följande approximationer: Bin n, p → Po np om p ≤ 0.1 och n ≥ 10. Bin n, p → N np, np(1 − p) om np(1 − p) ≥ 10. Po μ → N μ, μ om μ ≥ 15. Gauss approximationsformler: Med μ = E(X ) gäller att E g(X ) ≈ g(μ), 2 V g(X ) ≈ g 0 (μ) · V(X ). Med μi = E(Xi ) och ci = gi0 (μ1 , . . . , μk ) gäller att E g(X1 , . . . , Xn ) ≈ g(μ1 , . . . , μk ), n k X k X X V g(X1 , . . . , Xn ) ≈ ci2 V(Xi ) + 2 ci cj C(Xi , Xj ). i=1 i=1 j=i+1 Obs: X1 , . . . , Xn oberoende ⇒ X1 , . . . , Xn okorrelerade, dvs C(Xi , Xj ) = 0, i 6= j. 3 Fördelningar besläktade med normalfördelningar • X1 , . . . , Xn oberoende och N(0, 1) ⇒ n X Xi2 ∈ χ2 (n) i=1 n 1 X (Xi − X̄ )2 ∈ χ2 (n − 1) • X1 , . . . , Xn oberoende och N μ, σ2 ⇒ 2 σ i=1 X ∈ t(n) • X ∈ N(0, 1), Y ∈ χ2 (n) samt oberoende ⇒ p Y /n • X ∈ χ2 (n), Y ∈ χ2 (m) samt oberoende ⇒ X /n ∈ F (n, m) Y /m • F1−α (n, m) = 1/Fα (m, n) Konfidensintervall • Konfidensintervall med konfidensgrad 1 − α för väntevärdet av en normalfördelad skattning: Om θ∗ ∈ N θ, D(θ∗ )2 så I θ = (θ∗ ± λα/2 · D(θ∗ )), om D(θ∗ ) är känd I θ = (θ∗ ± λα/2 · d(θ∗ )), om D(θ∗ ) skattas med d(θ∗ ), eller θ∗ ∈ N enl. CGS. ∼ om D(θ∗ ) = c · σ där σ okänd och skattad med Q Q I θ = (θ ± tα/2 (f ) · d(θ )), med 2 ∈ χ2 (f ) (σ2 )∗ = s2 = f σ Intervallen är approximativa vid normalapproximation av skattaren, θ∗ ∈ N θ, D(θ∗ )2 . ∼ ∗ ∗ • Konfidensintervall med konfidensgrad 1 − α för variansen i en normalfördelning: Q Q Om X1 , . . . , Xn ∈ N μ, σ2 med (σ2 )∗ = s2 = och 2 ∈ χ2 (f ) så f σ ! f · s2 f · s2 , I σ2 = χ2α/2 (f ) χ21−α/2 (f ) • Konfidensintervall med konfidensgrad 1 − α för kvoten mellan varianserna i två normalfördelningar: Om X1 , . . . , Xn1 ∈ N μ1 , σ21 och Y1 , . . . , Yn2 ∈ N μ2 , σ22 och μ1 , μ2 är okända: I σ21 /σ22 = s12 s12 F (n − 1, n − 1), F (n2 − 1, n1 − 1) 2 1 1−α/2 s22 s22 α/2 4 Skattning av σ2 • Om Xi ∈ N μ, σ2 , i = 1, . . . , n är oberoende och μ okänd skattas variansen med n (σ2 )∗ = s2 = 2 Q 1 X = Xi − X̄ n−1 n−1 Q ∈ χ2 (n − 1) σ2 och i=1 • Poolade variansskattningen vid 2 stickprov: (σ2 )∗ = sp2 = Q (n1 − 1)s12 + (n2 − 1)s22 = f n1 + n2 − 2 Q ∈ χ2 (n1 + n2 − 2) σ2 och • Poolade variansskattning vid k stickprov: (σ2 )∗ = sp2 = med f = P (n1 − 1)s12 + (n2 − 1)s22 + · · · + (nk − 1)sk2 Q = f (n1 − 1) + (n2 − 1) + · · · + (nk − 1) och Q ∈ χ2 (f ) σ2 ni − k frihetsgrader. Vanliga medelfel Modell Skattning Medelfel Xi ∈ N μ, σ2 , i = 1, . . . , n μ∗ = x̄ σ D(μ∗ ) = √ n Xi ∈ N μ1 , σ2 , i = 1, . . . , n1 Yj ∈ N μ2 , σ2 , j = 1, . . . , n2 μ∗1 = x̄ μ∗2 = ȳ D(μ∗1 X ∈ Bin n, p x p∗ = n X1 ∈ Bin n1 , p1 X2 ∈ Bin n2 , p2 X ∈ Po μ p∗i = xi ni μ∗ = x − μ∗2 ) r 1 1 + =σ n1 n2 r p∗ (1 − p∗ ) n s p∗1 (1 − p∗1 ) p∗2 (1 − p∗2 ) d(p∗1 − p∗2 ) = + n1 n2 √ d(μ∗ ) = x d(p∗ ) = Intervall för skillnad i medelvärde vid olika varianser (Welchs t-test) Om Xi ∈ N μ1 , σ21 , i = 1, . . . , n1 , Yj ∈ N μ2 , σ22 , j = 1, . . . , n2 och σ1 6= σ2 är okända (approximativt): 2 s s1 s22 2 + 2 s12 n1 n2 s + 2 där f = (s2 /n )2 (s2 /n )2 I μ1 −μ2 = x̄ − ȳ ± tα/2 f 1 n1 n2 1 + 2 2 n1 −1 n2 −1 Hypotestest • Direktmetoden: P Få det vi fått eller längre från H 0 k H 0 sann , jmf. med signifikansnivån α. • Teststorhet, om skattningen θ∗ är (approximativt) normalfördelad, T = θ∗ − θ0 , dH 0 (θ∗ ) jmf. med λ eller t(f )-kvantil. • Styrkefunktion: h(θ) = P(H 0 förkastas k θ är det rätta parametervärdet) • Speciellt: Signifikansnivån, α = P(H 0 förkastas k H 0 sann) 5 Regression Enkel linjär regression: • Modell: yi = α + βxi + εi , i = 1, . . . , n, där εi ∈ N 0, σ2 är oberoende. • Parameterskattningar: Sxy σ2 ∗ ∈ N β, β = Sxx Sxx s2 = Sxx = Q0 n−2 n X x̄ 2 2 1 α = ȳ − β x̄ ∈ N α, σ + n Sxx n 2 X Sxy ∗ ∗ 2 där Q0 = (yi − α − β xi ) = Syy − Sxx ∗ ∗ n X 2 i=1 2 (xi − x̄) , i=1 Syy = (yi − ȳ) , Sxy = i=1 n X (xi − x̄)(yi − ȳ) i=1 • Ett tvåsidigt konfidensintervall med konfidensgrad 1 − p för μY (x0 ) = α + βx0 ges av s 2 (x − x̄) 1 0 + I μY (x0 ) = α∗ + β ∗ x0 ± tp/2 (n − 2) s n Sxx • Ett prediktionsintervall för y(x0 ) = α + βx0 + ε0 ges av s 2 1 (x − x̄) 0 I y(x0 ) = α∗ + β ∗ x0 ± tp/2 (n − 2) s 1 + + n Sxx y0 − α ges av β s ∗ 2 1 (x − x̄) s där = x0∗ ± tp/2 (n − 2) · ∗ · 1 + + 0 |β | n Sxx • Ett kalibreringsintervall med konfidensgrad 1 − p för x0 = I x0 x0∗ = y0 − α∗ β∗ Multipel linjär regression: • Modell: yi = β0 + β1 x1i + β2 x2i + . . . + βp xpi + εi , där εi ∈ N 0, σ2 är oberoende. • Med matrisrepresentation kan modellen skrivas som Y = X β + E. • Parameterskattningar: β ∗ = (X T X )−1 X T Y s2 = Q0 n − (p + 1) V(β ∗ ) = σ2 (X T X )−1 n X där Q0 = (yi − β0∗ − β1∗ x1i − . . . − βp∗ xpi )2 = Y T Y − β ∗ T X T Y i=1 • Konfidensintervall för βi : I βi = βi∗ ± tα/2 n − p − 1 · d(βi∗ ) där d(βi∗ ) = s p element(ii) i (X T X )−1 • Konfidensintervall för μY (x0 ) = β0 + β1 x01 + . . . + βp x0p : q T ∗ 0 0 T −1 0 I μY (x0 ) = μY (x ) ± tα/2 n − p − 1 · s x (X X ) x • Vid stegvis regression baseras valet av modell i varje steg på variablernas testkvantiteter |T | = 6 |βi∗ | d(βi∗ ) Faktorförsök 2k -försök Varje faktor kan anta låg (–) och hög (+) nivå. För t.ex. ett 23 -försök med n observationer per faktorkombination är modellen yijkl = μ ± A ± B ± C(±)(±)AB(±)(±)AC(±)(±)BC(±)(±)(±)ABC + εijkl Effekten skattas med hjälp av ett teckenschema. Dividera med 23 (allmänt med 2k ) Förs (1) (a) (b) (ab) (c) (ac) (bc) (abc) Medelv ȳ−−− ȳ+−− ȳ−+− ȳ++− ȳ−−+ ȳ+−+ ȳ−++ ȳ+++ μ + + + + + + + + A − + − + − + − + B − − + + − − + + C − − − − + + + + AB + − − + + − − + AC + − + − − + − + BC + + − − − − + + ABC − + + − + − − + s , där s2 är den poolade variansskattningen från de olika försökspunkterna om n ≥ 2. 2k n Om n = 1 kan en variansskattning erhållas från samspel av högre ordning. För dessa måste då antas E((effekt)2 ) = σ2 /2k . Medelfelet d(effekt) = √ 2k−1 -försök Vanligen kopplas högsta samspelet till I . För k = 4, t.ex., blir kopplingen I = ±ABCD. Härur erhålles kopplingar mellan övriga effekter. Försökspunkterna fås genom att i teckenschemat för 2k -försöket välja de rader som antingen har + eller − för högsta samspelet. Effekterna skattas med hjälp av det så erhållna s halverade teckenschemat. Dividera med 2k−1 . Medelfelet d(effekt) = √ . 2k−1 Variansanalys Ensidig indelning yij = μ + αi + εij där εij ∈ N 0, σ2 , i = 1, 2, . . . , k, j = 1, 2, . . . , ni . Q = QA + Q0 där Q= XX QA = (yij − ȳ·· )2 = i j X ni (ȳi· − ȳ·· )2 = XX i i yij2 − (ȳ·· )2 · X j X ni i ni ȳi·2 − (ȳ·· )2 · i X ni i XX XX X Q0 = (yij − ȳi· )2 = yij2 − ni ȳi·2 i j i j i 7 Variansanalystabell f Medelkvadrat Variation Kvadratsumma 2 = Q /(k − 1) Faktor A QA k − 1 s AP A P Q0 ni − k s2 = Q0 /( ni − k) Residual P Totalt Q ni − 1 P sA2 obs av F (k − 1, ni − k) om alla αi = 0. 2 s Vid slumpmässiga effekter (varianskomponentmodell) antas αi ∈ N 0, σ2A . Om alla ni = n skattas σ2A med Testkvantitet (σ2A )∗ = n1 (sA2 − s2 ) För att göra konfidensintervall för μ i detta fallet betraktar man medelvärdena ȳ1 , . . . , ȳk som ett stickprov av en normalfördelning. Tvåsidig indelning yijk = μ + αi + βj + (αβ)ij + εijk där εijk ∈ N 0, σ2 , i = 1, 2, . . . , a, j = 1, 2, . . . , b, k = 1, 2, . . . , n Q = QA + QB + QAB + Q0 där Q= XXX i j (yijk − ȳ··· )2 = k X 2 2 yijk − a · b · n · ȳ··· i,j,k XXX X 2 2 QA = (ȳi·· − ȳ··· )2 = b · n ȳi·· − a · b · n · ȳ··· i QB = j i k XXX i QAB = j (ȳ·j· − ȳ··· )2 = a · n j 2 2 ȳ·j· − a · b · n · ȳ··· j k XXX i X (ȳij· − ȳi·· − ȳ·j· + ȳ··· )2 = Q − QA − QB − Q0 k X XXX X 2 2 −n ȳij· Q0 = (yijk − ȳij· )2 = yijk i j k i,j,k i,j Variansanalystabell Variation Kvadratsumma f Medelkvadrat 2 Faktor A QA a−1 sA = QA /(a − 1) QB b−1 sB2 = QB /(b − 1) Faktor B 2 = Q /((a − 1)(b − 1)) QAB (a − 1)(b − 1) sAB Samspel AB AB Residual Q0 ab(n − 1) s2 = Q0 /ab(n − 1) Totalt Q abn − 1 2 sAB obs av F ((a − 1)(b − 1), ab(n − 1)) om (αβ)ij = 0 s2 sA2 obs av F (a − 1, ab(n − 1)) om αi = 0 s2 sB2 obs av F (b − 1, ab(n − 1)) om βj = 0 s2 8
© Copyright 2024