SF1901: Sannolikhetslära och statistik Föreläsning 7. Normalfördelning, Linjära kombinationer av normalfördelade variabler, Centrala gränsvärdessatsen, Approximationer Jan Grandell & Timo Koski 03.02.2015 Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 1 / 50 From a Data Set to a Probability Distribution Adolphe Quetelet (1796 1874) was an influential statistician and a tireless promoter of statistical data collection1 , who wanted to mold social science to an exact science like physics, he talked about ’social physics’. He presented a theory of the average man invoking the normal (Gaussian) distribution. He extended his statistical analysis of the demographic and anthropometric characteristics of man to behaviour, mind and soul. 1 or is it a hunter of factoids Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 2 / 50 A data set due to Quetelet according to a textbook by J.W. Lindeberg, 1927 : chest breadths of 1516 Belgian soldiers Class i 28 29 30 31 32 33 34 35 36 37 38 39 40 41 Jan Grandell & Timo Koski () Absolute frequency fi The values of 2 g (x ) = 286e −0.112(x −35) g (xi ) 2 4 17 55 102 180 242 310 251 181 103 42 19 6 1.2 5.1 17.4 47.7 104.4 182.7 255.7 286.0 255.7 182.7 104.4 47.7 17.4 5.1 Matematisk statistik 03.02.2015 3 / 50 From a Data Set to a Probability Distribution A plot of the frequency data and the function 286e −0.112(x −35) 2 350 300 250 200 150 100 50 0 28 30 Jan Grandell & Timo Koski 32 () 34 36 38 Matematisk statistik 40 42 03.02.2015 4 / 50 ’stickprov ur en fördelning’ ! Plotten av de relativa frekvenserna av Quetelets data och funktionen 286 −0.112(x −35)2 . 1516 e 0.25 0.2 0.15 0.1 0.05 0 28 30 Jan Grandell & Timo Koski 32 () 34 36 38 Matematisk statistik 40 42 03.02.2015 5 / 50 Bell-Shaped Curve σ > 0, 2 2 1 √ e −(x −µ) /2σ σ 2π I figuren µ = 1, σ = 1 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 −5 −4 −3 Jan Grandell & Timo Koski −2 () −1 0 1 2 Matematisk statistik 3 4 5 03.02.2015 6 / 50 2 Funktionen 286e −0.112(x −35) svarar mot 1516 −(x −µ)2/2σ2 g (x ) = √ e σ 2π med µ = 35, σ2 = 4.46 (1516 är summan av klassfrekvenserna) 350 300 250 200 150 100 50 0 28 30 Jan Grandell & Timo Koski 32 () 34 36 38 Matematisk statistik 40 42 03.02.2015 7 / 50 Normal (Probability) Density Curve De relativa frekvenserna i Quetelets data och 1 2 2 f (x ) = √ e −(x −µ) /2σ σ 2π med µ = 35, σ2 = 4.46 0.25 0.2 0.15 0.1 0.05 0 28 30 Jan Grandell & Timo Koski 32 () 34 36 38 Matematisk statistik 40 42 03.02.2015 8 / 50 SLUT PÅ INLEDNINGEN MED QUETELET– 0.25 0.2 0.15 0.1 0.05 0 28 30 Jan Grandell & Timo Koski 32 () 34 36 38 Matematisk statistik 40 42 03.02.2015 9 / 50 Standardiserad normalfördelning, N (0, 1) Definition En s.v. Z säges vara standardiserad normalfördelad om den är N (0, 1)-fördelad, dvs. om den har täthetsfunktionen 2 1 e −z /2 . ϕ (z ) = √ 2π Dess fördelningsfunktion betecknas med Φ(z ), dvs. Φ(z ) = Jan Grandell & Timo Koski () Z z −∞ 1 2 √ e −x /2 dx. 2π Matematisk statistik 03.02.2015 10 / 50 Standardiserad normalfördelning, N (0, 1) 1 2 ϕ (z ) = √ e −z /2 . 2π Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 11 / 50 En bilaga i fin stil (kan överhoppas) Hur vet vi att ϕ(z ) = gäller det att √1 2π e −z 2 /2 Z ∞ −∞ är en sannolikhetstäthet ? Dvs. varför ϕ(z )dz = 1. Svaret ges t.ex. i Eike Petermann: Analytiska metoder II, Studentlitteratur 2002, sid. 235, Ex. 9.14, Anmärkning 9.6 eller bilagan nedan Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 12 / 50 Bilaga (ur Eike Petermann: Analytiska metoder II) : Z Jan Grandell & Timo Koski () ∞ −∞ ϕ(z )dz = 1. Matematisk statistik 03.02.2015 13 / 50 Bilaga : Z Jan Grandell & Timo Koski () ∞ −∞ ϕ(z )dz = 1. Matematisk statistik 03.02.2015 14 / 50 Sista sidan i bilagan : Z Jan Grandell & Timo Koski () ∞ −∞ ϕ(z )dz = 1. Matematisk statistik 03.02.2015 15 / 50 Standardiserad normalfördelning, N (0, 1) Fördelningsfunktionen betecknas med Φ(z ), dvs. Φ(z ) = Z z −∞ 2 1 √ e −x /2 dx. 2π Av symmetriskäl gäller klart att Φ ( 0) = Jan Grandell & Timo Koski () 1 . 2 Matematisk statistik 03.02.2015 16 / 50 Φ (z ) = Z z 1 2 √ e −x /2 dx −∞ 2π 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 −5 −4 −3 Jan Grandell & Timo Koski −2 () −1 0 1 2 Matematisk statistik 3 4 5 03.02.2015 17 / 50 Φ (x ) = Z x 1 2 √ e −t /2 dt −∞ 2π Φ(x) x Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 18 / 50 Beräkning av Φ(z ): MATLAB Ett problem är att fördelningsfunktionen inte kan ges på en sluten analytisk form. Det är dock lätt att numeriskt beräkna fördelningsfunktionen och vi använder programvara för beräkning av Φ(x ). I MATLAB Statistics Toolbox beräknas Φ(1) av : >> normcdf(1, 0, 1) ans = 0.84134474607 Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 19 / 50 Beräkning av Φ(z ): TI-82 STATS Ta fram menyn DISTR med tangentsekvensen 2nd DISTR. Gå ned till normalcdf(. Då beräknas Φ(1) av2 : normcdf(−1E 99, 1, 0, 1) .8413447404 Man kan även skriva (d.v.s. 0 och 1 är defaultvärden) normcdf(−1E 99, 1) .8413447404 2E tas fram med tangentsekvensen 2ND E Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 20 / 50 Tabellen för Φ(x ) ur kursens formelsamling Vi slår upp Φ(1) som .8413 Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 21 / 50 Φ(−z ) = 1 − Φ(z ). Vi observerar att ϕ(−z ) = ϕ(z ). Φ(z ) är tabulerad i kursens formelsamling endast för z ≥ 0. Vi har dock Φ(−z ) = Z −z −∞ = ϕ(x ) dx = [y = −x ] = − Z ∞ z Z z ∞ ϕ(−y ) dy ϕ(y ) dy = 1 − Φ(z ). Sats Φ(−z ) = 1 − Φ(z ). Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 22 / 50 Z ∈ N (0, 1), E (Z ), V (Z ) Om Z är N (0, 1)-fördelad, så kan man visa att E (Z ) = 0 (ty ϕ(−z ) = ϕ(z )) V (Z ) = 1. Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 23 / 50 Kvantiler När vi kommer till statistikdelen av kursen behöver vi ofta lösa ekvationer av följande slag: Bestäm z så att vi för givet α har P (Z ≤ z ) = 1 − α; P (Z > z ) = 1 − α; P (−z < Z ≤ z ) = 1 − α. För att lösa sådana ekvationer inför vi α-kvantilen λα definierad av P (Z > λα ) = α eller α = 1 − Φ( λ α ). Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 24 / 50 Kvantiler i TI-82 STATS invNorm( Vi vill ta fram λ0.05 definierad av ekvationen P (Z > λ0.05 ) = 0.05 eller 0.05 = 1 − Φ(λ0.05 ) ⇔ Φ(λ0.05 ) = 0.95 Vi knappar in i räknären (meny DISTR) invNorm(0.95, 0, 1) som ger lösningen 1.644853626 (≈ 1.6449). Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 25 / 50 Kvantiler area=α λα Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 26 / 50 Kursens formelsamling: kvantiler Tabell 2 i kursens formelsamling ger λ0.05 = 1.6449. Normalfördelningens kvantiler P (X > λα ) = α där X ∈ N (0, 1) α λα α λα 0.10 1.2816 0.001 3.0902 0.05 1.6449 0.0005 3.2905 0.025 1.9600 0.0001 3.7190 0.010 2.3263 0.00005 3.8906 0.005 2.5758 0.00001 4.2649 Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 27 / 50 Kvantiler (forts.) α = 1 − Φ( λ α ). Det är då bra att observera att 1 − α = 1 − Φ ( λ 1− α ) ⇔ α = Φ ( λ 1− α ) ⇔ α = 1 − Φ(−λ1−α ), vilket ger λ 1− α = − λ α . Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 28 / 50 Allmän normalfördelning Definition En s.v. X säges vara N (µ, σ)-fördelad, där µ reell och σ > 0, om Z = Jan Grandell & Timo Koski () X −µ är N (0, 1)-fördelad. σ Matematisk statistik 03.02.2015 29 / 50 Allmän normalfördelning Sats Låt X vara N (µ, σ)-fördelad. Då gäller 2 2 x −µ 1 1 fX ( x ) = ϕ = √ e −(x −µ) /2σ σ σ σ 2π och Jan Grandell & Timo Koski x −µ FX ( x ) = Φ σ () Matematisk statistik . 03.02.2015 30 / 50 Allmän normalfördelning Bevis. Vi har x −µ X −µ ≤ FX ( x ) = P ( X ≤ x ) = P σ σ x −µ x −µ =P Z ≤ =Φ . σ σ x −µ Derivation ger fX (x ) = σ1 ϕ σ . Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 31 / 50 Normalfördelning X ∈ N (µ, σ) med 1 2 2 fX ( x ) = √ e −(x −µ) /2σ σ 2π där µ godtycklig konstant och σ > 0. I figuren för fX (x ) har vi µ = 1, σ = 1 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 −6 −4 Jan Grandell & Timo Koski −2 () 0 2 Matematisk statistik 4 6 03.02.2015 32 / 50 Normalfördelning (även känd som Gaussfördelning efter C.F. Gauss, 1777-1855) Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 33 / 50 Normalfördelning i kinetiska gasteorin X ∈ N (0, σ) med fX ( x ) = r 2 m e −mx /2kB T 2πkB T q d.v.s. σ = kBmT , kB = Boltzmans konstant, T = temperatur, m = partikelns massa. ”the fraction of particles in with velocities in the x-direction within x, x + dx =fX (x )dx”. . Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 34 / 50 En viktig regel Beviset ovan innehåller en viktig räkneregel. Om X är N (µ, σ)-fördelad, så gäller det att x −µ FX ( x ) = P ( X ≤ x ) = Φ . σ Man kan m.a.o. använda tabellen för Φ(x ) även för att beräkna FX (x ) för X ∈ N (µ, σ). Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 35 / 50 TI-82 STATS Smidigare än med regeln ovan och tabellen kan vi beräkna, om X ∈ N (µ, σ), sannolikheten FX (x ) = P (X ≤ x ) som normcdf(−1E 99, x, µ, σ) Till exempel, om X ∈ N (2, 2) och beräknas P (0 ≤ X ≤ 3.5) med TI-82 STATS som normcdf(0, 3.5, 2, 2) .614717461 Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 36 / 50 Allmän normalfördelning Sats Om X är N (µ, σ)-fördelad så gäller E (X ) = µ och V ( X ) = σ2 . Bevis. Vi ska nu se hur listig definitionen är! X = σZ + µ E (X ) = σE (Z ) + µ = 0 + µ = µ V ( X ) = σ2 V ( Z ) + 0 = σ2 . Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 37 / 50 Täthetsfunktionerna för N (0, 1) och N (1, 1) och N (0, 1) och N (0, 2) (från vänster till höger) Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 38 / 50 Allmän normalfördelning Sats Låt X vara N (µ, σ)-fördelad och sätt Y = aX + b. Då gäller det att Y är N (aµ + b, |a|σ)-fördelad. Bevis. Från definitionen följer att X = µ + σZ där Z är N (0, 1)-fördelad. Detta ger Y = aX + b = a(µ + σZ ) + b = aµ + b + aσZ Y − (aµ + b ) = Z. aσ Om a > 0 följer satsen. Om a < 0 utnyttjar vi att Z och −Z har samma fördelning. Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 39 / 50 Summan av oberoende normalfördelade variabler Sats Om X är N (µX , σX )-fördelad, Y är N (µY , σY )-fördelad och X och Y är oberoende så gäller att q X + Y är N µX + µY , σX2 + σY2 -fördelad och X − Y är N µX − µY , Jan Grandell & Timo Koski () q σX2 Matematisk statistik + σY2 -fördelad. 03.02.2015 40 / 50 Repetition om väntevärden Återkalla i minnet att Låt X och Y vara två oberoende (okorrelerade räcker) s.v. Då gäller E (X + Y ) = E (X ) + E (Y ) V (X + Y ) = V (X ) + V (Y ) E (X − Y ) = E (X ) − E (Y ) V (X − Y ) = V (X ) + V (Y ). Det nya är att vi kan ge fördelningen för summan av oberoende normalfördelade variabler Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 41 / 50 Summan av oberoende normalfördelade variabler Sats Låt X1 , . . . , Xn vara oberoende och N (µ1 , σ1 ), . . . , N (µn , σn ). Då gäller att s ! n n ∑ ck Xk är N ∑ k =1 k =1 n ck µk , ∑ ck2 σk2 -fördelad. k =1 Allmän regel : Linjärkombinationer av oberoende normalfördelade stokastiska variabler är normalfördelade med rätt väntevärde och rätt standardavvikelse. Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 42 / 50 I förra föreläsningen Sats Låt X1 , . . . , Xn vara oberoende (okorrelerade räcker) s.v. och sätt Y = c1 X1 + . . . + cn Xn . Då gäller E (Y ) = c1 E (X1 ) + . . . + cn E (Xn ) och V (Y ) = c12 V (X1 ) + . . . + cn2 V (Xn ) Det nya är att vi för linjärkombinationer av oberoende normalfördelade stokastiska variabler kan ge hela fördelningen. Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 43 / 50 Aritmetiska medelvärdet Följdsats Låt X1 , X2 , . . . , Xn vara oberoende och N (µ, σ)-fördelade s.v. Då gäller att σ X är N µ, √ -fördelad. n Återkalla i minnet: Sats Låt X1 , X2 , . . . , Xn vara oberoende och likafördelade s.v. med väntevärde µ och standardavvikelse σ. Då gäller att E (X) = µ, Jan Grandell & Timo Koski () V (X) = σ2 n och Matematisk statistik σ D (X) = √ . n 03.02.2015 44 / 50 Stora talens lag: ett frimärke från Schweiz Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 45 / 50 Centrala gränsvärdessatsen Vi har sett några exempel på att normalfördelningen har trevliga statistiska egenskaper. Detta skulle vi inte ha så stor glädje av, om normalfördelningen inte dessutom var vanligt förekommande. Centrala gränsvärdessatsen CGS, som är den huvudsakliga motiveringen för normalfördelningen, kan utan vidare sägas vara ett av sannolikhetsteorins och statistikens allra viktigaste resultat. Sats (CGS) Låt X1 , X2 , . . . vara oberoende och lika fördelade s.v. med väntevärde µ och standardavvikelse σ. Då gäller att n ∑i =1 Xi − nµ √ P ≤ x → Φ(x ) då n → ∞. σ n Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 46 / 50 CGS Ofta uttrycker man slutsatsen i CGS som att ∑ni=1 Xi − nµ √ är approximativt N (0, 1)-fördelad σ n eller att n ∑ Xi i =1 Jan Grandell & Timo Koski () √ är approximativt N nµ, σ n -fördelad. Matematisk statistik 03.02.2015 47 / 50 CGS En, för statistiken mycket vanlig användning av CGS är följande: Följdsats Låt X1 , X2 , . . . vara oberoende och lika fördelade s.v. med väntevärde µ och standardavvikelse σ. Då gäller att b−µ a−µ √ √ −Φ P (a < X ≤ b ) ≈ Φ σ/ n σ/ n om n är tillräckligt stort. Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 48 / 50 CGS Det är tyvärr inte möjligt att ge några generella och enkla tumregler om hur stort n måste vara för att normalapproximationen ska vara användbar. Detta beror på hur ”normalliknande” de enskilda variablerna Xk är. Om Xk na är normalfördelade så ”gäller” ju CGS för alla n. En tumregel är att om Xk na är någorlunda symmetriskt fördelade så räcker ganska små n, säg något tiotal. Om Xk na är påtagligt skevt fördelade så behöver n var något eller i värsta fall några hundratal. Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 49 / 50 CGS Det är svårt att formulera strikt, men det räcker i CGS att Xk na är någorlunda oberoende och någorlunda lika fördelade. Med ”någorlunda lika fördelade” menas framförallt att det inte finns vissa Xk som är mycket dominerande. Detta innebär att mätfel i välgjorda försök kan anses vara approximativt normalfördelade. I mindre välgjorda försök kan det däremot mycket väl finnas någon dominerande felkälla som inte alls behöver vara approximativt normalfördelad. Jan Grandell & Timo Koski () Matematisk statistik 03.02.2015 50 / 50
© Copyright 2025