Lektionsanteckningar 11-12: Normalfördelningen

Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10
Lektionsanteckningar 11-12: Normalfördelningen
• När utfallsrummet för en slumpvariabel kan anta vilket värde
som helst i ett givet intervall är variabeln kontinuerlig.
• Det är väsentligt att utfallsrummet omfattar alla värden
variabeln kan anta.
• En kontinuerlig slumpvariabel illustreras med en kurva.
• Om sannolikhetsmodellen är korrekt beskriver alltså denna
kurva variabelns fördelning i populationen.
• När vi bestämmer kurvan anpassar vi skalan så att arean
under kurvan blir lika med 1.
• Då är det möjligt att göra sannolikhetsberäkningar.
1
Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10
11.1 Normalfördelningen
• Normalfördelningen är den viktigaste fördelningen i statistik.
• Normalfördelningen är kontinuerlig och den har en
symmetriskt klockformad sannolikhetskurva.
• Normalfördelningen har flera goda matematiska egenskaper,
som gör den enkel att hantera.
• Många fördelningar kan approximeras med
normalfördelningen.
• Variationen i medelvärden och procenttal i stickprov kan
analyseras med hjälp av normalfördelningen.
• Normalfördelningen är ett nödvändigt instrument vid nästan
all statistisk analys.
2
Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10
• En slumpvariabel X som kan beskrivas med uttrycket
f ( x) =
1 e
σ 2π
−μ ⎟
− 1 ⎜⎜ xσ
⎟
2⎝
⎠
⎛
⎞
2
där
−∞ < x < ∞
(1)
sägs vara normalfördelad med parametrarna μ och σ.
• μ och σ är normalfördelningens väntevärde (medelvärde) och
standardavvikelse.
• När vi känner dessa parametrar känner vi variabelns
sannolikhetsfördelning fullständigt.
• Normalfördelningen är symmetrisk kring sitt väntevärde.
• Detta är en egenskap som vi har nytta av vid praktiska
sannolikhetsberäkningar.
• Givetvis gäller också att ytan under kurvan är lika med 1.
3
Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10
• Tre normalfördelade variabler med samma standardavvikelse
men olika medelvärden
4
Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10
• Fyra normalfördelade variabler med samma medelvärde men
olika standardavvikelser
5
Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10
• Cirka 68 procent av observationerna på en normalfördelad
variabel ligger inom plus och minus en standardavvikelse
från dess medelvärde.
• Cirka 95 procent av observationerna på en normalfördelad
variabel ligger inom plus och minus två standardavvikelser
från dess medelvärde.
• 99,7 procent av observationerna på en normalfördelad
variabel ligger inom plus och minus tre standardavvikelser
från dess medelvärde.
6
Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10
11.2 Standardiserade normalfördelning
• När man beräknar sannolikheter för normalfördelade
variabler arbetar man alltid med den standardiserade
normalfördelningen.
• Man brukar använda bokstaven Z för att beteckna en
standardiserad normalfördelad variabel.
• Om X är en normalfördelad variabel med medelvärde μ och
standardavvikelsen σ är den standardiserade variabeln
Z = X −μ
(2)
σ
normalfördelad med medelvärdet noll och standardavvikelsen
ett, dvs.
E (Z )
⎛
= E ⎜⎜
⎝
X −μ ⎞ =⎜ E(X )−μ ⎟ =⎛ μ −μ ⎞ = 0
⎛
σ
⎟
⎟
⎠
⎞
σ
⎜
⎜
⎝
⎟
⎟
⎠
⎜
⎝
σ
⎟
⎠
2
⎛
⎞
Var ( Z ) = Var ⎜⎜ X − μ ⎟⎟ = 12 ⋅Var ( X ) = σ 2 = 1
⎝
σ
⎠
σ
σ
7
(3)
(4)
Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10
• Den standardiserade normalfördelningen är symmetrisk kring
väntevärdet noll.
• Det nya i denna sats är att en normalfördelad variabel som
standardiseras förblir normalfördelad.
• Detta innebär att alla normalfördelade variabler, oavsett
väntevärde och standardavvikelse, kan transformeras till den
standardiserade normalfördelningen.
• När denna standardisering är gjord kan man göra
sannolikhetsberäkningar med hjälp av en Z tabell.
8
Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10
11.3 Stickprov
• I ett slumpmässigt urval från en population där variabeln X
har fördelningen p(x), medelvärdet μ och variansen σ 2 , är
observationerna X1, X 2 ,......., X n oberoende slumpvariabler
med samma fördelning p(x).
• Speciellt gäller att:
E ( X1) = E ( X 2 ) = ..... = E ( X n ) = μ
(5)
Var ( X1) = Var ( X 2 ) = ..... = Var ( X n ) = σ 2
(6)
• De värdena som variablerna X1, X 2 ,......., X n antar i ett
faktiskt stickprov betecknas x1, x2 ,......., xn .
• Sammanfattningsvis konstaterar vi att slumpmässigt urval
omfattar n observationer är n slumpvariabler som har alla
samma fördelning som populationen.
• Detta innebär inte alla stickprov är lika.
9
Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10
• De har visserligen samma sannolikhetsfördelning men det
faktiska utfallet skiljer sig från stickprov till stickprov.
• En slumpvariabel kan man beskriva med medelvärdet och
variansen.
• För stickprovsmedelvärdet är väntevärdet
⎛
⎞
E ( X ) = E ⎜⎜ 1 ( X1 + X 2 + ..... + X n ) ⎟⎟ = 1 E ( X1 + X 2 + ..... + X n )
⎝n
⎠ n
= 1 ⎛⎜ E ( X1 ) + E ( X 2 ) + ..... + E ( X n ) ⎞⎟ = 1 ( μ + μ + ..... + μ )
n⎝
⎠ n
= 1 ⋅ nμ = μ
n
(7)
• Vi säger att stickprovsmedelvärdet X är en
väntevärdesriktig skattning av populationsmedelvärdet μ.
• Innan stickprovet är taget är X en slumpvariabel.
• Vilket värde x denna variabel antar i ett konkret försök beror
på vilka individer som kommer med i stickprovet, dvs. på
slumpen.
10
Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10
• Om vi bara tar ett stickprov är det troligt att medelvärdet x
antingen är mindre än eller större än μ.
• Någon garanti att vi ska få det exakta värdet μ finns
naturligtvis inte.
• Variansen i stickprovsmedelvärdet blir
( )
⎛
⎞
Var X = Var ⎜⎜ 1 ( X1 + X 2 + .... + X n ) ⎟⎟
⎝n
⎠
⎛ ⎞
= ⎜⎜ 1 ⎟⎟
⎝n⎠
2
(
(Var( X1) +Var( X 2 ) + .... +Var ( X n ))
)
2
1
1
σ
2
2
2
2
= 2 ⋅ σ + σ + ...... + σ = 2 ⋅ nσ =
n
n
n
(8)
• Beräkningen förutsätter att variablerna X1, X 2 ,......., X n är
parvisa okorrelerade. Denna förutsättning är uppfylld när
urvalet kommer från en stor population.
• Vi ser att variansen i stickprovsmedelvärdet är omvänt
proportionellt mot stickprovets storlek.
11
Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10
• Fördelningen för X koncentreras därför mer och mer kring
värdet μ då n växer.
• För ett stort stickprov är det därför troligt att x ligger nära μ.
12
Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10
11.4 Linjära kombinationer
• Linjära kombinationer av normalfördelade variabler är
normalfördelade.
• Både summor och medelvärden är linjära kombinationer.
• En summa av normalfördelade variabler blir normalfördelad.
• För ett stickprov omfattande n observationer X1, X 2 ,......., X n
på en normalfördelad variabel med medelvärdet μ och
standardavvikelsen σ gäller att:
Medelvärdet X är normalfördelad med
E( X ) = μ
och
σ x = Var ( X ) = σ
n
Summan
S = X1 + X 2 + ........ + X n
är normalfördelad med
E( S ) = n·μ
och
σ S = Var (S ) = n ⋅σ
13
Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10
11.5 Centrala gränsvärdessatsen
• Summan av n oberoende slumpvariabler med samma
fördelning är ungefär normalfördelad om n är tillräckligt
stort.
• En viktig följd av centrala gränsvärdessatsen blir att summor
och medelvärden beräknade på stora stickprov är ungefär
normalfördelade oavsett populationens fördelning.
• I figur 1 presenteras samplingfördelningen för en
normalfördelad variabel med väntevärde 5 och
standardavvikelsen 3.
• Vi ser att även om vi bara drar ett urval på en observation
från denna fördelning är samplingfördelningen
normalfördelad.
• Men ju större urval, desto mindre blir variansen kring
väntevärdet.
14
Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10
Figur 1
Samplingfördelning för en Normalfördelad Variabel
n=1
n=5
0
0
Andel
.0 2 .0 4 .0 6 .0 8
Normalfördelad Variabel
Andel
.0 2 .0 4 .0 6 .0 8
Normalfördelad Variabel
-5
0
5
10
Medelvärde
15
0
Väntevärde 5 och Standardavvikelsen 3
2
4
6
Medelvärde
8
10
Väntevärde 5 och Standardavvikelsen 3
n=30
n=100
0
0
Andel
.0 2 .0 4 .0 6 .0 8
Normalfördelad Variabel
Andel
.0 2 .0 4 .0 6 .0 8
Normalfördelad Variabel
3
4
5
6
Medelvärde
7
Väntevärde 5 och Standardavvikelsen 3
3.5
4
4.5
5
Medelvärde
Väntevärde 5 och Standardavvikelsen 3
15
5.5
6
Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10
• I figur 2 visas samplingfördelningen för en snedfördelad
variabel med väntevärde 5 och standardavvikelsen 5.
• Vi ser tydligt att samplingfördelningen går mer och mer mot
en normalfördelning och redan vid urvalsstorleken n = 30,
har vi en normalfördelning.
• När stickprovstorleken ökar minskas variansen och
fördelningen koncentreras därför mer och mer kring det
förväntade värdet.
16
Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10
Figur 2
Samplingfördelning för en Snedfördelad Variabel
Snedfördelad Variabel
n=1
n=5
0
Andel
0 .0 2 .0 4 .0 6 .0 8 .1
Andel
.0 2 .0 4 .0 6 .0 8
Snedfördelad Variabel
0
5
10
15
Medelvärde
20
25
2
Väntevärde 5 och Standardavvikelsen 5
4
6
8
Medelvärde
10
12
Väntevärde 5 och Standardavvikelsen 5
n=30
n=100
0
0
Andel
.0 2 .0 4 .0 6 .0 8
Snedfördelad Variabel
Andel
.0 2 .0 4 .0 6 .0 8
Snedfördelad Variabel
3
4
5
6
Medelvärde
7
Väntevärde 5 och Standardavvikelsen 5
4
4.5
5
5.5
Medelvärde
Väntevärde 5 och Standardavvikelsen 5
17
6
Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10
• I figur 3 visas samplingfördelningen för en
binomialfördelning med andelen positiva lika med 0,30.
• När vi drar en enda observation ur populationen får vi
antingen en nolla eller en etta. Sannolikheten att få en nolla
är 0,70 och sannolikheten att få en etta är 0,30, varför den
första grafen enbart tar dessa två värden.
• Sedan när vi ökar på stickprovsstorleken blir
binomialfördelningen mer och mer lik en normalfördelning.
• Vid stickprovstorleken n = 100 har vi en till synes
normalfördelning och fördelningen koncentreras mer och mer
kring det förväntade värdet.
18
Roger Wahlberg, Statistik: Grundkurs 1, 15hp VT10
Figur 3
Samplingfördelning för en Binomialvariabel
n=1
n=5
Andel
.2
.3
.1
0
0
.2
Andel
.4
.6
.4
Binomialfördelad Variabel
.8
Binomialfördelad Variabel
.2
.4
.6
Medelvärde
.8
1
0
.2
.4
.6
Medelvärde
.8
Binomialfördelad Variabel
Binomialfördelad Variabel
n=30
n=100
1
0
.0 5
Andel
.1
.1 5
Andel
0 .0 2 .0 4 .0 6 .0 8 .1
0
0
.2
.4
Medelvärde
.6
19
.1
.2
.3
.4
Medelvärde
.5