Download Report

Afsnit 2.1-2.7 ....................................................................................................................................... 5
Hvad er statistik? .............................................................................................................................. 5
Nøgletal ............................................................................................................................................ 5
•
Median ................................................................................................................................. 5
•
Varians ................................................................................................................................. 5
•
Fraktiler ................................................................................................................................ 6
Figurer .............................................................................................................................................. 6
•
Pareto diagram ..................................................................................................................... 6
•
Dot diagram.......................................................................................................................... 6
•
Frequency distribution ......................................................................................................... 6
•
Histogram ............................................................................................................................. 6
•
Boxplot ................................................................................................................................. 6
Afsnit 4.1-4.4 og 4.6 og 4.7 ................................................................................................................. 6
En grundregel ................................................................................................................................... 6
Den klassiske sandsynlighedskoncept ......................................................................................... 6
Binomialkoefficienten ...................................................................................................................... 6
Hvad er Stokastisk variable.............................................................................................................. 6
Tæthedsfunktion for diskret variabel ............................................................................................... 6
Fordelingsfunktion for diskret variabel............................................................................................ 6
Diskrete fordelinger ......................................................................................................................... 7
Binomial fordeling ....................................................................................................................... 7
Den Hypergeometrisk fordeling................................................................................................... 7
Poisson fordeling.......................................................................................................................... 8
Middelværdi og varians for en diskret stokastisk variabel (overordnet) ..................................... 9
Afsnit 5.1 og 5.2-5.6 + Afsnit 5.7,5.10,5.11 og 5.12 ........................................................................... 9
Tæthedsfunktionen for kontinuert variabel ...................................................................................... 9
Fordelingsfunktion for kontinuert variabel ...................................................................................... 9
Kontinuerte fordelinger .................................................................................................................... 9
Normal fordeling og Standardiseret normal fordeling ................................................................. 9
•
Eksempel for standard normal fordeling:........................................................................... 10
Log-Normal fordeling ................................................................................................................ 10
Uniform fordeling ...................................................................................................................... 11
Middelværdi og varians af en kontinuert stokastisk variabel (overordnet) ............................... 11
Eksponentiel fordeling ............................................................................................................... 11
Regler for stokastisk variabel (eksempler side 186) .................................................................. 12
Transformation ........................................................................................................................... 12
Afsnit 7.1-7.2, 6.1, 6.2 og 6.3 ............................................................................................................ 12
Stikprøvefordelinger ...................................................................................................................... 12
Definition af population og tilfældig stikprøve.......................................................................... 12
Stikprøvefordeling for middelværdien når variansen er kendt .................................................. 12
Estimation ...................................................................................................................................... 13
Begreber ..................................................................................................................................... 13
Den centrale grænseværdisætning ............................................................................................. 13
Maksimal fejl på et estimat hvor variansen er kendt ................................................................. 13
•
Intervalestimation (konfidensinterval for middelværdi) hvor variansen er kendt ............. 14
Maksimal fejl på et estimat hvor variansen ikke er kendt.......................................................... 14
-1-
•
Intervalestimation (konfidensinterval for middelværdi) hvor variansen ikke er kendt og en
stor stikprøve (n=>30)................................................................................................................ 14
•
Intervalestimation (konfidensinterval for middelværdi) hvor variansen ikke er kendt og en
lille stikprøve (n<30).................................................................................................................. 14
Afsnit 7.3, 7.4 og 7.5 .......................................................................................................................... 15
Hypotesetest for et gennemsnit ...................................................................................................... 15
Formulering af nul-hypotesen og alternativ hypotesen Parameter µ betragtes. ....................... 15
Trin ved hypotesetest ................................................................................................................. 15
Beregning af teststørrelse, p-værdi og sammenligning, hvis σ er kendt .................................... 15
Beregning af teststørrelse, p-værdi og sammenligning, hvis σ er ikke kendt (n>30) ................ 16
Beregning af teststørrelse, p-værdi og sammenligning, hvis σ er ikke kendt (n<30) ................ 16
Afsnit 7.6-7.9 ..................................................................................................................................... 17
Hypotesetest for to gennemsnit ...................................................................................................... 17
1. Formulering af hypoteser ....................................................................................................... 17
2. beregning af teststørrelse for kendte varianser σ 12 og σ 22 .................................................... 17
3. sammenligning med kritisk værdi for kendte varianser σ 12 og σ 22 ....................................... 17
2. beregning af teststørrelse for ikke kendte varianser σ 12 og σ 22 ............................................. 18
3. sammenligning med kritisk værdi for ikke kendte varianser σ 12 og σ 22 ............................... 18
2. beregning af teststørrelse for ikke kendte varianser σ 12 og σ 22 , men σ 12 = σ 22 .................... 18
3. sammenligning med kritisk værdi for ikke kendte varianser σ 12 og σ 22 , men σ 12 = σ 22 ...... 18
Beregning af konfidensinterval for forskel i middelværdi for store stikprøver ......................... 19
Beregning af konfidensinterval for forskel i middelværdi for små stikprøver og ukendt
σ 12 og σ 22 ................................................................................................................................... 19
Afsnit 8.1-8.3, 6.4 .............................................................................................................................. 19
Hypotesetest for en varians ............................................................................................................ 19
χ 2 -fordeling .............................................................................................................................. 19
Konfidensinterval for en varians ................................................................................................ 20
Hypotesetest af en varians.......................................................................................................... 20
1. Formulering af hypoteser ....................................................................................................... 20
2. teststørrelse bliver .................................................................................................................. 20
3. sammenligning med kritisk værdi .......................................................................................... 20
Hypotesetest af 2 varianser ............................................................................................................ 21
F-fordeling ................................................................................................................................. 21
Hypotesetest af 2 varianser ........................................................................................................ 21
1. Formulering af hypoteser ....................................................................................................... 21
2. teststørrelse bliver .................................................................................................................. 21
3. sammenligning med kritisk værdi .......................................................................................... 21
Afsnit 9.1-9.5 ..................................................................................................................................... 22
Estimation af andele ....................................................................................................................... 22
Konfidensinterval for en andel ................................................................................................... 22
Konfidensinterval for to andele.................................................................................................. 22
Maksimal fejl på estimat ............................................................................................................ 22
Bestemmelse af stikprøvestørrelse hvor p kendes ..................................................................... 22
Bestemmelse af stikprøvestørrelse hvor p ikke kendes ............................................................. 23
-2-
Hypotesetest af 1 andel .................................................................................................................. 23
1. Formulering af hypoteser ....................................................................................................... 23
2. teststørrelse bliver .................................................................................................................. 23
3. sammenligning med kritisk værdi .......................................................................................... 23
Hypotesetest af 2 andel .................................................................................................................. 23
1. Formulering af hypoteser ....................................................................................................... 23
2. teststørrelse bliver .................................................................................................................. 24
3. sammenligning med kritisk værdi .......................................................................................... 24
Hypotesetest af flere andel ............................................................................................................. 24
1. Formulering af hypoteser ....................................................................................................... 24
2. teststørrelse bliver .................................................................................................................. 25
3. sammenligning med kritisk værdi .......................................................................................... 25
Analyse af antalstabeller ................................................................................................................ 25
1. Formulering af hypoteser ....................................................................................................... 25
2. teststørrelse bliver .................................................................................................................. 26
3. sammenligning med kritisk værdi .......................................................................................... 26
Goodness of fit (test for fordeling) ................................................................................................ 27
Afsnit 10.1-10.4 ................................................................................................................................. 27
Sign test .......................................................................................................................................... 27
1. Formulering af hypoteser ....................................................................................................... 27
2. teststørrelse bliver .................................................................................................................. 27
3. sammenligning med kritisk værdi .......................................................................................... 27
Rank-sum test ................................................................................................................................. 27
1. Formulering af hypoteser ....................................................................................................... 27
2. teststørrelse bliver .................................................................................................................. 28
3. sammenligning med kritisk værdi .......................................................................................... 28
Test for tilfældighed ....................................................................................................................... 28
Afsnit 11.1, 11.2, 11.6 ........................................................................................................................ 29
Regressionsanalyse ........................................................................................................................ 29
Korrelation ................................................................................................................................. 29
Simpel lineær regressionsmodel ................................................................................................ 29
Mindste kvadraters metode ........................................................................................................ 29
Interferens i regressionsmodel ....................................................................................................... 30
1. Formulering af hypotese om skæring med y-aksen ............................................................... 30
2. teststørrelse bliver .................................................................................................................. 30
3. sammenligning med kritisk værdi .......................................................................................... 30
1. Formulering af hypotese om hældningen β ........................................................................... 30
2. teststørrelse bliver .................................................................................................................. 31
3. sammenligning med kritisk værdi .......................................................................................... 31
Konfidensintervaller for α og β ...................................................................................................... 31
Konfidensintervaller for α+ β*x0 ................................................................................................... 31
Prædiktionsinterval for α+ β*x0 ..................................................................................................... 31
Korrelation og regression ............................................................................................................... 31
Afsnit 12.1-12.3 ................................................................................................................................. 32
Variansanalyse (forskel i middel) .................................................................................................. 32
En-sidet variansanalyse .................................................................................................................. 32
1. Formulering af hypotese ........................................................................................................ 32
2. teststørrelse bliver .................................................................................................................. 33
-3-
3. sammenligning med kritisk værdi .......................................................................................... 33
Tosidet variansanalyse ................................................................................................................... 34
Definition på parat t-test ................................................................................................................ 35
-4-
Afsnit 2.1-2.7
Hvad er statistik?
•
•
•
Indsamling af data.
Statistik handler ofte om at analysere en stikprøve, der er taget fra en population.
Baseret på stikprøven, prøver vi at generalisere (eller udtale os) om populationen.
Nøgletal
•
Middelværdi angiver tyngdepunkt eller centrering af data:
1 n
∑ xi
n i =1
o Eks. Har vi tallene: 12, 15, 13, 14, 16
1
Middelværdien bliver: x = (12 + 15 + 13 + 14 + 16 ) = 14
5
Median angiver tyngdepunkt eller centrering af data. I nogle tilfælde, f.eks. hvis man har
ekstreme værdier, er medianen at fortrække frem for middelværdien:
Først skal antal n sættes i rækkefølge, hvis:
o Ulige antal n er tallet i midten medianen.
o Lige antal n, tages de to tal i midten ligger dem sammen og deler med 2 = madian.
Varians (eller standardafvigelsen) siger noget om hvor maget data spreder:
1 n
( x i − x) 2
o Varians: s 2 =
∑
n − 1 i =1
x=
•
•
 n 
n ⋅ ∑ x −  ∑ xi 
i =1
 i =1 
o Eller varians: s 2 =
n ⋅ (n − 1)
n
2
2
i
Eks. Har vi tallene: 12, 15, 13, 14, 16 (samme tal som i middelværdi eks. Så
x er den samme).
Variansen bliver:
s2 =
(
)
1
(12 − 14)2 + (15 − 14)2 + (13 − 14)2 + (14 − 14)2 + (16 − 14)2 = 2,5
5 −1
o Standardafvigelse (spredning): s = s 2
•
•
_
Vigtigt: x og s er estimerede værdier dvs. at hvis man tager en stikprøve ud af en
population og beregner middelværdien og spredningen er det estimerede. µ og σ gælder
for hele populationen.
Variationskoefficient bruges til at sammenligne variationen mellem forskellige
datasæt:
s
V = ⋅ 100
x
-5-
•
Fraktiler er punkter hvor data deles. Medianen deler data i to halvdele. Fraktiler deler data
i andre dele. Ofte beregner man fraktiler:
0, 25, 50, 75, 100 % fraktiler.
Figurer
•
Pareto diagram siger f.eks. noget om hvor forskellige slags defekte der er i et givet
system.
•
Dot diagram er godt til at detektere fejl ved at se på outliers prikker som ligger
usædvanligt.
•
•
•
Frequency distribution: opdeling i intervaller/klasser og optælle herefter.
Histogram: se side 19. god til grove data med mange tal.
Boxplot: en rektangel der repræsentere midten af data og en linje repræsentere medianen.
De to linjer på siderne af rektanglen repræsentere 95% og 5%.
Afsnit 4.1-4.4 og 4.6 og 4.7
En grundregel
Den klassiske sandsynlighedskoncept defineres:
Hvis der findes n lige sandsynlige udfald, hvorfra et må ske, og hændelsen s betegnes som ’succes’,
så er sandsynligheden for succes givet ved:
s
n
Binomialkoefficienten
Det antal forskellige måder som vi kan udvælge r objekter taget ud fra en population bestående af n
forskellige objekter er:
n!
n
 =
 r  r!(n − r )!
Hvad er Stokastisk variable
•
•
•
•
•
En funktion defineret over udfaldsrummets elementer.
Følger en statistisk fordeling.
Stokastisk variable angives ved store bogstaver, f.eks. X, Y, Z.
Udfaldet fra det stokastiske variable angives ved tilsvarende små bogstaver, f.eks. x, y,z.
Vi skelner mellem diskrete og kontinuerte stokastiske variable.
Tæthedsfunktion for diskret variabel
•
•
For en stokastisk variabel betegnes tæthedsfunktionen ved f(x).
For den diskrete variabel kan vi skrive tæthedsfunktionen som:
f ( x ) = P( X = x )
Fordelingsfunktion for diskret variabel
•
•
Fordelingsfunktionen for en stokastisk variabel betegnes ved F(x).
Fordelingsfunktionen svarer til den kumulerede tæthedsfunktion:
-6-
F ( x) = P ( X ≤ x )
Diskrete fordelinger
Binomial fordeling
•
•
•
•
•
•
•
Vi betragter n uafhængige forsøg.
I hvert enkelt forsøg kan udfaldet/hændelsen blive enten succes eller fiasko.
Sandsynligheden for succes er p (og er den samme for alle n forsøg).
Sandsynligheden for fiasko er dermed 1-p (og er den samme for alle n forsøg).
De forskellige udfald er uafhængige.
Med tilbage lægning.
En stokastisk variabel, X, er binomial fordelt:
X ≈ b( x; n, p )
X = antal ”mærkede” i stikprøven.
p = populationsandelen = a/n, hvor a er i alt defekte.
n = stikprøvestørrelsen.
Det er lille b hvis det er præcis en mængde og store B hvis det er større eller mindre end en
mængde.
• Tæthedsfunktion for en binomial fordeling:
f ( x) = P ( X = x) = nx ⋅ p x (1 − p ) n− x
P ( X = x) = P ( X ≤ x) − P ( X ≤ x − 1) , tabel 1 side 576.
• Fordelingsfunktion for binomal fordeling:
F ( x) = P ( X ≤ x) , tabel 1 side 576.
P ( X < x) = P ( X ≤ x − 1)
P ( X > x) = 1 − P ( X ≤ x − 1)
()
MOST (højst) brug:
MORE THAN (mere end):
LEAST (mindst) brug:
LESS THAN (mindre end):
µ = n⋅ p
• Middelværdi:
•
•
P( X
P( X
P( X
P( X
≤ udfald ) , direkte ved opslag tabel 1.
> udfald ) = 1 − P ( X ≤ udfald )
≥ udfald ) = 1 − P ( X ≤ udfald − 1)
< udfald ) = P ( X ≤ udfald − 1)
σ 2 = np ⋅ (1 − p)
Varians:
Hvis man ønsker at finde sandsynligheden for et bestemt område:
B(h;n,p)-B(t;n,p)
t
h
Den Hypergeometrisk fordeling
•
•
•
En population med størrelse N.
En stikprøve af størrelse n.
Der er a defekte i populationen.
-7-
•
•
•
•
•
Der er N-a ikke-defekte i populationen.
x er antal defekte ud af stikprøven.
Uden tilbage lægning.
Den stokastiske variabel, X, er hypergeometrisk fordelt:
X ≈ h( x; n, a, N )
Tæthedsfunktion for den hypergeometriske fordeling:
( )( )
f ( x) = P( X = x) =
( )
a
x
•
N −a
n− x
N
n
Den hypergeometriske fordeling kan udskiftes med binomial fordelingen hvis populationen
N er stor og stikprøven n er lille.
Obs! Binomial fordeling kan til forveksling bruges i tilfælde hvor n ikke er så lille i forhold til N
også kunne man begå den fejl at anvende binomial distribution med n og p = a/N. se side 111.
a
µ = n⋅
• Middelværdi:
N
a
a  N − n 
σ 2 = n 1 − 
• Varians:

N  N  N − 1 
Poisson fordeling
•
•
•
•
•
•
•
•
Poisson fordeling anvendes ofte som en fordeling (model) for tælletal, hvor der ikke er
nogen naturlig øvre grænse.
Poisson fordelingen kan ofte karakteriseres som intensitet, dvs. på formen antal/enhed.
Parameteren λ angiver intensiteten i poisson fordelingen.
Når n er stor og p er lille er binomial sansynligheder approksimeret til possion distribution.
Possion fordeling anvendes til approksimation af binomiale sansynligheder, når
n ≥ 20 og p ≤ 0.05 , hvis n ≥ 100 er approksimationen god så længe np ≤ 10
Se s. 129 for sammenligning af possion og binomial.
Den stokastiske variabel, X, er possion fordelt:
X ≈ P (λ )
Tæthedsfunktionen:
f ( x) = P( X = x) =
•
Fordelingsfunktionen:
MOST (højst) brug:
MORE THEN (mere end):
LEAST (mindst) brug:
LESS THEN (mindre end):
• Middelværdi:
•
Varians:
λx
x!
⋅ e −λ
F ( x) = P( X ≤ x) , tabel 2, side 581
P( X ≤ udfald ) , direkte ved opslag tabel 2.
P( X > udfald ) = 1 − P( X ≤ udfald )
P( X ≥ udfald ) = 1 − P( X ≤ udfald − 1)
P( X < udfald ) = P( X ≤ udfald − 1)
µ=λ
σ2 =λ
-8-
Middelværdi og varians for en diskret stokastisk variabel (overordnet)
µ = ∑ x ⋅ f ( x) , hvor S er udfaldsrummet for X.
• Middelværdi:
S
•
Det vides at:
∑ f ( x) = 1
S
•
Varians:
σ 2 = ∑ ( x − µ ) 2 ⋅ f ( x) , hvor S er udfaldsrummet for X.
S
Afsnit 5.1 og 5.2-5.6 + Afsnit 5.7,5.10,5.11 og 5.12
Tæthedsfunktionen for kontinuert variabel
•
•
•
Tæthedsfunktionen betegnes f(x).
f(x) siger noget om den relative hyppighed af udfaldet x for den stokastiske variabel X.
For kontinuerte variable svarer tætheden ikke til sandsynligheden, dvs:
f ( x) ≠ P( X = x)
Fordelingsfunktion for kontinuert variabel
•
•
Fordelingsfunktionen betegnes ved F(x).
Fordelingsfunktionen svarer til den kumulerede tæthedsfunktion:
F ( x) = P ( X ≤ x )
Kontinuerte fordelinger
Normal fordeling og Standardiseret normal fordeling
•
•
•
Der kan ikke opstilles generelle kriterier for, hvornår en variabel er normailfordelt.
Ofte kan man ramme rigtigt, hvis man til hvert element stiller spørgsmålet: ”hvilken værdi
har elementet” og svarmuligheden er ”et tal”.
X ≈ N (µ ,σ 2 )
Tæthedsfunktionen:
f (x) =
1
σ ⋅
2 ⋅π
⋅e
−
( x − µ )2
2 ⋅σ
2
P ( X < x) , aflæses i tabel 3, side 585
P( X > x) = 1 − P( X < x)
b
P(a ≤ X ≤ b) = ∫ f ( x)dx
a
µ=µ
σ 2 =σ 2
•
Middelværdi:
•
•
Varians:
En normal fordeling med middelværdien 0 og variansen 1, dvs. X ≈ N (0,12 ) , kaldes en
standard normal fordeling.
En vilkårlig normal fordelt variabel X ≈ N ( µ , σ 2 ) kan standardiseres ved at beregne:
X −µ
Z=
•
σ
-9-
•
Fordelingsfunktionen:
F ( z) =
z
1
2 ⋅π
⋅ ∫e
−t 2
2
dt
, kan findes i tabel 3, side 585.
−∞
P ( X < z ) , aflæses i tabel 3, side 585
P( X > z ) = 1 − P( X < z )
a−µ
P( X < a) = F 

 σ 
a−µ
P( X > a ) = 1 − F 
More (større end):

 σ 
b− µ 
a−µ
P ( a < X < b) = F 
Between (imellem):
 − F

 σ 
 σ 
F(Z) aflæses i tabel 3, side 585
Less (mindre end):
• Eksempel for standard normal fordeling:
P(-z < X < z) = 0,9298
z = 1-0,9298/2
0,9298
-z
z
Log-Normal fordeling
•
•
Log-normal fordelingen benyttes når vi har en tilfældig variable, som er på den måde at hvis
man tager ln til den giver det normal distribution:
X ≈ LN (α , β 2 )
Tæthedsfunktion:
f ( x) =
1
β ⋅ 2π
⋅ x −1 ⋅ e −(ln( x ) −α )
2
/ 2β 2
Middelværdi:
µ = eα + β
•
Varians:
σ 2 = e 2α / β (e β − 1)
•
En log-normal fordelt variabel X ≈ LN (α , β 2 ) , kan transformeres til en standard normal
fordelt variabel Z ved:
ln( X ) − α
Z=
•
2
/2
2
2
β
•
til at finde sandsynligheden (imellem a og b):
- 10 -
P(a < X < b) = ∫
2
2
 ln b − α 
 ln a − α 
1
 − F 

e −( y −α ) / 2 β dy = F 
β
β
2 ⋅π β




ln b
ln a
 ln a − α 
P( X < a ) = F 

 β 
 ln a − α 
P( X > a ) = 1 − F 

 β 
Tabel 3 s.585
Uniform fordeling
• X ≈ U (α , β )
•
Tæthedsfunktionen:
f (x) =
•
Fordelingsfunktionen:
F ( x) =
•
•
1
β −α
Middelværdi:
Varians:
µ=
∫
a
b
1
a−b
dx =
β −α
α −β
α +β
2
σ = 121 ( β − α ) 2
2
Middelværdi og varians af en kontinuert stokastisk variabel (overordnet)
•
•
Middelværdi:
µ = ∫ x ⋅ f ( x)dx , hvor S er udfaldsrummet for X.
Varians:
σ = ∫ ( x − µ ) 2 ⋅ f ( x)dx , hvor S er udfaldsrummet for X.
S
2
S
Eksponentiel fordeling
•
Tæthedsfunktionen:
f ( x) =
•
1
β
e −x / β
Fordelingsfunktionen:
F ( x) =
x
1
0
β
∫
e − x / β dx = 1 − e − x / β
P( X < x) = F ( x) = 1 − e − x / β
•
•
•
•
P ( X > x) = 1 − F ( x) = 1 − (1 − e − x / β )
Eksponential fordeling er et special tilfælde af Gamma fordeling (α=1).
Eksponential fordelingen anvendes f.eks. til at beskrive levetider og ventetider.
Eksponential fordelingen anvendes f.eks. til at beskrive (vente)tiden mellem hændelser i
poisson fordelingen. λ = β
µ=β.
Middelværdi:
- 11 -
•
Varians:
σ2 =β2.
Regler for stokastisk variabel (eksempler side 186)
Vi antager at a og b er konstanter og X er en stokastisk variabel:
• E = middelværdi: E (aX + b) = aE ( X ) + b
Var (aX + b) = a 2Var ( x)
• Var = Varians:
Følgende linear kombination gælder:
• E (a1 X 1 + a 2 X 2 + ... + a n X n ) = a1 E ( X 1 ) + a 2 E ( X 2 ) + ... + a n E ( X n )
E( X 1 − X 2 ) = E( X 1 ) − E( X 2 )
E (aX 1 − bX 2 + c) = aE ( X 1 ) − bE ( X 2 ) + c
•
Var (a1 X 1 + a 2 X 2 + ... + a n X n ) = a12Var ( X 1 ) + a 22Var ( X 2 ) + ... + a n2Var ( X n )
Var ( X 1 − X 2 ) = Var ( X 1 ) + Var ( X 2 ) , læg mærke til at der ændres her til plus.
Var (aX 1 − bX 2 + c) = a 2Var ( X 1 ) + b 2Var ( X 2 ) , læg mærke til at der ændres her til plus.
Transformation
Såfremt data afviger fra at være normalt fordelt, kan man ofte med fordel transformere data, således
at de transformerede data kan antages at være normal fordelt.
Afsnit 7.1-7.2, 6.1, 6.2 og 6.3
Stikprøvefordelinger
Definition af population og tilfældig stikprøve
•
•
Tilfældig stikprøve fra en endelig population:
Observationerne X1, X2,…,Xn er en tilfældig stikprøve af størrelse n fra en endelig
population af størrelse N, såfremt værdierne er valgt således, at enhver delmængde af
størrelse n af de N elementer fra populationen har den samme sandsynlighed for at blive
valgt.
Tilfældig stikprøve fra en uendelig population:
Et sæt observationer X1, X2,…,Xn er en tilfældig stikprøve af størrelsen n fra en uendelig
population f(x) såfremt:
1. hvert Xi er en stokastisk variabel med tæthedsfunktionen f(x).
2. De n stokastiske variable er uafhængige.
Stikprøvefordeling for middelværdien når variansen er kendt
•
•
Uendelig population:
Lad X være middelværdien af en stikprøve af størrelse n fra en fordeling med middelværdi
µ og variansen σ2.
Da er X en stokastisk variabel og følger en fordeling med middelværdi µ og variansen σ2/n.
Endelig population:
Lad X være middelværdien af en stikprøve af størrelse n fra en fordeling med middelværdi
µ og variansen σ2.
- 12 -
Da er X en stokastisk variabel og følger en fordeling med middelværdi µ og variansen
σ2
n
⋅ NN−−1n .
Estimation
Begreber
•
•
Central estimator:
En estimator θˆ er central (eller ikke-biased), hvis og kun hvis, middelværdien af
stikprøvefordelingen for estimatoren er lig θ .
Efficient estimator:
En estimator θˆ1 er en mere efficient estimator af θ end estimatoren θˆ2 hvis:
1. θˆ og θˆ begge er centrale estimatorer af θ .
1
2
2. variansen af stikprøvefordelingen for θˆ1 er mindre end for θˆ2 .
Den centrale grænseværdisætning
Lad X være middelværdien af en stikprøve af størrelse n fra en fordeling med median (mean) µ og
variansen σ2, da vil:
X −µ
Z=
σ/ n
2
Følge en N(0,1 ) fordeling for n → ∞ .
Maksimal fejl på et estimat hvor variansen er kendt
For store værdier af n gælder:
Z=
X −µ
σ/ n
Den maksimale fejl, E, på et estimat med sandsynlighed
E = zα / 2 ⋅
To eksempler for at finde
σ
n
α
2
=
(1−α )
2
bliver:
, hvor zα/2 findes i tabel 3.
zα 2 :
α = 0,95
α
2
= 1−02,95 = 0,025
z α 2 = z 0, 025 = 1,96
α = 0,99
α
2
= 1−02,99 = 0,005
z α 2 = z 0, 005 = 2,575
Værdierne 1,96 og 2,575 blev fundet i tabel 3 s.585-586
Hvis E er kendt kan stikprøvestørrelsen n findes ved:
- 13 -
 zα ⋅ σ
n =  2
 E
1 z 
n =  α /2 
4 E 
n=




2
2
σ2
µˆ
• Intervalestimation (konfidensinterval for middelværdi) hvor variansen er
kendt
− zα / 2 <
X −µ
< zα / 2
σ/ n
Ved omskrivning får (1-α) konfidensintervallet:
x − zα / 2 ⋅
σ
n
< µ < x + zα / 2 ⋅
x ± zα / 2 ⋅
σ
n
σ
n
Maksimal fejl på et estimat hvor variansen ikke er kendt
For store værdier af n gælder:
t=
X −µ
S/ n
Den maksimale fejl, E, på et estimat med sandsynlighed
s
E = tα / 2 ⋅
n
α
2
=
(1−α )
2
bliver:
, hvor tα/2 = t(n-1)α/2 findes i tabel 4 (v = n − 1) og s er beregnet varians.
• Intervalestimation (konfidensinterval for middelværdi) hvor variansen
ikke er kendt og en stor stikprøve (n=>30)
s
x − zα / 2 ⋅
n
s
< µ < x + zα / 2 ⋅
n
, σ blot erstattet med s. Konfidensinterval, tabel 3.
x ± zα / 2 ⋅
s
n
z ikke skiftet ud med t, fordi i tabel 4 går n ikke højere end 30 så derfor gøre det ingen forskel.
• Intervalestimation (konfidensinterval for middelværdi) hvor variansen
ikke er kendt og en lille stikprøve (n<30)
x − tα / 2 ⋅
s
n
< µ < x + tα / 2 ⋅
s
n
, z erstattet med t. Konfidensinterval, tabel 4 (v=n-1).
- 14 -
x ± tα / 2 ⋅
s
n
Afsnit 7.3, 7.4 og 7.5
Hypotesetest for et gennemsnit
Formulering af nul-hypotesen og alternativ hypotesen Parameter µ betragtes.
•
•
•
Nul hypotese testes mod alternativ hypotese:
H 0 : µ = µ0
H1 : µ ≠ µ0
Man vælger enten at acceptere H0 eller at forkaste H0.
Tosidet alternativ:
H 0 : µ = µ0
H1 : µ ≠ µ0
Ensidet alternativ, der bliver H1 enten:
H1 : µ < µ0
eller
H1 : µ > µ0
•
•
•
I nulhypotesen anvendes så vidt som muligt lighedstegn.
I alternativ hypotese placeres det udsagn som man gerne vil vise.
Eksempelvis: en man stilles for en dommer, anklaget for noget kriminelt. Her bliver nul- og
alternativ-hypotesen:
H 0 : Manden er ikke skyldig
H 1 : Manden er skyldig
Trin ved hypotesetest
1.
2.
3.
4.
Opstil hypoteser og vælg signifikansniveau α (vælg ”risiko-niveau”).
Beregn teststørrelse.
Beregn p-værdi vha. teststørrelse. Testets p-værdi måler datas afvigelser fra H0.
Sammenligne p-værdi med signifikansniveau og drag en konklusion. Alternativt kan testet
udføres ved at sammenligne teststørrelse med kritisk værdi.
Beregning af teststørrelse, p-værdi og sammenligning, hvis σ er kendt
•
Hvis nul- og alternativ-hypotese er formuleret. Og signifikansniveau α er valgt. Så kan
teststørrelsen beregnes ved:
X − µ0
Z=
σ
•
•
n
Der antages en normal fordeling og σ er kendt.
P-værdien findes for teststørrelsen Z ved opslag i normal fordeling (tabel 3).
Sammenligning med kritisk værdi zα (eller zα/2 i et tosidet test).
Alternativ
Afvis
- 15 -
hypotese
µ < µ0
Nul-hypotese hvis
Z < − zα
µ > µ0
µ ≠ µ0
Z > zα
Z < − zα / 2 eller
Z > zα / 2
Beregning af teststørrelse, p-værdi og sammenligning, hvis σ er ikke kendt
(n>30)
•
•
•
Hvis nul- og alternativ-hypotese er formuleret. Og signifikansniveau α er valgt. Så kan
teststørrelsen beregnes ved:
X − µ0
Z=
s
n
Der antages en normal fordeling og σ er ikke kendt.
P-værdien findes for teststørrelsen Z ved opslag i normal fordeling (tabel 3).
Sammenligning med kritisk værdi zα (eller zα/2 i et tosidet test).
Alternativ
Afvis
hypotese
Nul-hypotese hvis
µ < µ0
Z < − zα
µ > µ0
µ ≠ µ0
Z > zα
Z < − zα / 2 eller
Z > zα / 2
Beregning af teststørrelse, p-værdi og sammenligning, hvis σ er ikke kendt
(n<30)
•
•
•
Hvis nul- og alternativ-hypotese er formuleret. Og signifikansniveau α er valgt. Så kan
teststørrelsen beregnes ved:
X − µ0
t=
s
n
Der antages en normal fordeling og σ ikke er kendt.
P-værdien findes for teststørrelsen Z ved opslag i t-fordeling (tabel 4), v=n-1.
Sammenligning med kritisk værdi tα (eller tα/2 i et tosidet test).
Alternativ
Afvis
hypotese
Nul-hypotese hvis
µ < µ0
t < −t α
µ > µ0
µ ≠ µ0
t > tα
t < −tα / 2 eller
t > tα / 2
•
Hvordan kan sandsynligheden for fejl påvirkes:
o Ved at ændre signifikansniveau α.
o Ved at øge stikprøvestørrelse n.
- 16 -
Afsnit 7.6-7.9
Hypotesetest for to gennemsnit
•
Sammenligner gennemsnit (middelværdier) af 2 stikprøver.
o Stikprøve 1: n1 , X 1 og s12
o Stikprøve 2: n 2 , X 2 og s 22
1. Formulering af hypoteser
• Parameter µ1 , µ 2 betragtes.
•
•
Nul hypotese testes mod alternativ hypotese:
H 0 : µ1 − µ 2 = δ
H 1 : µ1 − µ 2 ≠ δ
Man vælger enten at acceptere H0 eller at forkaste H0.
Tosidet alternativ:
H 0 : µ1 − µ 2 = δ
H 1 : µ1 − µ 2 ≠ δ
•
•
Ensidet alternativ, der bliver H1 enten:
H 1 : µ1 − µ 2 < δ
eller
H 1 : µ1 − µ 2 > δ
Typisk er man interesseret i at teste med δ = 0 .
2. beregning af teststørrelse for kendte varianser σ 12 og σ 22
•
Ved hypotese prøvning af 2 middelværdier (µ1 og µ2) for data, der antages normalfordelt og
varianser σ 12 og σ 22 er kendte, fås teststørrelsen:
Z=
(X 1 − X 2 ) − δ
σ 12 / n1 + σ 22 / n2
,(tabel 3).
Denne måler forskellen på to grupper og δ stort set altid nul.
3. sammenligning med kritisk værdi for kendte varianser σ 12 og σ 22
•
Ved hypoteseprøvning af to middelværdier (µ1 og µ2) for data, der antages normalfordelt og
varianser σ 12 og σ 22 er kendte, fås:
Alternativ
Afvis
hypotese
Nul-hypotese hvis
µ1 − µ 2 < δ
Z < − zα
µ1 − µ 2 > δ
µ1 − µ 2 ≠ δ
Z > zα
Z < − zα / 2 eller
Z > zα / 2
(tabel 3).
- 17 -
2. beregning af teststørrelse for ikke kendte varianser σ 12 og σ 22
•
Ved hypotese prøvning af 2 middelværdier (µ1 og µ2) for data, der antages normalfordelt og
varianser σ 12 og σ 22 ikke er kendte, fås teststørrelsen:
Z=
(X 1 − X 2) −δ
s12 / n1 + s 22 / n2
,(tabel 3).
Denne måler forskellen på to grupper og δ stort set altid nul.
3. sammenligning med kritisk værdi for ikke kendte varianser σ 12 og σ 22
•
Ved hypoteseprøvning af to middelværdier (µ1 og µ2) for data, der antages normalfordelt og
varianser σ 12 og σ 22 ikke er kendte, fås:
Alternativ
Afvis
hypotese
Nul-hypotese hvis
µ1 − µ 2 < δ
Z < − zα
µ1 − µ 2 > δ
µ1 − µ 2 ≠ δ
Z > zα
Z < − zα / 2 eller
Z > zα / 2
(tabel 3).
2. beregning af teststørrelse for ikke kendte varianser σ 12 og σ 22 , men σ 12 = σ 22
•
Ved hypotese prøvning af 2 middelværdier (µ1 og µ2) for data, der antages normalfordelt og
varianser σ 12 og σ 22 ikke er kendte, men med σ 12 = σ 22 , fås teststørrelsen:
t=
(X1 − X 2) −δ
s p 1/ n1 + 1/ n2
Denne måler forskellen på to grupper og δ stort set altid nul.
Hvor
(n − 1) s12 + (n2 − 1) s 22
s 2p = 1
n1 + n 2 − 2
Og frihedsgrader:
v = n1 + n2 − 2
(tabel 4).
3. sammenligning med kritisk værdi for ikke kendte varianser σ 12 og σ 22 , men
σ 12 = σ 22
•
Ved hypoteseprøvning af to middelværdier (µ1 og µ2) for data, der antages normalfordelt og
varianser σ 12 og σ 22 ikke er kendte, men σ 12 = σ 22 , fås:
Alternativ
Afvis
hypotese
Nul-hypotese hvis
µ1 − µ 2 < δ
t < −t α
µ1 − µ 2 > δ
t > tα
- 18 -
µ1 − µ 2 ≠ δ
t < −tα / 2 eller
t > tα / 2
Og frihedsgrader:
v = n1 + n2 − 2
(tabel 4).
Beregning af konfidensinterval for forskel i middelværdi for store stikprøver
•
For store stikprøver beregnes et (1-α)% konfidensinterval ved:
x1 − x 2 ± zα / 2
α
2
s12 s 22
+
,(tabel 3).
n1 n 2
=
(1−α )
2
Kendes σ 12 og σ 22 anvendes disse i stedet for s12 og s 22 .
Beregning af konfidensinterval for forskel i middelværdi for små stikprøver
og ukendt σ 12 og σ 22
•
For små stikprøver og ukendt σ 12 og σ 22 , men med σ 12 = σ 22 beregnes et (1-α)%
konfidensinterval ved:
x1 − x 2 ± tα / 2
(n1 − 1) s12 + (n 2 − 1) s 22
n1 + n2 − 2
Og frihedsgrader:
v = n1 + n2 − 2
(tabel 4).
α
2
=
1
1
+
n1 n 2
(1−α )
2
Afsnit 8.1-8.3, 6.4
Hypotesetest for en varians
χ 2 -fordeling
•
•
Variansen for en stokastisk variabel X estimeres ved:
1 n
S2 =
(X i − X )2
∑
n − 1 i =1
Hvor n er antallet af observationer
Xi er observationer nr. i, hvor i =1…n
X estimat af middelværdien for X
Store bogstaver => stokastiskvariabel.
2
Lad S være variansen af en stikprøve af størrelsen n fra en normalfordeling med varians σ2,
da er:
(n − 1)S 2 , Ki = χ
χ2 =
, v = n-1 (tabel 5, s. 588).
2
σ
- 19 -
P ( χ 2 ≥ χ α2 ) = α
Konfidensinterval for en varians
Et (1-α)% konfidensinterval for en varians σ2 fås ved:
(n − 1) S 2
(n − 1) S 2
2
σ
<
<
2
2
χα / 2
χ1−α / 2
α
2
=
(1−α )
2
v = n-1 (tabel 5, s. 588).
Hypotesetest af en varians
1. Formulering af hypoteser
•
•
•
Nul hypotese testes mod alternativ hypotese:
H 0 : σ 2 = σ 02
H 1 : σ 2 ≠ σ 02
Man vælger enten at acceptere H0 eller at forkaste H0.
Tosidet alternativ:
H 0 : σ 2 = σ 02
H 1 : σ 2 ≠ σ 02
Ensidet alternativ, der bliver H1 enten:
H 1 : σ 2 < σ 02
eller
H 1 : σ 2 > σ 02
•
Hvor σ 02 er værdien der testes for.
2. teststørrelse bliver
•
Lad S2 være variansen af en stikprøve af størrelsen n fra en normalfordeling med varians σ2,
da er:
(n − 1)S 2 , Ki = χ
χ2 =
, v = n-1 (tabel 5, s. 588).
2
σ0
P( χ 2 ≥ χ α2 ) = α
3. sammenligning med kritisk værdi
Alternativ
hypotese
σ 2 < σ 02
Afvis
Nul-hypotese hvis
χ 2 < χ12−α
σ 2 > σ 02
χ 2 > χ α2
σ 2 ≠ σ 02
χ 2 < χ12−α eller
- 20 -
χ 2 > χ α2
(tabel 5).
Hypotesetest af 2 varianser
•
Sammenligner varianser af 2 stikprøver.
o Stikprøve 1: n1 , X 1 og s12
o Stikprøve 2: n 2 , X 2 og s 22
F-fordeling
•
Lad S12 og S 22 være varianser af stikprøver af størrelserne n1 og n2 fra en normalfordeling
med varians σ2, da er:
S2
F = 12 , v1 = n1-1 og v2 = n2-1 (tabel 6a og 6b, s. 589-590).
S2
P( F ≥ Fα ) = α
Hypotesetest af 2 varianser
1. Formulering af hypoteser
•
•
•
Nul hypotese testes mod alternativ hypotese:
H 0 : σ 12 = σ 22
H 1 : σ 12 ≠ σ 22
Man vælger enten at acceptere H0 eller at forkaste H0.
Tosidet alternativ:
H 0 : σ 12 = σ 22
H 1 : σ 12 ≠ σ 22
Ensidet alternativ, der bliver H1 enten:
H 1 : σ 12 < σ 22
eller
H 1 : σ 12 > σ 22
2. teststørrelse bliver
F=
S12
, v1 = n1-1 og v2 = n2-1 (tabel 6a og 6b, s. 589-590).
S 22
P( F ≥ Fα ) = α
3. sammenligning med kritisk værdi
Alternativ
hypotese
σ 12 < σ 22
Afvis
Nul-hypotese hvis
F > Fα (n 2 − 1, n1 − 1)
σ 12 > σ 22
F > Fα (n1 − 1, n2 − 1)
- 21 -
F > Fα / 2 (n M − 1, nm − 1)
σ 12 ≠ σ 22
(i sidste tilfælde gælder S M2 > S m2 )
(tabel 6a og 6b).
Afsnit 9.1-9.5
Estimation af andele
fås ved at observere antal gange x en hændelse har indtruffet uf af n forsøg:
x
p=
n
Konfidensinterval for en andel
Såfremt der haves stor stikprøve, fås et (1-α)% konfidensinterval for p:
x
− zα / 2 ⋅
n
x
n
(1 − nx )
x
< p < + zα / 2 ⋅
n
n
α
2
=
x
n
(1 − nx )
n
(1−α )
2
Konfidensinterval for to andele
Såfremt der haves stor stikprøve, fås et (1-α)% konfidensinterval for p1-p2:
x
x 
p1 − p 2 =  1 − 2  ± zα / 2 ⋅
 n1 n2 
α
2
=
x1
n1
 x1  x 2  x 2
1 − 
1 −
n
n2
n
1 

+ 2
n1
n2



(1−α )
2
Maksimal fejl på estimat
Den maksimale fejl, E, på et estimat med sandsynlighed
E = zα / 2 ⋅
α
=
2
(1−α )
2
bliver:
p(1 − p)
, hvor zα/2 findes i tabel 3.
n
x
p=
n
Bestemmelse af stikprøvestørrelse hvor p kendes
Såfremt man højst vil tillade en maksimal fejl E med (1-α)% konfidens, bestemmes den nødvendige
stikprøvestørrelse ved:
z 
n = p(1 − p) ⋅  α / 2 
 E 
α
2
=
(1−α )
2
2
, hvor zα/2 findes i tabel 3.
- 22 -
Bestemmelse af stikprøvestørrelse hvor p ikke kendes
Såfremt man højst vil tillade en maksimal fejl E med (1-α)% konfidens, og p ikke kendes,
bestemmes den nødvendige stikprøvestørrelse ved:
2
1 z 
n = ⋅  α / 2  , p=1/2
4  E 
α
2
=
(1−α )
2
, hvor zα/2 findes i tabel 3.
Hypotesetest af 1 andel
1. Formulering af hypoteser
•
•
Nul hypotese testes mod alternativ hypotese:
H 0 : p = p0
H 1 : p ≠ p0
Man vælger enten at acceptere H0 eller at forkaste H0.
Tosidet alternativ:
H 0 : p = p0
H 1 : p ≠ p0
•
Ensidet alternativ, der bliver H1 enten:
H 1 : p < p0
eller
H 1 : p > p0
2. teststørrelse bliver
•
Såfremt stikprøvestørrelsen er tilstrækkelig stor fås teststørrelsen:
X − n ⋅ p0
Z=
n ⋅ p 0 (1 − p 0 )
3. sammenligning med kritisk værdi
Alternativ
hypotese
p < p0
Afvis
Nul-hypotese hvis
Z < − zα
p > p0
Z > zα
p ≠ p0
Z < − zα eller
Z > zα
(tabel 3).
Hypotesetest af 2 andel
1. Formulering af hypoteser
•
Nul hypotese testes mod alternativ hypotese:
- 23 -
H 0 : p1 = p 2
•
H 1 : p1 ≠ p 2
Man vælger enten at acceptere H0 eller at forkaste H0.
Tosidet alternativ:
H 0 : p1 = p 2
H 1 : p1 ≠ p 2
•
Ensidet alternativ, der bliver H1 enten:
H 1 : p1 < p 2
eller
H 1 : p1 > p 2
2. teststørrelse bliver
•
Såfremt stikprøvestørrelsen er tilstrækkelig stor fås teststørrelsen:
Z=
X1
n1
−
X2
n2
pˆ (1 − pˆ )( n11 + n12 )
Hvor pˆ =
X1 + X 2
n1 + n2
3. sammenligning med kritisk værdi
Alternativ
hypotese
p < p0
Afvis
Nul-hypotese hvis
Z < − zα
p > p0
Z > zα
p ≠ p0
Z < − zα eller
Z > zα
(tabel 3).
Hypotesetest af flere andel
1. Formulering af hypoteser
•
I nogle tilfælde kan man være interesseret i at vurdere om to eller flere binomialfordelinger
har samme parameter p, dvs. man er interesseret i at teste nul-hypotesen:
H 0 : p1 = p 2 = ... = p k = p
Mod alternativ hypotese at disse andele ikke er ens.
- 24 -
•
Under nul-hypotesen får et estimat for p:
x
n
Såfremt nul-hypotesen gælder, vil vi forvente at den j’te gruppe har e1j successer og e2j
fiaskoer, hvor
nj ⋅ x
e1 j = n j ⋅ pˆ =
n
n j ⋅ ( n − x)
e2 j = n j (1 − pˆ ) =
n
pˆ =
•
2. teststørrelse bliver
•
Teststørrelsen bliver
2
k
χ = ∑∑
2
(o
− eij )
2
ij
eij
i =1 j =1
Hvor oij er observeret antal i celle (i,j) og eij er forventet antal i celle (i,j). Se tabel AAA længere
nede for hvordan de beregnes.
3. sammenligning med kritisk værdi
•
Vi har teststørrelsen
2
k
χ = ∑∑
2
i =1 j =1
(o
− eij )
2
ij
eij
Hvor oij er observeret antal i celle (i,j) og eij er forventet antal i celle (i,j). Se tabel AAA længere
nede for hvordan de beregnes
• Teststørrelsen sammenlignes med χ α2 (k − 1)
•
Såfremt χ 2 > χ α2 (k − 1) forkastes nul-hypotesen.
Analyse af antalstabeller
1. Formulering af hypoteser
•
Følgende to tabeller er eksempler på antalstabeller:
o Opgaven kan lyde: Er stemmefordelingen ens for følgende tabel:
- 25 -
AAA
tre eksempler på hvordan
oij og eij beregnes for
I alt
263
denne tabel
(1)
o11 = 79
210
127
I alt
200
200
200
600
e11 =
200 ⋅ 263
= 87,67
600
( 2)
o12 = 84
e12 =
200 ⋅ 210
= 70
600
(3)
o23 = 43
e23 =
200 ⋅ 127
= 42,33
600
o Er der uafhængighed mellem inddelingskriterier:
•
Opstilling af nul-hypotesen:
H 0 : pi1 = p i 2 = p i 3
2. teststørrelse bliver
•
I en antalstabel med r rækker og c søjler, fås teststørrelsen:
r
c
χ = ∑∑
2
(o
ij
− eij )
2
eij
i =1 j =1
Hvor oij er observeret antal i celle (i,j) og eij er forventet antal i celle (i,j). Se tabel AAA længere
oppe for hvordan de beregnes.
3. sammenligning med kritisk værdi
•
Vi har teststørrelsen:
r
c
χ = ∑∑
2
i =1 j =1
•
•
(o
ij
− eij )
2
eij
Teststørrelsen sammenlignes med: χ α2 ((r − 1)(c − 1) ) tabel 5 side 588
Såfremt χ 2 > χ α2 ((r − 1)(c − 1) ) det sidste led er v. forkastes nul-hypotesen.
- 26 -
Goodness of fit (test for fordeling)
Ofte vil man gerne teste om data (observationer) følger en specifik fordeling. Dette gøres ved at
sammenligne observerede fraktiler med tilsvarende teoretiske fraktiler under forudsætning af en
given fordeling. Herefter beregnes teststørrelsen ved
r
c
χ = ∑∑
2
i =1 j =1
(o
ij
− eij )
2
eij
Hvor oij er observeret antal i celle (i,j) og eij er forventet antal i celle (i,j). Se tabel AAA længere
oppe for hvordan de beregnes.
Teststørrelsen skal sammenlignes med kritisk værdi, der findes i χ α2 (k −1 − m ) , hvor k er antal
inddelinger (celler i tabellen) og m er antal estimerede parametre.
Afsnit 10.1-10.4
Sign test
Kan bruges som alternativ for:
• Hypotesetest for en middelværdi
• Parret t-test
Når ovenstående test ikke kan bruges pga. antagelse om normalfordeling.
1. Formulering af hypoteser
Sign test kan bruges til at teste hypotese om median
H 0 : µ~ = µ~D
H : µ~ ≠ µ~
1
D
Hvor µ~D er den værdi vi ønsker at teste.
2. teststørrelse bliver
Beregning af teststørrelse/p-værdi:
• Antal af observationer større end medianen optælles, X + .
• Testets p-værdi kan nu findes ved at beregne sandsynligheden for (ensidet test)
P( X ≥ X + )
3. sammenligning med kritisk værdi
Såfremt p-værdi er mindre end signifikansniveau, forkastes H0.
Rank-sum test
Rank-sum test (også kaldet U-test eller Wilcoxon test eller Mann-Whitney test) kan bruges som
alternativ til almindelig t-test for 2 uafhængige stikprøver, i tilfælde af at normalfordelingsantagelse
ikke holder.
1. Formulering af hypoteser
Rank-sum test kan altså bruges til at sammenligne medianen for 2 uafhængige stikprøver:
- 27 -
x1 , x 2 ,..., x n1
y1 , y 2 ,..., y n1
2. teststørrelse bliver
Beregning af teststørrelse: data sorteres og rangeres (eng: ranks) i stigende rækkefælge. For hver af
de to stikprøver summeres de tilhørende ranks, her benævnt W1 og W2, så der kan beregnes:
n (n + 1)
U 1 = W1 − 1 1
2
n (n + 1)
U 2 = W2 − 2 2
2
Det gælder nu, at såfremt de to stikprøver kommer fra den samme fordeling, så haves:
n ⋅n
µU1 = 1 2
2
n ⋅ n (n + n + 1)
σ U21 = 1 2 1 2
12
Når n1 og n2 er tilpas store (>8) kan vi nu anvende:
U 1 − µ U1
Z=
≈ N (0,12 ) teststørrelse
σU
1
3. sammenligning med kritisk værdi
Hvis population 2 er større end population 1:
Så afvises H0, hvis Z < -zα, da en lille værdi af U1 giver en lille værdi af W1.
Hvis population 1 er større end population 2:
Så afvises H0, hvis Z > zα, da en stor værdi af U1 giver en stor værdi af W1.
Test for tilfældighed
•
•
•
I mange undersøgelser er det vigtigt at afgøre om en stikprøve er fremkommet tilfældigt.
Hvis vi har en sekvens med n1 af den ene type og n2 af en anden type (og hverken n1eller n2
er mindre end 10), f.eks.:
K K K P K K P P K P P K P K P…
Det totale antal skift, u, approksimeres med en normalfordeling med:
2 ⋅ n1 ⋅ n2
µu =
+ 1 og
n1 + n2
σu =
•
2 ⋅ n1 ⋅ n2 (2 ⋅ n1 ⋅ n2 − n1 − n2 )
(n1 + n2 ) 2 ⋅ (n1 + n2 − 1)
Vi kan nu beregne p-værdien ved:
Z=
u − µu
σu
idet
Z ≈ N (0,12 )
- 28 -
Afsnit 11.1, 11.2, 11.6
Regressionsanalyse
•
•
Antag at Y er en stokastisk variabel. Vi er interesseret i at modellere Y’s afhængighed af en
forklarende variabel x.
Vi undersøger en lineær sammenhæng mellem Y og x, dvs. ved en regressionsmodel på
formen:
Y =α + β ⋅x+ε
Korrelation
•
•
•
Korrelationskoefficienten r angiver den lineære sammenhæng mellem variablerne x og y.
Korrelationskoefficienten mellem 2 variable x og y estimeres ved:
1 n  xi − x  y i − y 

r=
∑
n − 1 i =1  s x  s y 
Det antages her, at observationerne (xi,yi) er sammenhørende værdier. Der gælder r ∈ [−1;1] .
Simpel lineær regressionsmodel
Y =α + β ⋅x+ε
•
•
•
•
•
•
α + β ⋅ x er modellen
ε er residual (tilfældige fejl, måle fejl eller afvigelse)
Y afhængige variabel
x uafhængige variabel
α skæring med Y-aksen
β hældning
ε
Mindste kvadraters metode
•
Antag at vi har observationerne:
•
•
•
Er det en sammenhæng mellem x og y?
Vi foreslår en model på formen yˆ = a + b ⋅ x
Hvordan estimeres a og b?
- 29 -
•
a og b bestemmes ved:
b=
S xy
S xx
a = y −b⋅ x
(− ∑ x )
2
n
S xx = ∑ ( xi − x ) eller S xx = ∑ x −
2
i
2
i =1
eller SS xx = s x2 ⋅ (n − 1)
i
n
(− ∑ y )
2
n
S yy = ∑ ( y i − y ) eller S yy = ∑ y −
2
i
2
i =1
i
n
eller SS yy = s y2 ⋅ (n − 1)
n
S xy = ∑ ( xi − x )( y i − y ) eller S xy = ∑ xi y i −
∑x ⋅∑ y
i
i
n
a og b er nu de værdier, der giver den regressionslinie, der minimerer den kvadratiske
afstand mellem punkter og linie.
a er et estimat for α og b er et estimat for β.
i =1
•
•
Interferens i regressionsmodel
•
vi antager at de observerede data (Yi,xi) kan beskrives ved modellen:
Yi = α + β ⋅ xi + ε i
Hvor det antages at ε i er uafhængige normalfordelte stokastiske variable med middelværdi 0 og
konstant varians σ2.
• Estimatet af σ2 bliver (varians af residualerne):
S yy − ( S xy ) 2 / S xx
2
se =
n−2
1. Formulering af hypotese om skæring med y-aksen
•
Antag at vi vil teste en hypotese om skæring med y-aksen:
H0 : a = α
H1 : a ≠ α
2. teststørrelse bliver
t=
n ⋅ S xx
(a − α )
se
S xx + n ⋅ ( x ) 2
3. sammenligning med kritisk værdi
•
Kritisk værdi findes i t-fordeling:
tα / 2 (n − 2) tabel 4
1. Formulering af hypotese om hældningen β
•
Antag at vi vil teste en hypotese om hældningen β
H0 : b = β
H1 : b ≠ β
- 30 -
2. teststørrelse bliver
(b − β )
S xx
se
t=
3. sammenligning med kritisk værdi
•
Kritisk værdi findes i t-fordeling:
tα / 2 (n − 2) tabel 4
Konfidensintervaller for α og β
•
Konfidensinterval for α:
a ± tα / 2 ⋅ s e
1 (x) 2
+
t
i tabel 4, v = n-2
n S xx α / 2
α
•
2
=
(1−α )
2
Konfidensinterval for β:
1
b ± tα / 2 ⋅ s e
S xx
α
2
tα / 2 i tabel 4, v = n-2
=
(1−α )
2
Konfidensintervaller for α+ β*x0
•
Konfidensinterval for α+ β*x0 svarer til et konfidensinterval for modellen i punktet x0:
1 ( x0 − x ) 2
+
tα / 2 i tabel 4, v = n-2
n
S xx
(a + b ⋅ x 0 ) ± tα / 2 ⋅ s e
α
2
=
(1−α )
2
Prædiktionsinterval for α+ β*x0
•
Prædiktionsinterval for α+ β*x0 svare til et prædiktionsinterval for modellen i punktet x0:
(a + b ⋅ x 0 ) ± tα / 2 ⋅ s e 1 +
1 ( x0 − x ) 2
+
tα / 2 i tabel 4, v = n-2
n
S xx
α
•
2
=
(1−α )
2
Et prædiktionsinterval bliver altså større end et konfidensinterval for fastholdt α.
Korrelation og regression
•
Korrelation og regression:
r=
S xx
S yy
b r2 =
S xx 2
b , hvor
S yy
- 31 -
(− ∑ x )
2
n
S xx = ∑ ( xi − x ) eller S xx = ∑ x −
2
i
2
i =1
eller SS xx = s x2 ⋅ (n − 1)
i
n
(− ∑ y )
2
n
S yy = ∑ ( y i − y ) eller S yy = ∑ y −
2
i
2
i =1
n
i
n
eller SS yy = s y2 ⋅ (n − 1)
S xy = ∑ ( xi − x )( y i − y ) eller S xy = ∑ xi y i −
i =1
•
•
∑x ⋅∑ y
i
i
n
Korrelationen r udtrykker graden af lineær sammenhæng.
Korrelationen kvadreret r2 udtrykker ”forklaringsgraden”:
Syy= variation forklaret af linien + uforklaret variation:
S xy2 
S xy2 

S yy =
+  S yy −
S xx 
S xx 
Afsnit 12.1-12.3
Variansanalyse (forskel i middel)
•
•
Er der forskel (i middel) på grupperne A, B og C?
Variansanalyse (ANOVA) kan anvendes til analysen såfremt observationerne i hver gruppe
kan antages at være normalfordelte.
En-sidet variansanalyse
•
Vi betragter modellen:
X ij = µ + α i + ε ij hvor det antages eij ≈ N (0, σ 2 )
•
•
µ er gennemsnit for alle målinger.
αi angiver niveau af ”gruppe” i.
1. Formulering af hypotese
•
vi vil nu sammenligne (flere end to) middelværdier µ+αi i modellen:
X ij = µ + α i + ε ij hvor det antages eij ≈ N (0, σ 2 )
Dvs. hypotesen kan opstilles:
H 0 :αi = α j
H1 : α i ≠ α j
- 32 -
2. teststørrelse bliver
•
Variansanalysetabel
•
Den totale varians:
•
Test størrelsen F:
SST = SS (Tr ) + SSE
F=
•
SS (Tr ) /(k − 1)
SSE /( N − k )
Måleusikkerheden (residual) varians:
SSE
N −k
2
=
σ error
•
Behandlingsvarians:
SS (Tr )
k −1
Hvor k er niveauer antal slags prøver fortaget over en faktor, og N er antal observationer.
• Formler for kvadrat afvigelses sum:
2
=
σ treatment
k
ni
SST = ∑∑ y ij2 − C
i =1 j =1
Ti 2
SS (Tr ) = ∑
− C , hvor
i =1 ni
k
C=
ni
k
T. 2
, Ti = ∑ y ij , T . = ∑ Ti
N
j =1
i =1
3. sammenligning med kritisk værdi
•
Teststørrelsen sammenlignes med en fraktil i F fordelingen:
F ~ Fα (k − 1, N − k )
- 33 -
Tosidet variansanalyse
•
Vi antager nu, at vi har modellen:
X ij = µ + α i + β j + ε ij hvor det antages eij ~ N (0, σ 2 )
Dvs. vi har to inddelingskriterier, både α og β, hvor β også kan opfattes som en blok, hvorfor
designet også kaldes et randomiseret blokforsøg.
•
Den totale varians:
•
Test størrelsen F:
SST = SS (Tr ) + SS ( Bl ) + SSE
SS (Tr ) /(a − 1)
eller
SSE /((a − 1)(b − 1))
SS ( Bl ) /(b − 1)
F=
SSE /((a − 1)(b − 1))
Måleusikkerheden (residual) varians:
SSE
2
σ error
=
((a − 1)(b − 1))
Behandlingens varians:
SS (Tr )
2
σ treatment
=
a −1
Blokkenes varians:
SS ( Bl )
2
=
σ blocks
b −1
Formler for kvadrat afvigelses sum:
F=
•
•
•
•
a
b
SST = ∑∑ y ij2 − C
i =1 j =1
- 34 -
a
SS (Tr ) =
∑T
i =1
b
2
i.
−C
b
∑T
SS ( Bl ) =
•
Kritisk værdi for blokke:
•
Kritisk værdi for behandling:
j =1
a
2
.j
T..2
− C , hvor C =
ab
Fα (b − 1, (a − 1)(b − 1))
Fα (a − 1, (a − 1)(b − 1))
Definition på parat t-test
Hvis man måler blodtryk på 10 personer og måler højden på de samme 10 personer er det et parat ttest man ser på for at sammenligne.
- 35 -