Afsnit 2.1-2.7 ....................................................................................................................................... 5 Hvad er statistik? .............................................................................................................................. 5 Nøgletal ............................................................................................................................................ 5 • Median ................................................................................................................................. 5 • Varians ................................................................................................................................. 5 • Fraktiler ................................................................................................................................ 6 Figurer .............................................................................................................................................. 6 • Pareto diagram ..................................................................................................................... 6 • Dot diagram.......................................................................................................................... 6 • Frequency distribution ......................................................................................................... 6 • Histogram ............................................................................................................................. 6 • Boxplot ................................................................................................................................. 6 Afsnit 4.1-4.4 og 4.6 og 4.7 ................................................................................................................. 6 En grundregel ................................................................................................................................... 6 Den klassiske sandsynlighedskoncept ......................................................................................... 6 Binomialkoefficienten ...................................................................................................................... 6 Hvad er Stokastisk variable.............................................................................................................. 6 Tæthedsfunktion for diskret variabel ............................................................................................... 6 Fordelingsfunktion for diskret variabel............................................................................................ 6 Diskrete fordelinger ......................................................................................................................... 7 Binomial fordeling ....................................................................................................................... 7 Den Hypergeometrisk fordeling................................................................................................... 7 Poisson fordeling.......................................................................................................................... 8 Middelværdi og varians for en diskret stokastisk variabel (overordnet) ..................................... 9 Afsnit 5.1 og 5.2-5.6 + Afsnit 5.7,5.10,5.11 og 5.12 ........................................................................... 9 Tæthedsfunktionen for kontinuert variabel ...................................................................................... 9 Fordelingsfunktion for kontinuert variabel ...................................................................................... 9 Kontinuerte fordelinger .................................................................................................................... 9 Normal fordeling og Standardiseret normal fordeling ................................................................. 9 • Eksempel for standard normal fordeling:........................................................................... 10 Log-Normal fordeling ................................................................................................................ 10 Uniform fordeling ...................................................................................................................... 11 Middelværdi og varians af en kontinuert stokastisk variabel (overordnet) ............................... 11 Eksponentiel fordeling ............................................................................................................... 11 Regler for stokastisk variabel (eksempler side 186) .................................................................. 12 Transformation ........................................................................................................................... 12 Afsnit 7.1-7.2, 6.1, 6.2 og 6.3 ............................................................................................................ 12 Stikprøvefordelinger ...................................................................................................................... 12 Definition af population og tilfældig stikprøve.......................................................................... 12 Stikprøvefordeling for middelværdien når variansen er kendt .................................................. 12 Estimation ...................................................................................................................................... 13 Begreber ..................................................................................................................................... 13 Den centrale grænseværdisætning ............................................................................................. 13 Maksimal fejl på et estimat hvor variansen er kendt ................................................................. 13 • Intervalestimation (konfidensinterval for middelværdi) hvor variansen er kendt ............. 14 Maksimal fejl på et estimat hvor variansen ikke er kendt.......................................................... 14 -1- • Intervalestimation (konfidensinterval for middelværdi) hvor variansen ikke er kendt og en stor stikprøve (n=>30)................................................................................................................ 14 • Intervalestimation (konfidensinterval for middelværdi) hvor variansen ikke er kendt og en lille stikprøve (n<30).................................................................................................................. 14 Afsnit 7.3, 7.4 og 7.5 .......................................................................................................................... 15 Hypotesetest for et gennemsnit ...................................................................................................... 15 Formulering af nul-hypotesen og alternativ hypotesen Parameter µ betragtes. ....................... 15 Trin ved hypotesetest ................................................................................................................. 15 Beregning af teststørrelse, p-værdi og sammenligning, hvis σ er kendt .................................... 15 Beregning af teststørrelse, p-værdi og sammenligning, hvis σ er ikke kendt (n>30) ................ 16 Beregning af teststørrelse, p-værdi og sammenligning, hvis σ er ikke kendt (n<30) ................ 16 Afsnit 7.6-7.9 ..................................................................................................................................... 17 Hypotesetest for to gennemsnit ...................................................................................................... 17 1. Formulering af hypoteser ....................................................................................................... 17 2. beregning af teststørrelse for kendte varianser σ 12 og σ 22 .................................................... 17 3. sammenligning med kritisk værdi for kendte varianser σ 12 og σ 22 ....................................... 17 2. beregning af teststørrelse for ikke kendte varianser σ 12 og σ 22 ............................................. 18 3. sammenligning med kritisk værdi for ikke kendte varianser σ 12 og σ 22 ............................... 18 2. beregning af teststørrelse for ikke kendte varianser σ 12 og σ 22 , men σ 12 = σ 22 .................... 18 3. sammenligning med kritisk værdi for ikke kendte varianser σ 12 og σ 22 , men σ 12 = σ 22 ...... 18 Beregning af konfidensinterval for forskel i middelværdi for store stikprøver ......................... 19 Beregning af konfidensinterval for forskel i middelværdi for små stikprøver og ukendt σ 12 og σ 22 ................................................................................................................................... 19 Afsnit 8.1-8.3, 6.4 .............................................................................................................................. 19 Hypotesetest for en varians ............................................................................................................ 19 χ 2 -fordeling .............................................................................................................................. 19 Konfidensinterval for en varians ................................................................................................ 20 Hypotesetest af en varians.......................................................................................................... 20 1. Formulering af hypoteser ....................................................................................................... 20 2. teststørrelse bliver .................................................................................................................. 20 3. sammenligning med kritisk værdi .......................................................................................... 20 Hypotesetest af 2 varianser ............................................................................................................ 21 F-fordeling ................................................................................................................................. 21 Hypotesetest af 2 varianser ........................................................................................................ 21 1. Formulering af hypoteser ....................................................................................................... 21 2. teststørrelse bliver .................................................................................................................. 21 3. sammenligning med kritisk værdi .......................................................................................... 21 Afsnit 9.1-9.5 ..................................................................................................................................... 22 Estimation af andele ....................................................................................................................... 22 Konfidensinterval for en andel ................................................................................................... 22 Konfidensinterval for to andele.................................................................................................. 22 Maksimal fejl på estimat ............................................................................................................ 22 Bestemmelse af stikprøvestørrelse hvor p kendes ..................................................................... 22 Bestemmelse af stikprøvestørrelse hvor p ikke kendes ............................................................. 23 -2- Hypotesetest af 1 andel .................................................................................................................. 23 1. Formulering af hypoteser ....................................................................................................... 23 2. teststørrelse bliver .................................................................................................................. 23 3. sammenligning med kritisk værdi .......................................................................................... 23 Hypotesetest af 2 andel .................................................................................................................. 23 1. Formulering af hypoteser ....................................................................................................... 23 2. teststørrelse bliver .................................................................................................................. 24 3. sammenligning med kritisk værdi .......................................................................................... 24 Hypotesetest af flere andel ............................................................................................................. 24 1. Formulering af hypoteser ....................................................................................................... 24 2. teststørrelse bliver .................................................................................................................. 25 3. sammenligning med kritisk værdi .......................................................................................... 25 Analyse af antalstabeller ................................................................................................................ 25 1. Formulering af hypoteser ....................................................................................................... 25 2. teststørrelse bliver .................................................................................................................. 26 3. sammenligning med kritisk værdi .......................................................................................... 26 Goodness of fit (test for fordeling) ................................................................................................ 27 Afsnit 10.1-10.4 ................................................................................................................................. 27 Sign test .......................................................................................................................................... 27 1. Formulering af hypoteser ....................................................................................................... 27 2. teststørrelse bliver .................................................................................................................. 27 3. sammenligning med kritisk værdi .......................................................................................... 27 Rank-sum test ................................................................................................................................. 27 1. Formulering af hypoteser ....................................................................................................... 27 2. teststørrelse bliver .................................................................................................................. 28 3. sammenligning med kritisk værdi .......................................................................................... 28 Test for tilfældighed ....................................................................................................................... 28 Afsnit 11.1, 11.2, 11.6 ........................................................................................................................ 29 Regressionsanalyse ........................................................................................................................ 29 Korrelation ................................................................................................................................. 29 Simpel lineær regressionsmodel ................................................................................................ 29 Mindste kvadraters metode ........................................................................................................ 29 Interferens i regressionsmodel ....................................................................................................... 30 1. Formulering af hypotese om skæring med y-aksen ............................................................... 30 2. teststørrelse bliver .................................................................................................................. 30 3. sammenligning med kritisk værdi .......................................................................................... 30 1. Formulering af hypotese om hældningen β ........................................................................... 30 2. teststørrelse bliver .................................................................................................................. 31 3. sammenligning med kritisk værdi .......................................................................................... 31 Konfidensintervaller for α og β ...................................................................................................... 31 Konfidensintervaller for α+ β*x0 ................................................................................................... 31 Prædiktionsinterval for α+ β*x0 ..................................................................................................... 31 Korrelation og regression ............................................................................................................... 31 Afsnit 12.1-12.3 ................................................................................................................................. 32 Variansanalyse (forskel i middel) .................................................................................................. 32 En-sidet variansanalyse .................................................................................................................. 32 1. Formulering af hypotese ........................................................................................................ 32 2. teststørrelse bliver .................................................................................................................. 33 -3- 3. sammenligning med kritisk værdi .......................................................................................... 33 Tosidet variansanalyse ................................................................................................................... 34 Definition på parat t-test ................................................................................................................ 35 -4- Afsnit 2.1-2.7 Hvad er statistik? • • • Indsamling af data. Statistik handler ofte om at analysere en stikprøve, der er taget fra en population. Baseret på stikprøven, prøver vi at generalisere (eller udtale os) om populationen. Nøgletal • Middelværdi angiver tyngdepunkt eller centrering af data: 1 n ∑ xi n i =1 o Eks. Har vi tallene: 12, 15, 13, 14, 16 1 Middelværdien bliver: x = (12 + 15 + 13 + 14 + 16 ) = 14 5 Median angiver tyngdepunkt eller centrering af data. I nogle tilfælde, f.eks. hvis man har ekstreme værdier, er medianen at fortrække frem for middelværdien: Først skal antal n sættes i rækkefølge, hvis: o Ulige antal n er tallet i midten medianen. o Lige antal n, tages de to tal i midten ligger dem sammen og deler med 2 = madian. Varians (eller standardafvigelsen) siger noget om hvor maget data spreder: 1 n ( x i − x) 2 o Varians: s 2 = ∑ n − 1 i =1 x= • • n n ⋅ ∑ x − ∑ xi i =1 i =1 o Eller varians: s 2 = n ⋅ (n − 1) n 2 2 i Eks. Har vi tallene: 12, 15, 13, 14, 16 (samme tal som i middelværdi eks. Så x er den samme). Variansen bliver: s2 = ( ) 1 (12 − 14)2 + (15 − 14)2 + (13 − 14)2 + (14 − 14)2 + (16 − 14)2 = 2,5 5 −1 o Standardafvigelse (spredning): s = s 2 • • _ Vigtigt: x og s er estimerede værdier dvs. at hvis man tager en stikprøve ud af en population og beregner middelværdien og spredningen er det estimerede. µ og σ gælder for hele populationen. Variationskoefficient bruges til at sammenligne variationen mellem forskellige datasæt: s V = ⋅ 100 x -5- • Fraktiler er punkter hvor data deles. Medianen deler data i to halvdele. Fraktiler deler data i andre dele. Ofte beregner man fraktiler: 0, 25, 50, 75, 100 % fraktiler. Figurer • Pareto diagram siger f.eks. noget om hvor forskellige slags defekte der er i et givet system. • Dot diagram er godt til at detektere fejl ved at se på outliers prikker som ligger usædvanligt. • • • Frequency distribution: opdeling i intervaller/klasser og optælle herefter. Histogram: se side 19. god til grove data med mange tal. Boxplot: en rektangel der repræsentere midten af data og en linje repræsentere medianen. De to linjer på siderne af rektanglen repræsentere 95% og 5%. Afsnit 4.1-4.4 og 4.6 og 4.7 En grundregel Den klassiske sandsynlighedskoncept defineres: Hvis der findes n lige sandsynlige udfald, hvorfra et må ske, og hændelsen s betegnes som ’succes’, så er sandsynligheden for succes givet ved: s n Binomialkoefficienten Det antal forskellige måder som vi kan udvælge r objekter taget ud fra en population bestående af n forskellige objekter er: n! n = r r!(n − r )! Hvad er Stokastisk variable • • • • • En funktion defineret over udfaldsrummets elementer. Følger en statistisk fordeling. Stokastisk variable angives ved store bogstaver, f.eks. X, Y, Z. Udfaldet fra det stokastiske variable angives ved tilsvarende små bogstaver, f.eks. x, y,z. Vi skelner mellem diskrete og kontinuerte stokastiske variable. Tæthedsfunktion for diskret variabel • • For en stokastisk variabel betegnes tæthedsfunktionen ved f(x). For den diskrete variabel kan vi skrive tæthedsfunktionen som: f ( x ) = P( X = x ) Fordelingsfunktion for diskret variabel • • Fordelingsfunktionen for en stokastisk variabel betegnes ved F(x). Fordelingsfunktionen svarer til den kumulerede tæthedsfunktion: -6- F ( x) = P ( X ≤ x ) Diskrete fordelinger Binomial fordeling • • • • • • • Vi betragter n uafhængige forsøg. I hvert enkelt forsøg kan udfaldet/hændelsen blive enten succes eller fiasko. Sandsynligheden for succes er p (og er den samme for alle n forsøg). Sandsynligheden for fiasko er dermed 1-p (og er den samme for alle n forsøg). De forskellige udfald er uafhængige. Med tilbage lægning. En stokastisk variabel, X, er binomial fordelt: X ≈ b( x; n, p ) X = antal ”mærkede” i stikprøven. p = populationsandelen = a/n, hvor a er i alt defekte. n = stikprøvestørrelsen. Det er lille b hvis det er præcis en mængde og store B hvis det er større eller mindre end en mængde. • Tæthedsfunktion for en binomial fordeling: f ( x) = P ( X = x) = nx ⋅ p x (1 − p ) n− x P ( X = x) = P ( X ≤ x) − P ( X ≤ x − 1) , tabel 1 side 576. • Fordelingsfunktion for binomal fordeling: F ( x) = P ( X ≤ x) , tabel 1 side 576. P ( X < x) = P ( X ≤ x − 1) P ( X > x) = 1 − P ( X ≤ x − 1) () MOST (højst) brug: MORE THAN (mere end): LEAST (mindst) brug: LESS THAN (mindre end): µ = n⋅ p • Middelværdi: • • P( X P( X P( X P( X ≤ udfald ) , direkte ved opslag tabel 1. > udfald ) = 1 − P ( X ≤ udfald ) ≥ udfald ) = 1 − P ( X ≤ udfald − 1) < udfald ) = P ( X ≤ udfald − 1) σ 2 = np ⋅ (1 − p) Varians: Hvis man ønsker at finde sandsynligheden for et bestemt område: B(h;n,p)-B(t;n,p) t h Den Hypergeometrisk fordeling • • • En population med størrelse N. En stikprøve af størrelse n. Der er a defekte i populationen. -7- • • • • • Der er N-a ikke-defekte i populationen. x er antal defekte ud af stikprøven. Uden tilbage lægning. Den stokastiske variabel, X, er hypergeometrisk fordelt: X ≈ h( x; n, a, N ) Tæthedsfunktion for den hypergeometriske fordeling: ( )( ) f ( x) = P( X = x) = ( ) a x • N −a n− x N n Den hypergeometriske fordeling kan udskiftes med binomial fordelingen hvis populationen N er stor og stikprøven n er lille. Obs! Binomial fordeling kan til forveksling bruges i tilfælde hvor n ikke er så lille i forhold til N også kunne man begå den fejl at anvende binomial distribution med n og p = a/N. se side 111. a µ = n⋅ • Middelværdi: N a a N − n σ 2 = n 1 − • Varians: N N N − 1 Poisson fordeling • • • • • • • • Poisson fordeling anvendes ofte som en fordeling (model) for tælletal, hvor der ikke er nogen naturlig øvre grænse. Poisson fordelingen kan ofte karakteriseres som intensitet, dvs. på formen antal/enhed. Parameteren λ angiver intensiteten i poisson fordelingen. Når n er stor og p er lille er binomial sansynligheder approksimeret til possion distribution. Possion fordeling anvendes til approksimation af binomiale sansynligheder, når n ≥ 20 og p ≤ 0.05 , hvis n ≥ 100 er approksimationen god så længe np ≤ 10 Se s. 129 for sammenligning af possion og binomial. Den stokastiske variabel, X, er possion fordelt: X ≈ P (λ ) Tæthedsfunktionen: f ( x) = P( X = x) = • Fordelingsfunktionen: MOST (højst) brug: MORE THEN (mere end): LEAST (mindst) brug: LESS THEN (mindre end): • Middelværdi: • Varians: λx x! ⋅ e −λ F ( x) = P( X ≤ x) , tabel 2, side 581 P( X ≤ udfald ) , direkte ved opslag tabel 2. P( X > udfald ) = 1 − P( X ≤ udfald ) P( X ≥ udfald ) = 1 − P( X ≤ udfald − 1) P( X < udfald ) = P( X ≤ udfald − 1) µ=λ σ2 =λ -8- Middelværdi og varians for en diskret stokastisk variabel (overordnet) µ = ∑ x ⋅ f ( x) , hvor S er udfaldsrummet for X. • Middelværdi: S • Det vides at: ∑ f ( x) = 1 S • Varians: σ 2 = ∑ ( x − µ ) 2 ⋅ f ( x) , hvor S er udfaldsrummet for X. S Afsnit 5.1 og 5.2-5.6 + Afsnit 5.7,5.10,5.11 og 5.12 Tæthedsfunktionen for kontinuert variabel • • • Tæthedsfunktionen betegnes f(x). f(x) siger noget om den relative hyppighed af udfaldet x for den stokastiske variabel X. For kontinuerte variable svarer tætheden ikke til sandsynligheden, dvs: f ( x) ≠ P( X = x) Fordelingsfunktion for kontinuert variabel • • Fordelingsfunktionen betegnes ved F(x). Fordelingsfunktionen svarer til den kumulerede tæthedsfunktion: F ( x) = P ( X ≤ x ) Kontinuerte fordelinger Normal fordeling og Standardiseret normal fordeling • • • Der kan ikke opstilles generelle kriterier for, hvornår en variabel er normailfordelt. Ofte kan man ramme rigtigt, hvis man til hvert element stiller spørgsmålet: ”hvilken værdi har elementet” og svarmuligheden er ”et tal”. X ≈ N (µ ,σ 2 ) Tæthedsfunktionen: f (x) = 1 σ ⋅ 2 ⋅π ⋅e − ( x − µ )2 2 ⋅σ 2 P ( X < x) , aflæses i tabel 3, side 585 P( X > x) = 1 − P( X < x) b P(a ≤ X ≤ b) = ∫ f ( x)dx a µ=µ σ 2 =σ 2 • Middelværdi: • • Varians: En normal fordeling med middelværdien 0 og variansen 1, dvs. X ≈ N (0,12 ) , kaldes en standard normal fordeling. En vilkårlig normal fordelt variabel X ≈ N ( µ , σ 2 ) kan standardiseres ved at beregne: X −µ Z= • σ -9- • Fordelingsfunktionen: F ( z) = z 1 2 ⋅π ⋅ ∫e −t 2 2 dt , kan findes i tabel 3, side 585. −∞ P ( X < z ) , aflæses i tabel 3, side 585 P( X > z ) = 1 − P( X < z ) a−µ P( X < a) = F σ a−µ P( X > a ) = 1 − F More (større end): σ b− µ a−µ P ( a < X < b) = F Between (imellem): − F σ σ F(Z) aflæses i tabel 3, side 585 Less (mindre end): • Eksempel for standard normal fordeling: P(-z < X < z) = 0,9298 z = 1-0,9298/2 0,9298 -z z Log-Normal fordeling • • Log-normal fordelingen benyttes når vi har en tilfældig variable, som er på den måde at hvis man tager ln til den giver det normal distribution: X ≈ LN (α , β 2 ) Tæthedsfunktion: f ( x) = 1 β ⋅ 2π ⋅ x −1 ⋅ e −(ln( x ) −α ) 2 / 2β 2 Middelværdi: µ = eα + β • Varians: σ 2 = e 2α / β (e β − 1) • En log-normal fordelt variabel X ≈ LN (α , β 2 ) , kan transformeres til en standard normal fordelt variabel Z ved: ln( X ) − α Z= • 2 /2 2 2 β • til at finde sandsynligheden (imellem a og b): - 10 - P(a < X < b) = ∫ 2 2 ln b − α ln a − α 1 − F e −( y −α ) / 2 β dy = F β β 2 ⋅π β ln b ln a ln a − α P( X < a ) = F β ln a − α P( X > a ) = 1 − F β Tabel 3 s.585 Uniform fordeling • X ≈ U (α , β ) • Tæthedsfunktionen: f (x) = • Fordelingsfunktionen: F ( x) = • • 1 β −α Middelværdi: Varians: µ= ∫ a b 1 a−b dx = β −α α −β α +β 2 σ = 121 ( β − α ) 2 2 Middelværdi og varians af en kontinuert stokastisk variabel (overordnet) • • Middelværdi: µ = ∫ x ⋅ f ( x)dx , hvor S er udfaldsrummet for X. Varians: σ = ∫ ( x − µ ) 2 ⋅ f ( x)dx , hvor S er udfaldsrummet for X. S 2 S Eksponentiel fordeling • Tæthedsfunktionen: f ( x) = • 1 β e −x / β Fordelingsfunktionen: F ( x) = x 1 0 β ∫ e − x / β dx = 1 − e − x / β P( X < x) = F ( x) = 1 − e − x / β • • • • P ( X > x) = 1 − F ( x) = 1 − (1 − e − x / β ) Eksponential fordeling er et special tilfælde af Gamma fordeling (α=1). Eksponential fordelingen anvendes f.eks. til at beskrive levetider og ventetider. Eksponential fordelingen anvendes f.eks. til at beskrive (vente)tiden mellem hændelser i poisson fordelingen. λ = β µ=β. Middelværdi: - 11 - • Varians: σ2 =β2. Regler for stokastisk variabel (eksempler side 186) Vi antager at a og b er konstanter og X er en stokastisk variabel: • E = middelværdi: E (aX + b) = aE ( X ) + b Var (aX + b) = a 2Var ( x) • Var = Varians: Følgende linear kombination gælder: • E (a1 X 1 + a 2 X 2 + ... + a n X n ) = a1 E ( X 1 ) + a 2 E ( X 2 ) + ... + a n E ( X n ) E( X 1 − X 2 ) = E( X 1 ) − E( X 2 ) E (aX 1 − bX 2 + c) = aE ( X 1 ) − bE ( X 2 ) + c • Var (a1 X 1 + a 2 X 2 + ... + a n X n ) = a12Var ( X 1 ) + a 22Var ( X 2 ) + ... + a n2Var ( X n ) Var ( X 1 − X 2 ) = Var ( X 1 ) + Var ( X 2 ) , læg mærke til at der ændres her til plus. Var (aX 1 − bX 2 + c) = a 2Var ( X 1 ) + b 2Var ( X 2 ) , læg mærke til at der ændres her til plus. Transformation Såfremt data afviger fra at være normalt fordelt, kan man ofte med fordel transformere data, således at de transformerede data kan antages at være normal fordelt. Afsnit 7.1-7.2, 6.1, 6.2 og 6.3 Stikprøvefordelinger Definition af population og tilfældig stikprøve • • Tilfældig stikprøve fra en endelig population: Observationerne X1, X2,…,Xn er en tilfældig stikprøve af størrelse n fra en endelig population af størrelse N, såfremt værdierne er valgt således, at enhver delmængde af størrelse n af de N elementer fra populationen har den samme sandsynlighed for at blive valgt. Tilfældig stikprøve fra en uendelig population: Et sæt observationer X1, X2,…,Xn er en tilfældig stikprøve af størrelsen n fra en uendelig population f(x) såfremt: 1. hvert Xi er en stokastisk variabel med tæthedsfunktionen f(x). 2. De n stokastiske variable er uafhængige. Stikprøvefordeling for middelværdien når variansen er kendt • • Uendelig population: Lad X være middelværdien af en stikprøve af størrelse n fra en fordeling med middelværdi µ og variansen σ2. Da er X en stokastisk variabel og følger en fordeling med middelværdi µ og variansen σ2/n. Endelig population: Lad X være middelværdien af en stikprøve af størrelse n fra en fordeling med middelværdi µ og variansen σ2. - 12 - Da er X en stokastisk variabel og følger en fordeling med middelværdi µ og variansen σ2 n ⋅ NN−−1n . Estimation Begreber • • Central estimator: En estimator θˆ er central (eller ikke-biased), hvis og kun hvis, middelværdien af stikprøvefordelingen for estimatoren er lig θ . Efficient estimator: En estimator θˆ1 er en mere efficient estimator af θ end estimatoren θˆ2 hvis: 1. θˆ og θˆ begge er centrale estimatorer af θ . 1 2 2. variansen af stikprøvefordelingen for θˆ1 er mindre end for θˆ2 . Den centrale grænseværdisætning Lad X være middelværdien af en stikprøve af størrelse n fra en fordeling med median (mean) µ og variansen σ2, da vil: X −µ Z= σ/ n 2 Følge en N(0,1 ) fordeling for n → ∞ . Maksimal fejl på et estimat hvor variansen er kendt For store værdier af n gælder: Z= X −µ σ/ n Den maksimale fejl, E, på et estimat med sandsynlighed E = zα / 2 ⋅ To eksempler for at finde σ n α 2 = (1−α ) 2 bliver: , hvor zα/2 findes i tabel 3. zα 2 : α = 0,95 α 2 = 1−02,95 = 0,025 z α 2 = z 0, 025 = 1,96 α = 0,99 α 2 = 1−02,99 = 0,005 z α 2 = z 0, 005 = 2,575 Værdierne 1,96 og 2,575 blev fundet i tabel 3 s.585-586 Hvis E er kendt kan stikprøvestørrelsen n findes ved: - 13 - zα ⋅ σ n = 2 E 1 z n = α /2 4 E n= 2 2 σ2 µˆ • Intervalestimation (konfidensinterval for middelværdi) hvor variansen er kendt − zα / 2 < X −µ < zα / 2 σ/ n Ved omskrivning får (1-α) konfidensintervallet: x − zα / 2 ⋅ σ n < µ < x + zα / 2 ⋅ x ± zα / 2 ⋅ σ n σ n Maksimal fejl på et estimat hvor variansen ikke er kendt For store værdier af n gælder: t= X −µ S/ n Den maksimale fejl, E, på et estimat med sandsynlighed s E = tα / 2 ⋅ n α 2 = (1−α ) 2 bliver: , hvor tα/2 = t(n-1)α/2 findes i tabel 4 (v = n − 1) og s er beregnet varians. • Intervalestimation (konfidensinterval for middelværdi) hvor variansen ikke er kendt og en stor stikprøve (n=>30) s x − zα / 2 ⋅ n s < µ < x + zα / 2 ⋅ n , σ blot erstattet med s. Konfidensinterval, tabel 3. x ± zα / 2 ⋅ s n z ikke skiftet ud med t, fordi i tabel 4 går n ikke højere end 30 så derfor gøre det ingen forskel. • Intervalestimation (konfidensinterval for middelværdi) hvor variansen ikke er kendt og en lille stikprøve (n<30) x − tα / 2 ⋅ s n < µ < x + tα / 2 ⋅ s n , z erstattet med t. Konfidensinterval, tabel 4 (v=n-1). - 14 - x ± tα / 2 ⋅ s n Afsnit 7.3, 7.4 og 7.5 Hypotesetest for et gennemsnit Formulering af nul-hypotesen og alternativ hypotesen Parameter µ betragtes. • • • Nul hypotese testes mod alternativ hypotese: H 0 : µ = µ0 H1 : µ ≠ µ0 Man vælger enten at acceptere H0 eller at forkaste H0. Tosidet alternativ: H 0 : µ = µ0 H1 : µ ≠ µ0 Ensidet alternativ, der bliver H1 enten: H1 : µ < µ0 eller H1 : µ > µ0 • • • I nulhypotesen anvendes så vidt som muligt lighedstegn. I alternativ hypotese placeres det udsagn som man gerne vil vise. Eksempelvis: en man stilles for en dommer, anklaget for noget kriminelt. Her bliver nul- og alternativ-hypotesen: H 0 : Manden er ikke skyldig H 1 : Manden er skyldig Trin ved hypotesetest 1. 2. 3. 4. Opstil hypoteser og vælg signifikansniveau α (vælg ”risiko-niveau”). Beregn teststørrelse. Beregn p-værdi vha. teststørrelse. Testets p-værdi måler datas afvigelser fra H0. Sammenligne p-værdi med signifikansniveau og drag en konklusion. Alternativt kan testet udføres ved at sammenligne teststørrelse med kritisk værdi. Beregning af teststørrelse, p-værdi og sammenligning, hvis σ er kendt • Hvis nul- og alternativ-hypotese er formuleret. Og signifikansniveau α er valgt. Så kan teststørrelsen beregnes ved: X − µ0 Z= σ • • n Der antages en normal fordeling og σ er kendt. P-værdien findes for teststørrelsen Z ved opslag i normal fordeling (tabel 3). Sammenligning med kritisk værdi zα (eller zα/2 i et tosidet test). Alternativ Afvis - 15 - hypotese µ < µ0 Nul-hypotese hvis Z < − zα µ > µ0 µ ≠ µ0 Z > zα Z < − zα / 2 eller Z > zα / 2 Beregning af teststørrelse, p-værdi og sammenligning, hvis σ er ikke kendt (n>30) • • • Hvis nul- og alternativ-hypotese er formuleret. Og signifikansniveau α er valgt. Så kan teststørrelsen beregnes ved: X − µ0 Z= s n Der antages en normal fordeling og σ er ikke kendt. P-værdien findes for teststørrelsen Z ved opslag i normal fordeling (tabel 3). Sammenligning med kritisk værdi zα (eller zα/2 i et tosidet test). Alternativ Afvis hypotese Nul-hypotese hvis µ < µ0 Z < − zα µ > µ0 µ ≠ µ0 Z > zα Z < − zα / 2 eller Z > zα / 2 Beregning af teststørrelse, p-værdi og sammenligning, hvis σ er ikke kendt (n<30) • • • Hvis nul- og alternativ-hypotese er formuleret. Og signifikansniveau α er valgt. Så kan teststørrelsen beregnes ved: X − µ0 t= s n Der antages en normal fordeling og σ ikke er kendt. P-værdien findes for teststørrelsen Z ved opslag i t-fordeling (tabel 4), v=n-1. Sammenligning med kritisk værdi tα (eller tα/2 i et tosidet test). Alternativ Afvis hypotese Nul-hypotese hvis µ < µ0 t < −t α µ > µ0 µ ≠ µ0 t > tα t < −tα / 2 eller t > tα / 2 • Hvordan kan sandsynligheden for fejl påvirkes: o Ved at ændre signifikansniveau α. o Ved at øge stikprøvestørrelse n. - 16 - Afsnit 7.6-7.9 Hypotesetest for to gennemsnit • Sammenligner gennemsnit (middelværdier) af 2 stikprøver. o Stikprøve 1: n1 , X 1 og s12 o Stikprøve 2: n 2 , X 2 og s 22 1. Formulering af hypoteser • Parameter µ1 , µ 2 betragtes. • • Nul hypotese testes mod alternativ hypotese: H 0 : µ1 − µ 2 = δ H 1 : µ1 − µ 2 ≠ δ Man vælger enten at acceptere H0 eller at forkaste H0. Tosidet alternativ: H 0 : µ1 − µ 2 = δ H 1 : µ1 − µ 2 ≠ δ • • Ensidet alternativ, der bliver H1 enten: H 1 : µ1 − µ 2 < δ eller H 1 : µ1 − µ 2 > δ Typisk er man interesseret i at teste med δ = 0 . 2. beregning af teststørrelse for kendte varianser σ 12 og σ 22 • Ved hypotese prøvning af 2 middelværdier (µ1 og µ2) for data, der antages normalfordelt og varianser σ 12 og σ 22 er kendte, fås teststørrelsen: Z= (X 1 − X 2 ) − δ σ 12 / n1 + σ 22 / n2 ,(tabel 3). Denne måler forskellen på to grupper og δ stort set altid nul. 3. sammenligning med kritisk værdi for kendte varianser σ 12 og σ 22 • Ved hypoteseprøvning af to middelværdier (µ1 og µ2) for data, der antages normalfordelt og varianser σ 12 og σ 22 er kendte, fås: Alternativ Afvis hypotese Nul-hypotese hvis µ1 − µ 2 < δ Z < − zα µ1 − µ 2 > δ µ1 − µ 2 ≠ δ Z > zα Z < − zα / 2 eller Z > zα / 2 (tabel 3). - 17 - 2. beregning af teststørrelse for ikke kendte varianser σ 12 og σ 22 • Ved hypotese prøvning af 2 middelværdier (µ1 og µ2) for data, der antages normalfordelt og varianser σ 12 og σ 22 ikke er kendte, fås teststørrelsen: Z= (X 1 − X 2) −δ s12 / n1 + s 22 / n2 ,(tabel 3). Denne måler forskellen på to grupper og δ stort set altid nul. 3. sammenligning med kritisk værdi for ikke kendte varianser σ 12 og σ 22 • Ved hypoteseprøvning af to middelværdier (µ1 og µ2) for data, der antages normalfordelt og varianser σ 12 og σ 22 ikke er kendte, fås: Alternativ Afvis hypotese Nul-hypotese hvis µ1 − µ 2 < δ Z < − zα µ1 − µ 2 > δ µ1 − µ 2 ≠ δ Z > zα Z < − zα / 2 eller Z > zα / 2 (tabel 3). 2. beregning af teststørrelse for ikke kendte varianser σ 12 og σ 22 , men σ 12 = σ 22 • Ved hypotese prøvning af 2 middelværdier (µ1 og µ2) for data, der antages normalfordelt og varianser σ 12 og σ 22 ikke er kendte, men med σ 12 = σ 22 , fås teststørrelsen: t= (X1 − X 2) −δ s p 1/ n1 + 1/ n2 Denne måler forskellen på to grupper og δ stort set altid nul. Hvor (n − 1) s12 + (n2 − 1) s 22 s 2p = 1 n1 + n 2 − 2 Og frihedsgrader: v = n1 + n2 − 2 (tabel 4). 3. sammenligning med kritisk værdi for ikke kendte varianser σ 12 og σ 22 , men σ 12 = σ 22 • Ved hypoteseprøvning af to middelværdier (µ1 og µ2) for data, der antages normalfordelt og varianser σ 12 og σ 22 ikke er kendte, men σ 12 = σ 22 , fås: Alternativ Afvis hypotese Nul-hypotese hvis µ1 − µ 2 < δ t < −t α µ1 − µ 2 > δ t > tα - 18 - µ1 − µ 2 ≠ δ t < −tα / 2 eller t > tα / 2 Og frihedsgrader: v = n1 + n2 − 2 (tabel 4). Beregning af konfidensinterval for forskel i middelværdi for store stikprøver • For store stikprøver beregnes et (1-α)% konfidensinterval ved: x1 − x 2 ± zα / 2 α 2 s12 s 22 + ,(tabel 3). n1 n 2 = (1−α ) 2 Kendes σ 12 og σ 22 anvendes disse i stedet for s12 og s 22 . Beregning af konfidensinterval for forskel i middelværdi for små stikprøver og ukendt σ 12 og σ 22 • For små stikprøver og ukendt σ 12 og σ 22 , men med σ 12 = σ 22 beregnes et (1-α)% konfidensinterval ved: x1 − x 2 ± tα / 2 (n1 − 1) s12 + (n 2 − 1) s 22 n1 + n2 − 2 Og frihedsgrader: v = n1 + n2 − 2 (tabel 4). α 2 = 1 1 + n1 n 2 (1−α ) 2 Afsnit 8.1-8.3, 6.4 Hypotesetest for en varians χ 2 -fordeling • • Variansen for en stokastisk variabel X estimeres ved: 1 n S2 = (X i − X )2 ∑ n − 1 i =1 Hvor n er antallet af observationer Xi er observationer nr. i, hvor i =1…n X estimat af middelværdien for X Store bogstaver => stokastiskvariabel. 2 Lad S være variansen af en stikprøve af størrelsen n fra en normalfordeling med varians σ2, da er: (n − 1)S 2 , Ki = χ χ2 = , v = n-1 (tabel 5, s. 588). 2 σ - 19 - P ( χ 2 ≥ χ α2 ) = α Konfidensinterval for en varians Et (1-α)% konfidensinterval for en varians σ2 fås ved: (n − 1) S 2 (n − 1) S 2 2 σ < < 2 2 χα / 2 χ1−α / 2 α 2 = (1−α ) 2 v = n-1 (tabel 5, s. 588). Hypotesetest af en varians 1. Formulering af hypoteser • • • Nul hypotese testes mod alternativ hypotese: H 0 : σ 2 = σ 02 H 1 : σ 2 ≠ σ 02 Man vælger enten at acceptere H0 eller at forkaste H0. Tosidet alternativ: H 0 : σ 2 = σ 02 H 1 : σ 2 ≠ σ 02 Ensidet alternativ, der bliver H1 enten: H 1 : σ 2 < σ 02 eller H 1 : σ 2 > σ 02 • Hvor σ 02 er værdien der testes for. 2. teststørrelse bliver • Lad S2 være variansen af en stikprøve af størrelsen n fra en normalfordeling med varians σ2, da er: (n − 1)S 2 , Ki = χ χ2 = , v = n-1 (tabel 5, s. 588). 2 σ0 P( χ 2 ≥ χ α2 ) = α 3. sammenligning med kritisk værdi Alternativ hypotese σ 2 < σ 02 Afvis Nul-hypotese hvis χ 2 < χ12−α σ 2 > σ 02 χ 2 > χ α2 σ 2 ≠ σ 02 χ 2 < χ12−α eller - 20 - χ 2 > χ α2 (tabel 5). Hypotesetest af 2 varianser • Sammenligner varianser af 2 stikprøver. o Stikprøve 1: n1 , X 1 og s12 o Stikprøve 2: n 2 , X 2 og s 22 F-fordeling • Lad S12 og S 22 være varianser af stikprøver af størrelserne n1 og n2 fra en normalfordeling med varians σ2, da er: S2 F = 12 , v1 = n1-1 og v2 = n2-1 (tabel 6a og 6b, s. 589-590). S2 P( F ≥ Fα ) = α Hypotesetest af 2 varianser 1. Formulering af hypoteser • • • Nul hypotese testes mod alternativ hypotese: H 0 : σ 12 = σ 22 H 1 : σ 12 ≠ σ 22 Man vælger enten at acceptere H0 eller at forkaste H0. Tosidet alternativ: H 0 : σ 12 = σ 22 H 1 : σ 12 ≠ σ 22 Ensidet alternativ, der bliver H1 enten: H 1 : σ 12 < σ 22 eller H 1 : σ 12 > σ 22 2. teststørrelse bliver F= S12 , v1 = n1-1 og v2 = n2-1 (tabel 6a og 6b, s. 589-590). S 22 P( F ≥ Fα ) = α 3. sammenligning med kritisk værdi Alternativ hypotese σ 12 < σ 22 Afvis Nul-hypotese hvis F > Fα (n 2 − 1, n1 − 1) σ 12 > σ 22 F > Fα (n1 − 1, n2 − 1) - 21 - F > Fα / 2 (n M − 1, nm − 1) σ 12 ≠ σ 22 (i sidste tilfælde gælder S M2 > S m2 ) (tabel 6a og 6b). Afsnit 9.1-9.5 Estimation af andele fås ved at observere antal gange x en hændelse har indtruffet uf af n forsøg: x p= n Konfidensinterval for en andel Såfremt der haves stor stikprøve, fås et (1-α)% konfidensinterval for p: x − zα / 2 ⋅ n x n (1 − nx ) x < p < + zα / 2 ⋅ n n α 2 = x n (1 − nx ) n (1−α ) 2 Konfidensinterval for to andele Såfremt der haves stor stikprøve, fås et (1-α)% konfidensinterval for p1-p2: x x p1 − p 2 = 1 − 2 ± zα / 2 ⋅ n1 n2 α 2 = x1 n1 x1 x 2 x 2 1 − 1 − n n2 n 1 + 2 n1 n2 (1−α ) 2 Maksimal fejl på estimat Den maksimale fejl, E, på et estimat med sandsynlighed E = zα / 2 ⋅ α = 2 (1−α ) 2 bliver: p(1 − p) , hvor zα/2 findes i tabel 3. n x p= n Bestemmelse af stikprøvestørrelse hvor p kendes Såfremt man højst vil tillade en maksimal fejl E med (1-α)% konfidens, bestemmes den nødvendige stikprøvestørrelse ved: z n = p(1 − p) ⋅ α / 2 E α 2 = (1−α ) 2 2 , hvor zα/2 findes i tabel 3. - 22 - Bestemmelse af stikprøvestørrelse hvor p ikke kendes Såfremt man højst vil tillade en maksimal fejl E med (1-α)% konfidens, og p ikke kendes, bestemmes den nødvendige stikprøvestørrelse ved: 2 1 z n = ⋅ α / 2 , p=1/2 4 E α 2 = (1−α ) 2 , hvor zα/2 findes i tabel 3. Hypotesetest af 1 andel 1. Formulering af hypoteser • • Nul hypotese testes mod alternativ hypotese: H 0 : p = p0 H 1 : p ≠ p0 Man vælger enten at acceptere H0 eller at forkaste H0. Tosidet alternativ: H 0 : p = p0 H 1 : p ≠ p0 • Ensidet alternativ, der bliver H1 enten: H 1 : p < p0 eller H 1 : p > p0 2. teststørrelse bliver • Såfremt stikprøvestørrelsen er tilstrækkelig stor fås teststørrelsen: X − n ⋅ p0 Z= n ⋅ p 0 (1 − p 0 ) 3. sammenligning med kritisk værdi Alternativ hypotese p < p0 Afvis Nul-hypotese hvis Z < − zα p > p0 Z > zα p ≠ p0 Z < − zα eller Z > zα (tabel 3). Hypotesetest af 2 andel 1. Formulering af hypoteser • Nul hypotese testes mod alternativ hypotese: - 23 - H 0 : p1 = p 2 • H 1 : p1 ≠ p 2 Man vælger enten at acceptere H0 eller at forkaste H0. Tosidet alternativ: H 0 : p1 = p 2 H 1 : p1 ≠ p 2 • Ensidet alternativ, der bliver H1 enten: H 1 : p1 < p 2 eller H 1 : p1 > p 2 2. teststørrelse bliver • Såfremt stikprøvestørrelsen er tilstrækkelig stor fås teststørrelsen: Z= X1 n1 − X2 n2 pˆ (1 − pˆ )( n11 + n12 ) Hvor pˆ = X1 + X 2 n1 + n2 3. sammenligning med kritisk værdi Alternativ hypotese p < p0 Afvis Nul-hypotese hvis Z < − zα p > p0 Z > zα p ≠ p0 Z < − zα eller Z > zα (tabel 3). Hypotesetest af flere andel 1. Formulering af hypoteser • I nogle tilfælde kan man være interesseret i at vurdere om to eller flere binomialfordelinger har samme parameter p, dvs. man er interesseret i at teste nul-hypotesen: H 0 : p1 = p 2 = ... = p k = p Mod alternativ hypotese at disse andele ikke er ens. - 24 - • Under nul-hypotesen får et estimat for p: x n Såfremt nul-hypotesen gælder, vil vi forvente at den j’te gruppe har e1j successer og e2j fiaskoer, hvor nj ⋅ x e1 j = n j ⋅ pˆ = n n j ⋅ ( n − x) e2 j = n j (1 − pˆ ) = n pˆ = • 2. teststørrelse bliver • Teststørrelsen bliver 2 k χ = ∑∑ 2 (o − eij ) 2 ij eij i =1 j =1 Hvor oij er observeret antal i celle (i,j) og eij er forventet antal i celle (i,j). Se tabel AAA længere nede for hvordan de beregnes. 3. sammenligning med kritisk værdi • Vi har teststørrelsen 2 k χ = ∑∑ 2 i =1 j =1 (o − eij ) 2 ij eij Hvor oij er observeret antal i celle (i,j) og eij er forventet antal i celle (i,j). Se tabel AAA længere nede for hvordan de beregnes • Teststørrelsen sammenlignes med χ α2 (k − 1) • Såfremt χ 2 > χ α2 (k − 1) forkastes nul-hypotesen. Analyse af antalstabeller 1. Formulering af hypoteser • Følgende to tabeller er eksempler på antalstabeller: o Opgaven kan lyde: Er stemmefordelingen ens for følgende tabel: - 25 - AAA tre eksempler på hvordan oij og eij beregnes for I alt 263 denne tabel (1) o11 = 79 210 127 I alt 200 200 200 600 e11 = 200 ⋅ 263 = 87,67 600 ( 2) o12 = 84 e12 = 200 ⋅ 210 = 70 600 (3) o23 = 43 e23 = 200 ⋅ 127 = 42,33 600 o Er der uafhængighed mellem inddelingskriterier: • Opstilling af nul-hypotesen: H 0 : pi1 = p i 2 = p i 3 2. teststørrelse bliver • I en antalstabel med r rækker og c søjler, fås teststørrelsen: r c χ = ∑∑ 2 (o ij − eij ) 2 eij i =1 j =1 Hvor oij er observeret antal i celle (i,j) og eij er forventet antal i celle (i,j). Se tabel AAA længere oppe for hvordan de beregnes. 3. sammenligning med kritisk værdi • Vi har teststørrelsen: r c χ = ∑∑ 2 i =1 j =1 • • (o ij − eij ) 2 eij Teststørrelsen sammenlignes med: χ α2 ((r − 1)(c − 1) ) tabel 5 side 588 Såfremt χ 2 > χ α2 ((r − 1)(c − 1) ) det sidste led er v. forkastes nul-hypotesen. - 26 - Goodness of fit (test for fordeling) Ofte vil man gerne teste om data (observationer) følger en specifik fordeling. Dette gøres ved at sammenligne observerede fraktiler med tilsvarende teoretiske fraktiler under forudsætning af en given fordeling. Herefter beregnes teststørrelsen ved r c χ = ∑∑ 2 i =1 j =1 (o ij − eij ) 2 eij Hvor oij er observeret antal i celle (i,j) og eij er forventet antal i celle (i,j). Se tabel AAA længere oppe for hvordan de beregnes. Teststørrelsen skal sammenlignes med kritisk værdi, der findes i χ α2 (k −1 − m ) , hvor k er antal inddelinger (celler i tabellen) og m er antal estimerede parametre. Afsnit 10.1-10.4 Sign test Kan bruges som alternativ for: • Hypotesetest for en middelværdi • Parret t-test Når ovenstående test ikke kan bruges pga. antagelse om normalfordeling. 1. Formulering af hypoteser Sign test kan bruges til at teste hypotese om median H 0 : µ~ = µ~D H : µ~ ≠ µ~ 1 D Hvor µ~D er den værdi vi ønsker at teste. 2. teststørrelse bliver Beregning af teststørrelse/p-værdi: • Antal af observationer større end medianen optælles, X + . • Testets p-værdi kan nu findes ved at beregne sandsynligheden for (ensidet test) P( X ≥ X + ) 3. sammenligning med kritisk værdi Såfremt p-værdi er mindre end signifikansniveau, forkastes H0. Rank-sum test Rank-sum test (også kaldet U-test eller Wilcoxon test eller Mann-Whitney test) kan bruges som alternativ til almindelig t-test for 2 uafhængige stikprøver, i tilfælde af at normalfordelingsantagelse ikke holder. 1. Formulering af hypoteser Rank-sum test kan altså bruges til at sammenligne medianen for 2 uafhængige stikprøver: - 27 - x1 , x 2 ,..., x n1 y1 , y 2 ,..., y n1 2. teststørrelse bliver Beregning af teststørrelse: data sorteres og rangeres (eng: ranks) i stigende rækkefælge. For hver af de to stikprøver summeres de tilhørende ranks, her benævnt W1 og W2, så der kan beregnes: n (n + 1) U 1 = W1 − 1 1 2 n (n + 1) U 2 = W2 − 2 2 2 Det gælder nu, at såfremt de to stikprøver kommer fra den samme fordeling, så haves: n ⋅n µU1 = 1 2 2 n ⋅ n (n + n + 1) σ U21 = 1 2 1 2 12 Når n1 og n2 er tilpas store (>8) kan vi nu anvende: U 1 − µ U1 Z= ≈ N (0,12 ) teststørrelse σU 1 3. sammenligning med kritisk værdi Hvis population 2 er større end population 1: Så afvises H0, hvis Z < -zα, da en lille værdi af U1 giver en lille værdi af W1. Hvis population 1 er større end population 2: Så afvises H0, hvis Z > zα, da en stor værdi af U1 giver en stor værdi af W1. Test for tilfældighed • • • I mange undersøgelser er det vigtigt at afgøre om en stikprøve er fremkommet tilfældigt. Hvis vi har en sekvens med n1 af den ene type og n2 af en anden type (og hverken n1eller n2 er mindre end 10), f.eks.: K K K P K K P P K P P K P K P… Det totale antal skift, u, approksimeres med en normalfordeling med: 2 ⋅ n1 ⋅ n2 µu = + 1 og n1 + n2 σu = • 2 ⋅ n1 ⋅ n2 (2 ⋅ n1 ⋅ n2 − n1 − n2 ) (n1 + n2 ) 2 ⋅ (n1 + n2 − 1) Vi kan nu beregne p-værdien ved: Z= u − µu σu idet Z ≈ N (0,12 ) - 28 - Afsnit 11.1, 11.2, 11.6 Regressionsanalyse • • Antag at Y er en stokastisk variabel. Vi er interesseret i at modellere Y’s afhængighed af en forklarende variabel x. Vi undersøger en lineær sammenhæng mellem Y og x, dvs. ved en regressionsmodel på formen: Y =α + β ⋅x+ε Korrelation • • • Korrelationskoefficienten r angiver den lineære sammenhæng mellem variablerne x og y. Korrelationskoefficienten mellem 2 variable x og y estimeres ved: 1 n xi − x y i − y r= ∑ n − 1 i =1 s x s y Det antages her, at observationerne (xi,yi) er sammenhørende værdier. Der gælder r ∈ [−1;1] . Simpel lineær regressionsmodel Y =α + β ⋅x+ε • • • • • • α + β ⋅ x er modellen ε er residual (tilfældige fejl, måle fejl eller afvigelse) Y afhængige variabel x uafhængige variabel α skæring med Y-aksen β hældning ε Mindste kvadraters metode • Antag at vi har observationerne: • • • Er det en sammenhæng mellem x og y? Vi foreslår en model på formen yˆ = a + b ⋅ x Hvordan estimeres a og b? - 29 - • a og b bestemmes ved: b= S xy S xx a = y −b⋅ x (− ∑ x ) 2 n S xx = ∑ ( xi − x ) eller S xx = ∑ x − 2 i 2 i =1 eller SS xx = s x2 ⋅ (n − 1) i n (− ∑ y ) 2 n S yy = ∑ ( y i − y ) eller S yy = ∑ y − 2 i 2 i =1 i n eller SS yy = s y2 ⋅ (n − 1) n S xy = ∑ ( xi − x )( y i − y ) eller S xy = ∑ xi y i − ∑x ⋅∑ y i i n a og b er nu de værdier, der giver den regressionslinie, der minimerer den kvadratiske afstand mellem punkter og linie. a er et estimat for α og b er et estimat for β. i =1 • • Interferens i regressionsmodel • vi antager at de observerede data (Yi,xi) kan beskrives ved modellen: Yi = α + β ⋅ xi + ε i Hvor det antages at ε i er uafhængige normalfordelte stokastiske variable med middelværdi 0 og konstant varians σ2. • Estimatet af σ2 bliver (varians af residualerne): S yy − ( S xy ) 2 / S xx 2 se = n−2 1. Formulering af hypotese om skæring med y-aksen • Antag at vi vil teste en hypotese om skæring med y-aksen: H0 : a = α H1 : a ≠ α 2. teststørrelse bliver t= n ⋅ S xx (a − α ) se S xx + n ⋅ ( x ) 2 3. sammenligning med kritisk værdi • Kritisk værdi findes i t-fordeling: tα / 2 (n − 2) tabel 4 1. Formulering af hypotese om hældningen β • Antag at vi vil teste en hypotese om hældningen β H0 : b = β H1 : b ≠ β - 30 - 2. teststørrelse bliver (b − β ) S xx se t= 3. sammenligning med kritisk værdi • Kritisk værdi findes i t-fordeling: tα / 2 (n − 2) tabel 4 Konfidensintervaller for α og β • Konfidensinterval for α: a ± tα / 2 ⋅ s e 1 (x) 2 + t i tabel 4, v = n-2 n S xx α / 2 α • 2 = (1−α ) 2 Konfidensinterval for β: 1 b ± tα / 2 ⋅ s e S xx α 2 tα / 2 i tabel 4, v = n-2 = (1−α ) 2 Konfidensintervaller for α+ β*x0 • Konfidensinterval for α+ β*x0 svarer til et konfidensinterval for modellen i punktet x0: 1 ( x0 − x ) 2 + tα / 2 i tabel 4, v = n-2 n S xx (a + b ⋅ x 0 ) ± tα / 2 ⋅ s e α 2 = (1−α ) 2 Prædiktionsinterval for α+ β*x0 • Prædiktionsinterval for α+ β*x0 svare til et prædiktionsinterval for modellen i punktet x0: (a + b ⋅ x 0 ) ± tα / 2 ⋅ s e 1 + 1 ( x0 − x ) 2 + tα / 2 i tabel 4, v = n-2 n S xx α • 2 = (1−α ) 2 Et prædiktionsinterval bliver altså større end et konfidensinterval for fastholdt α. Korrelation og regression • Korrelation og regression: r= S xx S yy b r2 = S xx 2 b , hvor S yy - 31 - (− ∑ x ) 2 n S xx = ∑ ( xi − x ) eller S xx = ∑ x − 2 i 2 i =1 eller SS xx = s x2 ⋅ (n − 1) i n (− ∑ y ) 2 n S yy = ∑ ( y i − y ) eller S yy = ∑ y − 2 i 2 i =1 n i n eller SS yy = s y2 ⋅ (n − 1) S xy = ∑ ( xi − x )( y i − y ) eller S xy = ∑ xi y i − i =1 • • ∑x ⋅∑ y i i n Korrelationen r udtrykker graden af lineær sammenhæng. Korrelationen kvadreret r2 udtrykker ”forklaringsgraden”: Syy= variation forklaret af linien + uforklaret variation: S xy2 S xy2 S yy = + S yy − S xx S xx Afsnit 12.1-12.3 Variansanalyse (forskel i middel) • • Er der forskel (i middel) på grupperne A, B og C? Variansanalyse (ANOVA) kan anvendes til analysen såfremt observationerne i hver gruppe kan antages at være normalfordelte. En-sidet variansanalyse • Vi betragter modellen: X ij = µ + α i + ε ij hvor det antages eij ≈ N (0, σ 2 ) • • µ er gennemsnit for alle målinger. αi angiver niveau af ”gruppe” i. 1. Formulering af hypotese • vi vil nu sammenligne (flere end to) middelværdier µ+αi i modellen: X ij = µ + α i + ε ij hvor det antages eij ≈ N (0, σ 2 ) Dvs. hypotesen kan opstilles: H 0 :αi = α j H1 : α i ≠ α j - 32 - 2. teststørrelse bliver • Variansanalysetabel • Den totale varians: • Test størrelsen F: SST = SS (Tr ) + SSE F= • SS (Tr ) /(k − 1) SSE /( N − k ) Måleusikkerheden (residual) varians: SSE N −k 2 = σ error • Behandlingsvarians: SS (Tr ) k −1 Hvor k er niveauer antal slags prøver fortaget over en faktor, og N er antal observationer. • Formler for kvadrat afvigelses sum: 2 = σ treatment k ni SST = ∑∑ y ij2 − C i =1 j =1 Ti 2 SS (Tr ) = ∑ − C , hvor i =1 ni k C= ni k T. 2 , Ti = ∑ y ij , T . = ∑ Ti N j =1 i =1 3. sammenligning med kritisk værdi • Teststørrelsen sammenlignes med en fraktil i F fordelingen: F ~ Fα (k − 1, N − k ) - 33 - Tosidet variansanalyse • Vi antager nu, at vi har modellen: X ij = µ + α i + β j + ε ij hvor det antages eij ~ N (0, σ 2 ) Dvs. vi har to inddelingskriterier, både α og β, hvor β også kan opfattes som en blok, hvorfor designet også kaldes et randomiseret blokforsøg. • Den totale varians: • Test størrelsen F: SST = SS (Tr ) + SS ( Bl ) + SSE SS (Tr ) /(a − 1) eller SSE /((a − 1)(b − 1)) SS ( Bl ) /(b − 1) F= SSE /((a − 1)(b − 1)) Måleusikkerheden (residual) varians: SSE 2 σ error = ((a − 1)(b − 1)) Behandlingens varians: SS (Tr ) 2 σ treatment = a −1 Blokkenes varians: SS ( Bl ) 2 = σ blocks b −1 Formler for kvadrat afvigelses sum: F= • • • • a b SST = ∑∑ y ij2 − C i =1 j =1 - 34 - a SS (Tr ) = ∑T i =1 b 2 i. −C b ∑T SS ( Bl ) = • Kritisk værdi for blokke: • Kritisk værdi for behandling: j =1 a 2 .j T..2 − C , hvor C = ab Fα (b − 1, (a − 1)(b − 1)) Fα (a − 1, (a − 1)(b − 1)) Definition på parat t-test Hvis man måler blodtryk på 10 personer og måler højden på de samme 10 personer er det et parat ttest man ser på for at sammenligne. - 35 -
© Copyright 2024