Innehåll Fö4 TAMS65 - Föreläsning 4 Konfidensintervall fortsättning I Repetition I Konfidensintervall för parvisa mätningar I Konfidensintervall - två stickprov Martin Singull MAI - LiU Iµ1 −µ2 då σ1 och σ2 kända Iσ eller Iσ2 då σ1 = σ2 = σ Iµ1 −µ2 då σ1 = σ2 okända I I I I F -fördelning Iσ2 /σ1 I Linköping 16 april, 2015 1 / 44 Repetition Repetition x1 , . . . , xn är observationer av oberoende s.v. X1 , . . . , Xn som har en sannolikhetsfunktion eller täthetsfunktion som innehåller en okänd parameter θ. xi Xi θ̂ = = = Konfidensintervallet beskriver de θ-värden som är möjliga med b varierar. När hänsyn till våra mätvärden och med hänsyn till hur Θ b vi härleder ett konfidensintervall arbetar vi med variationerna i Θ via en s.k. hjälpvariabel. mätvärde (observation, d.v.s. ett verkligt värde), stokastisk variabel som beskriver hur mätvärdet kan variera, approximativt värde på θ beräknat med hjälp av x1 , . . . , xn . Konfidensgraden bL < θ < Θ bU 1−α=P Θ = Iθ = = P (a1 (X1 , . . . , Xn ) < θ < a2 (X1 , . . . , Xn )) I viss mening är θ̂ det värde på θ som passar bäst till våra mätvärden. b Θ 2 / 44 anger säkerheten hos konfidensintervallet. stokastisk variabel som beskriver möjliga θ̂-värden för nya mätvärden. (a1 (x1 , . . . , xn ), a2 (x1 , . . . , xn )) (konfidensintervall för θ) 3 / 44 4 / 44 Konstruktion av konfidensintervall Konfidensintervall för µ 1. Bestäm θ̂, dvs. en lämplig punktskattning. Om x1 , . . . .xn är observationer från N(µ, σ), så får vi ett konfidensintervall för µ genom att ”stänga in” hjälpvariabeln b och konstruera 2. Ta fram fördelningen för motsvarande s.v. Θ med hjälp av den en hjälpvariabel som innehåller θ, men inga andra okända parametrar och som har en ”känd” fördelning. 3. Stäng in hjälpvariablerna i ett intervall med sannolikhetsmassa 1 − α. 4. Skriv om intervallet i 3. till ett villkor på θ P(a1 (X1 , . . . , Xn ) < θ < a2 (X1 , . . . , Xn )) = 1 − α. 5. Sätt in observationerna d.v.s. beräkna X̄ − µ √ ∼ N(0, 1) σ/ n (fallet σ känd), X̄ − µ √ ∼ t(n − 1) S/ n (fallet σ okänd). Se formelsamling. Iθ = (a1 (x1 , . . . , xn ), a2 (x1 , . . . , xn )). 5 / 44 Exempel 6 / 44 Exempel forts. Tre fall för instängning av hjälpvariabeln: Ger t(n-1) α/2 -a α/2 a Tvåsidigt t(n-1) α t(n-1) -b Ensidigt α b s Iµ = −∞, x̄ + b · √ n med konfidensgrad 1 − α och detta är ett uppåt begränsat konfidensintervall. Notera att vi stängde nedåt för hjälpvariabeln. Ensidigt Exempel (uppåt begränsat) X̄ − µ S √ > −b = 1 − α ⇐⇒ P µ < X̄ + b · √ P =1−α S/ n n Kontroll: Om din punktskattning (här x̄) inte kommer med i intervallet så har du gjort fel. där b ges i t(n − 1)-tabell, F (b) = 1 − α. 7 / 44 8 / 44 Konfidensintervall för σ eller σ 2 Exempel - Parvisa mätningar ”To study the effect of cigarette smoking on platelet aggre- gation, Levine (1973) drew blood samples from 11 individuals before and after they smoked a cigarette and measured the extent to which the blood platelets aggregated. Platelets are involved in the formation of blood clots, and it is known that smokers suffer more often from disorders involving blood clots than do nonsmokers. The data are shown in the following table, which gives the maximum percentage of all the platelets that aggregated after being exposed to a stimulus. När vi konstruerar konfidensintervall för σ eller σ 2 använder vi följande hjälpvariabler (n − 1)S 2 ∼ χ2 (n − 1) (µ okänt), σ2 n 1 X (Xi − µ)2 ∼ χ2 (n) (µ känt). 2 σ i=1 Before After Difference Se formelsamling. xi yi di 25 27 2 25 29 4 27 37 10 44 56 12 30 46 16 67 82 15 53 57 4 53 80 27 52 61 9 60 59 -1 28 43 15 10 / 44 9 / 44 Exempel forts. Exempel forts. The experiment was actually more complex than we have indicated. Some subjects also smoked cigarettes made of lettuce leaves and ”smoked” unlit cigarettes. (You should reflect on why these additional experiments were done.)” Modell Vi har de s.v. Yi ∼ N(µi + ∆, σ1 ) och Xi ∼ N(µi , σ2 ). Låt Di = Yi − Xi = ∆ + εi ∼ N(∆, σ), där ∆ är den systematiska förändringen i graden av hopklumpning och εi beskriver de individuella variationerna i förändringen av graden av hopklumpning. Vi har stora individuella variationer i graden av hopklumpning. Värdena för en och samma individ liknar varandra mer än värdena för olika individer. Det intressanta är förändringen för varje individ så vi bildar differenserna De observerade värdena di är nu observationer från de s.v. Di . Bortsett från beteckningarna är vi tillbaka i fallet med ett stickprov från normalfördelning. di = yi − xi . 11 / 44 12 / 44 Exempel forts. Exempel forts. 13 / 44 Exempel forts. 14 / 44 Exempel forts. Vilket ger %% Exempel 1 -- FÖ5 clear;close all;clc; d = x = [25 25 27 44 30 67 53 53 52 60 28]; y = [27 29 37 56 46 82 57 80 61 59 43]; CI = 2 4 10 4.9143 12 16 15 4 27 9 -1 15 15.6311 stat = tstat: 4.2716 df: 10 sd: 7.9761 d = y-x [H P CI stat] = ttest(d); CI stat s = 7.9761 s = stat.sd s2 = 63.6182 s2 = s^2 %% Färdig rutin i Matlab [H P CI stat] = ttest(y,x); 15 / 44 16 / 44 Kommentar Två stickprov från normalfördelning Typiska fall med parvisa skillnader är Antag att vi har oberoende observationer a) att man mätt på samma enhet före och efter behandling/ åtgärd; x1 , . . . , xn1 från N(µ1 , σ1 ), b) att man mätt med två olika metoder inom par med likvärdiga enheter. y1 , . . . , yn2 från N(µ2 , σ2 ) och de båda stickproven är helt frikopplade från varandra, d.v.s. oberoende. Om du har två lika långa mätserier och vill undersöka om det finns ”systematisk skillnad” mellan dem, så tänk efter: Vanlig frågeställning är: Är µ1 och µ2 lika, µ1 = µ2 , eller skiljer de sig åt, µ1 6= µ2 ? 1. Hänger mätningarna ihop parvis? Om svaret är ja, bilda differenser, se exempel ovan. Genom att arbeta med differenserna minskar man variansen för den skattningsvariabel som beskriver den systematiska skillnaden. För att undersöka det kan man konstruerar ett konfidensintervall för µ1 − µ2 . 2. Är detta två mätserier som är helt frikopplade från varandra (d.v.s. oberoende)? Om svaret är ja, så bilda Iµ1 −µ2 . 17 / 44 Iµ1 −µ2 med σ1 och σ2 kända μ1 18 / 44 Iµ1 −µ2 med σ1 och σ2 kända Parametrarna för normalfördelningen blir E X̄ − Ȳ = E X̄ − E Ȳ = µ1 − µ2 , σ2 σ2 var X̄ − Ȳ = var X̄ + (−1)2 var Ȳ = 1 + 2 . n1 n2 s 2 2 σ1 σ Vi har den s.v. X̄ − Ȳ ∼ N µ1 − µ2 , + 2 n1 n2 μ2 Här är µ1 och µ2 olika och σ1 och σ2 också olika. och följande hjälpvariabel 1) Standardavvikelserna σ1 och σ2 är kända. Vi söker Iµ1 −µ2 . 1) Punktskattning: µ̂1 − µ̂2 = x̄ − ȳ Den s.v. X̄ − Ȳ är normalfördelad eftersom den är en linjärkombination av oberoende normalvariabler. 19 / 44 X̄ − Ȳ − (µ1 − µ2 ) s ∼ N(0, 1). 2 2 σ1 σ + 2 n1 n2 20 / 44 2a) Vi vet att σ1 = σ2 men okända n 2) Två stickprov från normalfördelningar där σ1 = σ2 = σ och där standardavvikelsen σ är okänd. s12 1 1 X = (xi − x̄)2 , n1 − 1 i=1 s22 = Vi söker a) Iσ eller Iσ2 och 1 n2 − 1 n2 X (yi − ȳ )2 i=1 som båda ger approximativa värden på σ 2 . Man kan visa att den sammanvägda σ 2 -skattningen (pooled estimate of σ 2 ) b) Iµ1 −µ2 eller c) Ic1 µ1 +c2 µ2 . Täthetsfunktionerna är förskjutna i förhållande till varandra, men de har samma form. μ1 s2 = (n1 − 1)s12 + (n2 − 1)s22 (n1 − 1) + (n2 − 1) (F-S) är det bästa sättet att kombinera dem. (s kallas ”pooled standard deviation”.) Se även ML-skattning i Fö2. μ2 21 / 44 22 / 44 Iµ1 −µ2 med σ1 = σ2 okända Den s.v. (n1 + n2 − 2)S 2 (n1 − 1)S12 (n2 − 1)S22 = + σ2 σ2 σ2 2b) Vi söker Iµ1 −µ2 . (n −1)S 2 Vi har µ̂1 − µ̂2 = x̄ − ȳ som förut. Motsvarande s.v. är r 1 1 X̄ − Ȳ ∼ N µ1 − µ2 , σ + n1 n2 där i σ2 i ∼ χ2 (ni − 1), och då ger additionssatsen för oberoende χ2 -variabler (se Fö3) att 2a) och vi har att (n1 + n2 − σ2 2)S 2 ∼ χ2 (n1 + n2 − 2) X̄ − Ȳ − (µ1 − µ2 ) r ∼ N(0, 1) 1 1 σ + n1 n2 (F-S) men den duger inte som hjälpvariabel för konstruktion av Iµ1 −µ2 eftersom σ är okänd. och den fungerar som hjälpvariabel vid konstruktion av Iσ och Iσ2 . 23 / 44 24 / 44 Vi ska använda följande hjälpvariabel istället Ic1 µ1 +c2 µ2 med σ1 = σ2 okända 2b) Resultatet kan generaliseras till godtyckliga linjärkombinationer av väntevärden. X̄ − Ȳ − (µ1 − µ2 ) r ∼ t(n1 + n2 − 2) 1 1 S + n1 n2 (F-S) Den s.v. c1 X̄ + c2 Ȳ ∼ N c1 µ1 + c2 µ2 , σ s c12 n1 + c22 n2 , ger 2c) fungerar som hjälpvariabel vid konstruktion av Iµ1 −µ2 , då σ1 = σ2 = σ och σ är okänd. c1 X̄ + c2 Ȳ − (c1 µ1 + c2 µ2 ) s ∼ t(n1 + n2 − 2) 2 2 c1 c S + 2 n1 n2 OBS: Frihetsgraderna n1 + n2 − 2 kommer från att som hjälpvariabel för konstruktion av Ic1 µ1 +c2 µ2 . (n1 + n2 − 2)S 2 ∼ χ2 (n1 + n2 − 2). σ2 26 / 44 25 / 44 σ1 6= σ2 Normalapproximation Om n1 och n2 är stora (> ca. 30) så ger centrala gränsvärdessatsen att X̄ och Ȳ är approximativt normalfördelade, vilket i sin tur ger att hjälpvariabeln ovan är appr. N(0, 1) och kan användas för konstruktion av Iµ1 −µ2 även om Xi och Yi inte är normalfördelade. 3) σ1 6= σ2 och båda okända. Vid konfidensintervall för µ1 − µ2 , kan vi använd Welch-Aspins metod X̄ − Ȳ − (µ1 − µ2 ) s är approx t(ν), 2 2 S S1 + 2 n1 n2 där ν ges av 2 s12 s22 + n1 n2 ν= 2 . (s1 /n1 )2 (s22 /n2 )2 + n1 − 1 n2 − 1 27 / 44 28 / 44 Exempel - Användning av centrala gränsvärdessatsen Exempel forts. De flesta kunder blir irriterade om de behöver stå i kö länge för att betala de varor de köpt på en stormarknad. En effektiv hantering i kassorna kan minska betjäningstiden och därmed kötiden, om beman- ningen av kassorna får vara oförändrad. Inom en viss kedja av stormarknader med samma bemanningspolitik har man på stormarknad A en traditionell utformning av kassor och betalningssystem medan man på stormarknad B har en ny förhoppningsvis effektivare utformning av kassorna. Man har mätt 100 oberoende betjäningstider för var och en av de två stormarknaderna och fått de genomsnittliga betjäningstiderna x̄ = 3.65 minuter för A och ȳ = 2.40 minuter för B. Kan man med någon säkerhet påstå att den nya utformningen av kassorna är bättre? Motivera ditt svar med ett lämpligt konfidensintervall med approximativ konfidensgrad 95%. Du får anta att betjäningstiderna är oberoende och exponentialfördelade med väntevärden µ1 respektive µ2 . 30 / 44 29 / 44 Anm. Exempel - Effektivare rutiner Ett företag vill skapa effektivare rutiner för sina transporter och har därför provat tre olika sätt att organisera dem. För varje metod har provtransporter genomförts och den totala transporttiden (enhet h) inklusive lastning och lossning har bestämts: Anm.1. Metoderna för två stickprov kan generaliseras till flera stickprov, se exempel nedan. Metod A: B: C: Anm.2. Om man har två (eller flera stickprov) från normalfördelningar med samma σ, så använder man den sammanvägda σ 2 -skattningen för samtliga stickprov även om man t.ex. bara skall konstruera Iµ1 . Uppmätta 8.2 7.1 7.9 8.1 7.1 7.4 tider 7.8 8.9 8.3 8.5 6.9 6.8 8.8 7.6 8.5 x̄i 8.16 8.15 7.05 si 0.7436 0.3564 0.2646 Antag tre oberoende stickprov från N(µi , σ), i = 1, ..., 3. Vad kan vi säga om metod tre, vilken total tid förväntar vi oss? Är någon metod bättre än de andra? Motivera ditt svar med hjälp av lämpliga konfidensintervall vart och ett med konfidensgraden 0.98. 31 / 44 32 / 44 Exempel, forts. Exempel, forts. 33 / 44 Exempel, forts. 34 / 44 Exempel, forts. x = [8.2 7.1 7.8 8.9 8.8]’; y = [7.9 8.1 8.3 8.5 7.6 8.5]’; z = [7.1 7.4 6.9 6.8]’; t = tinv(1-alpha/2,df) CI = [mx - my - t*s*sqrt(1/n1 + 1/n2) , ... mx - my + t*s*sqrt(1/n1 + 1/n2); mx - mz - t*s*sqrt(1/n1 + 1/n3) , ... mz - mz + t*s*sqrt(1/n1 + 1/n3); my - mz- t*s*sqrt(1/n2 + 1/n3) , ... my - mz + t*s*sqrt(1/n2 + 1/n3)] alpha = 0.02; n1 = length(x); n2 = length(y); n3 = length(z); Vilket ger %% Exempel 2 -- FÖ5 clear;close all;clc; mx = mean(x); my = mean(y); mz = mean(z); s2 = 0.2548 t = 2.6810 CI = -0.8094 0.2023 0.2265 df = n1 + n2 + n3 - 3; s2 = ((n1-1)*var(x) + (n2-1)*var(y) + (n3-1)*var(z))/df s = sqrt(s2); 35 / 44 0.8294 0.9077 1.9735 36 / 44 Exempel, forts. F -fördelningen OBS. Följande rutin använder inte rätt skattning av variansen. Vid jämförelser av varianser kommer vi att behöva F -fördelningen. Vi kommer även använda F -fördelning i samband med vissa test i variansanalys (regressionsanalysen). [H P CI stats] = ttest2(x,y,’alpha’,0.02) CI = -0.9509 0.9709 Man kan använda anova1 istället. Sats X = [x;y;z]; group = [ones(n1,1);2*ones(n2,1);3*ones(n3,1)]; [p, anovatab, stats] = anova1(X,group,’off’); c = multcompare(stats,’ctype’,’bonferroni’,’alpha’,0.06) Om Y1 och Y2 är oberoende, Y1 ∼ χ2 (r1 ) och Y2 ∼ χ2 (r2 ), så gäller att Y1 /r1 V = ∼ F (r1 , r2 ) Y2 /r2 stats = tstat: 0.0294 df: 9 sd: 0.5624 c = dvs. V är F -fördelad med r1 och r2 frihetsgrader. 1.0000 2.0000 -0.8094 0.0100 0.8294 1.0000 3.0000 0.2023 1.1100 2.0177 2.0000 3.0000 0.2265 1.1000 1.9735 Anm. Vi ser att 1 ∼ F (r2 , r1 ). V 38 / 44 37 / 44 Fyra F -fördelningar F -fördelningen Anm. Om man tar den stokastiska variabeln i Gossets sats i kvadrat så får man X2 ∼ F (1, f ) . Y /f Kvadraten på en t(f )-variabel är alltså en stokastisk variabel som är F (1, f ). 39 / 44 40 / 44 Exempel forts. 3b) Vid jämförelse av varianser antar vi att σ12 och σ22 är okända och inte nödvändigtvis lika. Vi har då variansskattningarna s12 och s22 (se ovan) med de s.v. Skiljer sig variansen sig åt för de olika metoderna. Beräkna lämpliga konfidensintervall vart och ett med konfidensgraden 0.98. Det räcker att du skriver ut ett intervall. (n1 − 1)S12 ∼ χ2 (n1 − 1), σ12 (n2 − 1)S22 ∼ χ2 (n2 − 1). 2 σ2 Som hjälpvariabel för konstruktion av Iσ2 /σ1 kan vi då ta S12 /σ12 ∼ F (n1 − 1, n2 − 1) (F-S). S22 /σ22 41 / 44 Exempel forts. 42 / 44 Exempel forts. %% Färdig rutin i Matlab [H P CI stats] = vartest2(z,x,’alpha’,0.02) CI = sqrt(CI) Vilket ger stats = fstat: 0.1266 df1: 3 df2: 4 CI = 0.0871 1.9063 43 / 44 44 / 44
© Copyright 2024