TAMS65 - Mål TAMS65 - Föreläsning 1 Kursens övergripande mål är att ge grundläggande kunskaper i statistiska metoder, d.v.s. att utgående från observerade data dra slutsatser om fenomen som påverkas av slumpen. Efter fullgjord kurs förväntas den studerande kunna: (www.mai.liu.se/∼maohl/kurser/TAMS65/) Introduktion till Statistisk Teori och Repetition av Sannolikhetslära I Utnyttja en lämplig slumpmodell för att beskriva och analysera observerade data och dra slutsatser om intressanta parametrar. I Härleda punktskattningar av parametrar och analysera deras egenskaper. I Förstå principerna för att dra slutsatser via konfidensintervall och hypotesprövning. Konstruera konfidensintervall och genomföra hypotesprövning för observerade data, redovisa slutsatserna samt bedöma säkerheten. I Analysera samband mellan variabler med hjälp av enkel eller multipel linjär regression och bedöma den använda modellens relevans. I Tillämpa slumpmodeller och statistiska metoder i samband med frågeställningar inom ekonomi, teknik och naturvetenskap och kritiskt granska resultaten. Martin Singull MAI - LiU Linköping 23 mars, 2015 Innehåll Fö1 Inledning - Matematisk Statistik I dagens tillämpningar skapas det ofta stora datamängder. Det är därför viktigt att I Matematisk statistik I Beskrivande statistik I I Statistisk teori I I Repetition av sannolikhetslära I Observation och stokastisk variabel I Punktskattning, inledning I Egenskaper I I I I I I Väntevärdesriktig Effektiv Konsistent Momentmetoden kritiskt kunna granska informationen, kunna bearbeta och presentera datan, kunna beskriva variation, kunna formulera slumpmodeller som passar med datan. Sannolikhetsmodeller och statistiska metoder hjälper oss med allt detta! Då man observerar mätdata ser man ofta variationer i mätvärdena även om man i princip har mätt samma sak. Med hjälp av en sannolikhetsmodell kan man beskriva variationerna och med hjälp av statistiska metoder kan man dra slutsatser som till exempel variationernas storlek. Matematisk Statistik I Beskrivande statistik - presentera och sammanfatta data på ett överskådligt sätt. I Sannolikhetslära - konstruera modeller som beskriver hur vanliga olika händelser är och som förklarar variationen i mätdata. (TAMS79) I I Statistisk inferensteori - (inferens = slutledning) dra slutsatser, med någon viss säkerhet, utgående från mätvärden om intressanta parametrar. (TAMS65) Statistisk försöksplanering - Planera, utföra och analysera statistiska försök. (TAMS38) Exempel - Normal Låt oss simulera 200 observationer från en N(0, 1)-fördelning med hjälp av MATLAB. n=200; x = normrnd(0,1,n,1); hist(x,20) figure; histfit(x,20) Vilket ger följande histogram. Beskrivande statistik Beskrivande statistik handlar om att åskådliggöra och sammanfatta data. Ett sätt är med hjälp av histogram. Observerade värden av kontinuerliga stokastiska variabler åskådliggör man ofta med hjälp av histogram. Antag att vi har n observerade värden x1 , . . . , xn . Dela in tallinjen i små intervall (klasser) som täcker in hela datamaterialet. För varje delintervall räknar man antalet värden i intervallet: fi . Man beräknar sedan den relativa frekvenen: pi = fi /n. Om man sedan låter histogrampelarens höjd vara pi /h så får histogrammet arean 1 och är direkt jämförbart med en täthetsfunktion. Exempel - Normal Exempel - Normal Exempel - Exponential Simulera 200 observationer från en exponentialfördelning med väntevärde 5 d.v.s. Exp(5). n=200; y = exprnd(5,n,1); hist(y,20) [f g] = ecdf(y); figure; ecdfhist(f,g,20) hold on xx = 0:.1:max(y); yy = exp(-xx/5)/5; plot(xx,yy,’r-’,’LineWidth’,2) hold off Exempel - Exponential Exempel - Exponential Lägesmått I Spridningsmått Antag att vi har n observerade mätvärden x1 , . . . , xn . Det finns olika lägesmått för en datamängd. Det vanligaste är det aritmetiska medelvärdet, eller stickprovsstandardavvikelsen v u n u 1 X t (xi − x̄)2 . s= n−1 i=1 Ett annat lägesmått är medianen, x(n+1)/2 , x̃ = 1 2 (x(n)/2 + x(n)/2+1 ), om n är udda, om n är jämn, där x(1) ≤ · · · ≤ x(n) är datamängden ordnad i storleksordning. I Ett tredje lägesmått är typvärdet (eng. mode) som är det vanligaste värdet i datamatrialet. Exempel - Beskrivande Statistik Ex. Låt si , i = 1, . . . , 254 vara slutkursen för Ericsson B från 2011-01-10 till 2012-01-09. Vidare låt xi = ln n 1 X (xi − x̄)2 , s = n−1 2 i=1 n 1X xi . x̄ = n I Som spridningsmått används ofta stickprovsvariansen si+1 . si Vi vill nu analysera detta med hjälp av MATLAB. kurs = [76.00 76.50 77.25 ... 68.65 68.00 67.55]’; x = log(kurs(2:end)./kurs(1:end-1)); i=1 Om våra observerade värden xi är någorlunda lika så blir xi − x̄ alla små och vi får en liten spridning. Att vi delar med n − 1 istället för n kommer vi diskutera senare då vi tar upp egenskaper hos dessa skattningar. Exempel - Beskrivande Statistik Exempel - Beskrivande Statistik Exempel - Beskrivande Statistik Datamaterialet kan åskådliggöras med MATLAB på olika sätt, så att man får bättre överblick. [muhat, s] = normfit(x) figure;boxplot(x) figure;histfit(x,50) figure;normplot(x) muhat = -4.6587e-04 s = 0.0226 Exempel - Box-plot I Box-plot diagrammet syns största och minsta värdet, medianen samt undre och övre kvartilen. + är outlier, alltså värden som verkar avvika från de övriga. Exempel - Histogram Histogrammet visar ungefärlig form för täthetsfunktionen. Exempel - Normalfördelningsplot Exempel, forts. Både histogrammet och normalfördelningsplotten antyder i det här fallet att det är rimligt att anta normalfördelning. Man brukar säga av avkastningen för en aktie är log-normalfördelad, det vill säga att logaritmen av avkastningen är normalfördelad Xi = ln Si+1 ∼ N(µ, σ), Si för några parametrar µ och σ (eller σ 2 ). I normalfördelningsplotten ska punkterna ligga ungefär på en rät linje om mätvärdena är observationer av normalfördelade stokastiska variabler. S-form pga. att fördelningen är lite för spetsig. Exempel, forts. I kursboken används notationen X ∼ N(µ, σ) i andra böcker kan man se X ∼ N(µ, σ 2 ). Exempel, forts. Vi kan också bilda något som vi kallar konfidensintervall för µ och σ. För att uppskatta µ och σ (på dagsbasis) kan vi använda µ̂ = x̄ = −4.6587 · 10−04 och σ̂ = s = 0.0226 (s kallas för volatiliteten). [muhat, s, mu_CI, sigma_CI] = normfit(u) Man kan också visa att mu_CI = √ ln ST ∼ N ln S0 + µT , σ T sigma_CI = -0.0033 0.0023 och att 1 E(ST ) = S0 e µ+ 2 σ 2T , 1 var(ST ) = S02 e 2(µ+ 2 σ 2 )T eσ 2T 0.0208 0.0248 −1 , Alltså, vi har vilka vi kan uppskatta då vi har uppskattningar på µ och σ. √ Volatiliteten på årsbasis ges av σ 252 vilken skattas med √ s 252 = 0.359 = 35.9%. Iµ0.95 = (−0.0033, 0.0023) och Iσ0.95 = (0.0208, 0.0248). Ett konfidensintervall Iθ1−α är ett intervall som med sannolikheten 1 − α täcker över den verkliga parametern θ. Statistisk Inferens - Huvudproblem Statistik Inferens För att beskriva variationerna används stokastiska variabler (s.v.) som bygger upp slumpmodeller. Ex. Ett mätresultat kan vara U ∼ N(µ, σ) eller V ∼ Np (µ, Σ). Ex. Vid en undersökning blir antalet som säger att de är positiva till att ha valutan Euro, en s.v. Y som är approximativt binomialfördelad, det vill säga Y ∼ Bin(n, p). Statistisk teori handlar om att med observerade mätvärden I göra punktskattningar, d.v.s. ta fram approximativa värden på parametrarna i slumpmodellen, I konstruera konfidensintervall som beskriver vilka parametervärden som är tänkbara med hänsyn till de observerade värdena (dess variationer), I pröva hypoteser angående parametrarna i slumpmodellen, tex. H0 : µ = 0 mot H1 : µ > 0 eller om vi vill testa H0 : p = 0.5 mot H1 : p > 0.5. I båda våra exempel ovan innehåller slumpmodellerna parametrar µ, σ, µ, Σ och p. Repetition av sannolikhetsläran Några resultat från sannolikhetsläran kommer vi att använda ofta. Det är t.ex. viktigt att kunna göra beräkningar av väntevärde och varians. Sats Variansen för den s.v. X är definierad som var(X ) = E((X − µ)2 ), Sats där µ = E(X ) och kan beräknas enligt Om Y = g (X ), så gäller att P k g (k)pX (k) E(Y ) = R∞ −∞ g (x)fX (x)dx var(X ) = E(X 2 ) − (E(X ))2 . diskret s.v. kont. s.v. Bevis Utveckla kvadraten. Exempel Den s.v. X har täthetsfunktion 2x f (x) = 0 Sats för 0 ≤ x ≤ 1 annars. Om X1 , ..., Xn är s.v. och c1 , ..., cn är konstanter, så gäller att ! n n X X E ci Xi = ci E (Xi ) Beräkna var(X ) och E(e X ). Vi har att h R1 2 2 E(X ) = 0 x · 2xdx = 2 · E(X ) = R1 0 h x · 2xdx = 2 · i1 x4 4 0 i1 x3 3 0 i=1 = 1 2 och och om X1 , ..., Xn är oberoende, så gäller också att ! n n X X var ci Xi = ci2 var (Xi ) = 23 , i=1 vilket ger var(X ) = E(X 2 ) − (E(X ))2 = 1 2 − 4 9 = R1 0 i=1 1 18 . Vidare gäller att E(e X ) = i=1 1 R e x 2xdx = 2e x x − 2 e x dx 0 = ... = 2 Normalfördelning Satsen ovan är mycket viktig och vi kommer använda den många gånger framöver! Exempel Låt den s.v. vara X ∼ N(5, 0.8). En s.v. X ∼ N(µ, σ) om (x−µ)2 1 fX (x) = √ e − 2σ2 σ 2π Denna täthetsfunktion ger besvärliga integraler. Speciellt om Z ∼ N(0, 1) så har vi fördelningsfunktionen Z z 1 2 √ e −t /2 dt = Φ(z) P(Z ≤ z) = 2π −∞ som finns i tabell för z ≥ 0. Sats Om Y = X −µ σ , där X ∼ N(µ, σ) så gäller att Y ∼ N(0, 1). I Beräkna P(3.5 < X < 6) och c så att P(X > c) = 0.9. Sats Om X1 , ..., Xn är oberoende Xi ∼ N(µi , σi ) samt d, c1 , ..., cn är konstanter, så gäller att v u n n n X X uX d+ ci Xi ∼ N d + ci µi , t ci2 σi2 i=1 i=1 i=1 ”En linjär kombination av ober. normalvariabler är normalfördelad och parametrarna är väntevärdet och standardavvikelsen” Vi kommer att vara särskilt intresserade av en speciell (viktig) linjärkombination: Sats Om X1 , ..., Xn är oberoende och Xi ∼ N(µ, σ) så gäller att n 1X σ Xi ∼ N µ, √ X̄ = n n i=1 För att få fram parametrarna kan man alltså använda räknelagarna för väntevärde och varians, se ovan. Bevis Observation och Stokastisk variabel (viktig) Den s.v. X̄ är normalfördelad, eftersom den är en linjärkombination av oberoende normalvariabler, använd Sats ovan. Vi beräknar parametrarna n E X̄ = E 1X Xi n ! i=1 n var(X̄ ) = var 1X Xi n i=1 n 1 1X = E (Xi ) = · n · µ = µ | {z } n n i=1 ! =µ I sannolikhetsläran hanterar man slumpmässiga försök. Resultatet av ett slumpmässigt försök beskrivs ofta som en s.v. X med en viss sannolikhetsfördelning. Då man utfört försöket får man ett fixt resultat x. Man säger att x är ett observerat värde på (är en observation av) X . Ex. Gör ett kast med en tärning. Före kastet: resultatet är en s.v. X som antar värdena 1, ..., 6 med slh. 1/6. Efter kastet: tex. x = 5, vilket är en observation av X . = Gör tio kast med en tärning. Före kasten: resultaten är oberoende s.v. X1 , X2 , . . . , X10 , med samma fördelning som X . Efter kasten: vi fick x1 = 2, x2 = 5, ..., x10 = 6 som är observationer av X1 , . . . , X10 . Man säger att x1 , . . . , x10 är ett slumpmässigt stickprov. Språkbruk Språkbruk, forts. Observationer: x1 , . . . , xn Stokastiska variabler: X1 , . . . , Xn Stickprovsvarians (sample variance): 1 Pn 2 S = n−1 i=1 (Xi − X̄ )2 med observerat värde Population: Samtliga möjliga observationer. s2 = Stickprov (sample): Delmängd av en population. Stickprovsstandardavvikelse S resp. q 1 Pn s = n−1 i=1 (xi − x̄)2 Slumpmässigt stickprov (random sample): Oberoende likafördelade s.v. X1 , . . . , Xn . 1 n−1 Pn i=1 (xi Medelvärdet x̄ = Stickprovsfunktion (statistic): g (X1 , . . . , Xn ). P Stickprovsmedelvärde (sample mean): X̄ = n1 ni=1 Xi , även P x̄ = n1 ni=1 xi . brukar kallas stickprovsmedelvärde. − x̄)2 1 n Pn i=1 xi ligger centralt bland mätvärdena q 1 Pn 2 medan stickprovsstandardavvikelsen s = n−1 i=1 (xi − x̄) är ett mått på hur utspritt datamaterialet är kring x̄. Punktskattning, inledning Allmänt gäller att x̄ och s är approximativa värden på µ = E(Xi ) och σ = D(Xi ). Vi återkommer till detta. Ex. Vi har gjort fem bestämningar av tyngdaccelerationen θ i Linköping. Vi har då fått observationerna x1 = 9.82, x2 = 9.81, x3 = 9.79, x4 = 9.81, x5 = 9.80 Vi kommer ofta att använda de här båda resultaten (viktiga); Vi söker ett approximativt värde på θ, d.v.s. vi vill (upp-)skatta θ. I I Om X1 ,. . . , Xn är oberoende och N(µ, σ) så gäller att X̄ ∼ N µ, √σn , se ovan. Om X1 , . . . , Xn är oberoende och likafördelade med E(Xi ) = µ och D(Xi )= σ såger centrala gränsvärdes- satsen att X̄ appr N µ, √σn om n är stort. Förslag: 5 θ̂ = x̄ = 1X xi = 9.806 5 1 (= θ∗ (x) i boken) Är detta ett matematiskt statistiskt problem? Ja, ty att förklara variationerna i mätvärdena använder vi en slumpmodell. Låt xi vara observationer av en s.v. Xi = θ + εi , där εi är ett slumpmässigt mätfel, εi ∼ N(0, σ) och ε1 , ε2 , ..., ε5 är oberoende. Det följer då att Xi ∼ N(θ, σ). Språkbruk Vad händer om vi gör om försöket? Vi får troligen ett nytt värde på θ̂. Det fixa värdet θ̂ = x̄ är en observation av den s.v. σ b = X̄ ∼ N θ, √ Θ . 5 b (θ∗ (X) i boken) får vi en uppfattning om hur Genom att studera Θ tillförlitligt vårt θ̂-värde är. b = θ. Notera att E Θ Det allmänna fallet Många sannolikhetsfunktioner och täthetsfunktioner innehåller parametrar, vars värde har stor betydelse men som ofta är okända. Det finns ”tre sorters” olika θ: I θ = det verkliga värdet på tyngdacc (fixt tal) I θ̂ = approximativt värde på θ beräknat med hjälp av våra observerade värden x1 , ..., x5 (fixt tal) I b = stokastisk variabel som beskriver hur θ̂ kan variera för Θ olika mätserier. Ex. X ∼ Bin(n, p), Y ∼ Po(µ), Z ∼ N(µ, σ) För att kunna använda de stokastiska variablerna och beräkna intressanta sannolikheter behöver vi approximativa värden på parametrarna, så kallade punktskattningar (uppskattningar). Vi ska i den här kursen använda klassiska metoder för statistisk inferens, dvs. metoder där slutsatserna helt baseras på de observerade värdena. Bayesianska metoder ingår alltså inte i kursen. Punktskattning Stickprovsvariabeln Låt x1 , ..., xn vara observationer av oberoende s.v. X1 , ..., Xn , vars sannolikhetsfunktion p(k; θ) eller täthetsfunktion f (x; θ) innehåller en okänd parameter θ. Det fixa värdet θ̂ (eng. estimate) är observation av stickprovsvariabeln (eng. estimator) Vi söker ett approximativt värde på θ, dvs. en punktskattning baserad på x1 , ..., xn . Definition b = g (X1 , ..., Xn ). Θ b = θ∗ (X). I boken har vi notationen Θ En punktskattning är en funktion av de observerade mätvärdena, det vill säga θ̂ = g (x1 , ..., xn ). b för skattningsvariabel eller (punkt-) Ibland kallar vi även Θ skattning. b beskriver vilka värden vi kan få på θ̂ för olika Fördelningen för Θ observationsserier. I boken har vi notationen θ̂ = θ∗ (x). Momentmetoden Momentmetoden Låt x1 , ..., xn vara observationer av oberoende s.v. X1 , ..., Xn med täthetsfunktion eller sannolikhetsfunktion som beror av θ. Ofta kan man hitta lämpliga punktskattningar genom att utnyttja att man alltid kan skatta E(Xi ) med hjälp av det aritmetiska medelvärdet n 1X x̄ = xi . n θ endimensionell: Om E(Xi ) = µ(θ) så ges θ̂ av ekvationen En vidareutveckling av denna idé är momentmetoden, se nedan. Andra intressanta metoder är θ tvådimensionell: Då är θ = (θ1 , θ2 ) och E(Xi ) = µ1 (θ1 , θ2 ), E(Xi2 ) = µ2 (θ1 , θ2 ). Vidare ges θ̂1 och θ̂2 av ekvationssystemet µ(θ̂) = x̄ 1 I minsta-kvadrat-metoden (MK-metoden) µ1 (θ̂1 , θ̂2 ) = x̄ I maximum-likelihood-metoden (ML-metoden). Se mer nästa föreläsning. µ2 (θ̂1 , θ̂2 ) = 1 n Pn 2 1 xi Anm. Namnet momentmetoden beror på att µk = E(X k ) kallas moment av ordningen k. Väntevärdet E(X ) är alltså första ordningens moment, E(X 2 ) är andra ordningens moment etc. Exempel - Normal Låt x1 , ..., xn vara observationer av oberoende s.v. X1 , ..., Xn , där Xi ∼ N (µ, σ). Skatta µ och σ 2 med momentmetoden. Exempel - Binomial Antag att x1 , ..., xm vara observationer av oberoende s.v. X1 , ..., Xm , där Xi ∼ Bin(n, p). Observera att vi har m observationer från Bin(n, p). Skatta p med momentmetoden.
© Copyright 2025