Fö1-4-pres

TAMS65 - Mål
TAMS65 - Föreläsning 1
Kursens övergripande mål är att ge grundläggande kunskaper i statistiska
metoder, d.v.s. att utgående från observerade data dra slutsatser om
fenomen som påverkas av slumpen. Efter fullgjord kurs förväntas den
studerande kunna:
(www.mai.liu.se/∼maohl/kurser/TAMS65/)
Introduktion till Statistisk Teori
och Repetition av Sannolikhetslära
I
Utnyttja en lämplig slumpmodell för att beskriva och analysera
observerade data och dra slutsatser om intressanta parametrar.
I
Härleda punktskattningar av parametrar och analysera deras
egenskaper.
I
Förstå principerna för att dra slutsatser via konfidensintervall och
hypotesprövning. Konstruera konfidensintervall och genomföra
hypotesprövning för observerade data, redovisa slutsatserna samt
bedöma säkerheten.
I
Analysera samband mellan variabler med hjälp av enkel eller multipel
linjär regression och bedöma den använda modellens relevans.
I
Tillämpa slumpmodeller och statistiska metoder i samband med
frågeställningar inom ekonomi, teknik och naturvetenskap och
kritiskt granska resultaten.
Martin Singull
MAI - LiU
Linköping
23 mars, 2015
Innehåll Fö1
Inledning - Matematisk Statistik
I dagens tillämpningar skapas det ofta stora datamängder. Det är
därför viktigt att
I
Matematisk statistik
I
Beskrivande statistik
I
I
Statistisk teori
I
I
Repetition av sannolikhetslära
I
Observation och stokastisk variabel
I
Punktskattning, inledning
I
Egenskaper
I
I
I
I
I
I
Väntevärdesriktig
Effektiv
Konsistent
Momentmetoden
kritiskt kunna granska informationen,
kunna bearbeta och presentera datan,
kunna beskriva variation,
kunna formulera slumpmodeller som passar med datan.
Sannolikhetsmodeller och statistiska metoder hjälper oss med
allt detta!
Då man observerar mätdata ser man ofta variationer i mätvärdena
även om man i princip har mätt samma sak.
Med hjälp av en sannolikhetsmodell kan man beskriva variationerna och med hjälp av statistiska metoder kan man dra
slutsatser som till exempel variationernas storlek.
Matematisk Statistik
I
Beskrivande statistik - presentera och sammanfatta data på
ett överskådligt sätt.
I
Sannolikhetslära - konstruera modeller som beskriver hur
vanliga olika händelser är och som förklarar variationen i
mätdata. (TAMS79)
I
I
Statistisk inferensteori - (inferens = slutledning) dra
slutsatser, med någon viss säkerhet, utgående från mätvärden
om intressanta parametrar. (TAMS65)
Statistisk försöksplanering - Planera, utföra och analysera
statistiska försök. (TAMS38)
Exempel - Normal
Låt oss simulera 200 observationer från en N(0, 1)-fördelning med
hjälp av MATLAB.
n=200;
x = normrnd(0,1,n,1);
hist(x,20)
figure;
histfit(x,20)
Vilket ger följande histogram.
Beskrivande statistik
Beskrivande statistik handlar om att åskådliggöra och sammanfatta data. Ett sätt är med hjälp av histogram. Observerade värden
av kontinuerliga stokastiska variabler åskådliggör man ofta med
hjälp av histogram.
Antag att vi har n observerade värden x1 , . . . , xn . Dela in tallinjen i
små intervall (klasser) som täcker in hela datamaterialet.
För varje delintervall räknar man antalet värden i intervallet: fi .
Man beräknar sedan den relativa frekvenen: pi = fi /n.
Om man sedan låter histogrampelarens höjd vara pi /h så får
histogrammet arean 1 och är direkt jämförbart med en
täthetsfunktion.
Exempel - Normal
Exempel - Normal
Exempel - Exponential
Simulera 200 observationer från en exponentialfördelning med
väntevärde 5 d.v.s. Exp(5).
n=200;
y = exprnd(5,n,1);
hist(y,20)
[f g] = ecdf(y);
figure; ecdfhist(f,g,20)
hold on
xx = 0:.1:max(y);
yy = exp(-xx/5)/5;
plot(xx,yy,’r-’,’LineWidth’,2)
hold off
Exempel - Exponential
Exempel - Exponential
Lägesmått
I
Spridningsmått
Antag att vi har n observerade mätvärden x1 , . . . , xn . Det
finns olika lägesmått för en datamängd. Det vanligaste är det
aritmetiska medelvärdet,
eller stickprovsstandardavvikelsen
v
u
n
u 1 X
t
(xi − x̄)2 .
s=
n−1
i=1
Ett annat lägesmått är medianen,
x(n+1)/2 ,
x̃ =
1
2 (x(n)/2 + x(n)/2+1 ),
om n är udda,
om n är jämn,
där x(1) ≤ · · · ≤ x(n) är datamängden ordnad i storleksordning.
I
Ett tredje lägesmått är typvärdet (eng. mode) som är det
vanligaste värdet i datamatrialet.
Exempel - Beskrivande Statistik
Ex. Låt si , i = 1, . . . , 254 vara slutkursen för Ericsson B från
2011-01-10 till 2012-01-09. Vidare låt
xi = ln
n
1 X
(xi − x̄)2 ,
s =
n−1
2
i=1
n
1X
xi .
x̄ =
n
I
Som spridningsmått används ofta stickprovsvariansen
si+1
.
si
Vi vill nu analysera detta med hjälp av MATLAB.
kurs = [76.00 76.50 77.25 ... 68.65 68.00 67.55]’;
x = log(kurs(2:end)./kurs(1:end-1));
i=1
Om våra observerade värden xi är någorlunda lika så blir xi − x̄
alla små och vi får en liten spridning.
Att vi delar med n − 1 istället för n kommer vi diskutera
senare då vi tar upp egenskaper hos dessa skattningar.
Exempel - Beskrivande Statistik
Exempel - Beskrivande Statistik
Exempel - Beskrivande Statistik
Datamaterialet kan åskådliggöras med MATLAB på olika sätt, så
att man får bättre överblick.
[muhat, s] = normfit(x)
figure;boxplot(x)
figure;histfit(x,50)
figure;normplot(x)
muhat =
-4.6587e-04
s =
0.0226
Exempel - Box-plot
I Box-plot diagrammet syns största och minsta värdet, medianen
samt undre och övre kvartilen. + är outlier, alltså värden som
verkar avvika från de övriga.
Exempel - Histogram
Histogrammet visar ungefärlig form för täthetsfunktionen.
Exempel - Normalfördelningsplot
Exempel, forts.
Både histogrammet och normalfördelningsplotten antyder i det här
fallet att det är rimligt att anta normalfördelning.
Man brukar säga av avkastningen för en aktie är log-normalfördelad, det vill säga att logaritmen av avkastningen är
normalfördelad
Xi = ln
Si+1
∼ N(µ, σ),
Si
för några parametrar µ och σ (eller σ 2 ).
I normalfördelningsplotten ska punkterna ligga ungefär på en rät
linje om mätvärdena är observationer av normalfördelade
stokastiska variabler. S-form pga. att fördelningen är lite för
spetsig.
Exempel, forts.
I kursboken används notationen X ∼ N(µ, σ) i andra böcker kan
man se X ∼ N(µ, σ 2 ).
Exempel, forts.
Vi kan också bilda något som vi kallar konfidensintervall för µ
och σ.
För att uppskatta µ och σ (på dagsbasis) kan vi använda
µ̂ = x̄ = −4.6587 · 10−04
och
σ̂ = s = 0.0226 (s kallas för volatiliteten).
[muhat, s, mu_CI, sigma_CI] = normfit(u)
Man kan också visa att
mu_CI =
√ ln ST ∼ N ln S0 + µT , σ T
sigma_CI =
-0.0033
0.0023
och att
1
E(ST ) = S0 e µ+ 2 σ
2T
,
1
var(ST ) = S02 e 2(µ+ 2 σ
2 )T
eσ
2T
0.0208
0.0248
−1 ,
Alltså, vi har
vilka vi kan uppskatta då vi har uppskattningar på µ och σ.
√
Volatiliteten
på årsbasis ges av σ 252 vilken skattas med
√
s 252 = 0.359 = 35.9%.
Iµ0.95 = (−0.0033, 0.0023) och Iσ0.95 = (0.0208, 0.0248).
Ett konfidensintervall Iθ1−α är ett intervall som med sannolikheten
1 − α täcker över den verkliga parametern θ.
Statistisk Inferens - Huvudproblem
Statistik Inferens
För att beskriva variationerna används stokastiska variabler (s.v.)
som bygger upp slumpmodeller.
Ex. Ett mätresultat kan vara U ∼ N(µ, σ) eller V ∼ Np (µ, Σ).
Ex. Vid en undersökning blir antalet som säger att de är positiva
till att ha valutan Euro, en s.v. Y som är approximativt binomialfördelad, det vill säga Y ∼ Bin(n, p).
Statistisk teori handlar om att med observerade mätvärden
I
göra punktskattningar, d.v.s. ta fram approximativa värden på
parametrarna i slumpmodellen,
I
konstruera konfidensintervall som beskriver vilka parametervärden som är tänkbara med hänsyn till de observerade
värdena (dess variationer),
I
pröva hypoteser angående parametrarna i slumpmodellen, tex.
H0 : µ = 0 mot H1 : µ > 0 eller om vi vill testa H0 : p = 0.5
mot H1 : p > 0.5.
I båda våra exempel ovan innehåller slumpmodellerna parametrar
µ, σ, µ, Σ och p.
Repetition av sannolikhetsläran
Några resultat från sannolikhetsläran kommer vi att använda ofta.
Det är t.ex. viktigt att kunna göra beräkningar av väntevärde och
varians.
Sats
Variansen för den s.v. X är definierad som
var(X ) = E((X − µ)2 ),
Sats
där µ = E(X ) och kan beräknas enligt
Om Y = g (X ), så gäller att
 P

k g (k)pX (k)
E(Y ) =
 R∞
−∞ g (x)fX (x)dx
var(X ) = E(X 2 ) − (E(X ))2 .
diskret s.v.
kont. s.v.
Bevis Utveckla kvadraten.
Exempel
Den s.v. X har täthetsfunktion
2x
f (x) =
0
Sats
för 0 ≤ x ≤ 1
annars.
Om X1 , ..., Xn är s.v. och c1 , ..., cn är konstanter, så gäller att
!
n
n
X
X
E
ci Xi =
ci E (Xi )
Beräkna var(X ) och E(e X ).
Vi har att
h
R1 2
2
E(X ) = 0 x · 2xdx = 2 ·
E(X ) =
R1
0
h
x · 2xdx = 2 ·
i1
x4
4 0
i1
x3
3 0
i=1
=
1
2
och
och om X1 , ..., Xn är oberoende, så gäller också att
!
n
n
X
X
var
ci Xi =
ci2 var (Xi )
= 23 ,
i=1
vilket ger var(X ) = E(X 2 ) − (E(X ))2 =
1
2
−
4
9
=
R1
0
i=1
1
18 .
Vidare gäller att
E(e X ) =
i=1
1
R
e x 2xdx = 2e x x − 2 e x dx 0 = ... = 2
Normalfördelning
Satsen ovan är mycket viktig och vi kommer använda den många
gånger framöver!
Exempel
Låt den s.v. vara X ∼ N(5, 0.8).
En s.v. X ∼ N(µ, σ) om
(x−µ)2
1
fX (x) = √ e − 2σ2
σ 2π
Denna täthetsfunktion ger besvärliga integraler.
Speciellt om Z ∼ N(0, 1) så har vi fördelningsfunktionen
Z z
1
2
√ e −t /2 dt = Φ(z)
P(Z ≤ z) =
2π
−∞
som finns i tabell för z ≥ 0.
Sats
Om Y =
X −µ
σ ,
där X ∼ N(µ, σ) så gäller att Y ∼ N(0, 1).
I
Beräkna P(3.5 < X < 6) och c så att P(X > c) = 0.9.
Sats
Om X1 , ..., Xn är oberoende Xi ∼ N(µi , σi ) samt d, c1 , ..., cn är
konstanter, så gäller att
v


u n
n
n
X
X
uX
d+
ci Xi ∼ N d +
ci µi , t
ci2 σi2 
i=1
i=1
i=1
”En linjär kombination av ober. normalvariabler är normalfördelad
och parametrarna är väntevärdet och standardavvikelsen”
Vi kommer att vara särskilt intresserade av en speciell (viktig)
linjärkombination:
Sats
Om X1 , ..., Xn är oberoende och Xi ∼ N(µ, σ) så gäller att
n
1X
σ
Xi ∼ N µ, √
X̄ =
n
n
i=1
För att få fram parametrarna kan man alltså använda räknelagarna
för väntevärde och varians, se ovan.
Bevis
Observation och Stokastisk variabel
(viktig) Den s.v. X̄ är normalfördelad, eftersom den är en linjärkombination av oberoende normalvariabler, använd Sats ovan. Vi
beräknar parametrarna
n
E X̄ = E
1X
Xi
n
!
i=1
n
var(X̄ ) = var
1X
Xi
n
i=1
n
1
1X
=
E (Xi ) = · n · µ = µ
| {z } n
n
i=1
!
=µ
I sannolikhetsläran hanterar man slumpmässiga försök. Resultatet
av ett slumpmässigt försök beskrivs ofta som en s.v. X med en viss
sannolikhetsfördelning. Då man utfört försöket får man ett fixt
resultat x. Man säger att x är ett observerat värde på (är en
observation av) X .
Ex. Gör ett kast med en tärning.
Före kastet: resultatet är en s.v. X som antar värdena 1, ..., 6
med slh. 1/6.
Efter kastet: tex. x = 5, vilket är en observation av X .
=
Gör tio kast med en tärning.
Före kasten: resultaten är oberoende s.v. X1 , X2 , . . . , X10 , med
samma fördelning som X .
Efter kasten: vi fick x1 = 2, x2 = 5, ..., x10 = 6 som är observationer av X1 , . . . , X10 . Man säger att x1 , . . . , x10 är ett slumpmässigt stickprov.
Språkbruk
Språkbruk, forts.
Observationer: x1 , . . . , xn
Stokastiska variabler: X1 , . . . , Xn
Stickprovsvarians
(sample variance):
1 Pn
2
S = n−1 i=1 (Xi − X̄ )2 med observerat värde
Population: Samtliga möjliga observationer.
s2 =
Stickprov (sample): Delmängd av en population.
Stickprovsstandardavvikelse
S resp.
q
1 Pn
s = n−1 i=1 (xi − x̄)2
Slumpmässigt stickprov (random sample): Oberoende
likafördelade s.v. X1 , . . . , Xn .
1
n−1
Pn
i=1 (xi
Medelvärdet x̄ =
Stickprovsfunktion (statistic): g (X1 , . . . , Xn ).
P
Stickprovsmedelvärde
(sample mean): X̄ = n1 ni=1 Xi , även
P
x̄ = n1 ni=1 xi . brukar kallas stickprovsmedelvärde.
− x̄)2
1
n
Pn
i=1 xi
ligger centralt bland mätvärdena
q
1 Pn
2
medan stickprovsstandardavvikelsen s = n−1
i=1 (xi − x̄) är
ett mått på hur utspritt datamaterialet är kring x̄.
Punktskattning, inledning
Allmänt gäller att x̄ och s är approximativa värden på µ = E(Xi )
och σ = D(Xi ). Vi återkommer till detta.
Ex. Vi har gjort fem bestämningar av tyngdaccelerationen θ i
Linköping. Vi har då fått observationerna
x1 = 9.82, x2 = 9.81, x3 = 9.79, x4 = 9.81, x5 = 9.80
Vi kommer ofta att använda de här båda resultaten (viktiga);
Vi söker ett approximativt värde på θ, d.v.s. vi vill (upp-)skatta θ.
I
I
Om X1 ,. . . , Xn är oberoende och N(µ, σ) så gäller att
X̄ ∼ N µ, √σn , se ovan.
Om X1 , . . . , Xn är oberoende och likafördelade med E(Xi ) = µ
och D(Xi )= σ såger centrala gränsvärdes- satsen att
X̄ appr N µ, √σn om n är stort.
Förslag:
5
θ̂ = x̄ =
1X
xi = 9.806
5
1
(= θ∗ (x) i boken)
Är detta ett matematiskt statistiskt problem? Ja, ty att förklara
variationerna i mätvärdena använder vi en slumpmodell.
Låt xi vara observationer av en s.v.
Xi = θ + εi ,
där εi är ett slumpmässigt mätfel, εi ∼ N(0, σ) och ε1 , ε2 , ..., ε5 är
oberoende.
Det följer då att Xi ∼ N(θ, σ).
Språkbruk
Vad händer om vi gör om försöket? Vi får troligen ett nytt värde
på θ̂.
Det fixa värdet θ̂ = x̄ är en observation av den s.v.
σ
b = X̄ ∼ N θ, √
Θ
.
5
b (θ∗ (X) i boken) får vi en uppfattning om hur
Genom att studera Θ
tillförlitligt vårt θ̂-värde är.
b = θ.
Notera att E Θ
Det allmänna fallet
Många sannolikhetsfunktioner och täthetsfunktioner innehåller
parametrar, vars värde har stor betydelse men som ofta är okända.
Det finns ”tre sorters” olika θ:
I
θ = det verkliga värdet på tyngdacc (fixt tal)
I
θ̂ = approximativt värde på θ beräknat med hjälp av våra
observerade värden x1 , ..., x5 (fixt tal)
I
b = stokastisk variabel som beskriver hur θ̂ kan variera för
Θ
olika mätserier.
Ex. X ∼ Bin(n, p), Y ∼ Po(µ), Z ∼ N(µ, σ)
För att kunna använda de stokastiska variablerna och beräkna
intressanta sannolikheter behöver vi approximativa värden på
parametrarna, så kallade punktskattningar (uppskattningar).
Vi ska i den här kursen använda klassiska metoder för statistisk
inferens, dvs. metoder där slutsatserna helt baseras på de observerade värdena. Bayesianska metoder ingår alltså inte i kursen.
Punktskattning
Stickprovsvariabeln
Låt x1 , ..., xn vara observationer av oberoende s.v. X1 , ..., Xn , vars
sannolikhetsfunktion p(k; θ) eller täthetsfunktion f (x; θ) innehåller
en okänd parameter θ.
Det fixa värdet θ̂ (eng. estimate) är observation av stickprovsvariabeln (eng. estimator)
Vi söker ett approximativt värde på θ, dvs. en punktskattning
baserad på x1 , ..., xn .
Definition
b = g (X1 , ..., Xn ).
Θ
b = θ∗ (X).
I boken har vi notationen Θ
En punktskattning är en funktion av de observerade mätvärdena, det vill säga
θ̂ = g (x1 , ..., xn ).
b för skattningsvariabel eller (punkt-)
Ibland kallar vi även Θ
skattning.
b beskriver vilka värden vi kan få på θ̂ för olika
Fördelningen för Θ
observationsserier.
I boken har vi notationen θ̂ = θ∗ (x).
Momentmetoden
Momentmetoden
Låt x1 , ..., xn vara observationer av oberoende s.v. X1 , ..., Xn med
täthetsfunktion eller sannolikhetsfunktion som beror av θ.
Ofta kan man hitta lämpliga punktskattningar genom att utnyttja
att man alltid kan skatta E(Xi ) med hjälp av det aritmetiska
medelvärdet
n
1X
x̄ =
xi .
n
θ endimensionell: Om E(Xi ) = µ(θ) så ges θ̂ av ekvationen
En vidareutveckling av denna idé är momentmetoden, se nedan.
Andra intressanta metoder är
θ tvådimensionell: Då är θ = (θ1 , θ2 ) och E(Xi ) = µ1 (θ1 , θ2 ),
E(Xi2 ) = µ2 (θ1 , θ2 ). Vidare ges θ̂1 och θ̂2 av ekvationssystemet
µ(θ̂) = x̄
1
I
minsta-kvadrat-metoden (MK-metoden)

 µ1 (θ̂1 , θ̂2 ) = x̄
I
maximum-likelihood-metoden (ML-metoden).

Se mer nästa föreläsning.
µ2 (θ̂1 , θ̂2 ) =
1
n
Pn
2
1 xi
Anm. Namnet momentmetoden beror på att µk = E(X k ) kallas
moment av ordningen k. Väntevärdet E(X ) är alltså första
ordningens moment, E(X 2 ) är andra ordningens moment etc.
Exempel - Normal
Låt x1 , ..., xn vara observationer av oberoende s.v. X1 , ..., Xn , där
Xi ∼ N (µ, σ). Skatta µ och σ 2 med momentmetoden.
Exempel - Binomial
Antag att x1 , ..., xm vara observationer av oberoende s.v.
X1 , ..., Xm , där Xi ∼ Bin(n, p). Observera att vi har m
observationer från Bin(n, p). Skatta p med momentmetoden.