Download Report

TAMS65 - Mål
TAMS65 - Föreläsning 1
Kursens övergripande mål är att ge grundläggande kunskaper i statistiska
metoder, d.v.s. att utgående från observerade data dra slutsatser om
fenomen som påverkas av slumpen. Efter fullgjord kurs förväntas den
studerande kunna:
(www.mai.liu.se/∼maohl/kurser/TAMS65/)
Introduktion till Statistisk Teori
och Repetition av Sannolikhetslära
I
Utnyttja en lämplig slumpmodell för att beskriva och analysera
observerade data och dra slutsatser om intressanta parametrar.
I
Härleda punktskattningar av parametrar och analysera deras
egenskaper.
I
Förstå principerna för att dra slutsatser via konfidensintervall och
hypotesprövning. Konstruera konfidensintervall och genomföra
hypotesprövning för observerade data, redovisa slutsatserna samt
bedöma säkerheten.
I
Analysera samband mellan variabler med hjälp av enkel eller multipel
linjär regression och bedöma den använda modellens relevans.
I
Tillämpa slumpmodeller och statistiska metoder i samband med
frågeställningar inom ekonomi, teknik och naturvetenskap och
kritiskt granska resultaten.
Martin Singull
MAI - LiU
Linköping
23 mars, 2015
Innehåll Fö1
Inledning - Matematisk Statistik
I dagens tillämpningar skapas det ofta stora datamängder. Det är
därför viktigt att
I
Matematisk statistik
I
Beskrivande statistik
I
I
Statistisk teori
I
I
Repetition av sannolikhetslära
I
Observation och stokastisk variabel
I
Punktskattning, inledning
I
Egenskaper
I
I
I
I
I
I
Väntevärdesriktig
Effektiv
Konsistent
Momentmetoden
kritiskt kunna granska informationen,
kunna bearbeta och presentera datan,
kunna beskriva variation,
kunna formulera slumpmodeller som passar med datan.
Sannolikhetsmodeller och statistiska metoder hjälper oss med
allt detta!
Då man observerar mätdata ser man ofta variationer i mätvärdena
även om man i princip har mätt samma sak.
Med hjälp av en sannolikhetsmodell kan man beskriva variationerna och med hjälp av statistiska metoder kan man dra
slutsatser som till exempel variationernas storlek.
Matematisk Statistik
I
Beskrivande statistik - presentera och sammanfatta data på
ett överskådligt sätt.
I
Sannolikhetslära - konstruera modeller som beskriver hur
vanliga olika händelser är och som förklarar variationen i
mätdata. (TAMS79)
I
I
Statistisk inferensteori - (inferens = slutledning) dra
slutsatser, med någon viss säkerhet, utgående från mätvärden
om intressanta parametrar. (TAMS65)
Statistisk försöksplanering - Planera, utföra och analysera
statistiska försök. (TAMS38)
Exempel - Normal
Låt oss simulera 200 observationer från en N(0, 1)-fördelning med
hjälp av MATLAB.
n=200;
x = normrnd(0,1,n,1);
hist(x,20)
figure;
histfit(x,20)
Vilket ger följande histogram.
Beskrivande statistik
Beskrivande statistik handlar om att åskådliggöra och sammanfatta data. Ett sätt är med hjälp av histogram. Observerade värden
av kontinuerliga stokastiska variabler åskådliggör man ofta med
hjälp av histogram.
Antag att vi har n observerade värden x1 , . . . , xn . Dela in tallinjen i
små intervall (klasser) som täcker in hela datamaterialet.
För varje delintervall räknar man antalet värden i intervallet: fi .
Man beräknar sedan den relativa frekvenen: pi = fi /n.
Om man sedan låter histogrampelarens höjd vara pi /h så får
histogrammet arean 1 och är direkt jämförbart med en
täthetsfunktion.
Exempel - Normal
Exempel - Normal
Exempel - Exponential
Simulera 200 observationer från en exponentialfördelning med
väntevärde 5 d.v.s. Exp(5).
n=200;
y = exprnd(5,n,1);
hist(y,20)
[f g] = ecdf(y);
figure; ecdfhist(f,g,20)
hold on
xx = 0:.1:max(y);
yy = exp(-xx/5)/5;
plot(xx,yy,’r-’,’LineWidth’,2)
hold off
Exempel - Exponential
Exempel - Exponential
Lägesmått
I
Spridningsmått
Antag att vi har n observerade mätvärden x1 , . . . , xn . Det
finns olika lägesmått för en datamängd. Det vanligaste är det
aritmetiska medelvärdet,
eller stickprovsstandardavvikelsen
v
u
n
u 1 X
t
(xi − x̄)2 .
s=
n−1
i=1
Ett annat lägesmått är medianen,
x(n+1)/2 ,
x̃ =
1
2 (x(n)/2 + x(n)/2+1 ),
om n är udda,
om n är jämn,
där x(1) ≤ · · · ≤ x(n) är datamängden ordnad i storleksordning.
I
Ett tredje lägesmått är typvärdet (eng. mode) som är det
vanligaste värdet i datamatrialet.
Exempel - Beskrivande Statistik
Ex. Låt si , i = 1, . . . , 254 vara slutkursen för Ericsson B från
2011-01-10 till 2012-01-09. Vidare låt
xi = ln
n
1 X
(xi − x̄)2 ,
s =
n−1
2
i=1
n
1X
xi .
x̄ =
n
I
Som spridningsmått används ofta stickprovsvariansen
si+1
.
si
Vi vill nu analysera detta med hjälp av MATLAB.
kurs = [76.00 76.50 77.25 ... 68.65 68.00 67.55]’;
x = log(kurs(2:end)./kurs(1:end-1));
i=1
Om våra observerade värden xi är någorlunda lika så blir xi − x̄
alla små och vi får en liten spridning.
Att vi delar med n − 1 istället för n kommer vi diskutera
senare då vi tar upp egenskaper hos dessa skattningar.
Exempel - Beskrivande Statistik
Exempel - Beskrivande Statistik
Exempel - Beskrivande Statistik
Datamaterialet kan åskådliggöras med MATLAB på olika sätt, så
att man får bättre överblick.
[muhat, s] = normfit(x)
figure;boxplot(x)
figure;histfit(x,50)
figure;normplot(x)
muhat =
-4.6587e-04
s =
0.0226
Exempel - Box-plot
I Box-plot diagrammet syns största och minsta värdet, medianen
samt undre och övre kvartilen. + är outlier, alltså värden som
verkar avvika från de övriga.
Exempel - Histogram
Histogrammet visar ungefärlig form för täthetsfunktionen.
Exempel - Normalfördelningsplot
Exempel, forts.
Både histogrammet och normalfördelningsplotten antyder i det här
fallet att det är rimligt att anta normalfördelning.
Man brukar säga av avkastningen för en aktie är log-normalfördelad, det vill säga att logaritmen av avkastningen är
normalfördelad
Xi = ln
Si+1
∼ N(µ, σ),
Si
för några parametrar µ och σ (eller σ 2 ).
I normalfördelningsplotten ska punkterna ligga ungefär på en rät
linje om mätvärdena är observationer av normalfördelade
stokastiska variabler. S-form pga. att fördelningen är lite för
spetsig.
Exempel, forts.
I kursboken används notationen X ∼ N(µ, σ) i andra böcker kan
man se X ∼ N(µ, σ 2 ).
Exempel, forts.
Vi kan också bilda något som vi kallar konfidensintervall för µ
och σ.
För att uppskatta µ och σ (på dagsbasis) kan vi använda
µ̂ = x̄ = −4.6587 · 10−04
och
σ̂ = s = 0.0226 (s kallas för volatiliteten).
[muhat, s, mu_CI, sigma_CI] = normfit(u)
Man kan också visa att
mu_CI =
√ ln ST ∼ N ln S0 + µT , σ T
sigma_CI =
-0.0033
0.0023
och att
1
E(ST ) = S0 e µ+ 2 σ
2T
,
1
var(ST ) = S02 e 2(µ+ 2 σ
2 )T
eσ
2T
0.0208
0.0248
−1 ,
Alltså, vi har
vilka vi kan uppskatta då vi har uppskattningar på µ och σ.
√
Volatiliteten
på årsbasis ges av σ 252 vilken skattas med
√
s 252 = 0.359 = 35.9%.
Iµ0.95 = (−0.0033, 0.0023) och Iσ0.95 = (0.0208, 0.0248).
Ett konfidensintervall Iθ1−α är ett intervall som med sannolikheten
1 − α täcker över den verkliga parametern θ.
Statistisk Inferens - Huvudproblem
Statistik Inferens
För att beskriva variationerna används stokastiska variabler (s.v.)
som bygger upp slumpmodeller.
Ex. Ett mätresultat kan vara U ∼ N(µ, σ) eller V ∼ Np (µ, Σ).
Ex. Vid en undersökning blir antalet som säger att de är positiva
till att ha valutan Euro, en s.v. Y som är approximativt binomialfördelad, det vill säga Y ∼ Bin(n, p).
Statistisk teori handlar om att med observerade mätvärden
I
göra punktskattningar, d.v.s. ta fram approximativa värden på
parametrarna i slumpmodellen,
I
konstruera konfidensintervall som beskriver vilka parametervärden som är tänkbara med hänsyn till de observerade
värdena (dess variationer),
I
pröva hypoteser angående parametrarna i slumpmodellen, tex.
H0 : µ = 0 mot H1 : µ > 0 eller om vi vill testa H0 : p = 0.5
mot H1 : p > 0.5.
I båda våra exempel ovan innehåller slumpmodellerna parametrar
µ, σ, µ, Σ och p.
Repetition av sannolikhetsläran
Några resultat från sannolikhetsläran kommer vi att använda ofta.
Det är t.ex. viktigt att kunna göra beräkningar av väntevärde och
varians.
Sats
Variansen för den s.v. X är definierad som
var(X ) = E((X − µ)2 ),
Sats
där µ = E(X ) och kan beräknas enligt
Om Y = g (X ), så gäller att
 P

k g (k)pX (k)
E(Y ) =
 R∞
−∞ g (x)fX (x)dx
var(X ) = E(X 2 ) − (E(X ))2 .
diskret s.v.
kont. s.v.
Bevis Utveckla kvadraten.
Exempel
Den s.v. X har täthetsfunktion
2x
f (x) =
0
Sats
för 0 ≤ x ≤ 1
annars.
Om X1 , ..., Xn är s.v. och c1 , ..., cn är konstanter, så gäller att
!
n
n
X
X
E
ci Xi =
ci E (Xi )
Beräkna var(X ) och E(e X ).
Vi har att
h
R1 2
2
E(X ) = 0 x · 2xdx = 2 ·
E(X ) =
R1
0
h
x · 2xdx = 2 ·
i1
x4
4 0
i1
x3
3 0
i=1
=
1
2
och
och om X1 , ..., Xn är oberoende, så gäller också att
!
n
n
X
X
var
ci Xi =
ci2 var (Xi )
= 23 ,
i=1
vilket ger var(X ) = E(X 2 ) − (E(X ))2 =
1
2
−
4
9
=
R1
0
i=1
1
18 .
Vidare gäller att
E(e X ) =
i=1
1
R
e x 2xdx = 2e x x − 2 e x dx 0 = ... = 2
Normalfördelning
Satsen ovan är mycket viktig och vi kommer använda den många
gånger framöver!
Exempel
Låt den s.v. vara X ∼ N(5, 0.8).
En s.v. X ∼ N(µ, σ) om
(x−µ)2
1
fX (x) = √ e − 2σ2
σ 2π
Denna täthetsfunktion ger besvärliga integraler.
Speciellt om Z ∼ N(0, 1) så har vi fördelningsfunktionen
Z z
1
2
√ e −t /2 dt = Φ(z)
P(Z ≤ z) =
2π
−∞
som finns i tabell för z ≥ 0.
Sats
Om Y =
X −µ
σ ,
där X ∼ N(µ, σ) så gäller att Y ∼ N(0, 1).
I
Beräkna P(3.5 < X < 6) och c så att P(X > c) = 0.9.
Sats
Om X1 , ..., Xn är oberoende Xi ∼ N(µi , σi ) samt d, c1 , ..., cn är
konstanter, så gäller att
v


u n
n
n
X
X
uX
d+
ci Xi ∼ N d +
ci µi , t
ci2 σi2 
i=1
i=1
i=1
”En linjär kombination av ober. normalvariabler är normalfördelad
och parametrarna är väntevärdet och standardavvikelsen”
Vi kommer att vara särskilt intresserade av en speciell (viktig)
linjärkombination:
Sats
Om X1 , ..., Xn är oberoende och Xi ∼ N(µ, σ) så gäller att
n
1X
σ
Xi ∼ N µ, √
X̄ =
n
n
i=1
För att få fram parametrarna kan man alltså använda räknelagarna
för väntevärde och varians, se ovan.
Bevis
Observation och Stokastisk variabel
(viktig) Den s.v. X̄ är normalfördelad, eftersom den är en linjärkombination av oberoende normalvariabler, använd Sats ovan. Vi
beräknar parametrarna
n
E X̄ = E
1X
Xi
n
!
i=1
n
var(X̄ ) = var
1X
Xi
n
i=1
n
1
1X
=
E (Xi ) = · n · µ = µ
| {z } n
n
i=1
!
=µ
I sannolikhetsläran hanterar man slumpmässiga försök. Resultatet
av ett slumpmässigt försök beskrivs ofta som en s.v. X med en viss
sannolikhetsfördelning. Då man utfört försöket får man ett fixt
resultat x. Man säger att x är ett observerat värde på (är en
observation av) X .
Ex. Gör ett kast med en tärning.
Före kastet: resultatet är en s.v. X som antar värdena 1, ..., 6
med slh. 1/6.
Efter kastet: tex. x = 5, vilket är en observation av X .
=
Gör tio kast med en tärning.
Före kasten: resultaten är oberoende s.v. X1 , X2 , . . . , X10 , med
samma fördelning som X .
Efter kasten: vi fick x1 = 2, x2 = 5, ..., x10 = 6 som är observationer av X1 , . . . , X10 . Man säger att x1 , . . . , x10 är ett slumpmässigt stickprov.
Språkbruk
Språkbruk, forts.
Observationer: x1 , . . . , xn
Stokastiska variabler: X1 , . . . , Xn
Stickprovsvarians
(sample variance):
1 Pn
2
S = n−1 i=1 (Xi − X̄ )2 med observerat värde
Population: Samtliga möjliga observationer.
s2 =
Stickprov (sample): Delmängd av en population.
Stickprovsstandardavvikelse
S resp.
q
1 Pn
s = n−1 i=1 (xi − x̄)2
Slumpmässigt stickprov (random sample): Oberoende
likafördelade s.v. X1 , . . . , Xn .
1
n−1
Pn
i=1 (xi
Medelvärdet x̄ =
Stickprovsfunktion (statistic): g (X1 , . . . , Xn ).
P
Stickprovsmedelvärde
(sample mean): X̄ = n1 ni=1 Xi , även
P
x̄ = n1 ni=1 xi . brukar kallas stickprovsmedelvärde.
− x̄)2
1
n
Pn
i=1 xi
ligger centralt bland mätvärdena
q
1 Pn
2
medan stickprovsstandardavvikelsen s = n−1
i=1 (xi − x̄) är
ett mått på hur utspritt datamaterialet är kring x̄.
Punktskattning, inledning
Allmänt gäller att x̄ och s är approximativa värden på µ = E(Xi )
och σ = D(Xi ). Vi återkommer till detta.
Ex. Vi har gjort fem bestämningar av tyngdaccelerationen θ i
Linköping. Vi har då fått observationerna
x1 = 9.82, x2 = 9.81, x3 = 9.79, x4 = 9.81, x5 = 9.80
Vi kommer ofta att använda de här båda resultaten (viktiga);
Vi söker ett approximativt värde på θ, d.v.s. vi vill (upp-)skatta θ.
I
I
Om X1 ,. . . , Xn är oberoende och N(µ, σ) så gäller att
X̄ ∼ N µ, √σn , se ovan.
Om X1 , . . . , Xn är oberoende och likafördelade med E(Xi ) = µ
och D(Xi )= σ såger centrala gränsvärdes- satsen att
X̄ appr N µ, √σn om n är stort.
Förslag:
5
θ̂ = x̄ =
1X
xi = 9.806
5
1
(= θ∗ (x) i boken)
Är detta ett matematiskt statistiskt problem? Ja, ty att förklara
variationerna i mätvärdena använder vi en slumpmodell.
Låt xi vara observationer av en s.v.
Xi = θ + εi ,
där εi är ett slumpmässigt mätfel, εi ∼ N(0, σ) och ε1 , ε2 , ..., ε5 är
oberoende.
Det följer då att Xi ∼ N(θ, σ).
Språkbruk
Vad händer om vi gör om försöket? Vi får troligen ett nytt värde
på θ̂.
Det fixa värdet θ̂ = x̄ är en observation av den s.v.
σ
b = X̄ ∼ N θ, √
Θ
.
5
b (θ∗ (X) i boken) får vi en uppfattning om hur
Genom att studera Θ
tillförlitligt vårt θ̂-värde är.
b = θ.
Notera att E Θ
Det allmänna fallet
Många sannolikhetsfunktioner och täthetsfunktioner innehåller
parametrar, vars värde har stor betydelse men som ofta är okända.
Det finns ”tre sorters” olika θ:
I
θ = det verkliga värdet på tyngdacc (fixt tal)
I
θ̂ = approximativt värde på θ beräknat med hjälp av våra
observerade värden x1 , ..., x5 (fixt tal)
I
b = stokastisk variabel som beskriver hur θ̂ kan variera för
Θ
olika mätserier.
Ex. X ∼ Bin(n, p), Y ∼ Po(µ), Z ∼ N(µ, σ)
För att kunna använda de stokastiska variablerna och beräkna
intressanta sannolikheter behöver vi approximativa värden på
parametrarna, så kallade punktskattningar (uppskattningar).
Vi ska i den här kursen använda klassiska metoder för statistisk
inferens, dvs. metoder där slutsatserna helt baseras på de observerade värdena. Bayesianska metoder ingår alltså inte i kursen.
Punktskattning
Stickprovsvariabeln
Låt x1 , ..., xn vara observationer av oberoende s.v. X1 , ..., Xn , vars
sannolikhetsfunktion p(k; θ) eller täthetsfunktion f (x; θ) innehåller
en okänd parameter θ.
Det fixa värdet θ̂ (eng. estimate) är observation av stickprovsvariabeln (eng. estimator)
Vi söker ett approximativt värde på θ, dvs. en punktskattning
baserad på x1 , ..., xn .
Definition
b = g (X1 , ..., Xn ).
Θ
b = θ∗ (X).
I boken har vi notationen Θ
En punktskattning är en funktion av de observerade mätvärdena, det vill säga
θ̂ = g (x1 , ..., xn ).
b för skattningsvariabel eller (punkt-)
Ibland kallar vi även Θ
skattning.
b beskriver vilka värden vi kan få på θ̂ för olika
Fördelningen för Θ
observationsserier.
I boken har vi notationen θ̂ = θ∗ (x).
Momentmetoden
Momentmetoden
Låt x1 , ..., xn vara observationer av oberoende s.v. X1 , ..., Xn med
täthetsfunktion eller sannolikhetsfunktion som beror av θ.
Ofta kan man hitta lämpliga punktskattningar genom att utnyttja
att man alltid kan skatta E(Xi ) med hjälp av det aritmetiska
medelvärdet
n
1X
x̄ =
xi .
n
θ endimensionell: Om E(Xi ) = µ(θ) så ges θ̂ av ekvationen
En vidareutveckling av denna idé är momentmetoden, se nedan.
Andra intressanta metoder är
θ tvådimensionell: Då är θ = (θ1 , θ2 ) och E(Xi ) = µ1 (θ1 , θ2 ),
E(Xi2 ) = µ2 (θ1 , θ2 ). Vidare ges θ̂1 och θ̂2 av ekvationssystemet
µ(θ̂) = x̄
1
I
minsta-kvadrat-metoden (MK-metoden)

 µ1 (θ̂1 , θ̂2 ) = x̄
I
maximum-likelihood-metoden (ML-metoden).

Se mer nästa föreläsning.
µ2 (θ̂1 , θ̂2 ) =
1
n
Pn
2
1 xi
Anm. Namnet momentmetoden beror på att µk = E(X k ) kallas
moment av ordningen k. Väntevärdet E(X ) är alltså första
ordningens moment, E(X 2 ) är andra ordningens moment etc.
Exempel - Normal
Låt x1 , ..., xn vara observationer av oberoende s.v. X1 , ..., Xn , där
Xi ∼ N (µ, σ). Skatta µ och σ 2 med momentmetoden.
Exempel - Binomial
Antag att x1 , ..., xm vara observationer av oberoende s.v.
X1 , ..., Xm , där Xi ∼ Bin(n, p). Observera att vi har m
observationer från Bin(n, p). Skatta p med momentmetoden.