Matematisk statistik AK för M, FMS 035 Övning 10

Lunds tekniska högskola,
Matematikcentrum,
Matematisk statistik
Matematisk statistik AK för M, FMS 035
Övning 10
Denna övningslapp behandlar regression och är tänkt som förberedelse inför Miniprojekt II.
Teorin finns i kompendiet ”Sambandsanalys”.
Under detta moment använder vi den specialgjorda rutinen reggui som du kan ladda ner från
kursens hemsida.
Lektionens mål: Du ska
• kunna beskriva modellen ”enkel linjär regression” och de antaganden man gör i den
• med hjälp av Matlab kunna studera frågeställningar som är intressanta i regressionsmodellen och dra relevanta slutsatser (t.ex. skattning av parametrar och intervall)
• kunna undersöka om modellen passar bra till data och relatera detta till modellbeskrivningen
• kunna jämföra lutningarna i två regressionsmodeller
EXEMPEL: Inom det europeiska övervakningsnätet EMEP har man sedan 1979 mätt svaveldioxidhalten i luft vid fem olika stationer i Sverige bl.a. för att undersöka eventuella trender i
SO2 -halt. Årsmedelvärdena (µg/m3 ) från Rörvik i norra Halland och från Hoburgen på södra
Gotland är följande (källa: IVL Svenska Miljöinstitutet AB; www.ivl.se/) Data kan laddas ner
från kursens hemsida, data: ivl.mat.
År:
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
Rörvik:
Hoburgen:
4.67
3.40
4.60
2.86
3.32
2.28
4.21
2.97
2.78
2.50
3.22
2.98
3.79
2.96
3.53
2.40
2.92
2.07
2.83
2.29
År:
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
Rörvik:
Hoburgen:
2.69
2.85
1.82
1.60
1.67
1.32
1.20
1.05
1.19
1.20
0.97
1.14
1.08
1.03
1.02
1.23
0.64
0.71
0.60
0.69
I figur 1 nedan är de 20 årsmedelvärdena från de två mätstationerna utritade.
Antag att SO2 -halterna y1 , . . . y20 från Hoburgen kan beskrivas linjärt av tiden, och där slumpfelen tänks vara oberoende och normalfördelade med konstant varians. När man analyserade data
i Matlab (kommandot reggui) fick man det resultat som anges i figur 2.
Matematisk statistik för M
Årsmedelhalter av svaveldioxid i luft vid Rörvik
svaveldioxidhalt (mu g/m3)
5
4
3
2
1
0
1978
1980
1982
1984
1986
1988
Årtal
1990
1992
1994
1996
1998
1994
1996
1998
Årsmedelhalter av svaveldioxid i luft vid Hoburgen
svaveldioxidhalt (mu g/m3)
5
4
3
2
1
0
1978
1980
1982
1984
1986
1988
Årtal
1990
1992
Figure 1: SO2 -halt vid Rörvik och Hoburgen
Matematisk statistik för M
Linear Regression
5
4
hoburgen
3
2
1
0
−1
75
80
85
90
95
100
ar
Residuals
Normplot of Residuals
1
0.95
0.90
0.5
0.75
0
0.50
0.25
−0.5
0.10
0.05
−1
70
80
90
100
−1
−0.5
0
0.5
1
Figure 2: Linjär regressionsmodell anpassad till mätningar från Hoburgen
Matematisk statistik för M
1
2
3
4
5
6
7
8
9
10
11
12
Läs i avsnitt 2.2 i kompendiet Sambandsanalys om modellantaganden. Om y är SO2 halt och t är tiden, formulera en linjär regressionsmodell för data från Hoburgen.
Tolkning av modellens parametrar: Vad är tolkningen av parametrarna α och β
generellt i en linjär regressionsmodell? Vad blir tolkningen i SO2 -exemplet?
Tolkning av modellens σ: Vad innebär det om data om σ är stort? Vad innebär det
om σ är litet?
Tolkning av den antagna fördelningen: I modellen antas att variationen kring linjen
är normalfördelad, se figur 4 i kompendiet. Vad är alltså fördelningen för SO2 -halten som
vi observerar ett specifikt år, t.ex. 1990?
Skattning av parametrar: Vad är skattningarna av de angivna parametrarna α, β och
σ i SO2 -data från Hoburgen?
Konfidensintervall för parametrar: Ange konfidensintervallen för α och β i SO2 exemplet. Vad kan du dra för slutsatser från intervallet för β?
Läs om residualer i avsnitt 2.8. Vad är en residual? Hur ser de ut om den ansatta
modellen är rimlig? Vad ger de två undre figurerna i SO2 -exemplet ovan för information?
Konfidensintervall för en punkt på linjen och prediktionsintervall för enstaka
observation: Läs avsnitten 2.5 och 2.6 om konfidensintervall för µ0 , linjens läge vid x0 ,
samt om prediktionsintervall för observationen y vid x-värdet x0 . Det är viktigt att man
skiljer de två olika intervalltyperna åt.
Antag att man är intresserad av vad den förväntade SO2 -halten var år 1990, vilket av de
två intervallen ska man titta på då? Hur får man detta intervall utifrån figuren ovan?
Antag att vi är intresserade av att prognostisera vad uppmätt SO2 -halt kan vara för värde
år 1999. Vilket av de två intervallen ska man titta på då och hur får man detta intervall
utifrån figuren ovan?
Vad är modellens förklaringsgrad? Hur tolkar ni den? Vad är korrelationskoefficienten r mellan x-variabeln (år) och y-variabeln (SO2 -halt)?
Åter till SO2 -data: I figur 3 ges motsvarande analys på data från Rörvik. Man är intresserad av att undersöka om den årliga förändringen i svaveldioxid den samma vid de
båda mätstationerna? Vilka två parametrar i modellerna vill man alltså jämföra?
I avsnitt 2.12 i kompendiet finns beskrivet hur man kan jämföra lutningarna i två regressionssamband. Det intressanta konfidensintervallet finns längst ner på sidan 19 och ni
kommer att arbeta med det i ert Miniprojekt II.
För data från Rörvik och Hoburgen är följande kvadratsummor beräknade
Stt =
Rörvik
Hoburgen
12
A
B
(ti − t̄)2 Sty =
(ti − t̄)(yi − ȳ) Syy =
P
P
665
665
−144.4450
−89.8050
(yi − ȳ)2
P
34.4552
14.6299
Använd dessa för att undersöka om den årliga förändringen i svaveldioxid den samma vid
de båda mätstationerna.
Svar: Iβr −βh = (−0.1260, −0.0384)
Gör uppgifterna 5:289, 5:290, 5:293, 5:298, 5:305 i studiematerialet.
Inför övning 11:
Läs om multipel linjär regression i avsnitt 3 i ”Sambandsanalys” och observera matrisformuleringen av problemet.
Läs om korrelationskoefficienten i avsnitt 4, avsnitt 4.3 ”Var försiktig med korrelationskoefficienten” är speciellt viktigt eftersom korrelationskoefficienten är en av de mest missbrukade måtten, t.ex. inom media.
Matematisk statistik för M
Linear Regression
6
5
rorvik
4
3
2
1
0
−1
75
80
85
90
95
100
ar
Residuals
Normplot of Residuals
1
0.95
0.90
0.5
0.75
0
0.50
0.25
−0.5
0.10
0.05
−1
70
80
90
100
−1
−0.5
0
0.5
1
Figure 3: Linjär regressionsmodell anpassad till mätningar från Rörvik