Lunds tekniska högskola, Matematikcentrum, Matematisk statistik Matematisk statistik AK för M, FMS 035 Övning 10 Denna övningslapp behandlar regression och är tänkt som förberedelse inför Miniprojekt II. Teorin finns i kompendiet ”Sambandsanalys”. Under detta moment använder vi den specialgjorda rutinen reggui som du kan ladda ner från kursens hemsida. Lektionens mål: Du ska • kunna beskriva modellen ”enkel linjär regression” och de antaganden man gör i den • med hjälp av Matlab kunna studera frågeställningar som är intressanta i regressionsmodellen och dra relevanta slutsatser (t.ex. skattning av parametrar och intervall) • kunna undersöka om modellen passar bra till data och relatera detta till modellbeskrivningen • kunna jämföra lutningarna i två regressionsmodeller EXEMPEL: Inom det europeiska övervakningsnätet EMEP har man sedan 1979 mätt svaveldioxidhalten i luft vid fem olika stationer i Sverige bl.a. för att undersöka eventuella trender i SO2 -halt. Årsmedelvärdena (µg/m3 ) från Rörvik i norra Halland och från Hoburgen på södra Gotland är följande (källa: IVL Svenska Miljöinstitutet AB; www.ivl.se/) Data kan laddas ner från kursens hemsida, data: ivl.mat. År: 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 Rörvik: Hoburgen: 4.67 3.40 4.60 2.86 3.32 2.28 4.21 2.97 2.78 2.50 3.22 2.98 3.79 2.96 3.53 2.40 2.92 2.07 2.83 2.29 År: 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 Rörvik: Hoburgen: 2.69 2.85 1.82 1.60 1.67 1.32 1.20 1.05 1.19 1.20 0.97 1.14 1.08 1.03 1.02 1.23 0.64 0.71 0.60 0.69 I figur 1 nedan är de 20 årsmedelvärdena från de två mätstationerna utritade. Antag att SO2 -halterna y1 , . . . y20 från Hoburgen kan beskrivas linjärt av tiden, och där slumpfelen tänks vara oberoende och normalfördelade med konstant varians. När man analyserade data i Matlab (kommandot reggui) fick man det resultat som anges i figur 2. Matematisk statistik för M Årsmedelhalter av svaveldioxid i luft vid Rörvik svaveldioxidhalt (mu g/m3) 5 4 3 2 1 0 1978 1980 1982 1984 1986 1988 Årtal 1990 1992 1994 1996 1998 1994 1996 1998 Årsmedelhalter av svaveldioxid i luft vid Hoburgen svaveldioxidhalt (mu g/m3) 5 4 3 2 1 0 1978 1980 1982 1984 1986 1988 Årtal 1990 1992 Figure 1: SO2 -halt vid Rörvik och Hoburgen Matematisk statistik för M Linear Regression 5 4 hoburgen 3 2 1 0 −1 75 80 85 90 95 100 ar Residuals Normplot of Residuals 1 0.95 0.90 0.5 0.75 0 0.50 0.25 −0.5 0.10 0.05 −1 70 80 90 100 −1 −0.5 0 0.5 1 Figure 2: Linjär regressionsmodell anpassad till mätningar från Hoburgen Matematisk statistik för M 1 2 3 4 5 6 7 8 9 10 11 12 Läs i avsnitt 2.2 i kompendiet Sambandsanalys om modellantaganden. Om y är SO2 halt och t är tiden, formulera en linjär regressionsmodell för data från Hoburgen. Tolkning av modellens parametrar: Vad är tolkningen av parametrarna α och β generellt i en linjär regressionsmodell? Vad blir tolkningen i SO2 -exemplet? Tolkning av modellens σ: Vad innebär det om data om σ är stort? Vad innebär det om σ är litet? Tolkning av den antagna fördelningen: I modellen antas att variationen kring linjen är normalfördelad, se figur 4 i kompendiet. Vad är alltså fördelningen för SO2 -halten som vi observerar ett specifikt år, t.ex. 1990? Skattning av parametrar: Vad är skattningarna av de angivna parametrarna α, β och σ i SO2 -data från Hoburgen? Konfidensintervall för parametrar: Ange konfidensintervallen för α och β i SO2 exemplet. Vad kan du dra för slutsatser från intervallet för β? Läs om residualer i avsnitt 2.8. Vad är en residual? Hur ser de ut om den ansatta modellen är rimlig? Vad ger de två undre figurerna i SO2 -exemplet ovan för information? Konfidensintervall för en punkt på linjen och prediktionsintervall för enstaka observation: Läs avsnitten 2.5 och 2.6 om konfidensintervall för µ0 , linjens läge vid x0 , samt om prediktionsintervall för observationen y vid x-värdet x0 . Det är viktigt att man skiljer de två olika intervalltyperna åt. Antag att man är intresserad av vad den förväntade SO2 -halten var år 1990, vilket av de två intervallen ska man titta på då? Hur får man detta intervall utifrån figuren ovan? Antag att vi är intresserade av att prognostisera vad uppmätt SO2 -halt kan vara för värde år 1999. Vilket av de två intervallen ska man titta på då och hur får man detta intervall utifrån figuren ovan? Vad är modellens förklaringsgrad? Hur tolkar ni den? Vad är korrelationskoefficienten r mellan x-variabeln (år) och y-variabeln (SO2 -halt)? Åter till SO2 -data: I figur 3 ges motsvarande analys på data från Rörvik. Man är intresserad av att undersöka om den årliga förändringen i svaveldioxid den samma vid de båda mätstationerna? Vilka två parametrar i modellerna vill man alltså jämföra? I avsnitt 2.12 i kompendiet finns beskrivet hur man kan jämföra lutningarna i två regressionssamband. Det intressanta konfidensintervallet finns längst ner på sidan 19 och ni kommer att arbeta med det i ert Miniprojekt II. För data från Rörvik och Hoburgen är följande kvadratsummor beräknade Stt = Rörvik Hoburgen 12 A B (ti − t̄)2 Sty = (ti − t̄)(yi − ȳ) Syy = P P 665 665 −144.4450 −89.8050 (yi − ȳ)2 P 34.4552 14.6299 Använd dessa för att undersöka om den årliga förändringen i svaveldioxid den samma vid de båda mätstationerna. Svar: Iβr −βh = (−0.1260, −0.0384) Gör uppgifterna 5:289, 5:290, 5:293, 5:298, 5:305 i studiematerialet. Inför övning 11: Läs om multipel linjär regression i avsnitt 3 i ”Sambandsanalys” och observera matrisformuleringen av problemet. Läs om korrelationskoefficienten i avsnitt 4, avsnitt 4.3 ”Var försiktig med korrelationskoefficienten” är speciellt viktigt eftersom korrelationskoefficienten är en av de mest missbrukade måtten, t.ex. inom media. Matematisk statistik för M Linear Regression 6 5 rorvik 4 3 2 1 0 −1 75 80 85 90 95 100 ar Residuals Normplot of Residuals 1 0.95 0.90 0.5 0.75 0 0.50 0.25 −0.5 0.10 0.05 −1 70 80 90 100 −1 −0.5 0 0.5 1 Figure 3: Linjär regressionsmodell anpassad till mätningar från Rörvik
© Copyright 2024