732G71 Statistik B

732G71 Statistik B
Föreläsning 2
Bertil Wegmann
IDA, Linköpings universitet
November 13, 2015
Bertil Wegmann (IDA, LiU)
732G71, Statistik B
November 13, 2015
1 / 26
Kap. 4.1-4.5, multipel linjär regressionsanalys
y = µy |x1 ,x2 ,...,xk + e = β 0 + β 1 x1 + β 2 x2 + · · · + β k xk + e
I stället för en förklarande variabel kan vi inkludera era. Det är dock
viktigt att inte inkludera variabler som inte har någon eller endast
marginell betydelse för den beroende variabeln
Återigen inkluderas en felterm
e
y.
i modellen, som står för den del av
variationen i y som inte kan förklaras med hjälp av
regressionsmodellen.
Enligt modellantagandena ska följande egenskaper vara uppfyllda:
1. För varje kombination av värden
värdena på
feltermen noll .
2. Konstant varians . För varje
x1 , x2 , . . . , xk
är medelvärdet för
kombination av värden
x1 , x2 , . . . , xk har
σ2 .
värden x1 , x2 , . . . , xk
värdena på feltermen konstant varians. Denna varians kallas för
3.
Normalf ördelning .
För varje kombination av
följer värdena på feltermen en normalfördelning.
4.
Oberoende.
Alla värden på feltermen är statistiskt oberoende av alla
andra värden på feltermen.
e ∼ N (0, σ )
Bertil Wegmann (IDA, LiU)
732G71, Statistik B
November 13, 2015
2 / 26
Minstakvadratskattningar för multipel linjär regression
Även i multipel linjär regression används minstakvadratmetoden för att
hitta skattningar på parametrarna
β0 , β1 , β2 , . . . , βk ,
och det som ska
minimeras är:
SSE =
∑ (yi − yˆi )2 = ∑ (yi − (b0 + b1 x1 + b2 x2 + · · · + bk xk ))2
SSE brukar även kallas för den oförklarade variationen.
Formlerna för att skatta regressionsparametrarna blir väldigt
omständiga, så därför förlitar vi oss till statistiska programpaket för
detta.
Statistiska programpaket beräknar även dessa kvadratsummor:
Total variation i y = SST =
∑ (yi − ȳ )2
F örklarad variation i y = SSR =
Bertil Wegmann (IDA, LiU)
732G71, Statistik B
∑ (yˆi − ȳ )2
November 13, 2015
3 / 26
Kap. 4.4, F-testet (the overall F-test)
F-testet testar om den linjära regressionsmodellen är signikant eller
inte.
Om vi bara har en förklarande variabel är det samma som att testa om
parametern till denna variabel är signikant skild från noll.
Om vi har era förklarande variabler används dessa hypoteser:
H0 : β 1 = β 2 = · · · = β k = 0
Ha : åtminstone någon av β 1 , β 2 , . . . , β k är inte lika med noll
Testvariabel:
F =
där
k
MSR
SSR/k
=
,
SSE / (n − k − 1)
MSE
är antalet förklarande variabler i modellen.
Förkasta
H0
på signikansnivån
α
om
F > F[α],k,n−k −1
Bertil Wegmann (IDA, LiU)
732G71, Statistik B
November 13, 2015
4 / 26
Kap. 4.5, t-testet
Om F-testet är signikant innebär det att minst en förklaringsvariabel
signikant påverkar den beroende variabeln
y.
Det är då intressant att undersöka vilken/vilka förklaringsvariabler som
påverkar
y
signikant.
Detta görs med hjälp av enskilda t-test för varje variabel
j:
H0 : β j = 0
Ha : β j 6 = 0
Testvariabel:
t=
Förkasta
H0
på signikansnivån
α
bj
sbj
om
|t | > t[α/2],n−k −1
Bertil Wegmann (IDA, LiU)
732G71, Statistik B
November 13, 2015
5 / 26
Exempel
Följande datamaterial innehåller uppgifter om 150 slumpmässigt valda
fastigheter i USA.
Column
Name
Count
Description
Variabel
C1
Price
C2
Area
150
Price
150
Area in square feet
y
x1
x2
x3
x4
C3
Acres
150
Acres
C4
Rooms
150
Number of rooms
C5
Baths
150
Number of baths
Översättning
pris
bostadsyta
tomtyta
antal rum
antal badrum
Källa: MTBWIN/Student12/HOMES.MTW
Bertil Wegmann (IDA, LiU)
732G71, Statistik B
November 13, 2015
6 / 26
Spridningsdiagram (scatterplot)
Pris mot bostadsyta:
Scatterplot of Price vs Area
300000
Price
250000
200000
150000
100000
500
1000
1500
2000
2500
3000
3500
4000
Area
Bertil Wegmann (IDA, LiU)
732G71, Statistik B
November 13, 2015
7 / 26
Spridningsdiagram (scatterplot)
Pris mot tomtyta:
Bertil Wegmann (IDA, LiU)
732G71, Statistik B
November 13, 2015
8 / 26
Spridningsdiagram (scatterplot)
Pris mot antal rum:
Scatterplot of Price vs Rooms
300000
Price
250000
200000
150000
100000
2
4
6
8
10
12
14
Rooms
Bertil Wegmann (IDA, LiU)
732G71, Statistik B
November 13, 2015
9 / 26
Spridningsdiagram (scatterplot)
Pris mot antal badrum:
Scatterplot of Price vs Baths
300000
Price
250000
200000
150000
100000
1,0
1,5
2,0
2,5
3,0
3,5
4,0
Baths
Bertil Wegmann (IDA, LiU)
732G71, Statistik B
November 13, 2015
10 / 26
Exempel, regressionsmodell
Vi börjar med en modell som inte inkluderar alla förklarande variabler,
utan endast de som verkar viktigast: bostadsyta och antal rum.
Bertil Wegmann (IDA, LiU)
732G71, Statistik B
November 13, 2015
11 / 26
Exempel, skattad regressionsmodell från Minitab
Regression Analysis: Price versus Area; Rooms
Analysis of Variance
Source
Regression
Area
Rooms
Error
Lack-of-Fit
Pure Error
Total
DF
2
1
1
147
122
25
149
Adj SS
1,25273E+11
39528404917
2071358
1,32715E+11
1,07866E+11
24848918333
2,57989E+11
Adj MS
62636682991
39528404917
2071358
902824574
884149951
993956733
F-Value
69,38
43,78
0,00
P-Value
0,000
0,000
0,962
0,89
0,673
Model Summary
S
30047,0
R-sq
48,56%
R-sq(adj)
47,86%
R-sq(pred)
45,43%
Coefficients
Term
Constant
Area
Rooms
Coef
64221
49,67
-141
SE Coef
12766
7,51
2934
T-Value
5,03
6,62
-0,05
P-Value
0,000
0,000
0,962
VIF
3,21
3,21
Regression Equation
Price = 64221 + 49,67 Area - 141 Rooms
Bertil Wegmann (IDA, LiU)
732G71, Statistik B
November 13, 2015
12 / 26
Förklaringsgraden R 2
Vi kommer ihåg kvadratsummorna:
SST = Total variation i
y
SSR = Förklarad variation i
y
y
SSE = Oförklarad variation i
Med hjälp av dessa kan förklaringsgraden beräknas på samma sätt
som för enkel linjär regression:
R2 =
SSR
SST
Förklaringsgraden beskriver hur stor andel av den totala variationen i
den beroende variabeln
y
som kan förklaras med hjälp av de
förklarande variablerna i regressionsmodellen.
Bertil Wegmann (IDA, LiU)
732G71, Statistik B
November 13, 2015
13 / 26
Justerad förklaringsgrad R̄ 2
När man anpassar en regressionsmodell har man oftast två mål:
1) att hitta en modell som beskriver datamaterialet så bra som möjligt
(de anpassade värdena
ŷ
faktiska observationerna
från regressionsmodellen ska ligga nära de
y .)
2) att hitta en modell som kan göra bra prognoser för nya
observationer, d.v.s. göra bra punktprediktioner.
Genom att inkludera er och er förklarande variabler i
regressionsmodellen kan man ofta få en bättre och bättre anpassning
till datamaterialet. Men, detta till bekostnad på att prognoserna för
nya observationer blir ofta sämre (överanpassning).
Bertil Wegmann (IDA, LiU)
732G71, Statistik B
November 13, 2015
14 / 26
Justerad förklaringsgrad R̄ 2
Förklaringsgraden
R2
ökar alltid då man lägger till er förklarande
variabler.
Den justerade förklaringsgraden
R̄ 2 ökar
inte alltid om man lägger till
er förklarande variabler, eftersom denna innehåller en korrektion för
antalet förklarande variabler
k
och antalet observationer
n
i modellen.
Den justerade förklaringsgraden beräknas som
2
R̄ =
Bertil Wegmann (IDA, LiU)
k
R −
n−1
2
732G71, Statistik B
n−1
n−k −1
November 13, 2015
15 / 26
Exempel, regressionsmodell
Vi återgår till exemplet med fastigheterna med bostadsyta och antal
rum som förklarande variabler i regressionsmodellen.
Regression Analysis: Price versus Area; Rooms
Analysis of Variance
Source
Regression
Area
Rooms
Error
Lack-of-Fit
Pure Error
Total
DF
2
1
1
147
122
25
149
Adj SS
1,25273E+11
39528404917
2071358
1,32715E+11
1,07866E+11
24848918333
2,57989E+11
Adj MS
62636682991
39528404917
2071358
902824574
884149951
993956733
F-Value
69,38
43,78
0,00
P-Value
0,000
0,000
0,962
0,89
0,673
Model Summary
S
30047,0
R-sq
48,56%
R-sq(adj)
47,86%
R-sq(pred)
45,43%
Coefficients
Term
Constant
Area
Rooms
Coef
64221
49,67
-141
SE Coef
12766
7,51
2934
T-Value
5,03
6,62
-0,05
P-Value
0,000
0,000
0,962
VIF
3,21
3,21
Regression Equation
Price = 64221 + 49,67 Area - 141 Rooms
Bertil Wegmann (IDA, LiU)
732G71, Statistik B
November 13, 2015
16 / 26
Exempel, regressionsmodell
− α)% kondensintervall för medelvärdet av y och ett
− α)% prognosintervall för ett enskilt värde på y beräknas
Ett 100(1
100(1
på
liknande sätt som för den enkla linjära regressionsmodellen:
Konfidensintervall :
Prognosintervall :
Men,
Distance value
h
h
i
√
ŷ ± t[α/2],(n−k −1) s Distance value
ŷ ± t[α/2],(n−k −1) s
√
1
+ Distance value
i
kan inte beräknas lika enkelt som i fallet enkel
linjär regression. Däremot kan man ta den direkt från datorutskriften i
Minitab.
Bertil Wegmann (IDA, LiU)
732G71, Statistik B
November 13, 2015
17 / 26
Exempel, kondens- och prediktionsintervall från Minitab
Nu vill vi göra en prognos (prediktion) för priset på en fastighet med
bostadsytan 3000 square feet och antal rum lika med 6 med
tillhörande 95% prognosintervall (prediktionsintervall) i MINITAB.
Prediction for Price
Regression Equation
Price = 64221 + 49,67 Area - 141 Rooms
Variable
Area
Rooms
Fit
212396
Setting
3000
6
SE Fit
12306,7
95% CI
(188076; 236717)
95% PI
(148229; 276564)
XX
XX denotes an extremely unusual point relative to predictor levels used to fit
the model.
Bertil Wegmann (IDA, LiU)
732G71, Statistik B
November 13, 2015
18 / 26
Exempel, varning för extrema värden från Minitab
Varning för att den typ av fastighet vi valt har extrema värden på
förklaringsvariablerna.
Vi kan endast göra tillförlitliga prognoser på fastigheter där vi har
liknande fastigheter med i ursprungliga datamaterialet.
Bostadsyta med 3000 feet square är inte särskilt ovanligt i
datamaterialet.
Fastighet med 6 stycken rum är inte alls ovanligt i datamaterialet.
Vad är då problemet?
Bertil Wegmann (IDA, LiU)
732G71, Statistik B
November 13, 2015
19 / 26
Exempel, varning för extrema värden från Minitab
Om vi tittar på datamaterialet så ser vi att de fastigheter som ingår
och har exakt 6 rum har en bostadsyta mellan 1008 och 1900 square
feet.
Det är alltså kombinationen 3000 square feet och 6 stycken rum som
är extrem i datamaterialet.
Vi måste därför ta ställning till om det är rimligt att anta att modellen
är giltig även för denna typ av fastighet. Annars måste vi ta bort
denna extrema observation från datamaterialet.
Bertil Wegmann (IDA, LiU)
732G71, Statistik B
November 13, 2015
20 / 26
Kap. 4.7, kvadratisk regressionsmodell
Om sambandet till en variabel inte är linjärt så kan vi även inkludera
en kvadratisk term i regressionsmodellen.
Exempel, fastighetsdatat: antag att vi misstänker att antalet rum inte
påverkar priset på fastigheter i USA på ett linjärt sätt. Därför lägger vi
till variabeln antalet rum i kvadrat för att testa om ett krökt samband
är lämpligare för regressionsmodellen.
x3 = antal rum och x5 = x32
variabeln y = pris .
Alltså vill vi undersöka hur variablerna
förklarar variationen i den beroende
Som jämförelse börjar vi dock först med att skatta en enkel linjär
regressionsmodell med endast antal rum som förklarande variabel.
Bertil Wegmann (IDA, LiU)
732G71, Statistik B
November 13, 2015
21 / 26
Exempel, enkel linjär regressionsmodell
Vi börjar med en enkel linjär regressionsmodell utan kvadratisk term.
y = β 0 + β 3 x3 + e
Regression Analysis: Price versus Rooms
Analysis of Variance
Source
Regression
Rooms
Error
Lack-of-Fit
Pure Error
Total
DF
1
1
148
8
140
149
Adj SS
85744961064
85744961064
1,72244E+11
11542276823
1,60701E+11
2,57989E+11
Adj MS
85744961064
85744961064
1163808224
1442784603
1147866717
F-Value
73,68
73,68
P-Value
0,000
0,000
1,26
0,271
Model Summary
S
34114,6
R-sq
33,24%
R-sq(adj)
32,78%
R-sq(pred)
31,33%
Coefficients
Term
Constant
Rooms
Coef
37969
15966
SE Coef
13776
1860
T-Value
2,76
8,58
P-Value
0,007
0,000
VIF
1,00
Regression Equation
Price = 37969 + 15966 Rooms
Bertil Wegmann (IDA, LiU)
732G71, Statistik B
November 13, 2015
22 / 26
Exempel, enkel linjär regressionsmodell
Fitted Line Plot
Price = 37969 + 15966 Rooms
S
34114,6
R-Sq
33,2%
R-Sq(adj)
32,8%
300000
Price
250000
200000
150000
100000
2
4
6
8
10
12
14
Rooms
Bertil Wegmann (IDA, LiU)
732G71, Statistik B
November 13, 2015
23 / 26
Exempel, kvadratisk regressionsmodell
Multipel linjär regressionsmodell med kvadratisk term. Vi behåller
x3
originalvariabeln
för att göra modellen mer exibel.
y = β 0 + β 3 x3 + β 5 x32 + e
Regression Analysis: Price versus Rooms; RoomsSquared
Analysis of Variance
Source
Regression
Rooms
RoomsSquared
Error
Lack-of-Fit
Pure Error
Total
DF
2
1
1
147
7
140
149
Adj SS
91722934386
16224550005
5977973322
1,66266E+11
5564303501
1,60701E+11
2,57989E+11
Adj MS
45861467193
16224550005
5977973322
1131058802
794900500
1147866717
F-Value
40,55
14,34
5,29
P-Value
0,000
0,000
0,023
0,69
0,678
Model Summary
S
33631,2
R-sq
35,55%
R-sq(adj)
34,68%
R-sq(pred)
33,31%
Coefficients
Term
Constant
Rooms
RoomsSquared
Coef
-45920
39680
-1606
SE Coef
38935
10477
699
T-Value
-1,18
3,79
-2,30
P-Value
0,240
0,000
0,023
VIF
32,64
32,64
Regression Equation
Price = -45920 + 39680 Rooms - 1606 RoomsSquared
Bertil Wegmann (IDA, LiU)
732G71, Statistik B
November 13, 2015
24 / 26
Exempel, kvadratisk regressionsmodell
Fitted Line Plot
Price = - 45920 + 39680 Rooms
- 1606 Rooms^2
S
33631,2
R-Sq
35,6%
R-Sq(adj)
34,7%
300000
250000
Price
200000
150000
100000
50000
2
4
6
8
10
12
14
Rooms
Bertil Wegmann (IDA, LiU)
732G71, Statistik B
November 13, 2015
25 / 26
Exempel, kvadratisk regressionsmodell
Kvadratisk regression ger dock svårtolkade parametrar.
I modellen
ŷ = b0 + b3 x3
kan vi säga att priset för en fastighet förväntas öka med
b3
USD för
varje ytterligare rum.
I modellen
ŷ = b0 + b3 x3 + b5 x5
förväntas priset för fastigheten öka för varje ytterligare rum, men bara
upp till ett visst antal rum, sen stabiliseras priset.
Bertil Wegmann (IDA, LiU)
732G71, Statistik B
November 13, 2015
26 / 26