Baggrundsnotat_omhandlende metode_til_Elforbrugspanelerne_08

8. maj 2012
Baggrundsnotat omhandlende metode til Elforbrugspanelerne
1 Formål ............................................................................................................................................... 1
2 Modelbeskrivelse .............................................................................................................................. 1
3 Forudsætninger for og mulige test af den lineære regressionsmodel ................................................ 2
3.1 OLS modellen og dens opbygning ............................................................................................. 2
3.2 Brugbare test .............................................................................................................................. 3
3.3 Test af den lineære regressionsmodel ........................................................................................ 5
3.3.2 Test for autokorrelation (Durbin Watson test) .................................................................... 5
3.3.3 Test for heteroskedasticitet (Breusch-Pagan) ..................................................................... 5
4 Resultater efter korrektion af autokorrelation ................................................................................... 6
5 Referencer ......................................................................................................................................... 6
8. maj 2012
1 Formål
Notatets formål er en viderebygning af et tidligere notat (udarbejdet af Mikael Togeby og senere
opdateret af Christoffer Nicolaj Rasch) omhandlende korrektionskoefficienter til brug i
elforbrugspanelerne. Desuden redegøres der for modellen og forudsætningerne bag denne, ligesom
disse forudsætninger testes vha. forskellige test. Notatet beregner også nye korrektionsfaktorer samt
drøfter eventuelle ændringer og nye variable.
2 Modelbeskrivelse
Elforbrugspanelernes vækstprocenter for 4 hovedgrupper bolig, landbrug, industri og handel og
Service for perioden fra 1999 til og med 2011 bliver opgjort både med og uden korrektion. Den
ukorrigerede vækstprocent er sammenstillet med en tidsserie med graddage og kalenderoplysninger
for at analysere sammenhængen mellem vækstprocenterne og klima, kalender m.m.
Dette notat viser den benyttede model, som beregningen tager udgangspunkt i. Desuden vil
forudsætningerne for den lineære regressionsmodel blive omtalt, ligesom test af disse vil blive
gennemført.
Modellen
Som udgangspunkt anvendes nedenstående model:
a0  a1 GD v  a 2 GDu  a3 Lør  a 4 Søn  a5 Dage
V =  a6 Trend  a7 Trend 2  a8 Strejke
 a9 Køledag  a10 Produktionsindeks
V: Vækstprocenten.
∆GD:
Forskel
i
antal
graddage
(v:
inden
for
opvarmningssæsonen,
u:
uden
for
opvarmningssæsonen).
∆Lør: Forskel i antal lørdage.
∆Søn: Forskel i antal søndage.
∆Dage: Forskel i antal dage (alene relevant i forbindelse med skudår).
Trend: måned (1 til 84). Denne variabel skal ses i sammenhæng med konstantleddet.
∆Strejke: Forskel i antal dage med generalstrejke (4 dage i april og 5 dage i maj i 1998).
∆Produktionsindeks: Industriens produktionsindeks (2000 = indeks 100). Denne testes kun i
erhvervene.
ai = Koefficienter, som estimeres ved en regressionsanalyse.
Elforbrugspanelerne
Side 1
8. maj 2012
Den endelige model er udvalgt ved at anvende den bagvendte udvælgelsesmetode. Der er startet
med alle variable og derefter fravalgt den mindst signifikante variabel, indtil alle variable har en
signifikans på 10 % eller bedre, hvilket betyder, at det med 90 % sikkerhed kan siges, at den
pågældende variabel kan forklare udviklingen i den afhængige variabel. Produktionsindekset er ikke
testet for boliger.
3 Forudsætninger for og mulige test af den lineære regressionsmodel
3.1 OLS modellen og dens opbygning
Alle modeller vil blive estimeret ud fra Ordinary Least Square (OLS) metoden, som er en lineær
regressionsmetode. Nedenstående formel viser en klassisk multipel regressionsmodel.
Y = α + X1β1 + X2β2 + … + Xkβk + ε, hvor ε er et stokastisk fejlled
(1)
Y er den afhængige variabel, mens X1, X2, …, Xk er de uafhængige variable.
Følgende antagelser ligger til grund for denne1
1.
Forholdet mellem den afhængige og uafhængige variabel er lineær.
2.
De uafhængige variable er ikke-stokastiske (dvs. med faste værdier). Desuden eksisterer der
ikke nogen lineær sammenhæng mellem to eller flere uafhængige variable.
3.
Den forventede værdi af fejlleddet er nul for alle observationer, dvs. E  i  1 ,  2 ... n   0 ,
hvilket indikerer helt tilfældige (stokastiske) fejlled uden systematiske afvigelser. Desuden
indeholder de uafhængige variable ingen information omkring regressionsligningens fejlled.
4.
Fejlleddet har en konstant varians for alle observationer (såkaldte sfæriske fejlled), dvs.
var  i X    2 , hvilket betyder ingen heteroskedasticitet.
5.
fejlleddene for forskellige observationer er uafhængige af hinanden og dermed ukorrelerede,
dvs. cov i ,  j X   0 , hvilket betyder ingen autokorrelation.
6.
Eksogene genererede data. Data i (Xj1, Xj2, …, Xjk) kan være enhver kombination af
konstanter og tilfældige variable. Den datagenererende proces opererer udenfor modellens
antagelser, det vil sige, at den er uafhængig af processen, der skaber ε.
7.
Fejlleddene er normalfordelte,
på
grund
af egenskaberne
ved
denne
fordeling.
Sandsynligheden for at fejlleddet ligger inden for én standardafvigelse fra middelværdien
1
Pindyck, R. S. og D. L. Rubinfeld, Econometric models and Economic Forecasts, 4. Edition, 1998, Irwin/McGrawHill. Side 86.
Elforbrugspanelerne
Side 2
8. maj 2012
(regressionslinien) er ca. 0,68, mens sandsynligheden for at fejlleddet ligger inden for 2
standardafvigelser fra middelværdien (regressionslinien) er ca. 0,95.2
Hvis antagelse 4,5 og 6 er opfyldt betyder det, at t følger følgende fordeling NIID(0,2) (NIID står
for Normally Independent Identically Distributed).
OLS metoden minimerer summen af de kvadrerede fejlled og er ovenstående antagelser opfyldt, vil
OLS regressionen være den bedste lineære ikke-systematisk-skævfordelte estimator (BLUE). Et
generelt problem ved sådanne estimationer er udelukkelse af relevante forklarende variable samt
inklusion af irrelevante variable. Modellernes endelige udseende vil blive præsenteret senere i
notatet.
3.2 Brugbare test
F-testet anvendes, når hele regressionsligningen skal testes. Det vil sige, at en eller flere af
modellernes koefficienter kan påvises at være signifikant forskellige fra nul og dermed vise, at den
lineære regressionsmodel kan forklare udviklingen i dataene. Der tages udgangspunkt i følgende
hypotese:3
H o :  ' erne  0
H 1 : ikke alle  ' erne  0
F
R 2 / K  1
~ F K  1, n - K 
1  R 2 / n  K 


(2)
Variablene i hver model testes via den almindelige t-test med følgende hypotese:
H o : i  0
H1 :  i  0
t
2
3
, hvor i = [1,2,…,n]
bk   k
~ t n  K 
sbk
(3)
Aczel, A. D., Complete Business Statistics, 4. Edition, 1999, Irwin/McGraw-Hill. Side 180.
Greene, W. H., Econometric Analysis – fifth edition, Prentice-Hall. side 54.
Elforbrugspanelerne
Side 3
8. maj 2012
Sbk er lig med standardfejlen for den enkelte variabel, mens βk angiver koefficienten i
alternativhypotesen (som i dette notat er lig med 0) og bk er regressionskoefficienten.
Hypotesetestene vil blive foretaget på et 10 % signifikansniveau (kritisk værdi er hermed 1,645).
Durbin-Watson testet tester om fejlleddene er korrelerede over tid (autokorrelation). Fejlleddene
antages at bestå af følgende elementer:4
 t   t 1  t , hvor 0    1
(5)
Elementet υt er fordelt som N 0,  2  og er uafhængig af andre fejlled over tid, mens εt er fordelt
som N 0,  2  men ikke er uafhængig af andre fejlled over tid. Testet bygger på følgende hypotese:
Ho :   0
H1 :   0
, hvor ρ henfører til elementet i formlen for fejlleddet
Testet udregnes ved hjælp af følgende formel:
T
DW 
 ˆ
t 2
t
 ˆt 1 
2
(6)
T
 ˆ
t 1
2
t
DW testet vil ligge mellem 0 og 4, og værdier, der ligger tæt på 2, vil betyde, at der ikke eksisterer
nogen første ordens auto/serie-korrelation. Positiv auto/serie-korrelation vil være til stede ved DWværdier under 2, mens negativ auto/serie-korrelation forbindes med DW-værdier over 2.
Til at teste for antagelsen om ingen heteroskedasticitet anvendes her Breusch-Pagan/Godfrey og
White test, der bygger på følgende hypotese:5
H 0 : Homoskedasticitet
H 1 : Heteroskedasticitet
4
Pindyck, R. S. og D. L. Rubinfeld, Econometric models and Economic Forecasts, 4. Edition, 1998, Irwin/McGrawHill. Side 160-166.
5
Pindyck, R. S. og D. L. Rubinfeld, Econometric models and Economic Forecasts, 4. Edition, 1998, Irwin/McGrawHill. Side 155-156.
Elforbrugspanelerne
Side 4
8. maj 2012
Yi    X i   i
(7)
for B - P/G test  i2  f   Z i , for White test ˆi2    Z i   i
hvor f() repræsenterer en generel funktion, og Z kan være en eller flere uafhængige variable.
For at teste nulhypotesen skal der for de benyttede test estimeres en ny ligning med de kvadrerede
residualer som afhængig variabel. For White testet er de uafhængige variable de oprindelige
variable samt kvadrater og krydsprodukter af disse, mens det for Breusch-Pagan/Godfrey testet kun
er variablene, der menes at være årsag til heteroskedasticiteten. Ved disse regressioner udledes R 2.
Observationsværdien for White testet og Breusch-Pagan/Godfrey testet, der begge følger en chi2
fordeling, fås henholdsvis ved:
N*R2
og
R 2  RSS
2  1 R2


(8)
Breusch-Pagan/Godfrey testet har ydermere den antagelse, at fejlleddet i formel (1) er
normalfordelt. I det følgende er Breusch-Pagan/Godfrey-testet anvendt.
3.3 Test af den lineære regressionsmodel
3.3.2 Test for autokorrelation (Durbin Watson test)
Durbin-Watson testet tester tilstedeværelsen af autokorrelation i datasættet (korrelerede fejlled).
Hvis fejlleddene er korrelerede, betyder det, at OLS stadig estimerer unbiased og konsistent men
ikke længere er efficient (i forhold til andre estimatorer såsom GLS/WLS). I modellen er
autokorrelation et generelt problem, men det løses ved at inkludere laggede værdier. De endelige
DW-teststørrelser er angivet i tabel 4.
3.3.3 Test for heteroskedasticitet (Breusch-Pagan)
Der er benyttet et Breusch-Pagan test til at teste for, hvorvidt modellerne indeholder
heteroskedasticitet. Implikationen af dette vil være, at estimatorerne er inefficiente. Standardfejlene
vil være estimeret forkert, og det vil være umuligt at teste for, hvorvidt nogle af de inkluderede
variable har insignifikante forklaringsgrader. I modellerne er heteroskedasticitet ikke et problem, i
størstedelen af modellerne kan hypotesen om heteroskedasticitet således afvises. I de tilfælde, hvor
hypotesen ikke kan afvises, benyttes de heteroskedasticitetsrobuste standardfejl, og det er således
alligevel muligt at teste for signifikans.
Elforbrugspanelerne
Side 5
8. maj 2012
4 Resultater efter korrektion af autokorrelation
Resultaterne efter korrektionen af autokorrelation og heteroskedasticitet fremgår af nedenstående
tabel:
Tabel 4 Koefficienter efter korrektion (dog er H&S ikke korrigeret men beregnet med OLS)
Boliger
Vest
2011
Øst
2011
Landbrug
Vest
Øst
2011
2011
Industri
Vest
Øst
2011
2011
Handel og Service
Vest
Øst
2011
2011
-0,9117
0,2146
-0,16049
-1,0759
-2,6085
-1,2415
-0,2297
-0,0062
Grad v.
Grad u.
0,0488
0,0605
0,0582
0,0785
0,0174
0,0138
0,0080
0,0110
0,0127
0,0109
Lørdag
Søndag
Dage
VE
0,3641
2,2338
0,0221
2,6456
-1,1399
3,7707
-1,41961
2,5133
-0,8370
-1,0379
3,2407
-0,8685
-0,9104
3,0277
0,3380
0,2482
0,0624
0,0817
0,1057
0,0601
0,0551
-0,0003
76,0 %
2,154
0,0418
-0,0003
60,3 %
2,029
0,00005
53,7 %
1,564
0,0261
-0,0002
49,6 %
1,8920
Konstant
0,5519
Strejke
Køle
P-indeks
1,6551
0,0215
-16653
-0,1417
0,7272
0,0334
Trend
-0,0002
Trend2
70,5 %
78,1 %
13,5 %
R2-adj
2,031
1,991
1,812
DW
Anmk.: Konstandled i kursiv er insignifikante.
-0,1909
0,0518
-0,0003
33,4 %
1,931
Disse resultater er blevet brugt til at korrigere væksten i elforbrugspanelerne fra og med 1. kvartal
2012. Dog korrigeres der ikke for Strejke, Trend og Produktionsindeks. Disse variable er medtaget
udelukkende for at sikre modellens stabilitet.
5 Referencer
-
Togeby, Mikael, Analyse af klimaets og kalenderens betydning for elforbrugspanelets
vækstrater, 2004, Elkraft System.
-
Aczel, A. D., Complete Business Statistics, 4. Edition, 1999, Irwin/McGraw-Hill.
-
Johnston, J. og J. Dinardo, Econometric Methods – fourth edition, 1997, McGraw-Hill.
-
Pindyck, R. S. og D. L. Rubinfeld, Econometric models and Economic Forecast, 4. Edition,
1998, Irwin/McGraw-Hill.
-
Greene, W. H., Econometric Analysis, 5. Edition, 2003, Prentice-Hall.
Elforbrugspanelerne
Side 6