8. maj 2012 Baggrundsnotat omhandlende metode til Elforbrugspanelerne 1 Formål ............................................................................................................................................... 1 2 Modelbeskrivelse .............................................................................................................................. 1 3 Forudsætninger for og mulige test af den lineære regressionsmodel ................................................ 2 3.1 OLS modellen og dens opbygning ............................................................................................. 2 3.2 Brugbare test .............................................................................................................................. 3 3.3 Test af den lineære regressionsmodel ........................................................................................ 5 3.3.2 Test for autokorrelation (Durbin Watson test) .................................................................... 5 3.3.3 Test for heteroskedasticitet (Breusch-Pagan) ..................................................................... 5 4 Resultater efter korrektion af autokorrelation ................................................................................... 6 5 Referencer ......................................................................................................................................... 6 8. maj 2012 1 Formål Notatets formål er en viderebygning af et tidligere notat (udarbejdet af Mikael Togeby og senere opdateret af Christoffer Nicolaj Rasch) omhandlende korrektionskoefficienter til brug i elforbrugspanelerne. Desuden redegøres der for modellen og forudsætningerne bag denne, ligesom disse forudsætninger testes vha. forskellige test. Notatet beregner også nye korrektionsfaktorer samt drøfter eventuelle ændringer og nye variable. 2 Modelbeskrivelse Elforbrugspanelernes vækstprocenter for 4 hovedgrupper bolig, landbrug, industri og handel og Service for perioden fra 1999 til og med 2011 bliver opgjort både med og uden korrektion. Den ukorrigerede vækstprocent er sammenstillet med en tidsserie med graddage og kalenderoplysninger for at analysere sammenhængen mellem vækstprocenterne og klima, kalender m.m. Dette notat viser den benyttede model, som beregningen tager udgangspunkt i. Desuden vil forudsætningerne for den lineære regressionsmodel blive omtalt, ligesom test af disse vil blive gennemført. Modellen Som udgangspunkt anvendes nedenstående model: a0 a1 GD v a 2 GDu a3 Lør a 4 Søn a5 Dage V = a6 Trend a7 Trend 2 a8 Strejke a9 Køledag a10 Produktionsindeks V: Vækstprocenten. ∆GD: Forskel i antal graddage (v: inden for opvarmningssæsonen, u: uden for opvarmningssæsonen). ∆Lør: Forskel i antal lørdage. ∆Søn: Forskel i antal søndage. ∆Dage: Forskel i antal dage (alene relevant i forbindelse med skudår). Trend: måned (1 til 84). Denne variabel skal ses i sammenhæng med konstantleddet. ∆Strejke: Forskel i antal dage med generalstrejke (4 dage i april og 5 dage i maj i 1998). ∆Produktionsindeks: Industriens produktionsindeks (2000 = indeks 100). Denne testes kun i erhvervene. ai = Koefficienter, som estimeres ved en regressionsanalyse. Elforbrugspanelerne Side 1 8. maj 2012 Den endelige model er udvalgt ved at anvende den bagvendte udvælgelsesmetode. Der er startet med alle variable og derefter fravalgt den mindst signifikante variabel, indtil alle variable har en signifikans på 10 % eller bedre, hvilket betyder, at det med 90 % sikkerhed kan siges, at den pågældende variabel kan forklare udviklingen i den afhængige variabel. Produktionsindekset er ikke testet for boliger. 3 Forudsætninger for og mulige test af den lineære regressionsmodel 3.1 OLS modellen og dens opbygning Alle modeller vil blive estimeret ud fra Ordinary Least Square (OLS) metoden, som er en lineær regressionsmetode. Nedenstående formel viser en klassisk multipel regressionsmodel. Y = α + X1β1 + X2β2 + … + Xkβk + ε, hvor ε er et stokastisk fejlled (1) Y er den afhængige variabel, mens X1, X2, …, Xk er de uafhængige variable. Følgende antagelser ligger til grund for denne1 1. Forholdet mellem den afhængige og uafhængige variabel er lineær. 2. De uafhængige variable er ikke-stokastiske (dvs. med faste værdier). Desuden eksisterer der ikke nogen lineær sammenhæng mellem to eller flere uafhængige variable. 3. Den forventede værdi af fejlleddet er nul for alle observationer, dvs. E i 1 , 2 ... n 0 , hvilket indikerer helt tilfældige (stokastiske) fejlled uden systematiske afvigelser. Desuden indeholder de uafhængige variable ingen information omkring regressionsligningens fejlled. 4. Fejlleddet har en konstant varians for alle observationer (såkaldte sfæriske fejlled), dvs. var i X 2 , hvilket betyder ingen heteroskedasticitet. 5. fejlleddene for forskellige observationer er uafhængige af hinanden og dermed ukorrelerede, dvs. cov i , j X 0 , hvilket betyder ingen autokorrelation. 6. Eksogene genererede data. Data i (Xj1, Xj2, …, Xjk) kan være enhver kombination af konstanter og tilfældige variable. Den datagenererende proces opererer udenfor modellens antagelser, det vil sige, at den er uafhængig af processen, der skaber ε. 7. Fejlleddene er normalfordelte, på grund af egenskaberne ved denne fordeling. Sandsynligheden for at fejlleddet ligger inden for én standardafvigelse fra middelværdien 1 Pindyck, R. S. og D. L. Rubinfeld, Econometric models and Economic Forecasts, 4. Edition, 1998, Irwin/McGrawHill. Side 86. Elforbrugspanelerne Side 2 8. maj 2012 (regressionslinien) er ca. 0,68, mens sandsynligheden for at fejlleddet ligger inden for 2 standardafvigelser fra middelværdien (regressionslinien) er ca. 0,95.2 Hvis antagelse 4,5 og 6 er opfyldt betyder det, at t følger følgende fordeling NIID(0,2) (NIID står for Normally Independent Identically Distributed). OLS metoden minimerer summen af de kvadrerede fejlled og er ovenstående antagelser opfyldt, vil OLS regressionen være den bedste lineære ikke-systematisk-skævfordelte estimator (BLUE). Et generelt problem ved sådanne estimationer er udelukkelse af relevante forklarende variable samt inklusion af irrelevante variable. Modellernes endelige udseende vil blive præsenteret senere i notatet. 3.2 Brugbare test F-testet anvendes, når hele regressionsligningen skal testes. Det vil sige, at en eller flere af modellernes koefficienter kan påvises at være signifikant forskellige fra nul og dermed vise, at den lineære regressionsmodel kan forklare udviklingen i dataene. Der tages udgangspunkt i følgende hypotese:3 H o : ' erne 0 H 1 : ikke alle ' erne 0 F R 2 / K 1 ~ F K 1, n - K 1 R 2 / n K (2) Variablene i hver model testes via den almindelige t-test med følgende hypotese: H o : i 0 H1 : i 0 t 2 3 , hvor i = [1,2,…,n] bk k ~ t n K sbk (3) Aczel, A. D., Complete Business Statistics, 4. Edition, 1999, Irwin/McGraw-Hill. Side 180. Greene, W. H., Econometric Analysis – fifth edition, Prentice-Hall. side 54. Elforbrugspanelerne Side 3 8. maj 2012 Sbk er lig med standardfejlen for den enkelte variabel, mens βk angiver koefficienten i alternativhypotesen (som i dette notat er lig med 0) og bk er regressionskoefficienten. Hypotesetestene vil blive foretaget på et 10 % signifikansniveau (kritisk værdi er hermed 1,645). Durbin-Watson testet tester om fejlleddene er korrelerede over tid (autokorrelation). Fejlleddene antages at bestå af følgende elementer:4 t t 1 t , hvor 0 1 (5) Elementet υt er fordelt som N 0, 2 og er uafhængig af andre fejlled over tid, mens εt er fordelt som N 0, 2 men ikke er uafhængig af andre fejlled over tid. Testet bygger på følgende hypotese: Ho : 0 H1 : 0 , hvor ρ henfører til elementet i formlen for fejlleddet Testet udregnes ved hjælp af følgende formel: T DW ˆ t 2 t ˆt 1 2 (6) T ˆ t 1 2 t DW testet vil ligge mellem 0 og 4, og værdier, der ligger tæt på 2, vil betyde, at der ikke eksisterer nogen første ordens auto/serie-korrelation. Positiv auto/serie-korrelation vil være til stede ved DWværdier under 2, mens negativ auto/serie-korrelation forbindes med DW-værdier over 2. Til at teste for antagelsen om ingen heteroskedasticitet anvendes her Breusch-Pagan/Godfrey og White test, der bygger på følgende hypotese:5 H 0 : Homoskedasticitet H 1 : Heteroskedasticitet 4 Pindyck, R. S. og D. L. Rubinfeld, Econometric models and Economic Forecasts, 4. Edition, 1998, Irwin/McGrawHill. Side 160-166. 5 Pindyck, R. S. og D. L. Rubinfeld, Econometric models and Economic Forecasts, 4. Edition, 1998, Irwin/McGrawHill. Side 155-156. Elforbrugspanelerne Side 4 8. maj 2012 Yi X i i (7) for B - P/G test i2 f Z i , for White test ˆi2 Z i i hvor f() repræsenterer en generel funktion, og Z kan være en eller flere uafhængige variable. For at teste nulhypotesen skal der for de benyttede test estimeres en ny ligning med de kvadrerede residualer som afhængig variabel. For White testet er de uafhængige variable de oprindelige variable samt kvadrater og krydsprodukter af disse, mens det for Breusch-Pagan/Godfrey testet kun er variablene, der menes at være årsag til heteroskedasticiteten. Ved disse regressioner udledes R 2. Observationsværdien for White testet og Breusch-Pagan/Godfrey testet, der begge følger en chi2 fordeling, fås henholdsvis ved: N*R2 og R 2 RSS 2 1 R2 (8) Breusch-Pagan/Godfrey testet har ydermere den antagelse, at fejlleddet i formel (1) er normalfordelt. I det følgende er Breusch-Pagan/Godfrey-testet anvendt. 3.3 Test af den lineære regressionsmodel 3.3.2 Test for autokorrelation (Durbin Watson test) Durbin-Watson testet tester tilstedeværelsen af autokorrelation i datasættet (korrelerede fejlled). Hvis fejlleddene er korrelerede, betyder det, at OLS stadig estimerer unbiased og konsistent men ikke længere er efficient (i forhold til andre estimatorer såsom GLS/WLS). I modellen er autokorrelation et generelt problem, men det løses ved at inkludere laggede værdier. De endelige DW-teststørrelser er angivet i tabel 4. 3.3.3 Test for heteroskedasticitet (Breusch-Pagan) Der er benyttet et Breusch-Pagan test til at teste for, hvorvidt modellerne indeholder heteroskedasticitet. Implikationen af dette vil være, at estimatorerne er inefficiente. Standardfejlene vil være estimeret forkert, og det vil være umuligt at teste for, hvorvidt nogle af de inkluderede variable har insignifikante forklaringsgrader. I modellerne er heteroskedasticitet ikke et problem, i størstedelen af modellerne kan hypotesen om heteroskedasticitet således afvises. I de tilfælde, hvor hypotesen ikke kan afvises, benyttes de heteroskedasticitetsrobuste standardfejl, og det er således alligevel muligt at teste for signifikans. Elforbrugspanelerne Side 5 8. maj 2012 4 Resultater efter korrektion af autokorrelation Resultaterne efter korrektionen af autokorrelation og heteroskedasticitet fremgår af nedenstående tabel: Tabel 4 Koefficienter efter korrektion (dog er H&S ikke korrigeret men beregnet med OLS) Boliger Vest 2011 Øst 2011 Landbrug Vest Øst 2011 2011 Industri Vest Øst 2011 2011 Handel og Service Vest Øst 2011 2011 -0,9117 0,2146 -0,16049 -1,0759 -2,6085 -1,2415 -0,2297 -0,0062 Grad v. Grad u. 0,0488 0,0605 0,0582 0,0785 0,0174 0,0138 0,0080 0,0110 0,0127 0,0109 Lørdag Søndag Dage VE 0,3641 2,2338 0,0221 2,6456 -1,1399 3,7707 -1,41961 2,5133 -0,8370 -1,0379 3,2407 -0,8685 -0,9104 3,0277 0,3380 0,2482 0,0624 0,0817 0,1057 0,0601 0,0551 -0,0003 76,0 % 2,154 0,0418 -0,0003 60,3 % 2,029 0,00005 53,7 % 1,564 0,0261 -0,0002 49,6 % 1,8920 Konstant 0,5519 Strejke Køle P-indeks 1,6551 0,0215 -16653 -0,1417 0,7272 0,0334 Trend -0,0002 Trend2 70,5 % 78,1 % 13,5 % R2-adj 2,031 1,991 1,812 DW Anmk.: Konstandled i kursiv er insignifikante. -0,1909 0,0518 -0,0003 33,4 % 1,931 Disse resultater er blevet brugt til at korrigere væksten i elforbrugspanelerne fra og med 1. kvartal 2012. Dog korrigeres der ikke for Strejke, Trend og Produktionsindeks. Disse variable er medtaget udelukkende for at sikre modellens stabilitet. 5 Referencer - Togeby, Mikael, Analyse af klimaets og kalenderens betydning for elforbrugspanelets vækstrater, 2004, Elkraft System. - Aczel, A. D., Complete Business Statistics, 4. Edition, 1999, Irwin/McGraw-Hill. - Johnston, J. og J. Dinardo, Econometric Methods – fourth edition, 1997, McGraw-Hill. - Pindyck, R. S. og D. L. Rubinfeld, Econometric models and Economic Forecast, 4. Edition, 1998, Irwin/McGraw-Hill. - Greene, W. H., Econometric Analysis, 5. Edition, 2003, Prentice-Hall. Elforbrugspanelerne Side 6
© Copyright 2024