Adv. Microeconometrics - Goutham Jørgen Surendran

INDHOLD
Goutham Jørgen Surendran 15. februar 2015
Indhold
1 Introduction
3
2 Linear panel data with strictly exogenous regressors, Basic Linear Unobserved Eects
Panel Data
Random Eects Framework . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Fixed Eects Framework . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Between transformation: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
First dierence transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Hausman Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Sekveniel eksogenitet betinget af den uobserverede eekt . . . . . . . . . . . . . . . . . . . . . .
POLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
First Dierence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Fixed Eects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Sekveniel eksogenitet betinget af den uobserverede eekt og korralation med fejlled . . . . . . .
3
4
6
7
7
8
9
9
9
9
10
3 M-estimation
Non-linear Regression Model;
General population problem .
Two step estimation . . . . . . .
Numerical Optimization . . . .
Maximum Likelihood . . . . . . . . . . .
Konsistens . . . . . . . . . . . . . .
10
10
11
12
13
13
14
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Binary
14
Latent variabel model; . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Random Utility model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
5 Multinominal Response Models
16
6 Binary Panel Data
17
Random Eect . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Fixed Eects Logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
7 Censored Regression Model
19
Tobit Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
8 Sample selection
1. Selection on a regressor . . . . . . . . . . . . . . . . . . . . . . . . . . .
2. s er uafhængig af x1 og u1 . . . . . . . . . . . . . . . . . . . . . . . . .
3. Truncated regression, selection on repsons variabels = 1 (a1 < y1 < a2 )
4. Incidental truncation, s = 1 (xδ2 + v2 > 0), diskret respone selection . .
5. y2 = max (0, xδ2 + v2 ) og s = 1 (y2 > 0), Tobit selction . . . . . . . . .
Likelihood model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Maximum Likelihood version of Heckmans' sample selection model . . . .
Non-parametric identication . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Non-parametric bounds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
23
23
24
24
24
25
26
26
27
28
9 Bootstrap
28
Block bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1
INDHOLD
10 Non-, semi-, og parametic estimation
Nonparametic regression . . . . . . . . . . . . .
Kernel density histogram approach . . . .
Kernel density estimation . . . . . . . . .
Nadaraya-Watson estimator . . . . . . . .
Local linear nonparametic regression . . .
Properties of the kernel density estimator
Bandwith selection . . . . . . . . . . . . .
Bih oh and small oh . . . . . . . . . . . .
.
.
.
.
.
.
.
.
11 Treatment Eects
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
28
28
28
29
29
29
30
30
30
30
2
Advanced Microeconometrics
24. februar 2015
1 Introduction
Cross section;
Independent, not identically distributed (I.N.I.D); Antagelsen om I.I.D vil sjældent holde ved
pooled cross section. Ofte vil data være I.I.D i perioden, men ikke i mellem. Relativ nemt at håndtere,
f.eks. ved inkludering af timedummies.
Spatial correlation; Correlation mellem cross sectional observations. F.eks. arbejdsløsheden i Lolland
og Falster vil være korreleret. Corr (xLolland,t , xF alster,t ) > 0.???
Cluster Sampling; Samme som spatial correlation, med den forskel at det kan grupperes. Grupper/clusters med correlation i observationer i gruppen, men ikke i mellem.
Sample selection; Not a random sample from the population of interest.
Panel data; Samme individer over tid. Random sample af individer, men samme over tid. Timedependency.
Asymptotiske egenskaber; Estimatorer konvegens, når N → ∞. Konvergere estimatoreren mod den
sande værdi, når antallet af observationer i et cross section/panel data er højt nok.
Parametric model; Mode, hvor den betingede forventning, E (y|x), er speciceret til at afhænge af et
endeligt sæt af parametre.
2 Linear panel data with strictly exogenous regressors, Basic Linear Unobserved Eects Panel Data
Det essentielle problem her er, om den uobserverede eect,ci , korrelerer med den forklarende variabel.
Bemærk at ci er en random variabel, ikke en parameter, der skal estimeres.
Chamberlain (1984);
Basic Linear Unobserved Eects Panel Data;
E (yit |xit , ci ) = xit β + ci
yit = xit β + ci + uit
(2.1)
(2.2)
hvor i = 1, . . . , N angiver tværsnitsenheden, som vi observere og t = 1, . . . , T som angiver tid. ci er den
uobserverede individspecikke komponent (timeconstant individual hetoerogenity), som er konstant
over tid. uit er uafhængigt fejlled.
Hvis E [x0it ci ] = 0, da er βP ooled OLS en konsistent estimater (c indgår i fejlleddet). Hvis ci kovarierer
med en eller ere forklarende variabler i xit , E [x0it ci ] 6= 0, da er βOLS ikke et konsistent estimat (da x
3
2
LINEAR PANEL DATA WITH STRICTLY EXOGENOUS REGRESSORS, BASIC LINEAR
UNOBSERVED EFFECTS PANEL DATA
dermed korrelere med fejlleddet u. Dette kan vises her (simplikation med kun et t):
plimβb = plim
= plim

N
 X



!−1
x0i xi
i=1
=
x0i yi
!


i=1
N −1
N
X

(?)
N
X
!−1
x0i xi
N −1
i=1
(
plim N
N
X
−1
N
X
x0i yi
)!−1
(
plim N
i=1
= (E
−1
[x0i xi ])
−1
= (E [x0i xi ])
E

[x0i

i=1
x0i xi
!

−1
N
X
)
x0i yi
i=1
(xit β + ιT ci + uit )]

E [x0i xit β] + E [x0i ιT ci ] + E [x0i uit ]
| {z }
0
−1
= β + (E [x0i xi ])
E [x0i ιT ci ]
hvor vi i (?)brugte Slutsky's Theorem. plimβb 6= β for E [x0it ci ] 6= 0. Mulige måder at håndtere det på
(1 periode data)
• Proxy variable for ci
• IV-estimation som 2SLS, hvor de korrelerede x'er bruges til at nde et instrument.
Slutsky's Theorem;the plim of a product is the product of the plim
Unobserved eect; I panel data, den uobserverede tidskonstante variabel. Intuitivt kan man antage, at
eekten fanger individ karakteristikker som ability, motivation osv.
Idiosynkratiske fejlled; Fejlledet ændrer sig over tid, t, og i, uit .
Strengt eksogen betinget af den uobserveret eekt; Der ingen partial eekt fra observere variable
fra tidspunkt s,xis , på yit , hvor s 6= t og der er kontrolleret for xit og ci .
E (yit |xit , xit−1 , . . . , xi1 , ci ) = E (yit |xit , ci ) = xit β + ci
Bemærk ved brug af LIE:
E (yit |xit , xit−1 , . . . , xi1 ) = xit β + E (ci |xit , xit−1 , . . . , xi1 )
vil antagelse være forkert, hvis E (ci |xit , xit−1 , . . . , xi1 ) 6= E (ci ), altså hvis ci korrelere med en af de
forklare xit .
Composite
errors; F.eks. vit = ci + uit . Pooled OLS er konsistent, hvis E (x0it vit ) = 0, t = 1, 2, . . . , T .
√
N -asymptotisk normalfordelt;
Random Eects Framework
Vi arbejder stadig med ligning 2.2, som vi transformere til:
yit = xit β + vit
vit = ci + uit
E (vit |xt ) = 0
som er samme data, som OLS estimere. Random Eect har dog den fordel, at udnytte panel strukturen
(repeated data for same individuals), og dermed formindske fejlleddet.
For Random Eect model antager vi at:
RE.1
(a) E (uit |xi1 , . . . , xiT , ci ) = 0, for t = 1, . . . , T (Strengt eksogenitet)
(b) E (ci |xi1 , . . . , xiT ) = E (ci ) = 0, (Ortogonalt mellem ci og hvert xi , t = 1, . . . , T , E (ci ) = 0
ikke essentiel, hvis intercept er inkluderet i estimation)
4
2
LINEAR PANEL DATA WITH STRICTLY EXOGENOUS REGRESSORS, BASIC LINEAR
UNOBSERVED EFFECTS PANEL DATA
RE.2 Rank E ∆x0i ∆xi = K , for i = 1, . . . , N
RE.3
(a) E (ui u0i |xi , ci ) = σu2 IT (Konstant over tid og ej autokorreleret,E (uit uis ) = 0, ∀t 6= s)
(b) E c2i |xi = σu2
Når RE.1(a) og RE.1(b) holder, er de forklarende variabler, xit , strengt eksogene. Når RE.2 også
holder, vil OLS være en konsistent estimator. Når RE.3 er overholdt vil Var-Cov matricen for i være
følgende T × T :
 2
σc + σu2

 σc2
Ω = E [vi vi0 ] = 

..

.
σc2
σc2
σc2
···
σc2 + σu2
..
..
.
.
σc2
···

σc2
σc2
+ σu2


 = σc2 jT j0T + σu2 IT


T ×T
hvor jT er en T -vektor med 1-taller, og IT er en T × T -enhedsmatrice. Bemærk matricen er uafhængig
af størrelsen af T . I tilfældet, at der ikke eksistere en individuel eekt, hvormed vit = uit , da vil matricen
blive simpliceret til Ω = σu2 IT og βOLS være en ecient estimator. Er vit 6= uit , skal vi istedet udnytte
GLS-estimatoren, der vil være ecient under de gældende betingelser:
βbRE =
"N
X
−1
x0i Ω̂ xi
#−1
i=1
N
X
−1
x0i Ω̂
yi
i=1
Igen noteres, at ved vit = uit , da vil estimatoren være identisk med OLS.
Til praktisk brug kan RE estimatoren vha. OLS af transformered data, quasi-time demeaning.
Forklarende og afhængige variabler transformeres ved at blive ganget på med en matrice, CT , så
x̌i =CT xi , y̌i = CT yi
hvorCT ≡ IT − λPT , PT ≡ It − QT ≡ T −1 jj0
s
σu2
λ≡1−
σu2 + T σc2
Dernæst tages den pooled OLS af det transformerede data:
βbRE = X̌0 X̌
−1
X̌0 y̌
(N T ×K)(N T ×1)
For at estimere λ̂ = 1 −
q
2
σ̂u
2 +T σ̂ 2
σ̂u
c
, udnyttes residuallerne ved FE og Between Transformation:
2
σ̂w
=
σ̂u2 =
σ̂c2
0 1
1
ȳ − x̄β̂BE
ȳ − x̄β̂BE
T N −K
ˆ0 ü
ˆ
ü
NT − N − K
1
2
= σ̂w
− σ̂u2
T
hvor üˆ = ÿ − ẍβ̂F E . Dette indæIsten for at fratrække med tidsgennemsnittet for de u- og afhængige
variable for hvert t, fjernes ved RE en fraktion af tidsgennemsnittet. Når λ̂ ≈ 1, da vil RE og FE tendere
til at være tæt.
βbRE =
N X
T
X
!−1
x̌0it x̌it
i=1 t=1
N X
T
X
i=1 t=1
hvor x̌it ≡ xit − λ̂x̄i
5
!
x̌0it y̌it
2
LINEAR PANEL DATA WITH STRICTLY EXOGENOUS REGRESSORS, BASIC LINEAR
UNOBSERVED EFFECTS PANEL DATA
Kovarians-matricen for β̂RE er
−1
\
Avar β̂RE = σ̂v̌2 X̌0 X̌
hvor v̌ er det quasi-demeaned residualer bestemt fra regression af y̌ på X̌.
Bemærk
• for σu2 → ∞ eller σc2 → 0, da er λ → 0 og RE → OLS .
• for σu2 → 0 eller σc2 → ∞, da er λ → 1 og RE → F E .
2 σc
≥ 0, er et brugbart mål for relevansen for det uobsereverede fejlled.
• Corr σ2 +σ
2
c
u
RE2SLS;
Fixed Eects Framework
Man ønsker at eliminere den uobserverede eekt, ci , som antages at time invariant og tilladtE (ci |xi ) 6= 0.
Vi tager gennemsnittet af variablerne i ligning (2.2):
ȳi = x̄t β + ci + ūt
P
P
P
P
hvor ȳi = T −1 Tt=1 yit , x̄i = T −1 Tt=1 xit , ūi = T −1 Tt=1 uit og ci = T −1 Tt=1 ci ,
Der trækkes fra fra ligning (2.2), hvormed vi har foretaget en With-in transformation:
yit − ȳi = (xit − x̄t ) β + (ci − ci ) + (uit − ūt )
⇒ ÿit = ẍit β + üit
hvor ÿ ≡ yit − ȳi . Via transformationen af data har fjernet ci :
βF E = (ẍ0 ẍ)
β̂F E =
−1
ẍ0
ÿ
k×N T N T ×1
N X
T
X
!−1
ẍ0it ẍit
i=1 t=1
N X
T
X
!
ẍ0it ÿit
i=1 t=1
For estimatet gælder følgende antagelser:
FE.1 E (uit |xi1 , . . . , xiT , ci ) = 0, for t = 1, . . . , T (man tillader E (ci |xi ) 6= 0)
FE.2 Rank E (ẍ0i ẍi ) = K , for i = 1, . . . , N Drawback : Timeconstant observables kan ikke inkluderes, da
de går ud.
FE.3 E (ui u0i |xi1 , . . . , xiT , ci ) = E (ui u0i ) = σu2 IT , for i = 1, . . . , N (idiosynkratisk fejlled, der har en
konstant varians over tid og ikke seriekorreleret. Homoskedastisk og ingen seriekorrelation)
Er FE.1(streng eksogenitet istedet for eksogenitet) og FE.2 opfyldt, er estimatet konsistent, og ecient
hvis også FE.3 er opfyldt ( u er uafhængig og identisk fordelt over tid og individ) . Under de tre antagelser
kan den asymptotiske konsistent kovariansmatrice estimeres til:
\
Avar βbF E = σ̂u2
N X
T
X
!−1
ẍ0it ẍit
i=1 t=1
σ̂u2 =
PN PT
ˆ2
ˆ0 ü
ˆ
ü
ü
= i=1 t=1 it
N (T − 1) − K
N (T − 1) − K
ˆ ≡ ÿ − ẍβ
ü
SSR divideres med N (T − 1) − K = N T − N − K , og ikke med N T − K som i plain vanilla OLS. Dette
skyldes estimeringen af N individuelle interceptled.
Bemærk; Intercepter i FE kan betragtes som et estimat af den gennemsnitlige heterogenitet.
Dummy Variable Estimator; Det er muligt at estimere ci sammen med β ved at udvide FE med N
dummy variable, en for hver observation; dni = 1, hvis n = i, dni = 0 hvis n 6= i, og foretage en pooled
OLS regression:
yit on d1i , d2i , . . . , dNi , xit , hvor t = 1, 2, . . . , T, i = 1, 2, . . . , N
Da er cˆi koecienten til d1i osv.
Bemærk:
6
2
LINEAR PANEL DATA WITH STRICTLY EXOGENOUS REGRESSORS, BASIC LINEAR
UNOBSERVED EFFECTS PANEL DATA
• For T = 2, üi1 = −üi2 , perfekt negativ korrelation. Pointless af bruge üit for test af seriekorrelation.
• FEGLS hvorfor?
• Under FE.1-3 er FE mere ecient end FD.
FE2SLS;
FEIV.1 E (uit |zi1 , ci ) = 0, for t = 1, . . . , T (man tillader E (ci |zi ) 6= 0)
FEIV.2 Rank E (z̈0i z̈i ) = L, Rank E (z̈0i ẍi ) = K for i = 1, . . . , N
FEIV.3 E (ui u0i |zi , ci ) = E (ui u0i ) = σu2 IT , for i = 1, . . . , N
Between transformation:
Set i forhold til Fxed Eects , fortages en OLS estimation af tidsgennemsnittet af (2.2) (hermed interesseres kun for variation på tværs af observationerne):
ȳi = x̄t β + ci + ūt
PT
PT
−1
−1
hvor ȳi = T
t=1 yit , x̄i = T
t=1 xit , ūi = T
t=1 uit og ci = T
t=1 ci . Estimatoren vil
ikke være konsistent, hvis E (ci |xi ) =
6 0, ergo ikke konsistent under FE.1, men under RE.1. Random
PT
−1
PT
−1
Eects Model er mere ecient frem for Between Transformation, da den udnytte tidsserie information
(større data sæt).
First dierence transformation
∆yit = ∆xit β + ∆uit , t = 2, . . . , T
hvor ∆yit = yit − yit−1 , ∆xit = xit − xit−1 og ∆uit = uit − uit−1 . Dette vil fjerne den tidsinvariante
variabelci (∆yit = ci − ci = 0).
Fra det transformerede data har vi at:
βbF D = ∆x0 ∆x
−1
∆x0 ∆y
For estimatet gælder følgende antagelser:
FD.1 E (uit |xi1 , . . . , xiT , ci ) = 0, for t = 1, . . . , T (man tillader E (ci |xi ) 6= 0)
FD.2 Rank E ∆x0i ∆xi
= Rank
P
T
t=2
E ∆x0i ∆xi = K , for i = 1, . . . , N
FD.3 E (ei e0i |xi1 , . . . , xiT , ci ) = σu2 IT−1 hvor ei = ∆ui for i = 1, . . . , N
Er FD.1 og FD.2 opfyldt, er estimatet konsistent, og ecient og asymptotisk, hvis også FD.3 er opfyldt.
Under de tre antagelser kan den asymptotiske kovariansmatrix estimeres til:
−1
\
Avar β̂F D = σ̂e2 ∆X0 ∆X
hvor
σ̂e2 =
PN PT
i=1
2
t=2 êit
N (T − 1) − K
êit = ∆yit − ∆xit β̂F D
7
2
LINEAR PANEL DATA WITH STRICTLY EXOGENOUS REGRESSORS, BASIC LINEAR
UNOBSERVED EFFECTS PANEL DATA
• FE og FD identiske estimater og inferens, hvis T = 2.
• Hvis T ≥ 3, da
En vigtig konsekvens af F E.3 6= F D.3 vil βF D 6= βF E
Under FE.3: uit er iid white noise, ingen serial korrelation ⇒eit er ukorreleret.eit er autokorreleret med
corr (eit , eit−1 ) = −0, 5
Under FD.3: uit følger en random walk, uit = ui,t−1 − eit . Hvis der er korrelation, brug robust varians
matrice (10.70)
Testes ved t-test af ;
êit = ρ̂1 êi,t−1 + errorit , t = 3, 4, . . . , T ; i = 1, 2, . . . , N
Bemærk under begge har vi antager streng eksogenitet, FE.1 og FD.1. Dette er som en konsekvens af at
vi ikke længere antager E (ci |xi ) = 0
Vi kan teste hypotese om autokorrelation, AR(1)
êit = ρêit−1 + errorit
hvor nulhypotesen er
H0 : ρ = 0, HA : ρ 6= 0
Nulhypotesen er dermed FD.3, mens alternativ hypotesen er FE.3 8(ρ = −0, 5). Bemærk at streng
eksogentitet, FE.1 holder, eller kan hypotesen ikke testes. Dermed kan hverken FE eller FD bruges som
estimator.
FD2SLS;
Hausman Test
Test om ci og xit korrelere eller ej,Cov (xit , ci ), som er den essentielle forskel mellem RE og FE. Nulhypotesen er
? 0
H0 : E (w̄i − w̄i ) ci = 0
hvor er wi ⊂ xi er de time-varying forklarende variable. Dermed er nulhyptosen at RE.1b er overholdt.
• Strengt eksogenitet, RE.1a/FE.1, er et nødvendigt kræv for RE og FE er konsistent.,
• Antager at RE.3 holder under nul.
E (ui u0i |xi , ci ) = σu2 IT (Konstant over tid og ej autokorreleret,E (uit uis ) = 0, ∀t 6= s)
E c2i |xi = σu2
• Koecienter for time-constant forklarende variabler kan ikke sammenlignes for RE og FE. FE
identicerer kun β 'er for time-varying forklarende variabler.
0 h
i−1 H = β̂F E − β̂RE
V ar β̂F E − V ar β̂RE
β̂F E − β̂RE ∼ χ2 (M )
hvor dim β̂RE = (M × 1). Hvis nulhyptosen ikke kan afvises, da er β̂F E − β̂RE tæt på 0.
(V ar β̂F E − V ar β̂RE er altid positiv denit, da V ar β̂F E > V ar β̂RE både under nul- og
alternativhypotesen (FE inkludere ikke time-invariant forklarende variable, ergo færre forklarende variable).
Kan forsimples til følgende, hvis kun en parameter er af interesse
H=
β̂Fj E
−
j
β̂RE
0 2
2 − 21
a
j
j
∼ N (0, 1)
se β̂F E − se β̂RE
Kan vi ikke afvise nulhypotesen, RE.1b E (ci |xi1 , . . . , xiT ) = E (ci ) = 0 er overholdt, vil FE=RE, men
RE er at foretrække (ere estimater og forklarende variabel, hence mindre varians).
p
β̂F E → β
p
β̂RE → β
8
2
LINEAR PANEL DATA WITH STRICTLY EXOGENOUS REGRESSORS, BASIC LINEAR
UNOBSERVED EFFECTS PANEL DATA
Afvises nulhypotesen er RE.1b E (ci |xi1 , . . . , xiT ) = E (ci ) = 0 er ikke overholdt, hvorfor RE vil
resultere i inkonsistente estimater, der er forskellige fra konsistente FE estimater.
p
β̂F E → β
β̂RE 9 β
Problem:
• Statisk afvisning af RE.1b med meget små forskelle mellem RE og FE estimater
• Ingen statistisk afvisning af RE.1b med meget store forskelle mellem RE og FE estimater, da
standardafvigelserne er store.
Correlated random Eects; Antager, af der er korrelation mellem de observerede variabler,xit , og
uobserverede eect, ci , Cov (xit , ci ) 6= 0, t = 1, 2, . . . , T
Sekveniel eksogenitet betinget af den uobserverede eekt
Vi svækker på antagelsen streng eksogenitet betinget på ci
E (uit |xi1 , . . . , xiT , ci ) = 0, f ort = 1, . . . , T
da betingelse fjerne muligheden for at uit kan påvirke fremtidige værdier af xit . Istedet betragtes en
model, hvor fejlledet opfylder Sekventiel moment betingelse:
E (uit |xit , xit−1 , . . . , xi1 , ci ) = 0
Ud fra lign (2.1) og ovenstående, vil det gælde, at hvis xit og ci er kontrolleret for, da vil ingen historiske værdier for xit påvirke den forventede værdi for yit , Sekventiel eksogenitet betinget af den
uobserverede eekt:
E (yit |xit , xi,t−1 , . . . , xi,1 , ci ) = E (yit |xit , ci ) = xit β + ci
POLS
"
#−1 "
#
T
T
X
X
p lim β̂ = β + T −1
E (x̃0it x̃it )
T −1
E (x̃0it ũit )
t=1
t=1
First Dierence
e
"
#−1 "
#
T
T
X
X
−1
0
−1
0
p lim β̂ = β + T
E (∆xit ∆xit )
T
E (∆xit ∆uit )
t=1
t=1
E (∆uit ∆xit ) = E (uit − uit−1 ) (xit − xit−1 ) = −E (uit−1 xit ) 6= 0
Fixed Eects
e
"
#−1 "
#
T
T
X
X
p lim β̂ = β + T −1
E (ẍ0it ẍit )
T −1
E (ẍ0it üit )
t=1
t=1
0
E (ẍ0it üit ) = E (xit − x̄i ) (uit − ūi )
= E [x0it uit ] − E [x0it ūi ] − E [x̄0i uit ] + E [x̄0i ūi ]
= −E [x0it ūi ] − E [x̄0i uit ] + E [x̄0i ūi ]
Under svag afhængighed vil FD være mere inkonsistent end FE er af T −1 orden. Når T → ∞, da er FE
konsistent (men stadig inkonsistent når T er lille og N → ∞.
IV/GMM;GMM 3SLS. Vi er nødsaget til at holde kriteriet streng eksogenitet, hvorfor vi introducere
en instrumentvariabel for x. IV skal korrelere med x og uafhængifhed mellem det og fejlledet. Problemet
kan løsse på forskellige måder. Her kan prædetermineret x_s for s<t.
Er begærnset hvis ρ < 1
9
3
M-ESTIMATION
Sekveniel eksogenitet betinget af den uobserverede eekt og korralation med
fejlled
Nu antages E (x0it uit ) 6= 0
1. Relevant rime varying variable mangler
2. Simultant afhængighed mellem yit og og xit
3. Målefejl af xit
Her er det nødvendigt at bestemme en IV, da tidligere observationer af x vil skabe problemer.
3 M-estimation
Non-linear Regression Model;
Vi har at
(3.1)
E [y|x] = m (x, θ0 )
hvor
y , er en random variabel,
x er en k -vektor af forklarende variabler
m er den non-linear parametiske model for E [y|x], m (·, ·) er kendt for et sæt parameter af θ0 .
θ0 P × 1 vektor for indeksere modellen for E [y|x], θo ∈ Θ ⊂ RP
Hvis ligning (3.1) holder for et θ0 ∈ Θ, da er modellen Korrekt speciceret. Kan skrives
y = m (x, θ0 ) + u
hvor E [u|x] = 0
Bemærk at E [u|x] = 0, da
E [u|x] = E [y|x] − E [m (x, θ0 ) |x]
E [u|x] = E [y|x] − m (x, θ0 ) = 0
og derfor ikke at u og x er ukorreleret. Her kan ere betingelse gøre sig gældende.
Identikation Populationsproblemet for en nonlinear regression model er
h
i
2
θ0 = arg minE (y − m (x, θ))
θ∈Θ
θ0 er identicerbar, hvis der er én unik løsning. Bemærk at
2
2
(y − m (x, θ)) = ([y − m (x, θ0 )] + [m (x, θ0 ) − m (x, θ)])
2
h
E (y − m (x, θ))
2
i
2
= [y − m (x, θ0 )] + 2 [m (x, θ0 ) − m (x, θ)] · u + [m (x, θ0 ) − m (x, θ)]
h
i
2
2
= E [y − m (x, θ0 )] + 0 + E m (x, θ0 ) − m (x, θ)
h
i
Herfra er det vist at, θ = θ0 minimerer E (y − m (x, θ))2 , men følgende sikrer at der en unik løsning:
h
i
2
E (m (x, θ) − m (x, θ0 )) > 0 f or ∀θ ∈ Θ, θ 6= θ0
Lack of identication Hvis der ikke er en unik θ0 ,
Generelt gælder, at θ0 ikke er identicerbar, hvis regressorer er lineært afhængige: F.eks har vi:
4
m (x, θ0 ) = θ1 + θ2 x2 + θ3 xθ3 ,
hvor den sande model er lineær,θ03 = 0. θ4 kan tage enhver værdi, og stadig minimisere probelement.
Modellen er poorly identied.
10
3
M-ESTIMATION
NLS Estimatoren NLS estimatoren er følgende for et sample:
θ̂ = arg min
θ∈Θ
N
1 X
2
(y − m (x, θ))
N i=1
h
i
2
2
som er konsistent, når θ0 er identicerbart og N1 N
i=1 (y − m (x, θ)) konvergerer uniformt mod E m (x, θ0 ) − m (x, θ) .
WNLS Estimatoren
WNLS estimatoren er 2 procedure, hvor er følgende for et sample:
P
"
(m (x, θ) − m (x, θ0 ))
E
h (x, γ ? )
2
#
> 0 f or ∀θ ∈ Θ, θ 6= θ0
I et scenare hvor vi antager at var (y|x) = σ 2 , men den sande er var (y|x) = h (x, γ), da vil WNLS være
mere ecient end NLS.
General population problem
M-estimatoren; Vi har en objective function q (w, θ) hvor
θ0 = arg minE [q (w, θ)]
θ∈Θ
hvor w er en/et sæt af random variable, f.eks. w = {x, y}. Det ækvialente sample problemet er da
θ̂ = arg min
θ∈Θ
N
1 X
q (wi , θ)
N i=1
Givet et random samle {wi }N
i=1 , er θ̂ M-estimatoren for θ0 . M-estimering er en generel metode, hvor
nedenfor ses kendte estimationsmetode som partikulære problem udfra denitionen af objektivfunktionen
LineærRegression q (y, x, θ) = (y − x0 θ)2
NonLineærRegression q (y, x, θ) = (y − m (x, θ))2
MLE q (w, θ): Negative af log-likelihood
GMM q (w, θ) = r (w, θ)0 Γr (w, θ), hvor r (w, θ) er en vektor af momenter og Γ er en vægt matrice
LAD q (w, θ) = |y − m (x, θ)|
Skalar yi ; En ligning, et tværsnit ⇒yi er en scalar.
Mutiple ligninger, et tværsnit ⇒yi er en J -scalar.
Vektor yi ; En ligning, panel data ⇒yi er en T -vektor.
Mutiple ligninger, et tværsnit ⇒yi er en T × J -vektor.
Konsistens Under svage (endelige moments) antagelser, viser LLN (Law of Large Numbers)
N
1 X
p
q (wi , θ) → E [q (w, θ)]
N i=1
da vil
θ̂minimeres LHS
θ0 minimere RHS
p
⇒ θ̂ → θ0
ergo,
PNθ̂ er en konsistent estimator af θ0 . Som under NLS skal det gælde at θ0 er identicerbart og
1
i=1 q (wi , θ) konvergerer uniformt mod forventede værdi, hvormed
N
N
1 X
p
max q (wi , θ) − E [q (w, θ)] → 0
θ∈Θ N
i=1
Uniform konvergens;
1. q (w, ·) er kontinuer i θ
2. Parameter området Θ er et kompakt sæt (lukket, begrænset)
11
3
M-ESTIMATION
Identikation og Inference For asymptotisk normalfordeling, skal det gælde atθ0 ∈ int (Θ), q (w, ·)
er dobbelt dientiable på int(Θ)
Under de gældende betingelser er θ0 identicerbar og
√
d
−1
N θ̂ − θ0 →N 0, A−1
0 B 0 A0
hvor A0 ≡ E [H (w, θ0 )]
0
B0 ≡ E s (w, θ0 ) s (w, θ0 ) = V ar [s (w, θ0 )]
hvormed
\
1
B0 A−1
Avar θ̂ = A−1
0
N 0
Score vector;
Hessian matrice;
H (w, θ) =
∂ 2 q (w, θ)
∂θ∂θ
(P ×P )
Kriterie for valg af Estimator, som kan testet igennem i et Monto Carlo study.
p
1. θ̂ skal være konsistent for θ0 , θ̂ → θ0
2. Konvergens skal være hurtigt ⇒Mindre mængde data skal til for at opnå samme præcision
3. Inference. Estimatoren skal en kendt (asymptotisk) fordeling med en kendt varians-covarians marice,
som kan estimeres konsistent.
4. Estimatoren skal være ecient. Mindst mulig estimeret varians.
5. Robust for misspecikationer
6. God egenskaber for små datasæt. Unbiassed og lille varians i nite data.
7. Nem at bruge
N-root konsistent; En estimator,θ̂, er N -root konsistent for θ0 .
Two step estimation
En 2 step M-estimator løser
θ̂ = arg min
θ∈Θ
N
1 X
q (wi , θ, γ̂)
N i=1
hvor γ̂ ∈ Γ ⊂ RJ er en preliminary rst stage estimator baseret på et random sample {wi , i = 1, . . . , N }.
Identication For θ̂ er konsistent for θ0 skal der gælde identication, som nævnt i M-estimation og
p
NLS. For eksistens af indentication i 2S gælde, atγ̂ → γ ? . γ̂ skal konvergere mod en værdi.
E [q (w, θ, γ ? )] > E [q (w, θ0 , γ ? )] ∀θ ∈ Θ, θ 6= θ0
hvor det ofte i applied skal gælde at γ ? = γ0 for betingelsen holder (Et unikt γ ).
Asymptotisk inference To essentieller forhold
√
1. Fordelingen af N θ̂ − θ0 afhænger IKKE af den asymptotiske fordeling af γ̂ .
Da vil inference være som normalt. Man kan ignorer rst stage estimationsfejl.
2. Fordelingen af
√
√
N θ̂ − θ0 afhænger af den asymptotiske fordeling af γ̂
N θ̂ − θ0 er stadig asymptotisk normalfordelt, men variansen skal tage hensyn til estimationsfejl
i γ̂
12
3
M-ESTIMATION
Numerical Optimization
At løse minimization problem kan være besvært, især non-lineær modeller, hvor optimum sjældent er en
closed form solution.
Newton Rapson;Vi har en iterative algoritme
!−1
θ
g+1
g
=θ −λ
X
g
Hi (θ )
X
si (θg )
i
i
For at bestemme λ tager vi 2. orden Taylor udvidelse af objective function.
Berndt, Hall, Hall and Hausmann(BHH); Ift. NR bruger BHHH det ydre oprodukt af scores, som
approx for Hessian
!
−1
θ
g+1
g
=θ −λ
X
i
si s0i
X
si
i
og har sin fordel i at ( i si s0i ) altid er positiv denite (bevæger sig nedad hvis λ er lille nok og afhænger
ikke 2. aedte.
Ulemper: En god approx ved sande parametre, stort N , og well specied models (så i princippet kun
for MLE).
P
Maximum Likelihood
Fordelen ved MLE er, at den udnyttet information på hele fordelingen af den randomme variabel, og
giver mulighed fo estimere f.eks.
P (y = 1|x) (y er diskret)
P y ∈ y, ȳ 1|x (y er kontinuer)
Vi har at p0 (y|x) er den sande betingede fordelingen af yi givet xi = x. Den parametiske model for
p0 (y|x) : f (y|x; θ0 ), hvor vi antager at
1. ∀x ∈ X og hvert θ ∈ Θ
• f (y|x; θ) ≥ 0
´
• Y f (y|x) υ (dy) = 1
2. f (y|x; θ0 ) er en korrekt speciceret model for p0 (y|x), altså
p0 (y|x) = f (y|x; θ0 ) ∃θ0 ∈ Θ
Populationsproblem Objective function,
q (y, xθ) = −ln (f (y|x, θ))
hvor vi ønsker at bestemme
θ0 = arg maxE [ln (f (y|x, θ))]
θ∈Θ
Sampleproblem Objective function,
θ̂CM LE =arg max
θ∈Θ
N
1 X
`i (θ)
N i=1
`i (θ) ≡ ln (f (yi |xi , θ))
hvor θ̂CM LE er den Betingede Maximum Likelihood Estimator (CMLE), en M-estimator.
Robustness MLE er generelt inkonsistent, hvis fordelingen er misspecicieret (NLS og MLE er ækvivalente for en non-linear regression med homoskedastiske og normale fejlled).
13
4
BINARY
Identication Det skal gælde, at der er identication for den ubetingede Maximum Likelihood Estimator:
E [ln (f (z; θ))] < E [ln (f (z; θ0 ))] ∀θ ∈ Θ, θ 6= θ0
For CMLE skal det vises, at f (z; θ0 ) = f (y|x; θ)
Bevis
(z;θ)
, θ 6= θ0 og a (u) = ln (u), da vil ifølge Jensen ulighed:
Lad u = ff(z;θ
0)
f (z; θ)
f (z; θ)
< ln E
E ln
f (z; θ0 )
f (z; θ0 )
ˆ f (z; θ)
= ln
f (z; θ0 ) dz
f (z; θ0 )
ˆz
= ln f (z; θ) dz = ln (1) = 0
z
hvor anden ligningen kun følger, hvis f (z; θ0 ) er korrekt speciceret model for fordelingen af z . Vi kan
videre udlede at
f (z; θ)
<0
E ln
f (z; θ0 )
E [ln (f (z; θ))] < E [ln (f (z; θ0 ))] ∀θ ∈ Θ, θ 6= θ0
hvormed vi har vist at E [ln (f (z; θ))] har et unikt maksimum når θ = θ0 ved ubetinget.
For Betinget bruges LIE på den ubetingede max:
E [ln (f (z; θ))]in Max
Ey|x [ln (f (y|x; θ))]in Max
Ex Ey|x [ln (f (y|x; θ))] in Max
Ey,x [ln (f (y|x; θ))]in Max
Jensens ulighed Hvis u er en ikke-konstant random variabel og a (u) er en strengt konkav funktion,
da gælder det at
E [a (u)] < a (E [u])
Konsistens
e
4 Binary
Den primære object of interest er response probablity
p (x) ≡ P (y = 1|x) = P (y = 1|x1 , x2 , . . . , xk )
hvor y ∈ {0, 1} er en binær random variabel.
Den partielle eekt: For en kontinuer xj vil denne eekt være
P (y = 1|x)
∂p (x)
=
∂xj
∂xj
Men pga. nonlinearitet p (x) vil den partialle eekt for diskrette xj være
P (y = 1|x1 x2 , . . . , xK−1 , 1) − P (y = 1|x1 x2 , . . . , xK−1 , 0)
Revealed Preference; Observer hvad individer gør, f.eks. et register
Stated Preference; Observer hvad individer siger de gør, f.eks. et spørgerskema
Betinget fordeling
Den betingede fordeling for y er(/kan noteres)
p (x) = P (y = 1|x) , P (y = 0|x) = 1 − p (x)
14
4
BINARY
da y er en Bernoulli fordelt betinget af den forklarende variabel , x.
Moment betingelser
De betingede moment betingelser er
E (y|x) = p (x)
V ar (y|x) = p (x) (1 − p (x))
Estimerring af p (x)
Denere p (x) = h (x, θ0 ) hvor h (·) er kendt funktion
y
1−y
f (y|x; θ0 ) = h (x, θ0 ) [1 − h (x, θ0 )]
E (y|x) = h (x, θ0 )
(4.1)
(4.2)
hvor lign. (4.1) kan estimeres med MLE, mens (4.2) kan estimeres med NLS.
Latent variabel model;
Vi har model på en latant variable, der kan indikere output for y :
y ? = x 0 β0 + ε
(4.3)
y = I (y ? > 0)
For modellen vil Repsons Probability være
P (y = 1|x) = P (y ? > 0|x)
= P (x0 β0 + ε > 0|x)
= P (ε > −x0 β0 |x)
= 1 − P (ε < −x0 β0 |x)
= 1 − G (−x0 β0 )
= G (x0 β0 )
hvor G (·) er en CDF for ε og er symmetrisk omkring 0 (1 − G (−x0 β0 ) = G (x0 β0 )) .
Identtication Det er ikke muligt, at identicere βo , da den kun er identicerbar til en skalafakor.
Hvis man skalere β og ε i den latent ligning, lign (4.3), vil det ikke påvirke y , da den ikke ændrer på
fortegnet af y ? , som reelt er af interesse. Se eksempel med probit.
Hvis skal dog normalisereved at dividere med σ
Diskret ændring
P E∆xk x0 = P y = 1|x01 , x02 , . . . , x0k + ∆x0k , . . . , x0k − P y = 1|x0
Hvis xk er en dummy variable: xk = 0, ∆xk = 1. Bemærk, hvis xk er kontinuer, vil man oftest se på det
relativt til ∆xk .
Marginal ændring
∂G
∂P (y = 1|x) = g x00 β βk , g (z) =
∂xk
∂z
0
x=x
Bemærk at βk markere fortegnet på eekten, mens størrelsen afhænger af x0 . Hvilket x0 skal bruges
til at udlede den partielle eekt
1. x0 som gennemsnit af x (ikke altid smart, da en dummy variabel vil blive en værdi mellem 0 og 1)
2. En repræsentativ husholdning
Bemærk
at skalering er irrelevant for β og G for partielle eekter. Antag at P (y = 1|x) = G (xβ) =
G̃
xβ
σ
00 ∂P (y = 1|x) x β βk
∂ G̃
=
g
, g̃ (z) =
∂xk
σ
σ
∂z
0
x=x
Den partielle eekt afhænger kun af βσ , hvilket er hvad vi kan identicere! βj bestemmer fortegnet af
eekten i binæer modeller. (Normarlisering er nt, hvis vi er intereseret i den partielle eekt.)
Tegning af en S-grafen for binære modelle og en lineær regression. Viser hvorden den partielle eekt
ændrer sig for hvert x0
15
5
MULTINOMINAL RESPONSE MODELS
Probit model En normalfordeling, der leder til den såkaldte probit model:
ˆ
F x00 β = Φ x00 β =
Den marginale eekt
P ExPk x0 = βkP φ x00 β P
x00 β = 0
1
P ExPk (0) = βkP √
= βkP 0, 4
2π
Logit model En standard logistisk fordeling, der leder til logit modellen:
exp x00 β L
F x β = Lo x β =
1 + exp (x00 β L )
00
P ExLk
x
0
00
=
βkL
exp x00 β L
∂Λ L
= βk
2
∂z z=x00 β
[1 + exp (x00 β L )]
P ExLk (0) = βkL
1
4
Vi ser en skalering forskel. Se økonometrinoter C, side 13, Jørgen.
Random Utility model
Vi har at
components of utility
z
}|
yj? = V (w, zj ) +
| {z }
Observed
aj
|{z}
{
U nobserved
hvor yj er nyttet af j , w attributter for valg (indkomst, alder, udd), zj attributter af alternativer (pris,
rejsetid, kvalitet).
aj er observered af decision maker, men unobserved for reasearcher. V (w, zj ) behøver ikke at være
lineær.
Decision Rule ; Alternativ j ? er vælges, hvis den maksimere den random utility yj? :
j ? = arg max yj?
j
5 Multinominal Response Models
Betragt nu RUM med J + 1 alternatver
yj? = Vj + αj
= x0j βj + αj
j ? = arg
max
j∈{0,1,...,J}
yj?
y : choice
Object of interest er
P (y = j|x)
Generelt skal vurderes en J -dimensionel intergraler
P (y = j|x) = Pr (Vj + αj > Vm + αm , ∀m 6= j)
ˆ
=
I (αm < Vj + αj − Vm , ∀m 6= j) f (a0 , a1 , . . . , aJ ) da0 , da1 , . . . , daJ
a0 ,a1 ,...,aJ
For at opnå identication skal det normaliseres.
Multinominal Logit
16
6
BINARY PANEL DATA
Hvis a0 , a1 , . . . , aJ er antaget iid (type 1 ekstreme value distributed) opnår vi en logit choice probabilities
P (y = j|x) = Pr (Vj + αj > Vm + αm , ∀m 6= j)
Y
P (y = j|x, aj ) =
e−e−(aj +Vj −Vm )
m6=j
ˆ
Y
P (y = j|x) =
e−e−(aj +Vj −Vm ) daj
aJ m6=j
= Pj
eVj
m=0
eVm
Betingelsen om iid er ikke realistisk,
• hvis alternativerne er ligner hinanden. De uobserverede vil kunne korrelere.
• ikke godt til repeated choice (panel data)
kan ikke håndtere serial correlation
random taste variation,
Mulitinominal Probit
Vi antager her at a0 , a1 , . . . , aJ er multivariate normal, men intergraller kan ikke skrive i en closed
form som logit. De kan simuleres eller approx med Mixed Logit.
Independence of irrelevante alternativer; For logit er odds ratio mellem to alternativer
P (y = j|x)
eVj
= Vm
P (y = m|x)
e
afhænger ikke af observerbare komponenter af nytte af andre alternativer. Hvis ssh. for alternativ j
frafalder, må ssh. for m falde med samme proportion, hvis Vj − Vm er uændret.
6 Binary Panel Data
Vi har at T obersvationer af N individer
yit , xit , i = 1, 2, . . . , N t = 1, . . . , T
hvor yit = {0, 1}er en binær random variabel. (Vi antager tilfældig udtrækning over i, men ikke over t)
Object of interest Vi er interesseret i at modeller
p (yit = 1|xit , ci )
som er vores respons ssh., når xit og ci er holdt konstant.
Linear unobserved eects model Modellen opskrives
P (yit = 1|xit , ci ) = E [yit = 1|xit , ci ]
= xit β + ci
Fordelen er muligheden for at fjerne ci via FE, FD osv. Problemet er, at P (yit = 1|xit , ci ) ikke er
begrænset mellem 0 og 1, og V (yit |xit , ci ) afhænger af x og ci (Mulighed for heteroskedasticitet).
Under antagelse af ingen unobserved eect
P (yit = 1|xit ) = G (xit β) , t = 1, 2, . . . , T
Der er ikke antaget tilstrækkelig til at opnå join distrubution af yi og xi , og dermed ikke tilstrækkeligt
til CMLE.
Partial ML
17
6
Vi kan opnå en
√
BINARY PANEL DATA
N konsistent estimator af β ved at maksimere den partielle likelighood



N X
T 


X
yit ln (G (xit β)) + (1 − yit ) ln (1 − G (xit β))
|
{z
}

i=1 t=1 
`it (yit |xi ;β)
β̂P M L er en M-estimator, da
N
1 X
q (yi |xi ; β)
β∈Θ N
i=1
β̂P M L = arg min
hvor q (yi |xi ; β) = −
T
X
`it (yi |xi ; β)
t=1
som er konsistent, hvis identicerbar, og asympotisk normal (12.3). Da objective function ikke er baseret
på den betingede fordeling af yi givet xi .
• Behov for inference vha. metoden i 12, hvor eder tages hensyn til mulig serial korrelation
• Covariansmatricen har formen A−1 BA−1 , A 6= B
• Wald test og score test
Hvar mangler at blive antaget at dynamisk completness og streng eksogenitet:
Dynamic completness
P (yit |xit , yit−1 , xit−1 , yit−2 , . . . ) = P (yit |xit )
Vi antager ikke uafhængighed. Vi tillader at afhængighed af lagged yit .
Streng eksogenitet (betinget af en observeret eekt)
P (yit = 1|xi , ci ) = P (yit = 1|xit , ci ) = G (xit β + ci )
xit kan ikke have laggede variable, y eller x. Vi har ikke taget højde for ci og kan ikke trækkes fra , da
G (·) er non-linear.
Vi kan tage højde for ci ved at:
• Estimere ci som paramater
Ikke muligt konsistent at estimere ci for et givent T
√
Incidental Parameters Problem: β̂ er ikke N -konsistent for xed T
Nødvendighed for mange observationer pr. individ (stort T ).
• Random Eect, antag at ci |xi og integrer over ci
• Fixed Eect, svært uden linearitet
Random Eect
Streng eksogenitet
P (yit = 1|xit , ci ) = G (xit β + ci )
Uafhængighed af yi1 , . . . , yiT betinget af (xi , ci ), hvormed vi har at f (y1 , . . . , yT |xi , c; β) =
Normalitet af ci |xi
QT
t=1
f (yt |xi , c; β)
ci |xi ∼ N 0, σ 2
hvormed vi antager at ci og xi er uafhængige og ci er normalfordelt. (Alternativ: Diskret support for ci
og uaf. mellem xi og ci .)
Vi estimerer modellen med CMLE, hvor den joint distrubution af yi |xi
f (y1 , . . . , yT |xi ; θ) =
X
j
18
πj
T
Y
t=1
f yt |xit , cj , β
7
CENSORED REGRESSION MODEL
hvor
f (yt |xit , c, β) = yt G (xit β + c) + (1 − yt ) [1 − G (xit β + c)]
X
X
π j = 1and
π j cj = 0
j
j
hvor π og c .
j
j
Fixed Eects Logit
Model med joint distribution af yi betinget af xi , ci og ni =
af ci
P
i
yit . I logit modellen, afhænger det ikke
7 Censored Regression Model
Modeller af kontinuere tilfældige variable med sandsylighedsmasse i et vist punk. Det er 2 fundamentale
typer
1. Censored Regression top coding of wealth
2. Corner Solution; labour supply in hours
Eksempel: Top coding of wealth
y ? :formue-unobserved
y = min (y ? , a) -unobserved
y er censoreret pga. registering, ikke pga. adfærd.
Tobit Model
En Tobitmodel med tilfældig udtræk af observationer
yi? = x0i β + ui , hvor ui |xi v N 0, σ 2
yi = max (0, yi? )
hvor yi? er en unobserved latent variabel og y er observed.
Estimation Vu
f (0|xi ) = P (yi = 0|xi )
0 xi β
=1−Φ
σ
Fordelingen af den latente variabel, y ? , og det observerede variabel y er identitiske for y > 0
f (y|xi ) = f ? (y|xi ) ∀y > 0
under antagelse af, y ? ∼ N x0 β, σ 2 , hvormed
f ? (y|xi ) =
1
φ
σ
y − x0i β
σ
dette kan omskrives den betingede likelihood som
f (yi |xi ) =
1−Φ
x0i β
σ
1(y=0) 1
φ
σ
yi − x0i β
σ
1(y>0)
den betingede log likelihood er da
0 xi β
yi − x0i β
ln σ 2
`i (θ) = 1 (yi = 0) ln 1 − Φ
+ 1 (yi > 0) ln φ
−
σ
σ
2
det er muligt identicere β og σ 2 separat (observeret variation i y ). Inference er bestem vha. standard
MLE framework.
19
7
CENSORED REGRESSION MODEL
Quantities of Interest Quantities of interest afhænger af problemets type:
1. Censored Regression
E (y ? |x) = xβ
Konstant partial eect
2. Corner Solution
E (y|x)
E (y|x|y > 0)
P (y = 0|x) ,P (y > 0|x)
P (y = 0|x) and P (y > 0|x) kan bestemmes som.
Decomposition af conditional expectation
E (y|x) = E (y|x, y ≤ 0)P (y ≤ 0|x) + E (y|x, y > 0) P (y > 0|x)
|
{z
}
=0
= E (y|x, y > 0) P (y > 0|x)
Den forventede værdi kan bestemmes
E (y|x, y > 0) =E (y ? |x? , y ? > 0)
=E (x0 β + u|x? , y ? > 0)
=E (x0 β + u|y ? > 0)
der er uafh. mellem x og u
=x0 β + E [u|u > −x0 β]
Digress: Truncated density
f (z|z > c) =
f (z)
1 − F (c)
normalisering, truncated densisity er integreret til 1.
Hvis z ∼ N (0, 1)
f (z|z > c) =
hvormed
ˆ
φ (z)
1 − Φ (c)
∞
z · f (z|z > c) dz
E [z|z > c] =
ˆc ∞
z·
=
c
=
φ (z)
dz
1 − Φ (c)
φ (c)
1 − Φ (c)
Vha. af dette kan E [y|x, y > 0]
u u
x0 β
| >−
σ σ
σ
0
φ (−x β/σ)
= x0 β + σ
1 − Φ (−x0 β/σ)
φ (x0 β/σ)
= x0 β + σ
Φ (x0 β/σ)
φ (x0 β/σ)
= x0 β + σ
Φ (x0 β/σ)
0
=xβ+σ
λ (x0 β/σ)
| {z }
E [y|x, y > 0] = x0 β + σE
Inverse Mill's ratio
20
> x0 β
7
CENSORED REGRESSION MODEL
Kombineres resultatet opnå E [y|x]
E (y|x) = E (y|x, y > 0) P (y > 0|x)
= [x0 β + σλ (x0 β/σ)] Φ (x0 β/σ)
= x0 βΦ (x0 β/σ) + σφ (x0 β/σ)
pga
Opsummering
E (y|x) = E (y|x, y > 0) P (y > 0|x)
0 0 xβ
xβ
0
= x βΦ
+ σφ
σ
σ
0 x
β
E (y|x) = x0 β + σλ
σ
0 xβ
P (y > 0|x) = Φ
σ
0 xβ
P (y = 0|x) = 1 − Φ
σ
• E (y|x) kan opdeles i to eekter
Eekten på y for y > 0 (intensive margin)
Eekten på y pga. ændringen i y > 0 (extensive margin)
• E (y|x) og E (y|x, y > 0) er non-linear i x, hvorfor den partielle eekt er non-linear og afhænger af
data
∂E(y|x)
∂xj
=Φ
∂E(y|x,y>0)
∂xj
x0 β
σ
=θ
βj
0
xβ
σ
• E (y|x) → E (y ? |x) når
x0 β
σ
βj , hvor θ
x0 β
σ
∈ [0, 1]
→∞
• E (y|x, y > 0) → E (y ? |x) når
x0 β
σ
→∞
Neglected Heterogeneity VI har standard modellen
y = max (0, x0 β + u) , u ∼ N 0, σ 2
Vi inkludere nu en unobserveret variabel
y = max (0, x0 β + γc + u)
u|x, c ∼ N 0, σ 2
0
1(y=0) 1(y>0)
xi β + γc
1
yi − x0i β − γc
f (y|x, c) = 1 − Φ
φ
σ
σ
σ
Hvis det er antaget at c|xi ∼ N 0, τ 2 , hvormed der er uafhængighed mellem ci og xi , da er det en
standard Tobit model, hvor υ = γc + u ∼ N 0, τ 2 γ 2 + σ 2
Hvis det ikker er tilfældet. Ikke muligt at bruge CML, hvis ikke den unobservered eekt fjernes. Løses
ved at antage c fordelt givet x:h (c|x)
f (y|x) = Ec|x [f (y|x, c)] integrer c ud
( ´
[f (y|x, c)] h (c|x) dc
c er kontinuer
=
P
[f (y|x, c)] h (c|x)
c er diskret
Heteroskedastisitet og Non-normality Under de betingelser vil er β̂ være inkonsistent for β .
• SKRIV problemerne, slide 7
21
7
CENSORED REGRESSION MODEL
Test af heteroskedasticitet LM test mod generalle alternativer. F.eks. var (u|x) = σ 2 ezδ , hvor z
er en q-dimensionel subvektor af x
Test af normalitet Betinget momen test, Newey, Tauchen og White
Hausman type specication test imod geneal model, f.eks. Powell estimator
Newey-Tauchen-White test
d
τ = ι0 M̂ Q̂−1 M̂ 0 ι → χ2 (r)
hvor ι er en N × 1vektor af 1, M̂ er en N × r er et sample realizations af r moment restrictions, Q̂ er en
vægtmatrice.
Moments
Lad ui være distrubances fra den lineære model, hvormed ui = yi? − xi β . Hvis ui er normalfordelt, da
E u3i |xi = 0
E u4i − 3σ 4 |xi = 0
hvormed M̂i for 3. og 4. er
M̂i =
û3i
4
ûi − 3σ̂ 4
0
Vi observere ikke ui for y ? ≤ 0
Moments for Tobit
M̂i =
hvor Ii = 1 (y > 0), zi =
Scalering matricen
xi β̂
σ̂ ,λi
=
0
Ii û3i − (1 − Ii ) zi2 + 2 σ̂ 3λi
Ii û4i − 3σ̂ 4 − (1 − Ii ) zi2 + 3 σ̂ 4 λi zi
φ(x0 β̂/σ̂ )
1−Φ(−x0 β̂/σ̂ )
0 0
Q = M̂ − Ŝ V̂ Ŝ 0 M̂
M̂ − Ŝ V̂ Ŝ 0 M̂
Estimation under svage betingelser Vi betragter modellem
y ? = xβ + u
y = max (0, xβ)
Under den betingede moment antagelser
M ed (u|x) = 0
kan estimere β uden at antage normalitet af u|x og uafhængighed mellem u og x.
Powell's CLAD estimator Egenskaben af median
M ed [g (y)] = g (M ed [y])
hvormed (nonlinear) median regression
M ed [y|x] = max (0, M ed (y ? |x)) = max (0, xβ)
vi kan estimere β ved at løse
β̂CLAD = arg min
β
N
X
|yi − max (0, x0i β)|
i=1
√
som er Powell Estimatoren eller CLAD estimatoren, en M-estimator. LAD-Estimatoren er N -konsistent
og asymptotisk normal.
CLAD-estimatoren, hvor q (w, β) = |yi − max (0, x0i β)| er ikke dobbelt dierentiabel i β med nonsingular Hessian. (Kink point, og ad linje når x0 β < 0 ). For at få standard fejl kan bruges bootstrap
standard fejl.
Hvornår kan CLAD bruges
22
8
SAMPLE SELECTION
Censored Regression Hvis fordelingen af u er symmetrisk og omkring 0.
E (y ? |x) = M ed (y ? |x) = xβ
Corner Solution P (y = 0|x) , E (y|x) og E (y|x, y > 0) er ikke identiceret fra M ed (u|x) = 0. Det nødvendigt med ere antagelser om fordeling, hvor det for Tobit afhænger af Φ (·). Powell/CLAD
estimatoren kan bruges som en god specikationstest for Tobit.
8 Sample selection
Sample selection er et problem, når et non-random sample er udtrukket fra en population of interest. Der
er to årsager til non-random sample
• Sample design (udvælgelsesprocess)
• Adfærd (hvem vælger at deltager i sample)
Vi betragter en lineær regression model
y1 = x1 β1 + u1 , E (u1 |x1 )
hvor vi er interesseret i E (y1 |x1 ), men med det problem, at y1 og x1 er uobserverbart når en selection
indicator er s = 0. Vi er nødsaget til at betinge på s = 1, hvormed vi har E (u1 |x1 , s1 ). Teknisk kan
sample selection foregå på forskellige måder:
1. s er en funktion af x1 kun
2. s er uafhængig af x1 og u1
3. s = 1 (a1 < y1 < a2 ), truncation
4. s = 1 (xδ2 + v2 > 0), diskret respone selection
• afhængighed mellem u1 og v2
5. y2 = max (0, xδ2 + v2 ) og s = 1 (y2 > 0), Tobit selction
• Mere struktur
• afhængighed mellem u1 og v2
1. Selection on a regressor
Er ikke et problem for OLS, der konsistent kan estimere β og E [y1 |x1 ]. Selection indicatoren s er en
funktion af x1 , som vi oberservere
s = h (x1 )
Da vi kun observere y1 , når s = 1, vil vi da estimere den lineære regression model på det udvalgte sample,
som er
E [y1 |x1 , s = 1] = x1 β1 + E [u1 |x1 , s = 1]
Bemærk at s ikke mere info end x1 hvorfor
E [u1 |x1 , s = 1] = E [u1 |x1 ]
Med standard antagelse om eksogene forklarende variable E [u1 |x1 ] = 0, hvormed
E [y1 |x1 , s = 1] = x1 β1 + E [u1 |x1 ]
= x 1 β1
hvorfor vi kan konkludere, at når sample selection kun er en funktion af x1 (en eller ere), da kan OLS
konsistent estimere β og E [y1 |x1 ].
23
8
SAMPLE SELECTION
2. s er uafhængig af x1 og u1
Er ikke et problem for OLS, der konsistent kan estimere β og E [y1 |x1 ]. Bevis
E [y1 |x1 , s = 1] = x1 β1 + E [u1 |x1 , s = 1]
= x1 β1 + E [u1 |x1 ]
= x1 β1 + E [u1 |x1 ] 3. Truncated regression, selection on repsons variabels = 1 (a1 < y1 < a2 )
Vi har et random draw af (y1 , x1 ), hvor vi betragter, at sample er udtrukket som en selection rule på
basis af y1
s = 1 [a1 < y1 < a2 ]
hvormed (y1 , x1 ) kun er observeret når s = 1. Både a1 og a2 er kendte konstante, hvor a2 > a1 .
Vi ønsker at estimere E [y1 , x1 ] = x1 β1 . For at bruge MLE, skal hele den betingede fordeling deneres.
Den betingede CDF af y1 |x1 er F (c|x1 ) = P (y1 ≤ c|x1 ), hvor c er et dummy argument (istedet for at
sættey1i i lign).
CDF af y1 betinget på x1 og s = 1 er
P (y1 ≤ c|x1 , s = 1) =
P (y1 ≤ c, s = 1|x1 )
P (s = 1|x1 )
hvor vi kan omskrive tælleren
P (y1 ≤ c, s = 1|x1 ) = P (a1 ≤ y1 ≤ c|x1 ) = F (c|x1 ) − F (a1 |x1 )
og nævneren
P (s = 1|x1 ) = P (a1 < y1 < a2 |x1 )
= F (a2 |x1 ) − F (a1 |x1 )
hvormed
P (y1 ≤ c|x1 , s = 1) = F (c|x1 , s = 1) =
F (c|x1 ) − F (a1 |x1 )
F (a2 |x1 ) − F (a1 |x1 )
PDF kan udledes vha. dierentiering mht. c
f (c|x1 , s = 1) =
f (c|x1 ) − 0
F (a2 |x1 ) − F (a1 |x1 )
Indsæt y1i i c og udleder log likelihood funktionen
N
X
N
X
f (y1i |x1 )
ln L (β, σ) =
ln f (y1i |x1 , s = 1) =
ln
F (a2 |x1 ) − F (a1 |x1 )
i=1
i=1
Under antagelese af den betingede fordeling af populationen er normalfordelit, N x1 β1 , σ 2 har vi den
Truncated Tobit model
ln L (β, σ) =
N
X
i=1

ln 
φ
Φ
y1i −x1i β1
σ
a2 −x1i β1
σ
−Φ
a1 −x1i β1
σ


Den essentielle forskel mellem Truncated og Censored Tobit er, at i censored observere vi alle x1 , hvilket
vi ikke gør i Truncated.
4. Incidental truncation, s = 1 (xδ2 + v2 > 0), diskret respone selection
Vi har den strukturelle ligning
y1 = x1 β1 + u1 , E (u1 |x1 ) = 0
hvor vi har at (x1 , s) altid er observeret, men observere kun y1 når s = 1. Den reduced form selection
equation er givet ved
s = 1 (xδ2 + v2 > 0)
24
8
SAMPLE SELECTION
hvor x = (x1 , x2 ). Det antages at fejlledende, (v2 , u1 ) er uafh. af x og v2 ∼ N (0, 1). Da fejlledet er
normalfordelt, er selection ligningen en Probit ligning, P (s = 1|x) = Φ (xδ2 ). Vi antager at, u1 , v2 er
afhængige af hinanden
E (u1 |v2 ) = γv2
HVORFOR??? JOINT dtistrubition no. Bivariate normal.
Laves en regression på det selected sampl, skal regression bære betinget på s = 1, hvorfor det er
relevant at betragte den betingede regressions funktion E (y1 |x, s = 1).
E (y1 |x, s = 1, v2 ) = x1 β + E (u1 |x1 , v2 )
= x1 β + E (u1 |v2 )
= x 1 β + γ 1 v2
Ved at udnytte LIE kan det omskrive til
E (y1 |x, s = 1, v2 ) = x1 β + E (γ1 v2 |x, s = 1)
= x1 β + γ1 E (v2 |x, xδ2 + v2 > 0)
= x1 β + γ1 E (v2 |x, v2 > −xδ2 )
v2 ∼ N (0, 1), hvorfor E (v2 |x, v2 > −xδ2 ) er middelværdien af en truncated normalfordeling. Vi skal
derfor normalisere pdf, φ (·), med den højre side af fordelingen, 1 − Φ (−xδ2 )
E (y1 |x, s = 1, v2 ) = x1 β + γ1
φ (xδ2 )
= x1 β + γ1 λ (xδ2 )
Φ (xδ2 )
hvor λ (·) = Φ (·)−1 φ (·) som er den inverse Mills ratio. (Normal OLS kunne det betragtes om den omitted
variabel, λ (xδ2 ).
Heckman's two-step sample selection procedure
1. Estimere δ̂2 vha. probit of si på xi . Genere derefter λi = λ xi δ̂2
2. OLS af yi på xi og λi , hvilket estimere β̂1 og γ̂1
Test for selectivity bias For at teste om der et selection bias, opstilles nulhypotesen
H0 : γ 1 = 0
Hvis hypotesen holder, da OLS standardfejl bruges til bestemme t-statistics, da V ar (y1 |x, s = 1) =
V ar (y1 |x) = V ar (u1 ) (homoskedatisk).
Hvis hypotesen ikke holder, betyder at V ar (y1 |x, s = 1) 6= V ar (y1 |x) ikke er konstant, (λ̂i er en generated regressor), hvorfor der vil være heteroskedastisitet. Robuste standard fejl kan ikke løse problemet
med λ̂i . Alternativet er da at udnytte den asymptotiske 2-step M-estimator eller bootstrappe standardfejl.
5. y2 = max (0, xδ2 + v2 ) og s = 1 (y2 > 0), Tobit selction
I denne metode har man ere oplysninger end 4.. Vi kender nu viser værdierne af den latente variabel
y2 . Eksempel: I 4. ved vi om individer arbejder, i 5. kender vi også antallet af arbejdstimer.
Vi har den strukturelle ligning
y1 = x1 β1 + u1 , E (u1 |x1 ) = 0
hvor vi har at (x1 , s) altid er observeret, men observere kun y1 når s = 1. Den reduced form selection
equation er givet ved
s = 1 (y2 > 0)
y2 = max (0, xδ2 + v2 )
Vi antager samme fodeling antagelser om i probit.
• x = (x1 , x2 )
25
8
SAMPLE SELECTION
• (v2 , u1 ) er uafh. af x
• v2 ∼ N (0, 1)
• u1 , v2 er afhængige af hinanden med E (u1 |v2 ) = γ1 v2
hvilket resulterer i
E (y1 |x, s = 1) = x1 β + γ1 v2
For estimere β og γ1 er det nødvendigt bestemme v̂2i , hvilket gøres i en 2-step procedure
1. Estimere δ2 i en censored Tobit af y2i på xi , hvorefter v̂2i udregnes (kun nødvendigt for y2i > 0).
2. OLS af y1i på x1i og v̂2i (hvor y2i > 0) og estimer β1 og γ1 .
Fordelen med Tobit selection framework er, at vi estimere residualet v̂2 direkte, og går uden om inverse
Mills ratio. Tobit tillader og x1 = x, da v2 er uafhængig pga. variationen i y2 .
Test for selectivity bias For at teste om der et selection bias, opstilles nulhypotesen
H0 : γ 1 = 0
BRUGES OLS STANDARDFEJL HER ELLER EJ?? Hvis hypotesen holder, da OLS standardfejl bruges
til bestemme t-statistics, da V ar (y1 |x, s = 1) = V ar (y1 |x) = V ar (u1 ) (homoskedatisk).
Likelihood model
I lineær regression kan vi ignore sample selection, 1)s er en funktion af alenex1 eller 2)s er uafhængig af
x1 og u1 . Dette gøre sig ikke gældende for likelihood modeler, hvor den betingede fordeling f (y1 |x1 ; θM ).
f (y1 , s|x; θ) = f (y1 |x; θ) f (s|x; θS )
hvor θM , θS ∈ θ. Det er ikke muligt at lave full maximum likelihood, men partial likelihood. Generelt,
løser den betingede likelihood
θ0 = arg maxE (ln [f (y1 |x; θ) + f (s|x; θS )])
θ
mens den partielle likelihood for selection er
θ0 = arg maxE (s · ln [f (y1 |x; θ) + f (s|x; θS )])
θ
hvilket tillade os at forbigå dele af likelihood som ikke kan identiceres, og får at
θM 0 = arg maxE (s · ln [f (y1 |x; θS0 , θM )])
θM
θS0 = arg maxE (ln [f (s|x; θS )])
θS
θS0 er uafhængig af θM 0 , hvorfor estimationen kan deles op i en 2-step procedure.
Maximum Likelihood version of Heckmans' sample selection model
Vi har den strukturelle ligning
y1 = x1 β1 + u1 , E (u1 |x1 ) = 0
hvor vi har at (x1 , s) altid er observeret, men observere kun y1 når s = 1. Den reduced form selection
equation er givet ved
s = 1 (xδ2 + v2 > 0)
For at estimere maximum likelihood, skal det strengere antagelser til fordelingen af fejlledet. De skal være
jointly normalt fordelt
u1
v2
∼ MV N
0
0
26
,
σ12
σ12
σ12
1
8
SAMPLE SELECTION
den bivariate normalfordeling af u1 og v2 gør at
v2 =
σ12
u1 + ε
σ12
hvor ε er normalfordelt med en middelværdi på 0.
side 8
Variansen er
var (ε) = 1 − ρ2
den joint distrubution af y1 og s er
f (y1 , s|x; θ) = f (s|x; θ) f (y1 |x; θ)
som kan omskrives
1−s
f (s|y1 , x; θ) = [P (s = 0|y1 , x; θ)]
1−s
= [P (s = 0|, x; θ)]
s
P (s = 1|y1 , x; θ)
s
P (s = 1|y1 , x; θ)
for at beregne likelihood funktionen
har vi kun behov for tre input P (s = 0|, x; θ), P (s = 1|y1 , x; θ) og
f (y1 |x; θ). Da y|x ∼ N x1 β1 , σ12 har vi at
1
f (y1 |x; θ) =
φ
σ1
y1 − x1 β1
σ1
vi har fra kap 15 at
P (s = 0|x; θ) = 1 − Φ (xδ2 )
For det sidste led kan omskrive ved at bruge selection rule
s = 1 (xδ2 + v2 > 0)
ρ
= 1 xδ2 + u1 + ε > 0
σ1
ρ
= 1 xδ2 +
(y1 − x1 β1 ) + ε > 0
σ1
Det indsættes
P (s = 1|x; θ) = Φ
xδ2 +
ρ
σ1
p
(y1 − x1 β1 )
!
1 − ρ2
Vi sammensætter resultater, hvormed vi opnår likelihood funktionen af den lineære regressionsmodel med
probit selection
L (β1 , δ2 , σ1 , ρ) =
N
Y
"
1−si
[1 − Φ (xδ2 )]
Φ
xδ2 +
ρ
σ1
(y1 − x1 β1 )
p
1 − ρ2
i=1
!#si 1
φ
σ1
y1 − x1 β1
σ1
si
Fordelen med ML er den robuste varians matrice fra den partielle ML, som også valid under sample
selection, da der ikke er en generated regressor. MEN vi bruger strengere antagelser (joint distrubution
er speciceret), som kan testet.
Non-parametric identication
Vi har en sample selection model
y1 = g1 (x1 ) + u1
hvor vi har at (x1 , s) altid er observeret, men observere kun y1 når s = 1. Den reduced form selection
equation er givet ved
s = 1 (g2 (x1 x2 ) + v2 > 0)
hvor g1 (·) og g2 (·) er uspeciferede funktioner som skal estimeres og (u1 , v2 ) er uafhængige af (x1 , x2 ). Vi
tager heller ingen antagelser om den funktionelle form af v2 . Vi har at
E (y1 |x1 , x2 , s = 1) = g1 (x1 ) + E (u1 |v2 > −g2 (x1 , x2 ))
= g1 (x1 ) + λ (g2 (x1 , x2 ))
27
10
NON-, SEMI-, OG PARAMETIC ESTIMATION
g1 (x1 ) kan identiceres op til en ukendt konstant, hvis x1 og x2 er kontinuere.
lim
g2 (x1 ,x2 )→∞
E (y1 |x1 , x2 , s = 1) = E (y1 , x1 ) = g1 (x1 )
Hvis x1 er kontinuerlige og x2 diskre, da vil modellen ikke længere være identicerbar up til en ukendt
additiv konstant. Det bliver undersøgt i Nonparametic bounds
Non-parametric bounds
9 Bootstrap
To måder at opnå standard fejl for et estimat, asymptotisk eller bootstrap. I bootstrapping, estimeres
fordelingen af en estimator og test ved at bruge resampling af data. Man behandler data som var det
populationen.
Bootstrap er en fordel, når asymptotisk fordeling af en estimator er svær at opnå (2-step estimatorer)
eller asymptotiske resultater er upræcise for et nt sample (small sample properties). Her vil bootstrap
ofte være mere akkurat for nte samples.
Sample variance
B
?
0
1 X ?
TN,B − T̄N? TN,B
− T̄N?
B−1
b=1
hvor
T̄N?
?
er middelværdien af B bootstrap estimator af TN,b
Block bootstrap
for panel data, opnå en resample på størrelsen NT
10 Non-, semi-, og parametic estimation
Vi har en diskret choice model
yi? = xi β + ui
yi = 1 (yi? > 0)
Hvise u er kendt for en nitely mange parameter, da vil ML give en asymptotisk ecient estimator.
(Er ui normalfordelt, da er det en probit model, hvor det tilstrækkeligt at kende mean og variance). Er
fordelingen af u ikke kendt, har vi en parametisk estimator.
Vi har den lineære model
y = xβ + u
som, hvis man brugte ML, vil være parametisk, hvis vi specicere fordelingen af u. OLS vil derfor være
semiparametisk, da vi ikke behøver at specicere u. xβ vil være den parametiske del.
Nonparametic regression
Vi antager ikke længere linearitet, så
E [yi |xi = x] = g (x)
hvor g (x) er ukendt og uspeciceret, hvilket gør det til en nonparametic regression . Var den kendt, kunne
vi bruge N LS .
Kernel density histogram approach
Vi har
28
10
NON-, SEMI-, OG PARAMETIC ESTIMATION
Kernel density estimation
En metode at estimere fordelingen af xi ved at udnytte kernel density
N
1 X
K
N · h i=1
fˆ (x) =
xi − x
h
hvor K (·) er en kernel, en vægtet funktion. Gaussian kernel (leading example)
K
xi − x
h
1
1
= √ exp −
2
2π
xi − x
h
2 !
Intuitionen: vægt observationer, mere vægt til observationer tæt på x, og bandwith, hN , bestemmer hvor
meget vægt, der skal ligges på observationer langt fra x. Bandwith kan gøre en essential forskel (??).
Silverman's rule of thumb bandwith; Brug følgende regel for bandwith,
iqr
hN = 1, 059 · N −0,2 min s,
1, 349
Nadaraya-Watson estimator
Object of interest er
E [yi |xi = x] = g (x)
Hvis xi er kontinuer er det ikke muligt at bestemme
Ved at bruge en kernel til at vægte observationer omkring x
xi −x
K
yi
i=1
hN
ĝ (x) = P
N
xi −x
i=1 K
hN
PN
som er Nadaraya-Watson-estimatoren (Local constant estimator). Det er læsningen til det følgende
minimasering problem
N
X
ĝ (x) = arg min
a
2
(yi − a) K
i=1
xi − xo
hN
hvormed man forsøger at bestemme g (x)med en konstant
Local linear nonparametic regression
Istedet for en konstant, kan man approksimere vha. local linear estimatoren, hvormed det ovenstående
minimaliseringsproblem vil være
min
a,b
N
X
2
(yi − a − (xi − x0 ) b) K
i=1

Hvis vi denere δ ≡
a
b
min
δ
N
X
xi − xo
hN

(x1 − x0 )
(x2 − x0 ) 

 omskrives minimasierings problemt til
..

.
(xN − x0 )
1
 1
og x̃ = 
 ..
 .
1
2
(y − x̃δ) K
i=1
x̃
hN
= min
δ
N
X
i=1
0
(y − x̃δ) K
x̃
hN
(y − x̃δ)
som er et standard generalized least squares problem, hvorfor løsning er
δ̃ (xo ) =
x̃0 K
x̃
hN
−1
x̃
x̃
x̃0 K
y
hN
hvormed vi indeser at den local linear estimator er en local least squares estimator. Når hN → ∞ vil hver
observation bliver vægt ligeligt, hvorfor δ̂ (xo ) → OLS
Local linear estimatoren er preferred til den local constand estimor, da den har bedre boundary
properties.
29
11
TREATMENT EFFECTS
Properties of the kernel density estimator
Tradeo mellem bias og varians, når man vælger bandwith
√
ˆ
d
2
N h fˆ (x0 ) − f (x0 ) → N 0, f (x0 ) (K (z)) dz
Curse of dimensionality:
Bandwith selection
Bih oh and small oh
11 Treatment Eects
Internal Validation; Hvis vi er kun interesset i eekten af et program. Tillader færre antagelser. Ikke
extrapolere.
External Validation; STructural approach, hvor økonomisk model er imposed før analysen.
30
Indeks
√
N -asymptotisk normalfordelt, 4
quasi-time demeaning, 5
Asymptotiske egenskaber, 3
Random Utility model, 16
RE2SLS, 6
Repsons Probability, 15
Revealed Preference, 14
Basic Linear Unobserved Eects Panel Data, 3
Berndt, Hall, Hall and Hausmann, 13
Betingede Maximum Likelihood Estimator, 13
BHH, Se Berndt, Hall, Hall and Hausmann
Sammensat fejlled, Se Composite errors
Sample selection, 3
Censored Regression, 19, 20
Score vector, 12
Chamberlain (1984), 3
Sekventiel eksogenitet betinget af den uobserverede
Cluster Sampling, 3
eekt, 9
CMLE, Se Betingede Maximum Likelihood Estima- Sekventiel moment betingelse, 9
tor
Silverman's rule of thumb bandwith, 29
Composite errors, 4
Skalar yi , 11
Corner Solution, 19, 20
Slutsky's Theorem, 4
Correlated random Eects, 9
Spatial correlation, 3
Cross section, 3
Stated Preference, 14
Stratried sampling, Se Sample selection
Decision Rule, 16
Strengt eksogen betinget af den uobserveret eekt,
Dummy Variable Estimator, 6
4
External Validation, 30
Tobit Model, 19
Truncated Tobit model, 24
Two step estimation, 12
FD2SLS, 8
FE2SLS, 7
Uniform konvergens, 11
Unobserved eect, 4
Heckman's two-step sample selection procedure, 25 Unobserved heterogeneity, Se Unobserved eect
Hessian matrice, 12
Vektor yi , 11
I.N.I.D, 3
Within transformation, Se Fixed Eects Model
Idiosynkratiske fejlled, 4
WNLS Estimatoren, 11
Independence of irrelevante alternativer, 17
Independent, not identically distributed, 3
Internal Validation, 30
IV/GMM, 9
General population problem, 11
Jensens ulighed, 14
Latent variabel, Se Unobserved eect
Latent variabel model, 15
Local constant estimator, 29
Logit model, 16
Longitudinal data, Se Panel data
M-estimatoren, 11
N-root konsistent, 12
Newton Rapson, 13
Non-linear Regression Model, 10
Numerical Optimization, 13
Panel data, 3
parametiske model, 13
Parametric model, 3
Probit model, 16
31