Kombinationer af lande- og individdata. Multilevel analyse.

Kombinationer af lande- og individdata. Multilevel analyse.
No. 1 of 27
Kombinationer af lande- og
individdata. Multilevel analyse.
Henrik Lolle
Indlæg ved arrangement i Selskab for Surveyforskning:
Kunsten at sammenligne lande, onsdag den 12. september 2012
Kombinationer af lande- og individdata. Multilevel analyse.
No. 2 of 27
Multilevel data strukturer og
analysemetoder
Multilevel (hierarkiske) data består af variabler målt på forskellige i
hinanden indlejrede niveauer, f.eks.:






Elever i skoler
Borgere i kommuner
Elever i skoler i klasser
Måletidspunkter ved individer
Borgere i lande
Borgere i måletidspunkter i lande
Multilevel eller mixed effect metoder er statistiske analysemetoder,
der kan håndtere og udforske hierarkiske problemstillinger på
hierarkisk strukturerede, eller multilevel, data på fornuftig vis.
Kombinationer af lande- og individdata. Multilevel analyse.
No. 3 of 27
Hvorfor har vi brug for MLA?
”Standard statistical tests lean heavily on the assumption of
independence of the observations. If this assumption is violated (and
in multilevel data this is almost always the case) the estimates of the
standard errors of conventional statistical tests are much too small,
and this results in many spuriously ‘significant’ results.” (Joop Hox
2010: Multilevel Analysis)
Allerede midt i forrige århundrede kendte man til disse problemer,
og der blev udviklet metoder til at korrigere for nogle af de fejl, man
ellers ville gøre.
Efterhånden holdt man op med at betragte multilevel data som
irritationsmomenter, der skulle håndteres, og gik i stedet over til at
se disse som noget, der giver spændende muligheder.
Kombinationer af lande- og individdata. Multilevel analyse.
No. 4 of 27
To eller nogle få makroenheder (f.eks. lande) kan nemt
håndteres med ordinære analysemetoder
Land 1
i1
i2
Land 2
i2 …… in
Men egner sig kun til nogle typer af problemstillinger!
Kombinationer af lande- og individdata. Multilevel analyse.
No. 5 of 27
Eksempel på fejlestimering på individniveauanalyse på hierarkiske data
Lykke
.
.
...
..
..
.
..
..
.
.
.
..
..
...
.
En t-test ville sikkert finde signifikant forskel
i gennemsnit, og det er der intet i vejen
med.
BNP/indb.
Land 1 and 2
Men der vil være stor risiko for en fejlkonklusion,
hvis man på baggrund af dataene siger, at
denne forskel skyldes forskel i BNP!
Kombinationer af lande- og individdata. Multilevel analyse.
No. 6 of 27
Fejlestimering med lineær regression
Lykke
.
.
...
..
..
Tilsvarende gælder det for ordinær individbaseret
lineær regression på hierarkiske data.
.
..
..
.
.
.
..
..
...
.
OLS regressionslinje
BNP/indb.
Land 1,2 og 3
Des flere lande og des færre individer i de enkelte
lande, jo mindre bliver fejlestimeringen, men så
længe der er flere individer inden for enkelte
lande, vil der principielt kunne ske fejlestimering.
Kombinationer af lande- og individdata. Multilevel analyse.
No. 7 of 27
Aggregering af individdataene som løsning
Man har mildest talt ikke gode muligheder for at spore
effekter fra individvariabler
 Aggregeringen formindsker antallet af frihedsgrader
 Risiko for såkaldt økologisk fejlslutning (fra makro til mikro)
Man forbiser en masse potentielt spændende
information, som niveauopsplitning af variansen på den
afhængige variabel og varierende effekt fra
individvariabler hen over makroenhederne
No. 8 of 27
Kombinationer af lande- og individdata. Multilevel analyse.
En anden type fejlestimering med lineær
regression baseret på individenhederne
Lykke
Nu ses der på effekten fra en individniveau variabel,
SES.
OLS regressionslinje
for de enkelte lande
Overordnet OLS
regressionslinje
En slags ”frog pond-effekt”.
SES
Såkaldt ”fixed effect” analyse kan i nogle situationer være en
løsning!
No. 9 of 27
Kombinationer af lande- og individdata. Multilevel analyse.
Den ”tomme” model (varianskomponent-model)
Lykke
Ingen uafhængige variabler, kun
opsplitning af variansen på den
afhængige variabel på de to niveauer.
Landene varierer i niveau, og
individerne varierer inden for det
enkelte land.
Overordnet intercept
Lande
Ud over interceptet er der et
fejlled på både lande- og
individniveau:
Yij   0  u0 j  eij
No. 10 of 27
Kombinationer af lande- og individdata. Multilevel analyse.
Random Intercept Model med en
individvariabel
Lykke
Afvigelse fra det
gennemsnitlige
niveau for lykke
SES
ML
regressionsligning:
Yij   0  1 x1ij  u0 j  eij
No. 11 of 27
Kombinationer af lande- og individdata. Multilevel analyse.
Random Slope Model
Lykke
Afvigelse fra den
gennemsnitlige effekt
fra X (SES)
SES
Nu tre fejlled (og tre variansestimater):
Yij  0  1 X ij  u1 j X ij  u0 j  eij
Kombinationer af lande- og individdata. Multilevel analyse.
No. 12 of 27
Random Slope Model, inkl. landevariabel
Z kunne f.eks. være en variabel, der indikerer niveauet for udgifter
til sociale foranstaltninger. Den vil muligvis kunne forklare noget af
niveauforskellen i lykke landene imellem:
Yij  0  1 X ij   2 Z j  u1 j X ij  u0 j  eij
Muligvis kan effektvariansen på SES evt. derudover forklares ved
størrelsen af sociale udgifter, en såkaldt ”cross level interaction”:
Yij  0  1 X ij   2 Z j  3 X ij Z j  u1 j X ij  u0 j  eij
No. 13 of 27
Kombinationer af lande- og individdata. Multilevel analyse.
Centrering af uafhængige variabler
Det er ofte bedre at estimere variation mellem makroenheder ved individvariablernes
gennemsnit end i deres oprindelige nulpunkt.
Lykke
Her er bedre!
Her er ikke et godt sted at
estimere niveauforskelle
SES
Nulpunkt i original
Nulpunkt i
variabel
gennemsnits-centreret
variabel
No. 14 of 27
Kombinationer af lande- og individdata. Multilevel analyse.
.6
.4
.2
0
Density
.8
1
Eksempel i Stata, tilfredshed med livet som
afhængig variabel
0
2
4
6
How satisfied are you with your life
8
10
No. 15 of 27
Kombinationer af lande- og individdata. Multilevel analyse.
.6
.4
.2
0
Density
.8
1
Kontrol over livet som primær uafhængig
0
2
4
6
How much freedom you feel
8
10
No. 16 of 27
Kombinationer af lande- og individdata. Multilevel analyse.
Den tomme model i Stata
V22
Coef.
_cons
6.798144
Random-effects Parameters
Std. Err.
.1244536
z
P>|z|
54.62
0.000
[95% Conf. Interval]
6.55422
7.042069
Estimate
Std. Err.
[95% Conf. Interval]
var(_cons)
.8638002
.163872
.5955681
1.252839
var(Residual)
4.494941
.0227333
4.450605
4.539719
V2: Identity
LR test vs. linear regression: chibar2(01) = 14635.52 Prob >= chibar2 = 0.0000
Niveauet for den gennemsnitlige
respondent i det gennemsnitlige
land
Varians mellem respondenter
inden for det enkelte land,
svarer til en std.afv. på 2,1
Varians mellem lande, svarer
til en std.afv. på 0,9
No. 17 of 27
Kombinationer af lande- og individdata. Multilevel analyse.
-2
-1
0
1
2
Interceptresidualer (landevariation)
0
20
40
vc_i_rank
60
No. 18 of 27
Kombinationer af lande- og individdata. Multilevel analyse.
Random Intercept Model
V22
Coef.
c_V46
_cons
.307043
6.793784
Random-effects Parameters
Std. Err.
.0032746
.1034479
z
P>|z|
93.77
65.67
0.000
0.000
[95% Conf. Interval]
.300625
6.59103
.3134611
6.996538
Estimate
Std. Err.
[95% Conf. Interval]
var(_cons)
.5960752
.1132422
.4107618
.864992
var(Residual)
4.041766
.0204414
4.0019
4.08203
V2: Identity
LR test vs. linear regression: chibar2(01) = 10677.58 Prob >= chibar2 = 0.0000
Effekt fra ”kontrol over livet”
Fra tom model svinder variansen på landeniveau ind fra 0,86 til 0,60: R2land =
0,30
Tilsvarende svinder variansen på individniveau ind fra 4,49 til 4,04: R2
=
individ
0,10
Helt ”efter bogen” bør der i modellen også inddrages en udgave af variablen
V46, der er aggregeret til landeniveau.
No. 19 of 27
Kombinationer af lande- og individdata. Multilevel analyse.
Random Slope Model
V22
Coef.
c_V46
_cons
.3159914
6.789863
Std. Err.
.0132023
.1028847
Random-effects Parameters
z
23.93
65.99
Estimate
P>|z|
[95% Conf. Interval]
0.000
0.000
.2901154
6.588212
Std. Err.
.3418673
6.991513
[95% Conf. Interval]
V2: Unstructured
var(c_V46)
var(_cons)
cov(c_V46,_cons)
.0090186
.58929
-.0029616
.0018413
.1120022
.0101356
.0060444
.4060197
-.0228269
.0134565
.8552853
.0169038
var(Residual)
3.9989
.0202318
3.959443
4.038751
LR test vs. linear regression:
chi2(3) = 11362.41
Gennemsnitlig effekt fra
”kontrol over livet”
Mål for sammenhæng
(kovarians) mellem
landeintercept effekt fra ”kontrol
over livet”
Prob > chi2 = 0.0000
Variation i effekten fra
”kontrol over livet”
No. 20 of 27
Kombinationer af lande- og individdata. Multilevel analyse.
-.4
-.2
0
.2
.4
Slope-residualer
0
20
40
rs1_s_rank
60
No. 21 of 27
Kombinationer af lande- og individdata. Multilevel analyse.
2
4
6
8
10
Regressionslinjer for de enkelte lande
-6
-4
-2
0
c_V46
2
4
No. 22 of 27
Kombinationer af lande- og individdata. Multilevel analyse.
Flere uafhængige
V22
Coef.
female
c_age
c_edu
c_V46
c_wbgi_cce
_cons
.1011365
-.0026442
.0655871
.3089986
.4017405
6.680043
Std. Err.
.0143787
.000485
.0033474
.0131105
.0756041
.0838567
Random-effects Parameters
z
P>|z|
7.03
-5.45
19.59
23.57
5.31
79.66
Estimate
0.000
0.000
0.000
0.000
0.000
0.000
Std. Err.
[95% Conf. Interval]
.0729547
-.0035948
.0590262
.2833025
.2535593
6.515686
.1293184
-.0016936
.0721479
.3346948
.5499218
6.844399
[95% Conf. Interval]
V2: Unstructured
var(c_V46)
var(_cons)
cov(c_V46,_cons)
.0088823
.3813418
-.0052504
.0018161
.0726881
.0081197
.0059497
.2624615
-.0211647
.0132605
.5540681
.0106639
var(Residual)
3.970617
.0200887
3.931438
4.010186
LR test vs. linear regression:
Effekt fra landeniveauvariablen ”kontrol over
korruption”
chi2(3) =
7843.58
Prob > chi2 = 0.0000
No. 23 of 27
Kombinationer af lande- og individdata. Multilevel analyse.
Samme, blot Random Intercept
V22
Coef.
female
c_age
c_edu
c_V46
c_wbgi_cce
_cons
.0984257
-.0028035
.065574
.300559
.4146373
6.684568
Random-effects Parameters
Std. Err.
.0144327
.0004857
.0033564
.0032818
.0754912
.0834063
z
P>|z|
6.82
-5.77
19.54
91.58
5.49
80.14
0.000
0.000
0.000
0.000
0.000
0.000
[95% Conf. Interval]
.0701382
-.0037554
.0589955
.2941268
.2666774
6.521094
.1267132
-.0018516
.0721524
.3069911
.5625973
6.848041
Estimate
Std. Err.
[95% Conf. Interval]
var(_cons)
.3773694
.0718909
.2597816
.5481824
var(Residual)
4.012976
.0202958
3.973393
4.052953
V2: Identity
LR test vs. linear regression: chibar2(01) =
7163.20 Prob >= chibar2 = 0.0000
Fra tom model svinder variansen på landeniveau ind fra 0,86 til 0,38: R2land =
0,56
Tilsvarende svinder variansen på individniveau ind fra 4,49 til 4,01: R2individ =
0,11
No. 24 of 27
Kombinationer af lande- og individdata. Multilevel analyse.
2
-1
0
1
BLUP r.e. for V2: _cons
2
1
0
-1
-2
-2
-1
0
1
BLUP r.e. for V2: _cons
2
Landeresidualerne svinder ind hen over
modellerne
0
20
40
vc_i_rank
60
0
20
40
ri_i_rank
60
0
20
40
ri4_i_rank
60
No. 25 of 27
Kombinationer af lande- og individdata. Multilevel analyse.
Mulighed for at liste landeresidualer
V2
vc_i
vc_i_ste
vc_i_r~k
63762.
66079.
67513.
68007.
69318.
Sweden
Netherla
Argentin
Canada
Finland
.9125032
.9126738
.9264378
.9497304
1.034646
.0671719
.0655785
.0687064
.0463179
.0664423
46
47
48
49
50
70495.
71918.
72820.
74289.
76662.
New Zeal
Switzerl
Guatemal
Norway
Mexico
1.082277
1.10297
1.147613
1.170241
1.43201
.0714612
.0605453
.0670375
.0663771
.0549395
51
52
53
54
55
77733.
Colombia
1.509981
.0387003
56
Kombinationer af lande- og individdata. Multilevel analyse.
Eksempel på ekstra komplikation:
gentagne tværsnitsdata over mange
lande
No. 26 of 27
Datastruktur (hvor der forestilles en længere række af lande):
Land 1
t1
i11
i12 i13 …… i1n
Land 2
t2
i21
i22 i23 …… i2n
t1
i11
i12 i13 …… i1n
t2
i21
i22 i23 …… i2n
Kombinationer af lande- og individdata. Multilevel analyse.
No. 27 of 27
Læringsmuligheder (bøger og kurser)
Essex Summer School
Hjemlige ph.d.-kurser
Snijders, Tom A. B. & Bosker, Roel: An Introduction to Basic and
Advanced Multilevel Modeling
Hox, Joop: Multilevel Analysis. Techniques and Applications.
Rabe-Hesketh, Sophia & Skrondal, Anders: Multilevel and
Longitudinal Modeling Using Stata
LEMMA learning environment:
http://www.cmm.bris.ac.uk/lemma/login/index.php
under Centre for Multilevel Modeling i Bristol
Fairbrother, Malcolm: Two Muiltilevel Modeling Techniques for
Analyzing Comparative Longitudinal Survey Datasets (unpublished
paper)