Eksamensoppgave

Institutt for sosiologi og samfunnsgeografi
BOKMÅL
SKOLEEKSAMEN I
SOS1120 Kvantitativ metode
2. juni 2015
4 timer
Følgende hjelpemidler er tillatt på eksamen:




alle pensumbøker (inkl. kompendiet fra unipub)
programmerbar kalkulator
2 X A4 ark, egne notater (på begge sider): i alt fire sider
egne notater i bøkene er lov
Sensur for eksamen faller 23. juni kl. 14.00. Sensuren publiseres i StudentWeb ca. kl. 15.00
samme dag.
Sensuren regnes som mottatt av studentene når den publiseres i StudentWeb. Vi minner om at
kandidater som ønsker begrunnelse må be om dette senest 1 uke etter at sensur er falt. Frist
for å klage på karakteren er tre uker etter at sensur er falt. Informasjon om rutiner for
begrunnelser og klager ved ISS finnes på emnesiden.
Oppgavesettet består av 9 sider inkludert denne.
Kandidaten skal levere både originalen og kopien av besvarelsen. Kladd skal ikke leveres.
NB! Skriv hardt nok til at kopien blir leselig. Tusjpenn kan ikke brukes.
Husk å notere deg kandidatnummeret ditt.
Flere av spørsmålene nedenfor har flervalgsalternativer («multiple choice»). Alle svar må
skrives på gjennomslagsarkene. Følg derfor instruksjonene ved disse spørsmålene for hvordan
svarene føres på gjennomslagsarkene.
1
Institutt for sosiologi og samfunnsgeografi
BOKMÅL
«The self made man»: sosial ulikhet, arbeidstid og inntekt i USA
Noen sosiologer hevder at vi stadig blir friere fordi vi stadig
får flere valgmuligheter i moderne samfunn, samtidig som at
slike samfunn har større grad av meritokrati. Litt forenklet,
betyr meritokrati at dine livssjanser i hovedsak bestemmes av
hvor produktiv og flink du er. Ifølge resonnementet er vi i en
forstand vår egen lykkes smed, som skaper våre muligheter
gjennom hardt arbeid og utdanningsprestasjoner («talenter»),
og dessuten hva vi velger å jobbe som («preferanser»).
Men samtidig styres mange valgmuligheter av hvor mye ting
koster. Ikke alle har råd til å «velge» en flunkende ny
miljøvennlig el-bil, eller å hyre inn en privatlærer til barna sine. Familieøkonomi og inntekt
kan derfor spille en sentral rolle i den nye valgfriheten. Hvor mye du jobber (arbeidstid) og
hva du jobber som (yrke) er igjen viktige for hva du tjener (inntekt).
Noen teorier om meritokrati og sosial ulikhet har sin opprinnelse blant amerikanske
sosiologer på sekstitallet. Vi bruker derfor det amerikanske arbeidsmarkedet som et eksempel
på et moderne samfunn. Her bruker vi data fra General Social Survey (GSS) i årene 1988 til
2010. Fra disse dataene har vi plukket ut personer som er mellom 30 og 70 år. Vi undersøker
flere viktige aspekter som demografiske forhold, arbeidstid, sosial ulikhet og inntekt.
Variabelbeskrivelse (gjelder alle oppgaver i denne eksamen):
Variabelnavn
region
Betydning
Landsdeler i USA. Inndelt i 4 kategorier
Koding
1 = «east coast»
2= «central states»
3= «southern states»
4= «west coast»
sei50
Yrkets sosiale prestisjeskåre. Variabelen går
fra 0 til 100. Men den er sentrert på
prestisjeskåren 50
0 betyr prestisjeskåre «50»
1 betyr prestisjeskåre «51», osv
parsei50
Yrkets sosiale prestisjeskåre til foreldrene.
Variabelen går fra 0 til 100, og er sentrert på
skåren 50
Respondentens kjønn
Respondentens høyeste utdanning målt i
antall år. Variabelen er sentrert på 13 års
skolegang
0 betyr prestisjeskåre «50»
1 betyr prestisjeskåre «51», osv
degree
Respondentens høyeste utdanning målt i
kategorier
year2000
Det aktuelle inntektsåret. Kodet som en
dummyvariabel
Samspillsvariabel mellom årsvariabelen
(year2000) og foreldrenes sosiale yrkesstatus
(parsei50)
1 = grunnskole («lt high school»)
2 = videregående (« high school»)
3 = påbyggning til vgs (« junior college»)
4 = universitet, lavere grad («bachelor»)
5 = universitet, høyere grad («master/phd»)
0 =“før år 2000”,
1 =“2000 og senere”
samspillsledd
sex
educ13year
Parsei50Xyear2000
2
Mann = 0, kvinne =1
Målt i antall år.
Tallkode 0 betyr «13 år med skole», tallkode 1
betyr 14 år, osv)
Institutt for sosiologi og samfunnsgeografi
coninc
Age
age30
Inntekter fra arbeid
Faktisk oppgitt alder
Alder er sentrert på 30 år
hrs1
Antall arbeidstimer per uke.
BOKMÅL
Målt i faktiske US-dollar ($)
Tallkode 0 betyr 0 år gammel, osv
Tallkode 0 betyr 30 år, tallkode 1 betyr 31 år ,
osv
Målt i antall arbeidstimer.
Tallkoden 0 betyr 0 timer, etc..
Oppgave 1
a) Hvilke målenivå befinner variablene «degree», «coninc», «region», «hrs1» seg på?
(1 poeng)
b) Begrunn kort hvorfor du mener «region» befinner seg på det målenivået (1 poeng)
c) Hva ville sentraltendensmålet modus ha fortalt oss om du hadde brukt dette målet på
variabelen «region»? (0.5 poeng)
d) Kan vi bruke median på variabelen for region? Ja / Nei (0.5 poeng)
Tabell 1: Frekvenstabell av utdanningskategorier. N=26039
rs highest
degree
Freq.
Percent
Cum.
lt high school
high school
junior college
bachelor
graduate
2,687
13,820
1,832
5,084
2,616
10.32
53.07
7.04
19.52
10.05
10.32
63.39
70.43
89.95
100.00
Total
26,039
100.00
e) Hvilken utdanningskategori er modus i tabell 1? (1 poeng)
f) Tolk medianen i tabell 1(1 poeng)
g) Hvor stor prosentandel av utvalget har fullført bachelorgrad eller høyere ifølge denne
tabellen? (1 poeng)
h) Tegn et histogram basert på tabell 1. Marker stolpene med kategorinavn. Bruk antall
observasjoner på y-aksen. (1 poeng) (Rund av til nærmeste tusen).
Oppgave 2
Anta at figuren (figur 1) nedenfor er representativ for den arbeidsføre delen av USA. Beskriv
kort hva linjene i figuren nedenfor forteller oss om inntektsutviklingen avhengig om de har fra
foreldre med høy eller lav yrkesposisjon. (2 poeng)
FIGUR1: Gjennomsnittlig årlig inntekt (i dollar) for personer med foreldre som
har lav og høy yrkesstatus («parents’ sei»: Par SEI). Personer mellom 30-70
år.
3
Institutt for sosiologi og samfunnsgeografi
BOKMÅL
100000
90000
80000
Annual income
70000
60000
50000
40000
30000
20000
10000
Par SEI lower than 50
Par SEI higher than 50
0
1990
1995
2000
2005
2010
gss year for this respondent
Oppgave 3
Tenk deg at en forsker stiller seg opp foran en kino klokken 13.00, en helt tilfeldig valgt dag.
Kinoen har nettopp vist en barnefilm om Snurre Sprett. Folk strømmer ut av kinoen. Han spør
de ti tilfeldig første personene som kommer ut av kinoen om de har lyst til å være med i en
spørreundersøkelse. Anta at alle sier ja til å være med.
a. Er dette er et sannsynlighetsutvalg hvor analyseresultatene kan generaliseres til resten
av befolkningen? Ja/nei (1 poeng)
b. Begrunn kort svaret ditt i a. (2 poeng)
Oppgave 4
FIGUR 2: Histogram av inntektsfordeling i USA. Personer 30-70 år.
.4
Fraction
.3
.2
.1
0
0
100000
200000
300000
respondent income in constant dollars
4
400000
Institutt for sosiologi og samfunnsgeografi
BOKMÅL
4.1 Inntektsfordelingen i figuren over er (1 poeng) :
a. høyeskjev
b. venstreskjev
c. normalfordelt
d. t-fordelt
e. uniform
4.2 Hvis medianen i denne inntektsfordelingen er 35602 $, hva er det mest sannsynlig
gjennomsnittet for inntekt av følgende alternativer (1 poeng) :
a. 44680 $
b. 35602 $
c. 12101 $
Oppgave 5
Tabell 2: Krysstabell mellom inntekt (incDV) og utdanningsnivå (degreeDV). Dette er
variabler som er omkodet til to kategorier basert på inntektsvariabelen «coninc» og
utdanningsvariabelen «degree».
.
ta
degreeDV
RECODE
degree
incDV
,
row
5.5
nof
RECODE
of
rincome
highest
(respondents
income)
degree)
<25000
>=25000
Total
low
educ
70.99
29.01
100.00
high
educ
37.81
62.19
100.00
Total
62.37
37.63
100.00
chi2(1)
Cramér's
5.2
5.3
5.4
chi
of
(rs
Pearson
5.1
V
V
=
3.1e+03
=
0.3004
Pr
=
0.000
Anta at utdanning påvirker inntekten. Regn ut prosentdifferansen i forhold hva som er
antatt årsak. Vis utregningen.(1 poeng)
Gi en kort tolkning av denne prosentdifferansen (1 poeng)
Tolk korrelasjonsmålet Cramers V (1 poeng)
Formuler en nullhypotese og en forskningshypotese for sammenhengen mellom
utdanning og inntekt. (1 poeng)
Utfør en moderne kjikvadrattest. La signfikansnivået (alpha) være 0,05.
Signifikanssannsynligheten (p-verdien) er oppgitt som «Pr =0,000». (2 poeng)
Oppgave 6
Nedenfor ser du at tabellen oppgir beskrivende statistikk for prestisjeskåre for arbeidstimer
per uke.
5
Institutt for sosiologi og samfunnsgeografi
BOKMÅL
Tabell 3: Deskriptiv statistikk for antall arbeidstimer per uke (hrs1).
Mean = gjennomsnitt, SE(mean) = standardfeil, N = antall observasjoner.
. tabstat hrs1 , stat(mean sem N )
variable
mean
se(mean)
N
hrs1
42.57777
.1117816
15835
a. Finn kritisk t-verdi i vedleggstabellen for et signifikansnivå på 99,9% (alfa= 0.001).
Frihetsgrader er gitt ved df = N-1. (1 poeng)
b. Beregn (estimér) et 99,9% konfidensintervall for gjennomsnittet av arbeidstimer i
utvalget basert på formelen (1 poeng):
KI99,9% = mean ± t*SE
c. Gi en kort tolkning av konfidensintervallet (1 poeng)
Oppgave 7
Nedenfor ser du en korrelasjonstabell mellom flere av variablene. Alle tallene viser pearsonsr som er korrelasjonsmål for to kontinuerlige variabler av gangen.
Tabell 4: korrelasjonstabell. Pearsons-r
. corr coninc sei parsei region
(obs=24191)
coninc
sei
parsei
region
coninc
sei
parsei
region
1.0000
0.3915
0.2230
-0.0230
1.0000
0.2956
0.0169
1.0000
0.0444
1.0000
a. Tolk korrelasjonen mellom barnas sosiale yrkesstatus(sei) og inntekt (coninc).
(1 poeng)
b. Hvorfor viser alle korrelasjonene langs diagonalen i tabellen r=1 ? (1 poeng)
c. Hvilke(n) av variablene hører ikke hjemme rent statistisk sett i denne
korrelasjonstabellen? (2 poeng)
Oppgave 8 (2 poeng)
Noen hevder at meritokrati i moderne samfunn fremmer sosial reproduksjon på tvers av
generasjoner i moderne samfunn. Ifølge dette resonnementet overføres talent,
utdanningspreferanser og jobbpreferanser, enten sosialt eller genetisk fra foreldregenerasjon
til barna. I et «perfekt» meritokrati vil familiebakgrunn dermed ha en fullstendig indirekte
6
Institutt for sosiologi og samfunnsgeografi
BOKMÅL
effekt på barnas inntekt. Familiebakgrunn vil virke gjennom at barn av foreldre med høy
status oftere får høy utdanning og dermed høyere lønn enn barn av foreldre med lav status.
Rent statistisk sett betyr dette at etter kontroll for barnas yrkesposisjon og utdanning, vil
familiebakgrunn dermed ikke ha noen gjenværende direkte effekt på barnas inntekt.
Tegn et årsak-virkningsdiagram som viser hvordan foreldres sosiale posisjon (parsei50) antas
å påvirke inntekt (coninc) fullstendig gjennom egen utdanning (educ13) og yrkesprestisje
(sei50).
Oppgave 9
Vi ønsker her å undersøke sammenhengen mellom forelderens sosiale posisjon (parsei) og
barnas inntekt oppgitt i US-dollars ($$$). Vi inkluderer kontrollvariabler i alle modellene.
Modell 1:
.
reg
coninc
parsei50
Source
age30,
SS
beta
df
MS
Number
of
obs
=
25337
F(
25334)
=
680.72
F
2,
Model
1.9270e+12
2
9.6350e+11
Prob
=
0.0000
Residual
3.5858e+13
25334
1.4154e+09
R-squared
=
0.0510
Adj
=
0.0509
=
37622
Total
3.7785e+13
25336
Std.
1.4914e+09
coninc
Coef.
Err.
parsei50
458.3265
12.52584
age30
22.77181
14.28682
_cons
48303.74
321.8364
t
>
R-squared
Root
MSE
P>|t|
Beta
36.59
0.000
.2273166
1.59
0.111
.0099021
150.09
0.000
.
9.1 Tolk konstantleddet i modell 1 (1 poeng)
9.2 Tolk regresjonskoeffisienten for alder (age30) (1 poeng)
Modell 2
.
reg
coninc
Source
parsei50
age30
SS
educ13years
df
sei50,
beta
MS
Number
of
obs
=
24133
F(
24128)
=
1447.93
F
4,
Model
6.9663e+12
4
1.7416e+12
Prob
=
0.0000
Residual
2.9021e+13
24128
1.2028e+09
R-squared
=
0.1936
Adj
=
0.1934
=
34681
Total
3.5987e+13
24132
Std.
1.4913e+09
coninc
Coef.
Err.
parsei50
144.1102
12.7465
age30
26.82744
13.9323
educ13years
2839.341
sei50
_cons
t
Root
>
R-squared
MSE
P>|t|
Beta
11.31
0.000
.0714973
1.93
0.054
.0114513
97.82583
29.02
0.000
.2174337
483.5553
14.53315
33.27
0.000
.2415356
47670.97
321.2127
148.41
0.000
.
7
Institutt for sosiologi og samfunnsgeografi
BOKMÅL
Fortolk den (ujusterte) R2 i modell2 (1 poeng)
Hvilken av variablene i modell 2 ser ut til å være minst viktig for barnas inntekt?
(Oppgi tallet du vurderer dette ut i fra) (1 poeng)
Begrunn kort hvorfor regresjonskoeffisenten til foreledrenes sosiale yrkestatus
(parsei50) synker i modell 2 i forhold til modell 1? (2 poeng)
Predikér årlig inntekt for en person med 14 års utdanning, som er 45 år gammel,
som har gjennomsnittlig prestisjeskåre (SEI=50), og som har foreldre med
prestisjeskåre PARSEI= 51. Vis utregning (2 poeng).
9.3
9.4
9.5
9.6
Hint: Husk å kikke på variabelbeskrivelsen.
Oppgave 10
Modell 3:
. reg coninc parsei50 age30 educ13years sei50 year2000 parsei50Xyear2000
Source
SS
df
MS
Model
Residual
7.0587e+12
6
2.8929e+13 24126
1.1765e+12
1.1991e+09
Total
3.5987e+13 24132
1.4913e+09
coninc
Coef.
parsei50
age30
educ13years
sei50
year2000
parsei50Xyear2000
_cons
63.55626
20.9517
2822.469
481.5806
2917.458
148.1438
46245.7
Number of obs
F( 6, 24126)
Prob > F
R-squared
Adj R-squared
Root MSE
Std. Err.
17.69913
13.93013
97.74828
14.51235
448.6771
23.3335
383.8942
t
3.59
1.50
28.87
33.18
6.50
6.35
120.46
P>|t|
0.000
0.133
0.000
0.000
0.000
0.000
0.000
=
=
=
=
=
=
24133
981.14
0.0000
0.1961
0.1959
34627
[95% Conf. Interval]
28.86487
-6.352225
2630.876
453.1355
2038.023
102.4087
45493.25
98.24765
48.25562
3014.061
510.0257
3796.893
193.879
46998.16
I modell 3 kontrolleres det for tid (før og etter 2000). Det er dessuten inkludert et
samspillsledd mellom år og foreldrenes yrkesposisjon (parsei50Xyear2000).
a. Hvor mye mer betyr foreldrenes sosiale yrkes status for barnas inntekt etter år 2000,
selv etter vi har kontrollert for barnas utdanning og yrkesstatus? (2 poeng).
b. Ta utgangspunkt i likningen:
̂ = 46245.7 + 63,6 ∗ parsei50 + 2917,5 ∗ year2000 + 148 ∗ parsei50Xyear2000
𝐼𝑛𝑛𝑡𝑒𝑘𝑡
Utled to regresjonslikninger basert på dummyvariabelen for tid (year2000): før og
etter år 2000.(3 poeng).
8
Institutt for sosiologi og samfunnsgeografi
BOKMÅL
*************************
VEDLEGG:
T-fordeling (forkortet tabell)
Df
1
2
3
4
5
10
50
60
80
120
>120
Signifikansnivåer for tohalet t-test (alfa)
0.2
0.1
0.05
0.02
3.078
6.314
12.706
31.821
1.886
2.920
4.303
6.965
1.638
2.353
3.182
4.541
1.533
2.132
2.776
3.747
1.476
2.015
2.571
3.365
1.372
1.812
2.228
2.764
1.299
1.676
2.009
2.403
1.296
1.671
2.000
2.390
1.292
1.664
1.990
2.374
1.289
1.658
1.980
2.358
1.282
1.645
1.960
2.326
9
0.01
63.657
9.925
5.841
4.604
4.032
3.169
2.678
2.660
2.639
2.617
2.576
0.001
636.619
31.599
12.924
8.610
6.869
4.587
3.496
3.460
3.416
3.373
3.291