Download Report

Andreas Myhre
April 2015
Løsningsforslag til obligatorisk oppgave i ECON 2130
Oppgave 1:
E(XY) = E(X(Z – X))
Setter inn Y = Z - X
E(XY) = E(XZ – X2)
E(XY) = E(XZ) – E(X2)
X og Z er uavhengige, så Cov(X, Z) = 0. Dermed er
E(XZ) = E(X)E(Z) også lik 0, siden E(X) = E(Z) = 0.
E(XY) = - E(X2)
E(XY) = - (Var(X) + (E(X))2)
Bruker formelen Var(X) = E(X2) – (E(X))2
E(XY) = - Var(X)
Har fått oppgitt i oppgaven at X er normalfordelt med
forventning lik 0 og standardavvik lik 1. Da er også
Var(X) = 1.
E(XY) = -1
ρ(X, Y) =
ρ(X, Y) =
ρ(X, Y) =
ρ(X, Y) =
ρ(X, Y) =
ρ(X, Y) =
ρ(X, Y) =
Cov( X , Y )
σ xσ y
Cov( X , Y )
Var ( X ) *Var (Y )
E ( XY ) − µ x µ y
Var ( Z − X )
Var(X) = 1, og Var (Y) kan skrives som Var(Z – X):
µ x = µ y = 0, så dette leddet faller bort.
E ( XY )
Var (1* Z + (−1) X )
−1
12 Var ( Z ) + (−1) 2 Var ( X )
−1
Var ( Z ) + Var ( X )
Var(Z) og var(X) er begge lik 1. Så:
−1
2
1
Oppgave 2:
Her lot jeg først Excel til å trekke 20 tall for variablene X og Z, der X og Z er normalfordelte
med forventning 0 og standardavvik 1. Deretter lagde jeg en tredje kolonne for Y, og satte Y
lik Z - X. Først lagde jeg et punktdiagram for variablene X og Z, og fikk følgende resultat:
1,5
1
0,5
0
-2
-1
-0,5
0
1
2
Series1
3
-1
-1,5
-2
Her ser vi at det er stor spredning og liten sammenheng mellom variablene, X og Z virker å
være uavhengige av hverandre. Korrelasjonen mellom X og Z er derfor i dette tilfellet liten
(0,17 i med disse tallene i Excel), da det ikke er noen tydelig lineær sammenheng. Den
forventede korrelasjonen mellom X og Z er lik 0, så vårt estimat bommer noe på den sanne
korrelasjonen. Dette skyldes i hovedsak tilfeldigheter og at vi har få observasjoner.
Deretter gjorde jeg akkurat det samme for variablene X og Y. Resultatet ble slik:
2,5
2
1,5
1
0,5
Series1
0
-2
-1,5
-1
-0,5
-0,5
0
0,5
1
1,5
-1
-1,5
-2
Her ser vi en viss sammenheng mellom variablene, da det ikke er noen observasjoner av lav
verdi på X som medfører lav verdi på Y, og ingen observasjoner av høy verdi for X som
medfører en høy verdi for Y. Vi observerer derfor en negativ sammenheng mellom variablene.
X og Y gir dermed et visst inntrykk av avhengighet, som forventet, da den teoretiske
korrelasjonen mellom X og Y er -0.707.
2
Oppgave 3:
Først skal vi se at vi kan skrive korrelasjonen som ρ(X, Y) =
Vi har ρ(X, Y) =
ρ(X, Y) =
σ xσ y
1+ a 2
og Y = Z + aX
Cov( X , Y )
ρ(X, Y) =
ρ(X, Y) =
Cov( X , Y )
a
Var ( X ) *Var (Y )
E ( XY ) − µ x µ y
Var (Y )
Var(X) = 1, så vi kan skrive:
µ x = µ y = 0, så dette leddet faller bort. Setter inn for Y:
E ( X ( Z + aX ))
ρ(X, Y) =
Var ( Z + aX )
E ( XZ ) + aE ( X 2 )
Var ( Z ) + a 2Var ( X )
Siden X og Z er uavhengige er E(XZ) = 0.
E(X2) = Var(X) + (E(X))2 = 1. Var(X) = Var(Z) = 1.
Da kan vi skrive uttrykket som:
ρ(X, Y) =
a
1+ a 2
Deretter kan vi løse denne likningen mhp a:
ρ=
a
1+ a 2
ρ2(1+a2) = a2
ρ2 +a2ρ2 = a2
a2(1-ρ2) = ρ2
ρ2
a =
1− ρ 2
ρ
a=±
1− ρ 2
2
3
Da finner vi følgende verdi for a når ρ = -0.2:
a=±
− 0.2
1 − (−0.2) 2
=±
0.2
= ± 0.204
0.96
Her blir a = -0.204 fordi a og ρ må ha samme fortegn. Etter å ha simulert n = 20 observasjoner
for X og Z i Excel på samme måte som i oppgave 2, lager vi en tredje kolonne for Y, der vi
setter Y = Z – 0.204X. Deretter plotter vi X og Y-variablene i et punktdiagram. Der fikk jeg
følgende resultat:
3
2,5
2
1,5
1
Series1
0,5
0
-2
-1,5
-1
-0,5
-0,5
0
0,5
1
1,5
-1
-1,5
Her ser vi at det er en svak negativ sammenheng mellom X og Y, omtrent som forventet, da ρ
= -0.2.
Og for ρ = 0.9:
a=±
0.9
1 − 0.9
2
=±
0.9
= ± 2.065
0.19
Her blir a = 2.065 fordi a og ρ må ha samme fortegn. Deretter gjør vi det samme som i sted,
og får dette spredningsplottet:
4
8
6
4
2
Series1
0
-2
-1
0
1
2
3
-2
-4
-6
Her ser vi at det er en tydelig lineær sammenheng mellom X og Y. Sammenhengen er positiv
i likhet med fortegnet på ρ. Sammenhengen er også mye tydeligere enn i sted, noe som
skyldes at absoluttverdien på ρ er større ved dette tilfellet.
Oppgave 4:
Her bruker vi tallene fra oppgave 2, og beregner korrelasjonen mellom X og Y ved hjelp av
Excel. Resultatet jeg fikk, altså estimert korrelasjon mellom X og Y med mine observasjoner,
ble r = -0.58355643.
Estimeringsfeilen er dermed |-0.58355-(-0.707)| = 0.12355
Vi ser at korrelasjonen mellom X og Y for n = 20 tilfeldige variabler er i nærheten av det
forventede resultatet (-0.707), men samtidig ikke helt nøyaktig. Dette skyldes i stor grad
størrelsen på utvalget, da n = 20 er et forholdsvis lite utvalg. Hadde vi økt n, og dermed fått et
større utvalg, hadde sannsynligvis estimeringsfeilen vært mindre. Men størrelsen på
estimeringsfeilen skyldes også i stor grad tilfeldigheter.
5
Oppgave 5:
Etter å ha fått 25 ulike observasjoner for r, lagde jeg et histogram med 6 intervaller og
intervallbredde 0.05. Histogrammet mitt ble seende slik ut:
Frekvens
Histogram
12
10
8
6
4
2
0
Frekvens
-0,85
-0,8
-0,75
-0,7
-0,65
-0,6
Mer
Intervall
Til tross for relativt få observasjoner for r (25 observasjoner), gir histogrammet et visst
inntrykk av at r er normalfordelt, da det er en klar tendens til at de fleste observasjonene
samler seg rundt gjennomsnittet for de 25 observasjonene for r, som er -0.74 (se histogram).
Samtidig er flere av observasjonene for r er et stykke unna denne verdien. Dette kan forklares
ved hjelp av størrelsen på standardavviket for r, som Excel beregnet til å være 0.067 med
dette datasettet. Hadde standardavviket vært mindre, hadde sannsynligvis flere av
observasjonene samlet seg rundt midten av histogrammet ved fast intervallbredde.
Gjennomsnittet er beregnet til -0.74057, og medianen til -0.7515. Vi ser her at begge disse
verdiene treffer forholdsvis bra i forhold til forventningsverdien ρ (som er -0.707), selv om
treffsikkerheten nok kunne vært bedre. Gjennomsnittet bommer altså med 0.03357 på den
forventete korrelasjonen. Standardavviket til gjennomsnittet er av Excel beregnet til å være
0.013264 (skal være lik standardavviket for r delt på n ). Et typisk avvik for gjennomsnittet
fra den forventete verdien ρ skal altså være ca. 0.013264. Men gjennomsnittet bommer her
med mye mer, faktisk så mye som 2.53 standardavvik (sjekk selv; ta gjennomsnittet av
observasjonene for r minus forventningsverdien (ρ) delt på standardavviket til gjennomsnittet,
kalt standardfeil i Excel). Dette er en forholdsvis stor bom også relativt til standardavviket,
men samtidig ikke unaturlig stort. Hadde vi hatt flere observasjoner, hadde gjennomsnittet av
observasjonene våre for r sannsynligvis truffet enda nærmere forventningsverdien ρ. Men
mye av årsaken til størrelsen på bommen skyldes i dette tilfellet tilfeldigheter. Vår estimerte
korrelasjon r virker å være en relativt pålitelig estimator for den sanne korrelasjonen ρ, vi må i
alle fall være forsiktige med å konkludere med det motsatte.
Største verdi for r var -0.60673, og minste verdi -0.8832 Dette gir en differanse på 0.27647
mellom største og minste verdi.
6
Oppgave 6:
Her gjør vi det samme som i oppgave 5, men øker n slik at n = 50 (for hver observasjon av r).
Dette ga meg følgende histogram for observasjonene av r, med samme intervallbredde (0.05)
som i oppgave 5:
Histogram
Frekvens
8
6
4
2
Frekvens
0
-0,8
-0,75
-0,7
-0,65
-0,6
-0,55
Mer
Intervall
Dette histogrammet ser litt annerledes ut enn det jeg fikk i oppgave 5, men også her får vi
inntrykket av at r er normalfordelt. Her ser histogrammet mer ”pålitelig” ut, da ingen av
intervallene skiller seg voldsomt ut med en veldig høy eller lav frekvens. Dette histogrammet
gir også muligens et litt klarere inntrykk av at r er normalfordelt i forhold til i oppgave 5.
Dette er helt forventet siden antallet observasjoner for hver av de 25 estimatorene for ρ (altså
våre 25 observasjoner for r) har økt fra 20 til 50. Men vær obs på at dette også i stor grad kan
skyldes tilfeldigheter, da et histogram kan se rimelig forskjellig ut avhengig av hvor man
setter intervallgrensene. Det er begrenset for hvor bastante konklusjoner man kan trekke fra et
histogram med så få observasjoner.
Gjennomsnittet for våre 25 observasjoner for r er nå beregnet til å være -0.7014, og medianen
er -0.712558. Disse verdiene treffer altså bedre enn verdiene i oppgave 5 på den forventede
verdien ρ = -0.707. Dette er i tråd med forventningene om at gjennomsnittet er en mer
pålitelig estimator for den sanne verdien ρ når antallet observasjoner øker. Men som vi skal se,
skyldes dette her i stor grad tilfeldigheter.
Standardavviket til r og standardavviket til gjennomsnittet til r (står som standardfeil i Excel)
er henholdsvis 0.067 og 0.0134, altså nesten akkurat det samme som i oppgave 5. Fordi vi har
flere observasjoner for hver verdi av r, skulle en forvente at flere av verdiene samlet seg rundt
midten av histogrammet ved samme intervallbredde, dvs. en skulle forvente at
standardavviket for r var mindre enn i oppgave 5. Dette er dog ikke tilfellet her, så vi må
konkludere med at dette skyldes tilfeldigheter. Gjennomsnittet treffer likevel bedre enn i
oppgave 5 (som ikke er gitt med tanke på at standardavviket for gjennomsnittet er omtrent det
samme).
For å komme med en litt mer generell konklusjon: Vi forventer at standardavviket for r, er
mindre jo flere observasjoner vi har for hver verdi av r. Altså forventer vi også at
standardavviket til gjennomsnittet for observasjonene av r, er mindre jo flere observasjoner vi
har for hver verdi av r. Således forventer vi at gjennomsnittet treffer bedre på den sanne
verdien ρ jo flere observasjoner vi har for hver verdi av r. Det gjorde det også i dette tilfellet,
men ikke på grunn av lavere standardavvik. Her skyldtes det i hovedsak tilfeldigheter. Men at
standardavviket for r ikke var mindre selv om antall observasjoner økte, var ikke forventet, og
således også tilfeldig.
7
Oppgave 7:
Etter å ha simulert 50 observasjoner for X og Z, og satt Y = Z – 3X2 fikk jeg følgende resultat:
4
2
0
-3
-2
-1
-2 0
1
2
3
-4
-6
Series1
-8
-10
-12
-14
-16
Deretter beregnet jeg korrelasjonen mellom X og Y i Excel, og fikk r(X, Y) = 0.072283.
Resultatet tyder derfor på at det ikke er noen klar lineær sammenheng mellom X og Y, noe vi
også ser i punktdiagrammet, at det ikke er. Vi observerer derimot at X og Y likevel virker å
være stokastisk avhengige av hverandre, da observasjonene samler seg rundt det som ville
vært en ikke-lineær kurve i diagrammet. Men denne effekten fanges ikke opp i beregningen
av korrelasjonen. Dette er fordi korrelasjonsverdien r som vi beregner, beskriver den lineære
sammenhengen mellom X og Y. I dette tilfellet er det heller ingen klar lineær sammenheng,
men definitivt en sammenheng. Vi kan derfor konkludere med at r ikke nødvendigvis er egnet
til å beskrive en sammenheng mellom to variabler som ikke er lineær. Her ser vi at selv om
kovariansen mellom to variabler forventes å være lik 0 (og derfor også korrelasjonen), trenger
ikke nødvendigvis variablene å være uavhengige.
Beregner også den sanne ρ:
ρ(X, Y) =
Cov( X , Y )
σ xσ y
Cov(X, Y) = E(XY) - µ x µ y
Forventningen til X og Y er lik 0.
Cov(X, Y) = E(X(Z – 3X2))
Cov(X, Y) = E(XZ – 3X3)
Cov(X, Y) = E(XZ) – 3E(X3)
Cov(X, Y) = 0
X og Z er uavhengige og E(XZ) er derfor lik 0.
E(X3) er også lik 0 når X er normalfordelt med
forventning 0.
Og derfor må også korrelasjonen mellom X og Y, altså ρ(X, Y) være lik 0.
Korrelasjon lik 0 tilsier at det ikke er noen form for lineær sammenheng mellom X og Y, og
eksperimentet gikk dermed omtrent som forventet, da estimeringsverdien r var svært liten, og
ikke signifikant forskjellig fra 0.
8
Oppgave 8:
(i)
𝑥𝑥̅ = 21 · 45110 = 2148
1
X – sigarettkonsum per voksen per år.
1
Y – HKS-dødelighet per 100 000.
S x = 807.9766
Bruk formlene oppgitt i oppgave 4 for estimering av
standardavviket til x og y samt kovariansen.
𝑦𝑦� = 21 · 3042.2 = 144.87
S y = 66.56133
S xy = 39233.33
Estimerer ρ:
r(X, Y) =
r(X, Y) =
S xy
SxSy
39233.33
807.9766 * 66.56133
r(X, Y) = 0.7295
Sammenheng mellom sigarettkonsum og
HKS-dødelighet
HKS-dødelighet
300
250
200
150
Series1
100
Linear (Series1)
50
0
0
1000
2000
3000
4000
Sigarettkonsum
9
5000
Vi ser at det er en relativt klar sammenheng mellom sigarettkonsum og HKS-dødelighet, uten
at det forklarer alt. Korrelasjonskoeffisienten r = 0.7295, gir r2 = 0.53217. Dermed forklares
ca. 53 % av HKS-dødeligheten ut ifra sigarettkonsumet. Resten blir stående uforklart i vår
modell. Denne uforklarte delen, er et resultat av at andre faktorer også spiller inn (som for
eksempel landenes helsevesen), feilmargin (kommer an på størrelsen på utvalget) samt
tilfeldigheter. Sammenhengen er likevel såpass klar at vi trolig kan slå fast at røyking fører til
en hyppigere HKS-dødelighetsrate. Hvor sikkert vi kan slå fast dette, skal vi se nærmere på i
oppgave 9.
(ii)
Hvis vi endrer benevningen for HKS-dødelighet til å omhandle hver 10 000, vil vi få følgende
endringer:
Estimator for standardavvik for X og Y:
S x = 807.9766
uendret.
S y = 6.656133
1/10 i forhold til i sted.
Estimator for kovariansen:
S xy = 3923.3
1/10 i forhold til i sted.
Estimator for korrelasjonskoeffisienten:
r(X, Y) =
r(X, Y) =
S xy
SxSy
3923.3
807.9766 * 6.656133
r(X, Y) = 0.7295
uendret.
Vi ser her at om vi endrer benevningen for HKS-dødeligheten til pr. 10 000, vil alle Yverdiene bli 10 ganger mindre. Dette får konsekvenser for standardavviket til Y og
kovariansen mellom X og Y, som begge får lavere verdier i forhold til i sted.
Korrelasjonskoeffisienten, derimot, forblir uendret. Fordi alle Y-verdiene endres proporsjonalt
med X, vil ikke den relative sammenhengen mellom X og Y bli påvirket.
10
Oppgave 9:
(i)
Ved å plotte en rad for verdiene av x for så å beregne verdiene for h(x), får vi følgende graf:
30
h(x)
20
10
0
-1,5
-1
-0,5
0
0,5
1
1,5
h(x)
-10
-20
-30
Som vi ser er strengt voksende i x. Legg også merke til at funksjonen er kontinuerlig, dvs. det
er ingen ”hopp”.
(ii)
Legg merke til at Z = h(r), den samme funksjonen som i oppgave (i) bare med r som argument
istedenfor x. Siden h(r) er en strengt voksende, kontinuerlig funksjon av r, vil h(r) være større
enn eller lik h(r 0 ) hvis og bare hvis r er større enn eller lik r 0 . Å si at h(r) er større enn eller lik
h(r 0 ) er derfor ekvivalent med å si at r er større enn eller lik r 0 . Dermed vil også
sannsynligheten for at r er større enn eller lik r 0 være den samme som sannsynligheten for at
Z er større enn eller lik h(r 0 ). Altså P(r ≥ r 0 ) = P(Z ≥ h(r 0 )).
(iii)
Vi har P(r ≥ r 0 ) = P(Z ≥ h(r 0 )). Vår observerte verdi for r fra oppgave 8, var r 0 = 0.7295. Så vi
kan sette inn denne verdien i uttrykket:
1+0.7295
P(r ≥ 0.7295) = P(Z ≥ h(0.7295)) = P(Z ≥ √20 ∙ ln �1−0.7295� ) = P(Z ≥ 8.297)
Siden vi vet at Z er tilnærmet normalfordelt med forventning 0 og standardavvik 1, kan vi
tolke dette uttrykket slik: Sannsynligheten for at vi observerer en verdi for r som er større enn
vår verdi under antagelsen ρ = 0, er det samme som sannsynligheten for at en normalfordelt
variabel er minst 8.297 standardavvik unna sin forventede verdi. Altså ekstremt usannsynlig.
Hvor usannsynlig, kan vi finne ut ved hjelp av Excel, eller ved hjelp av tabell D.3 i Løvås.
11
For en normalfordelt variabel med forventning 0 og standardavvik 1 gjelder følgende:
P(Z ≤ z) = G(z)
P(Z ≥ 8.297) = 1 - P(Z < 8.297) = 1 - P(Z ≤ 8.297)
Siden Z er en kontinuerlig variabel.
Så P(Z ≥ 8.297) = 1 - P(Z ≤ 8.297) = 1 - G(8.297)
Ved å bruke Excel, finner vi G(8.297) ≈ 1. Altså er P(r ≥ 0.7295) = P(Z ≥ 8.297) ≈ 0.
Vi observerer en p-verdi så liten at vi kan runde den av til 0. Dette betyr at sannsynligheten
for at vi observerer en verdi for r som er større enn vår verdi, er tilnærmet lik 0 under
antagelsen om at ρ = 0. Vi burde derfor vurdere om antagelsen vår er feil, og at det finnes en
sammenheng mellom variablene, dvs. ρ ≠ 0. I dette tilfellet er resultatet svært signifikant, og
vi kan fastslå nesten helt sikkert at ρ ≠ 0, og at det er en sammenheng mellom sigarettkonsum
og HKS-dødelighet. En p-verdi nærme 0 forteller oss at sannsynligheten for at ρ = 0 er
ekstremt liten, og konklusjonen vår om at ρ ≠ 0 nesten alltid er sann. I dette tilfellet
konkluderer vi med at ρ > 0, dvs. sammenhengen er positiv.
Merk: Tabell D.3 i Løvås har bare verdier for G opp til ca. 3. Vi ser at allerede for G(3) er
sannsynligheten veldig nærme 1. Altså er det ekstremt sjeldent en normalfordelt variabel er
mer enn 3 standardavvik unna sin forventede verdi. Dermed er det enda sjeldnere at en
normalfordelt variabel er så mye som 8.297 standardavvik unna sin forventede verdi, og
sannsynligheten for dette er veldig nærme 0. For verdier over 3 er vi derfor såpass sikre at vi i
de fleste tilfeller kan runde sannsynligheten opp til 1. Men pass her på å si at sannsynligheten
er tilnærmet lik 1, for helt 100 % sikkert er det ikke, men nesten!
12