Download Report

Stian Grønning
Master i samfunnsøkonomi
Daglig leder i Recogni
4
timer
 4 deler




Basics
t- test
Anova
Regresjon
Populasjon
Eksempel: Alle
studenter i Tromsø
Statistikk
Prøve / Sample
Eksempel:
Auditorium
Hvorfor?
Kostnader
Gjennomførbarhet
 Det
kan være utfordringer med å gjøre et
godt utvalg!
 Vi
ønsker å si noe om tendensen i data via et
mål for middelverdi og et mål for variasjon
 Gjenomsnitt
 Median
 Typetall
(mode)
 Range
 Varians
/ standardavvik
 Ved
små utvalg er gjennomsnittet følsomt
for ekstremverdier
 Gjennomsnittet
sier ingenting om
datastrukturen som ligger bak!

Typetall er hyppigste verdi

Median, midterste verdi (ofte viktigere enn
gjennomsnittet)

Lite følsomme for ekstremverider
1200
1000
800
600
400
200
0
1
2
3
4
5
6
7
8
9
10
11
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
 Responsvariabel
Y
 Forklaringsvariabel X
Forklaringsvariabel
X
Responsvariabel
Y
Kontinuerlig
Diskret
Diskret
t-test
ANOVA
Tabulært design
χ2
Kontinuerlig
Regresjon /
Korrelasjon
Log Reg
Varians
Populasjon
Utvalg
Standardavvik
 Standardfeilen
er et mål på hvor usikkert et
gjennomsnitt er
 Standardavvik sier noe om spredningen til
dataene
 Standardfeilen minker med n
Utvalg
= 10
Populasjon = 100 000
Vi vet blodtrykket til alle
individene
Utvalg = 1000
Gjennomsnitt = 78.2
Standardavvik = 9.4
Normalfordeling
5000
10000
Utvalg =
100
0
Frekvens
15000
20000
Histogram over systolisk blodtrykk til 100 000 personer
40
60
80
gjennomsnitt 78.2 og standardavvik 9.4
100
120
Utvalg = 10000
n
Gj snitt
Standardavvik
SE
Konfidensintervall
10
79.1
9.2
2.9
73.4 – 84.8
Populasjonen
Gj snitt=
Standardavvik =
n
Gj snitt
Standardavvik
s.e.
Konfidensintervall
1000
78.2
9.6
0.3
77.6 – 78.8
n
Gj snitt
Standardavvik
SE
Konfidensintervall
100
77.8
7.8
0.78
76.3 – 79.3
78.2
9.4
n
Gj snitt
Standardavvik
s.e.
Konfidensintervall
10 000
78.2
9.4
0.094
78.0 – 78.4
 Det
finnes flere typer fordelinger. Poisson-,
binomial-, normal-, t-, z-, f- osv.
 Vi skal fokusere på
Arealet under kurven = 1
 Ved
mange analyser forutsetter vi at data er
normalfordelte, dette stemmer bra for en
del variabler (F.eks høyde og vekt), andre
variabler kan ha en annen fordeling.
 Før tester gjennomføres undersøker vi for
normalitet i data
 Brudd på forutsetningen om
normalfordelingen i data trenger ikke være
veldig alvorlig
 Gjennomsnittene
til flere prøver er
normalfordelte hvis antallet individer i hver
prøve er stort nok.
 Mellom 15 – 30 prøver avhengig av
fordelingen til populasjonen
 Et
eksempel
 Vi
har 1 000 000 mål på hvor mange
økonomistudenter som løser
statistikkoppgaver mellom 19:00 og
20:00med undersøkelser å oppnå datasettet)
 Gjennomsnitlig jobber 1 student med
statistikk på denne timen. Data er poissonfordelte og ser slik ut
Populasjon
1000 000 dager med
måling
Hvor stort utvalg i
hver prøve???
Prøve
Prøve/ /Sample
Sample
Prøve / Sample
Trekker
Trekker
ututn n
tilfeldige
Prøve
/tilfeldige
Sample
Trekker
ut
n
tilfeldige
Prøve
/
Sample
dager
dager
Trekker
ut n /tilfeldige
Prøve
Sample
dager
Trekker
ut n /tilfeldige
Prøve
Sample
dager
Trekker
ut n /tilfeldige
Prøve
Sample
dager
Trekker
ut
n
tilfeldige
Prøve
/
Sample
Regner
Regnergjennomsnitt
gjennomsnitt
dager
Trekker
ut
n
tilfeldige
Prøve
/
Sample
Regner gjennomsnitt
dager
Trekker
ut
n
tilfeldige
Prøve
/
Sample
Regner gjennomsnitt
dager
Trekker
ut
n
tilfeldige
Prøve
/
Sample
Regner gjennomsnitt
dager
Trekker
ut
n
tilfeldige
Prøve
/
Sample
Regner gjennomsnitt
dager
Trekker
ut
n
tilfeldige
Prøve
/
Sample
Regner gjennomsnitt
dager
Trekker
ut
n
tilfeldige
Prøve
/
Sample
Regner gjennomsnitt
dager
Trekker
ut
n
tilfeldig
Regner gjennomsnitt
dager
ut n tilfeld
RegnerTrekker
gjennomsnitt
dager
Regner gjennomsnitt
dager
Regner gjennomsnitt
Regner gjennomsnitt
Regner gjennomsnit
Regner gjennomsn
14
2
3
4
7
10
13
6
5
G
12
11
9
1
15
j
e
n
n
o
m
s
n
i
t
t
0
1
2
8
 Blodtrykk
gjennomsnitt: 70 -75
 Høyde gjennomsnitt i cm: 170-175
 Vi ønsker å standardisere målene slik at de
blir sammenlignbare.
 Standard Normalfordeling



x = observert verdi
μ = gjennomsnitt
σ= standardavviket
 Dette
transformerer data til en
normalfordeling med gjennomsnitt 0 og
varians 1
En simulert fordeling av menn sin høyde
gjennomsnitt 175 og standardavvik= 7
 Gitt
vår fordeling med gjennomsnitt 175 og
Samtidig er det 2.3 *2 =
7 for at en
4.6%varians
sansynlighet
person er 2 standardavvik
 Hva
ermindre
sansynligheten
for at
større
eller
en
gjennomsnittet
være 189 cm eller høyere?
 Først
standardiserer vi
 (189 -175)/7=2
Tosidig
 189
2 standardavvik ifra 0
test, er
dette
kommer vi
til å bruke
en del
en person skal
0.0228 ev 2.3%
sansynlighet for at
noen skal være 189
cm eller høyere



Hva er proporsjonen av menn med høyde mellom 170
og 185 cm?
Fordeling ~N(175,7)
først proporsjonen under 170


Proporsjonen over 185




z=(170-175)/7= -0.71 fra tabell over standard normalfordelingen
finner vi at dette tilsvarer 0.2389 eller 23.9% har en lavere
høyde en 170 cm
z=(185-175)/7=1.42 proporsjonen av menn over 185cm =0.0778
eller 7.8%
Siden arealet totalt er 1.0 blir proporsjonen av menn
mellom 170cm og 185cm
1-0.2389-0.0778=0.6833
68.3% av alle menn har en høyde mellom 170 og
185cm

Med utgangspunkt i vår fordeling!!!!!!!
 Fordelingen
~N(175,7)
 Hvilket høydeintervall representerer 10% av
den høyeste befolkningen?
 Bruk
normalfordelingstabell til å finne
nærmeste verdi

10.03% tilsvarer z=1.28
 Z=1.28
tilsvarer
 x=(1.28*7) +175 = 183.96 ≈ 184 cm eller
høyere tilsvarer ti prosent av den høyeste
befolkningen
Først finner vi sannsynligheten for at en student leser mindre en 400 ord.
Z=400-950/220
Z=-2.5, fra SND tabell blir dette 0.0062
Sannsynligheten for at det er to studenter som leser mindre
enn 400 ord blir 0.0062 * 0.0062 =0.000038
68.26% av data ligger innenfor±
1 standardavvik
95% av data ligger ±1.96
standardavvik fra gjennomsnitt
2.5% av fordelingen
2.5% av fordelingen

Hvis vi tar flere prøver fra en populasjon vil 95% av disse ligge ±1.96
standardfeil fra gjennomsnittet
 Vi antar at vi har en tilstrekkelig stor utvalgsstørrelse

fra Gjennomsnitt -1.96 s.e til Gjennomsnitt +1.96 s.e er det vi kaller
konfidensintervallet

Vi kan si at 95% av beregnede konfidensintervall inneholder det
ukjente populasjonsgjennomsnittet. Hvis vi beregner 20
konfidensintervall vil vi forvente at 1 av dem ikke inneholder
populasjonsgjennomsnittet.

Vi kan IKKE si at populasjonsgjennomsnittet ligger innenfor
konfidensintervallet med 95% sansynlighet
Prøve
15
studenter
Populasjon
10 000 studenter i Tromsø
Måleenhet
antall kontakter i
mobiltelefon
~N(200,25)
20 prøver
Prøve
Prøve
15Prøve
Prøve
15
Prøve
studenter
15
15Prøve
studenter
15Prøve
studenter
studenter
15
Prøve
studenter
15 Prøve
Prøve
studenter
15Prøve
studenter15
15Prøve
studenter
15Prøve
studenter
studenter
15Prøve
Prøve
studenter
15Prøve
studenter
15Prøve
15
studenter
15
Prøve
studenter
studenter
15
studenter
Prøve 15
studenter
15 studenter
studenter
I snitt vil 1 av 20 prøver ha et 95% konfidensintervall som
ikke inneholder populasjonens ukjente gjennomsnitt
 Vi
mistenker at mørketiden har en
innvirkning på søvnmønster
 Vi vil undersøke dette ved å se på to
populasjoner
1.
2.

Studenter i Tromsø
Studenter i Oslo
Vi tenker oss at det er undersøkt tilsammen
100 studenter og antall timer søvn pr. døgn
er registrert (målinger foretatt i Desember)
 Eksempel


Hypotese (HA) Studenter i Tromsø sover i snitt
mer en studenter i Oslo i mørketiden
Nullhypotese (H0) Det er ingen forskjell i
gjennomsnittlig søvnmengde mellom de to
gruppene
 Vi
vil teste hvor sansynlig det er å få en
forskjell like stor, eller større en vårt
observerte resultat hvis nullhypotesen er
sann
Populasjon 1
Gjsnitt =?
Std = ?
Utvalg
Populasjon 2
Gjsnitt=?
Std=?
Sammenligning
Utvalg
Utvalg
1
Gj snitt
s.e.
(Gjennomsnitt1 – Gjennomsnitt 2) ±1.96*Felles
standardfeil
eller √(s.e.a2 + s.e.b2)
Utvalg
2
Gj
snitt
s.e.
 Vi
mistenker at mørketiden har en
innvirkning på søvnmønster
 Vi vil undersøke dette ved å se på to
populasjoner
1.
2.


Studenter i Tromsø
Studenter i Oslo
Vi tenker oss at det er undersøkt tilsammen
100 studenter og antall timer søvn pr. døgn
er registrert (målinger foretatt i Desember)
Hva er 95% konfidensintervallet for
forskjellen mellom disse to gruppene?



Standardavvik s.e.
Tromsø
43
8.7
1.9
0.29
Oslo
57
7.9
1.9
0.25
8.7 – 7.9 = 0.8
Regn ut!!!!!
Deretter s.e.


Antall Gjennomsnitt
timer søvn
Først regner vi ut diferansen


Gruppe
√(0.292 + 0.252) =0.38
Konfidensintervallet blir da 0.8 ±0.38*1.96
fra 0.055 til 1.54
Vi kan med 95% sansynlighet si at konfidensintervallet
0.055 til 1.54 dekker den (ukjente) sanne forskjellen
i mengde søvn mellom de to gruppene
 Vi
skal bruke z-tabellen, SND formelen var
 Denne
må skrives om til bruk av to
gjennomsnitt og et felles mål på variasjon
(s.e.)
 Felles standardfeil blir
 Formelen
for z blir dermed
Forskjell i gjennomsnitt
Standardfeilen
=z
Gjennomsni
tt timer
søvn
Sd
s.e.
8.7
1.9
0.29
57
7.9
1.9
√(0.292 + 0.252) =0.38 Oslo
 z= 0.8/0.38 =2.10
 Slå opp i Z tabell
 Sansynligheten for z>2.10 = 0.01786
 Vi bruker en to sidig test, dvs sansynligheten
for størelsen på avviket ikke retningen
 Siden kurven er symmetrisk blir sansynligheten
2*0.01786 = 0.035
 Hva gjør vi med nullhypotesen?
0.25
 Forskjell

Gruppe Antall
i gjennomsnitt = 0.8
Standardfeilen til de to prøvene
Tromsø 43 er
