Stian Grønning Master i samfunnsøkonomi Daglig leder i Recogni 4 timer 4 deler Basics t- test Anova Regresjon Populasjon Eksempel: Alle studenter i Tromsø Statistikk Prøve / Sample Eksempel: Auditorium Hvorfor? Kostnader Gjennomførbarhet Det kan være utfordringer med å gjøre et godt utvalg! Vi ønsker å si noe om tendensen i data via et mål for middelverdi og et mål for variasjon Gjenomsnitt Median Typetall (mode) Range Varians / standardavvik Ved små utvalg er gjennomsnittet følsomt for ekstremverdier Gjennomsnittet sier ingenting om datastrukturen som ligger bak! Typetall er hyppigste verdi Median, midterste verdi (ofte viktigere enn gjennomsnittet) Lite følsomme for ekstremverider 1200 1000 800 600 400 200 0 1 2 3 4 5 6 7 8 9 10 11 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 Responsvariabel Y Forklaringsvariabel X Forklaringsvariabel X Responsvariabel Y Kontinuerlig Diskret Diskret t-test ANOVA Tabulært design χ2 Kontinuerlig Regresjon / Korrelasjon Log Reg Varians Populasjon Utvalg Standardavvik Standardfeilen er et mål på hvor usikkert et gjennomsnitt er Standardavvik sier noe om spredningen til dataene Standardfeilen minker med n Utvalg = 10 Populasjon = 100 000 Vi vet blodtrykket til alle individene Utvalg = 1000 Gjennomsnitt = 78.2 Standardavvik = 9.4 Normalfordeling 5000 10000 Utvalg = 100 0 Frekvens 15000 20000 Histogram over systolisk blodtrykk til 100 000 personer 40 60 80 gjennomsnitt 78.2 og standardavvik 9.4 100 120 Utvalg = 10000 n Gj snitt Standardavvik SE Konfidensintervall 10 79.1 9.2 2.9 73.4 – 84.8 Populasjonen Gj snitt= Standardavvik = n Gj snitt Standardavvik s.e. Konfidensintervall 1000 78.2 9.6 0.3 77.6 – 78.8 n Gj snitt Standardavvik SE Konfidensintervall 100 77.8 7.8 0.78 76.3 – 79.3 78.2 9.4 n Gj snitt Standardavvik s.e. Konfidensintervall 10 000 78.2 9.4 0.094 78.0 – 78.4 Det finnes flere typer fordelinger. Poisson-, binomial-, normal-, t-, z-, f- osv. Vi skal fokusere på Arealet under kurven = 1 Ved mange analyser forutsetter vi at data er normalfordelte, dette stemmer bra for en del variabler (F.eks høyde og vekt), andre variabler kan ha en annen fordeling. Før tester gjennomføres undersøker vi for normalitet i data Brudd på forutsetningen om normalfordelingen i data trenger ikke være veldig alvorlig Gjennomsnittene til flere prøver er normalfordelte hvis antallet individer i hver prøve er stort nok. Mellom 15 – 30 prøver avhengig av fordelingen til populasjonen Et eksempel Vi har 1 000 000 mål på hvor mange økonomistudenter som løser statistikkoppgaver mellom 19:00 og 20:00med undersøkelser å oppnå datasettet) Gjennomsnitlig jobber 1 student med statistikk på denne timen. Data er poissonfordelte og ser slik ut Populasjon 1000 000 dager med måling Hvor stort utvalg i hver prøve??? Prøve Prøve/ /Sample Sample Prøve / Sample Trekker Trekker ututn n tilfeldige Prøve /tilfeldige Sample Trekker ut n tilfeldige Prøve / Sample dager dager Trekker ut n /tilfeldige Prøve Sample dager Trekker ut n /tilfeldige Prøve Sample dager Trekker ut n /tilfeldige Prøve Sample dager Trekker ut n tilfeldige Prøve / Sample Regner Regnergjennomsnitt gjennomsnitt dager Trekker ut n tilfeldige Prøve / Sample Regner gjennomsnitt dager Trekker ut n tilfeldige Prøve / Sample Regner gjennomsnitt dager Trekker ut n tilfeldige Prøve / Sample Regner gjennomsnitt dager Trekker ut n tilfeldige Prøve / Sample Regner gjennomsnitt dager Trekker ut n tilfeldige Prøve / Sample Regner gjennomsnitt dager Trekker ut n tilfeldige Prøve / Sample Regner gjennomsnitt dager Trekker ut n tilfeldig Regner gjennomsnitt dager ut n tilfeld RegnerTrekker gjennomsnitt dager Regner gjennomsnitt dager Regner gjennomsnitt Regner gjennomsnitt Regner gjennomsnit Regner gjennomsn 14 2 3 4 7 10 13 6 5 G 12 11 9 1 15 j e n n o m s n i t t 0 1 2 8 Blodtrykk gjennomsnitt: 70 -75 Høyde gjennomsnitt i cm: 170-175 Vi ønsker å standardisere målene slik at de blir sammenlignbare. Standard Normalfordeling x = observert verdi μ = gjennomsnitt σ= standardavviket Dette transformerer data til en normalfordeling med gjennomsnitt 0 og varians 1 En simulert fordeling av menn sin høyde gjennomsnitt 175 og standardavvik= 7 Gitt vår fordeling med gjennomsnitt 175 og Samtidig er det 2.3 *2 = 7 for at en 4.6%varians sansynlighet person er 2 standardavvik Hva ermindre sansynligheten for at større eller en gjennomsnittet være 189 cm eller høyere? Først standardiserer vi (189 -175)/7=2 Tosidig 189 2 standardavvik ifra 0 test, er dette kommer vi til å bruke en del en person skal 0.0228 ev 2.3% sansynlighet for at noen skal være 189 cm eller høyere Hva er proporsjonen av menn med høyde mellom 170 og 185 cm? Fordeling ~N(175,7) først proporsjonen under 170 Proporsjonen over 185 z=(170-175)/7= -0.71 fra tabell over standard normalfordelingen finner vi at dette tilsvarer 0.2389 eller 23.9% har en lavere høyde en 170 cm z=(185-175)/7=1.42 proporsjonen av menn over 185cm =0.0778 eller 7.8% Siden arealet totalt er 1.0 blir proporsjonen av menn mellom 170cm og 185cm 1-0.2389-0.0778=0.6833 68.3% av alle menn har en høyde mellom 170 og 185cm Med utgangspunkt i vår fordeling!!!!!!! Fordelingen ~N(175,7) Hvilket høydeintervall representerer 10% av den høyeste befolkningen? Bruk normalfordelingstabell til å finne nærmeste verdi 10.03% tilsvarer z=1.28 Z=1.28 tilsvarer x=(1.28*7) +175 = 183.96 ≈ 184 cm eller høyere tilsvarer ti prosent av den høyeste befolkningen Først finner vi sannsynligheten for at en student leser mindre en 400 ord. Z=400-950/220 Z=-2.5, fra SND tabell blir dette 0.0062 Sannsynligheten for at det er to studenter som leser mindre enn 400 ord blir 0.0062 * 0.0062 =0.000038 68.26% av data ligger innenfor± 1 standardavvik 95% av data ligger ±1.96 standardavvik fra gjennomsnitt 2.5% av fordelingen 2.5% av fordelingen Hvis vi tar flere prøver fra en populasjon vil 95% av disse ligge ±1.96 standardfeil fra gjennomsnittet Vi antar at vi har en tilstrekkelig stor utvalgsstørrelse fra Gjennomsnitt -1.96 s.e til Gjennomsnitt +1.96 s.e er det vi kaller konfidensintervallet Vi kan si at 95% av beregnede konfidensintervall inneholder det ukjente populasjonsgjennomsnittet. Hvis vi beregner 20 konfidensintervall vil vi forvente at 1 av dem ikke inneholder populasjonsgjennomsnittet. Vi kan IKKE si at populasjonsgjennomsnittet ligger innenfor konfidensintervallet med 95% sansynlighet Prøve 15 studenter Populasjon 10 000 studenter i Tromsø Måleenhet antall kontakter i mobiltelefon ~N(200,25) 20 prøver Prøve Prøve 15Prøve Prøve 15 Prøve studenter 15 15Prøve studenter 15Prøve studenter studenter 15 Prøve studenter 15 Prøve Prøve studenter 15Prøve studenter15 15Prøve studenter 15Prøve studenter studenter 15Prøve Prøve studenter 15Prøve studenter 15Prøve 15 studenter 15 Prøve studenter studenter 15 studenter Prøve 15 studenter 15 studenter studenter I snitt vil 1 av 20 prøver ha et 95% konfidensintervall som ikke inneholder populasjonens ukjente gjennomsnitt Vi mistenker at mørketiden har en innvirkning på søvnmønster Vi vil undersøke dette ved å se på to populasjoner 1. 2. Studenter i Tromsø Studenter i Oslo Vi tenker oss at det er undersøkt tilsammen 100 studenter og antall timer søvn pr. døgn er registrert (målinger foretatt i Desember) Eksempel Hypotese (HA) Studenter i Tromsø sover i snitt mer en studenter i Oslo i mørketiden Nullhypotese (H0) Det er ingen forskjell i gjennomsnittlig søvnmengde mellom de to gruppene Vi vil teste hvor sansynlig det er å få en forskjell like stor, eller større en vårt observerte resultat hvis nullhypotesen er sann Populasjon 1 Gjsnitt =? Std = ? Utvalg Populasjon 2 Gjsnitt=? Std=? Sammenligning Utvalg Utvalg 1 Gj snitt s.e. (Gjennomsnitt1 – Gjennomsnitt 2) ±1.96*Felles standardfeil eller √(s.e.a2 + s.e.b2) Utvalg 2 Gj snitt s.e. Vi mistenker at mørketiden har en innvirkning på søvnmønster Vi vil undersøke dette ved å se på to populasjoner 1. 2. Studenter i Tromsø Studenter i Oslo Vi tenker oss at det er undersøkt tilsammen 100 studenter og antall timer søvn pr. døgn er registrert (målinger foretatt i Desember) Hva er 95% konfidensintervallet for forskjellen mellom disse to gruppene? Standardavvik s.e. Tromsø 43 8.7 1.9 0.29 Oslo 57 7.9 1.9 0.25 8.7 – 7.9 = 0.8 Regn ut!!!!! Deretter s.e. Antall Gjennomsnitt timer søvn Først regner vi ut diferansen Gruppe √(0.292 + 0.252) =0.38 Konfidensintervallet blir da 0.8 ±0.38*1.96 fra 0.055 til 1.54 Vi kan med 95% sansynlighet si at konfidensintervallet 0.055 til 1.54 dekker den (ukjente) sanne forskjellen i mengde søvn mellom de to gruppene Vi skal bruke z-tabellen, SND formelen var Denne må skrives om til bruk av to gjennomsnitt og et felles mål på variasjon (s.e.) Felles standardfeil blir Formelen for z blir dermed Forskjell i gjennomsnitt Standardfeilen =z Gjennomsni tt timer søvn Sd s.e. 8.7 1.9 0.29 57 7.9 1.9 √(0.292 + 0.252) =0.38 Oslo z= 0.8/0.38 =2.10 Slå opp i Z tabell Sansynligheten for z>2.10 = 0.01786 Vi bruker en to sidig test, dvs sansynligheten for størelsen på avviket ikke retningen Siden kurven er symmetrisk blir sansynligheten 2*0.01786 = 0.035 Hva gjør vi med nullhypotesen? 0.25 Forskjell Gruppe Antall i gjennomsnitt = 0.8 Standardfeilen til de to prøvene Tromsø 43 er
© Copyright 2024