Statistikk

Statistikk
En innføring i statistikk
for Vitenfabrikken
ved Lars Sund og Johan Nygaard
Statistikk
Statistikk handler om behandling av store tallmengder
og fremstilling av disse. Tallene kan være innsamlede
eller sannsynlige mengder.
Statistikken kan ikke overføres til enkelthendelser
som f.eks.:
Vi må ikke få mer enn to barn, for hvert tredje barn som fødes er en kineser.
Vi har kastet mynt og krone og fått krone tre ganger på rad, så nå er det liten
sjanse for å få krone en fjerde gang.
Statistikk
Den statistikken som presenteres oftest er meningsmålinger.
Disse presenteres i prosenter, som f.eks. :
AP har nå en oppslutning på 31,7 %, en øking på
3,7 prosentpoeng siden siste måling.
Frp har en oppslutning på 16,4 %, en nedgang på
2,4 prosentpoeng siden siste måling.
Dette sier ikke noe om hvem som stemmer hva.
Statistikk
Prosentpoeng er et nytt ord på norsk, men betyr
forandring i prosent-tallet.
Dersom et parti øker oppslutningen fra 10% til
12 %, da er økingen 2 prosentpoeng,
mens økingen i stemmer er 20 %.
Statistikk
Fremstillingen av statistiske data kan gjøres på forskjellige måter.
Her er forskjellige måter å se på et lands totale utslipp av CO2
målt i millioner tonn per år.
Dataene er:
2001
2002
2003
2004
2005
10,0
10,9
11,6
12,2
12,6
Statistikk
Det er vanligst å fremstille forløpet i et diagram med kolonner som
gir et greit inntrykk av helheten:
14
12
Totale utslipp
10
8
6
4
2
0
2001
2002
2003
2004
2005
Statistikk
Alle er ikke like glade for utslipp av CO2, så de vil heller
poengtere økingen i utslippene og setter opp følgende graf. Her
er år 2001 satt som startpunkt.
Dette gir et annet bilde:
3
2,5
Øking i utslipp
2
1,5
1
0,5
0
2001
2002
2003
2004
2005
Statistikk
Noen har arbeidet med å minske utslippene. De vil kanskje sette
opp verdiene slik at de gir et gunstigere bilde. Det kan gjøres
ved å sette opp økingen i utslipp fra ett år til neste:
1
0,9
Øking i utslipp per år
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
2001
2002
2003
2004
2005
Statistikk
Disse diagrammene gir helt forskjellige inntrykk,
noe som stadig brukes av mediene og politikere.
Det gjelder å være oppmerksom på slik behandling.
Det kan vel kalles manipulering, men det er ikke
lureri. Datasettene er de samme.
Husk alltid å lese på aksene hva som fremstilles.
Statistikk
Resultatene kan fremstilles som en kake hvor størrelsen viser
resultatet av målingene. Dette kalles sektordiagram.
Leke med jo-jo
Tid til å leke med jo-joen
Tid til å vinde opp snoren
Statistikk
Store datasett krever indikatorer som fort og greit forteller hva
dataene står for.
Tilfeldige data vil ofte fordele seg etter normalfordelingskurven
om en middelverdi. Middelverdien µ, er summen av alle dataene
delt på antall målinger.
I vårt eksempel vil det bli:
10,0 + 10,9 + 11,6 + 12,2 + 12,6
Middelverdien blir her µ = 11,5.
Statistikk
En annen verdi er median. Medianen er det tallet som står i
midten når tallene settes opp i stigende rekkefølge.
10,0
10,9
11,6
12,2
12,6
I dette eksemplet blir medianen 11,6.
Statistikk
Den vanligste fordelingen i statistikk er normalfordelingen.
Her er det mange verdier, og verdiene har en viss spredning.
Normalfordelingen ser ut slik figuren viser:
Statistikk
Standardavviket, σ, angir bredden eller spredningen i dataene.
Standardavviket er definert som kvadratroten av gjennomsnittet
av kvadratene av avstanden fra middelverdien..
Matematisk ser det slik ut: (her er
middelverdien)
Figuren viser at 68,2 % av resultatene ligger innenfor
ett standardavvik på hver side av middelverdien
og 95,4 % ligger innenfor to standardavvik.
Statistikk
Sannsynlighetsregning er en viktig del av statistikken.
Vi gjør et forsøk der en mynt kastes opp i luften et visst antall
ganger, f.eks.100, og noterer antall ganger vi fikk krone.
Dette forsøket gjentas mange ganger, og for hvert forsøk
(100 kast) noteres antall krone som kommer opp av de 100.
Antall krone avsettes langs x-aksen, og antall forsøk hvor
dette krone-antallet kom opp avsettes langs y-aksen.
Antall
forsøk
0
50
100
(antall krone i 100 kast)
Dette vil gi en normalfordeling. Hvert kast er uavhengig av
det forrige.
Statistikk
I 1889 laget Francis Galton en simulering av normalfordelingen:
Statistikk
Resultatene av flere forsøk:
Statistikk
Tilsvarende forsøk med et annet apparat:
Statistikk
Tenk at vi har kastet krone/mynt og fått opp mynt fire ganger
etter hverandre.
Hva er da sjansen for å få mynt en femte gang?
Den er som for hvert kast, nemlig 1/2.
Mynten husker ikke hva den viste sist.
Spør vi hva sjansen for å få mynt fem ganger på rad er, før vi
begynner, så blir det noe helt annet.
Da blir sannsynligheten 1/2 for hvert kast forutsatt at de forrige
også var mynt.
Totalt blir sannsynligheten for å få mynt 5 ganger på rad:
1/2 x 1/2 x 1/2 x 1/2 x 1/2 = 1/32.
Statistikk
Utfall ved fem kast
med mynt:
K
Kast
M
Statistikk
Utfall ved fem kast
med mynt:
K
K
M
Kast
K
M
M
Statistikk
Utfall ved fem kast
med mynt:
K
K
M
K
K
M
M
Kast
K
K
M
M
K
M
M
Statistikk
Utfall ved fem kast
med mynt:
K
M
K
K
K
M
M
K
K
K
M
M
K
M
M
Kast
K
K
M
K
M
K
M
M
K
M
K
M
M
K
M
Statistikk
Utfall ved fem kast
med mynt:
K
M
K
K
K
M
M
K
K
K
M
M
K
M
M
Kast
K
K
M
K
M
K
M
M
K
M
K
M
M
K
M
K
M
K
M
K
M
K
M
K
M
K
M
K
M
K
M
K
M
K
M
K
M
K
M
K
M
K
M
K
M
K
M
Statistikk
Hvor mange utfall med
3K og 2M finner du?
K
M
K
K
K
M
M
K
K
K
M
M
K
M
M
Kast
K
K
M
K
M
K
M
M
K
M
K
M
M
K
M
K
M
K
M
K
M
K
M
K
M
K
M
K
M
K
M
K
M
K
M
K
M
K
M
K
M
K
M
K
M
K
M
Statistikk
Dersom vi teller opp utfallene, så får vi følgende tabell:
Antall krone
0
1
2
3
4
5
Gunstige utfall
1
5
10
10
5
1
12
10
8
6
4
2
0
0
1
2
3
4
5
Statistikk
Da antall mulige utfall blir 32, får vi følgende tabell
for sannsynlighetene:
Antall krone
0
1
2
3
4
5
Sannsynlighet
1/32
5/32
10/32 10/32 5/32
12
10
8
6
4
2
0
0
1
2
3
4
5
1/32
Statistikk
En vanlig terning kan vise 1, 2, 3, 4, 5 eller 6. Ved mange kast vil
det bli omtrent like mange av hver. Hva blir da middelverdien?
Middelverdien blir 3,5.
Det er greit, men terningen kan aldri vise middelverdien.
Noen statistikker er rene rariteter. F.eks. viser statistikken at
svensker har i gjennomsnitt 1,999 ben, og at forretningsmenn
reiser mer med fly enn hjemmeværende husmødre.
Nokså opplagt?
Dersom vi skal lage en fordelingskurve med svenskenes ben,
så er utfallene 0, 1 eller 2.
Vi vet de fleste har to, så dette kan ikke bli en normalfordeling.
Statistikk
Det er også andre fordelinger oppkalt etter matematikere som
Poisson, Cauchy, Bernoulli, Rademacher, Bolzman,
Laplace og Weibull,
samt logaritmisk, triangulær, eksponensial- og gammafordeling.
Alle disse har forskjellige forutsetninger for sannsynlig utfall.
Statistikk
Statistikk
Happy
Statistikken viser at 6 av 7 dverger ikke er Happy.
Statistikk
Ofte søkes korrelasjoner, sammenhenger mellom størrelser.
Det regnes ut en korrelasjonsfaktor for å angi i hvor sterk grad
størrelsene henger sammen. Denne faktoren varierer fra -1 til 1.
Her kan det gjøres feil hvis en ikke er forsiktig. Det kan bli
en sterk korrelasjon mellom to fenomener, men de kan jo ha
en felles bakenforliggende årsak.
F.eks. er det påvist en sterk korrelasjon mellom røking og
eksamensnervøsitet.
En slik korrelasjon indikerer at røking påvirker eksamensnervøsitet,
men det kan jo tenkes at nervøse personer røker meget og har
eksamensnerver uten at røkingen er årsaken.
Statistikk
Hvorfor gjøres det så mye statistisk arbeid? I Norge er det
Statistisk sentralbyrå, SSB, som utfører det meste, men det er
også firma som f.eks. Norsk Gallup, TSN Gallup m.fl.
SSB samler statistikk som er viktig for å styre Norge.
Statistisk årbok viser landets tilstand.
Ordet statistikk kommer fra status som betyr tilstand.
Gallupundersøkelser brukes mye i reklame (Ni av ti
filmstjerner bruker Lano), og ved valg (partibarometre).
Her følger noen eksempler tatt fra Statistisk årbok:
Statistikk
Dette bildet gir en enkel oversikt: Systempris på elektrisk kraft omsatt
over Nord Pool Spot. Januar 2004-april 2011. Øre/kWh
Statistikk
Her er et mer dystert bilde som gir mer informasjon i ett bilde enn det forrige.
Statistikk
En av de viktigste indeksene fra SSB er Konsumprisindeksen.
Dataene samles inn av SSB den 15. i hver måned, og
månedens indeks offentliggjøres den 10. i måneden etter.
Statistikk
Her vises samtidig
flytteveger og mengder.
Slik kan statistisk
materiale illustreres
på en enkel måte.
Statistikk
Statistisk årbok inneholder mange kategorier:
00 Generelt
01 Naturressurser og miljø
02 Befolkning
03 Helse, sosial og kriminalitet
04 Utdanning
05 Personlig økonomi og boforhold
06 Arbeidsliv, yrkesdeltaking og lønn
07 Fritid, kultur, sport
08 Prisindekser og konjunkturindikatorer 09 Nasjonalregnskap og utenrikshandel
10 Næringsvirksomhet
11 Finansmarkeder og konkurser
12 Offentlige finanser
Hvert av disse områdene inneholder mange statistikker.
THUNDERSTORMS
Are 6 times less likely to happen in a kitchen
Statistikk
Dersom du klarer å bli 100 år, så ligger
du godt an.
Statistikken viser nemlig at det er svært
få over 100 år som dør.