Statistikk En innføring i statistikk for Vitenfabrikken ved Lars Sund og Johan Nygaard Statistikk Statistikk handler om behandling av store tallmengder og fremstilling av disse. Tallene kan være innsamlede eller sannsynlige mengder. Statistikken kan ikke overføres til enkelthendelser som f.eks.: Vi må ikke få mer enn to barn, for hvert tredje barn som fødes er en kineser. Vi har kastet mynt og krone og fått krone tre ganger på rad, så nå er det liten sjanse for å få krone en fjerde gang. Statistikk Den statistikken som presenteres oftest er meningsmålinger. Disse presenteres i prosenter, som f.eks. : AP har nå en oppslutning på 31,7 %, en øking på 3,7 prosentpoeng siden siste måling. Frp har en oppslutning på 16,4 %, en nedgang på 2,4 prosentpoeng siden siste måling. Dette sier ikke noe om hvem som stemmer hva. Statistikk Prosentpoeng er et nytt ord på norsk, men betyr forandring i prosent-tallet. Dersom et parti øker oppslutningen fra 10% til 12 %, da er økingen 2 prosentpoeng, mens økingen i stemmer er 20 %. Statistikk Fremstillingen av statistiske data kan gjøres på forskjellige måter. Her er forskjellige måter å se på et lands totale utslipp av CO2 målt i millioner tonn per år. Dataene er: 2001 2002 2003 2004 2005 10,0 10,9 11,6 12,2 12,6 Statistikk Det er vanligst å fremstille forløpet i et diagram med kolonner som gir et greit inntrykk av helheten: 14 12 Totale utslipp 10 8 6 4 2 0 2001 2002 2003 2004 2005 Statistikk Alle er ikke like glade for utslipp av CO2, så de vil heller poengtere økingen i utslippene og setter opp følgende graf. Her er år 2001 satt som startpunkt. Dette gir et annet bilde: 3 2,5 Øking i utslipp 2 1,5 1 0,5 0 2001 2002 2003 2004 2005 Statistikk Noen har arbeidet med å minske utslippene. De vil kanskje sette opp verdiene slik at de gir et gunstigere bilde. Det kan gjøres ved å sette opp økingen i utslipp fra ett år til neste: 1 0,9 Øking i utslipp per år 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 2001 2002 2003 2004 2005 Statistikk Disse diagrammene gir helt forskjellige inntrykk, noe som stadig brukes av mediene og politikere. Det gjelder å være oppmerksom på slik behandling. Det kan vel kalles manipulering, men det er ikke lureri. Datasettene er de samme. Husk alltid å lese på aksene hva som fremstilles. Statistikk Resultatene kan fremstilles som en kake hvor størrelsen viser resultatet av målingene. Dette kalles sektordiagram. Leke med jo-jo Tid til å leke med jo-joen Tid til å vinde opp snoren Statistikk Store datasett krever indikatorer som fort og greit forteller hva dataene står for. Tilfeldige data vil ofte fordele seg etter normalfordelingskurven om en middelverdi. Middelverdien µ, er summen av alle dataene delt på antall målinger. I vårt eksempel vil det bli: 10,0 + 10,9 + 11,6 + 12,2 + 12,6 Middelverdien blir her µ = 11,5. Statistikk En annen verdi er median. Medianen er det tallet som står i midten når tallene settes opp i stigende rekkefølge. 10,0 10,9 11,6 12,2 12,6 I dette eksemplet blir medianen 11,6. Statistikk Den vanligste fordelingen i statistikk er normalfordelingen. Her er det mange verdier, og verdiene har en viss spredning. Normalfordelingen ser ut slik figuren viser: Statistikk Standardavviket, σ, angir bredden eller spredningen i dataene. Standardavviket er definert som kvadratroten av gjennomsnittet av kvadratene av avstanden fra middelverdien.. Matematisk ser det slik ut: (her er middelverdien) Figuren viser at 68,2 % av resultatene ligger innenfor ett standardavvik på hver side av middelverdien og 95,4 % ligger innenfor to standardavvik. Statistikk Sannsynlighetsregning er en viktig del av statistikken. Vi gjør et forsøk der en mynt kastes opp i luften et visst antall ganger, f.eks.100, og noterer antall ganger vi fikk krone. Dette forsøket gjentas mange ganger, og for hvert forsøk (100 kast) noteres antall krone som kommer opp av de 100. Antall krone avsettes langs x-aksen, og antall forsøk hvor dette krone-antallet kom opp avsettes langs y-aksen. Antall forsøk 0 50 100 (antall krone i 100 kast) Dette vil gi en normalfordeling. Hvert kast er uavhengig av det forrige. Statistikk I 1889 laget Francis Galton en simulering av normalfordelingen: Statistikk Resultatene av flere forsøk: Statistikk Tilsvarende forsøk med et annet apparat: Statistikk Tenk at vi har kastet krone/mynt og fått opp mynt fire ganger etter hverandre. Hva er da sjansen for å få mynt en femte gang? Den er som for hvert kast, nemlig 1/2. Mynten husker ikke hva den viste sist. Spør vi hva sjansen for å få mynt fem ganger på rad er, før vi begynner, så blir det noe helt annet. Da blir sannsynligheten 1/2 for hvert kast forutsatt at de forrige også var mynt. Totalt blir sannsynligheten for å få mynt 5 ganger på rad: 1/2 x 1/2 x 1/2 x 1/2 x 1/2 = 1/32. Statistikk Utfall ved fem kast med mynt: K Kast M Statistikk Utfall ved fem kast med mynt: K K M Kast K M M Statistikk Utfall ved fem kast med mynt: K K M K K M M Kast K K M M K M M Statistikk Utfall ved fem kast med mynt: K M K K K M M K K K M M K M M Kast K K M K M K M M K M K M M K M Statistikk Utfall ved fem kast med mynt: K M K K K M M K K K M M K M M Kast K K M K M K M M K M K M M K M K M K M K M K M K M K M K M K M K M K M K M K M K M K M K M K M Statistikk Hvor mange utfall med 3K og 2M finner du? K M K K K M M K K K M M K M M Kast K K M K M K M M K M K M M K M K M K M K M K M K M K M K M K M K M K M K M K M K M K M K M K M Statistikk Dersom vi teller opp utfallene, så får vi følgende tabell: Antall krone 0 1 2 3 4 5 Gunstige utfall 1 5 10 10 5 1 12 10 8 6 4 2 0 0 1 2 3 4 5 Statistikk Da antall mulige utfall blir 32, får vi følgende tabell for sannsynlighetene: Antall krone 0 1 2 3 4 5 Sannsynlighet 1/32 5/32 10/32 10/32 5/32 12 10 8 6 4 2 0 0 1 2 3 4 5 1/32 Statistikk En vanlig terning kan vise 1, 2, 3, 4, 5 eller 6. Ved mange kast vil det bli omtrent like mange av hver. Hva blir da middelverdien? Middelverdien blir 3,5. Det er greit, men terningen kan aldri vise middelverdien. Noen statistikker er rene rariteter. F.eks. viser statistikken at svensker har i gjennomsnitt 1,999 ben, og at forretningsmenn reiser mer med fly enn hjemmeværende husmødre. Nokså opplagt? Dersom vi skal lage en fordelingskurve med svenskenes ben, så er utfallene 0, 1 eller 2. Vi vet de fleste har to, så dette kan ikke bli en normalfordeling. Statistikk Det er også andre fordelinger oppkalt etter matematikere som Poisson, Cauchy, Bernoulli, Rademacher, Bolzman, Laplace og Weibull, samt logaritmisk, triangulær, eksponensial- og gammafordeling. Alle disse har forskjellige forutsetninger for sannsynlig utfall. Statistikk Statistikk Happy Statistikken viser at 6 av 7 dverger ikke er Happy. Statistikk Ofte søkes korrelasjoner, sammenhenger mellom størrelser. Det regnes ut en korrelasjonsfaktor for å angi i hvor sterk grad størrelsene henger sammen. Denne faktoren varierer fra -1 til 1. Her kan det gjøres feil hvis en ikke er forsiktig. Det kan bli en sterk korrelasjon mellom to fenomener, men de kan jo ha en felles bakenforliggende årsak. F.eks. er det påvist en sterk korrelasjon mellom røking og eksamensnervøsitet. En slik korrelasjon indikerer at røking påvirker eksamensnervøsitet, men det kan jo tenkes at nervøse personer røker meget og har eksamensnerver uten at røkingen er årsaken. Statistikk Hvorfor gjøres det så mye statistisk arbeid? I Norge er det Statistisk sentralbyrå, SSB, som utfører det meste, men det er også firma som f.eks. Norsk Gallup, TSN Gallup m.fl. SSB samler statistikk som er viktig for å styre Norge. Statistisk årbok viser landets tilstand. Ordet statistikk kommer fra status som betyr tilstand. Gallupundersøkelser brukes mye i reklame (Ni av ti filmstjerner bruker Lano), og ved valg (partibarometre). Her følger noen eksempler tatt fra Statistisk årbok: Statistikk Dette bildet gir en enkel oversikt: Systempris på elektrisk kraft omsatt over Nord Pool Spot. Januar 2004-april 2011. Øre/kWh Statistikk Her er et mer dystert bilde som gir mer informasjon i ett bilde enn det forrige. Statistikk En av de viktigste indeksene fra SSB er Konsumprisindeksen. Dataene samles inn av SSB den 15. i hver måned, og månedens indeks offentliggjøres den 10. i måneden etter. Statistikk Her vises samtidig flytteveger og mengder. Slik kan statistisk materiale illustreres på en enkel måte. Statistikk Statistisk årbok inneholder mange kategorier: 00 Generelt 01 Naturressurser og miljø 02 Befolkning 03 Helse, sosial og kriminalitet 04 Utdanning 05 Personlig økonomi og boforhold 06 Arbeidsliv, yrkesdeltaking og lønn 07 Fritid, kultur, sport 08 Prisindekser og konjunkturindikatorer 09 Nasjonalregnskap og utenrikshandel 10 Næringsvirksomhet 11 Finansmarkeder og konkurser 12 Offentlige finanser Hvert av disse områdene inneholder mange statistikker. THUNDERSTORMS Are 6 times less likely to happen in a kitchen Statistikk Dersom du klarer å bli 100 år, så ligger du godt an. Statistikken viser nemlig at det er svært få over 100 år som dør.
© Copyright 2025