Sannolikhet och statistik

Matematikcentrum
Matematik NF
1
Mätdata och statistik
Betrakta frågeställningen “Hur mycket väger en nyfödd bebis?”. Frågan verkar naturlig,
men samtidigt mycket svår att besvara. För att ge ett fullständigt svar skulle vi behöva
ange vikten för varje bebis som fötts hittills under mänsklighetens historia.
Statistik handlar i mångt och mycket om att ge förenklade svar på denna typ av frågor,
men ändå ge en bra beskrivning av verkligheten.
Den första förenkling som måste göras i exemplet ovan är att inte försöka ange vikten
på alla bebisar. Vi väljer i stället på måfå ut ett fåtal. Detta urval kallas för ett stickprov.
Från ett stickprov på tio bebisar så kan man tänka sig att vi får ut följande data (angivet
i gram):
3194
3401
2638
3513
3920
3199
3319
2922
2818
3038.
Ett sätt att besvara vår fråga vore nu att säga: “En nyfödd bebis väger 3194, 3401,
2638, 3513, 3920, 3199, 3319, 2922, 2818 eller 3038 gram.” Detta är ett mycket förenklat
svar på en svår fråga.
Ett betydligt mer kortfattat (och på flera sätt bättre) sätt att svara är genom att ta
(det aritmetiska) medelvärdet av våra mätdata:
Medelvärdet av n olika värden x1 , x2 , x3 , . . . , xn−1 , xn ges av
n
1X
x1 + x2 + . . . + xn−1 + xn
x̄ =
xk =
.
n
n
k=1
I vårt exempel blir detta värde 3197 gram. Vårt svar på frågan blir då: “En nyfödd bebis
väger i genomsnitt 3197 gram.”
Svaret vi har angivit är inte jättebra. Faktum är att vissa data i vårt stickprov avviker
med över 700 gram. Att mätdata avviker från medelvärdet är ingenting vi kommer ifrån,
men vad vi kan försöka göra är att försöka beräkna hur stora avvikelser vi bör förvänta
oss. Ett vanligt mått på avvikelsernas storlek är den så kallade standardavvikelsen:
Standardavvikelsen av n olika värden x1 , x2 , x3 , . . . , xn−1 , xn med medelvärde
x̄ ges av
v
u
n
u 1 X
t
(xk − x̄)2 .
σ=
n−1
k=1
I vårt exempel blir standardavvikelsen 370 gram. Det svar vi nu får på frågan är: “En
nyfödd bebis väger i genomsnitt 3197 gram, med en standardavvikelse på 370 gram.”
1
Är vårt svar bra? Det enda måttet på detta är om det duger för att göra förutsägelser
om verkligheten. Vi måste alltså gå ut och väga fler bebisar. Om vi går ut och väger tio
bebisar till så kanske vi får mätdata:
3686
3242
3656
4017
3531
4159
3350
3723
3453
3127.
De flesta bebisar i detta stickprov verkar avvika ganska mycket från vår förutsägelse.
Detta tyder på att vi behöver göra en noggrannare undersökning, exempelvis med ett
större stickprov.
1. Beräkna medelvärde och standardavvikelse för nedanstående värden.
a) 97 55 100 24 99 4 21 54 96 53.
b) 151, 29 142, 13 141, 92 145, 54 147, 50 144, 08 151, 81 146, 73.
c) 2, 13 − 0, 01 2, 46 0, 12 0, 45 − 0, 83 − 0, 41 0, 03 0, 76 0, 22.
2
Slump och sannolikhet
Ibland saknar vi en bra modell för att kunna förutsäga resultatet av ett experiment. I ett
sådant läge kan vi betrakta experimentet som slumpmässigt. Resultatet av att utföra ett
slumpmässigt experiment kallas för ett utfall.
Exempel. Om vi rullar en vanlig sexsidig tärning med numrerade sidor så är de möjliga
utfallen 1, 2, 3, 4, 5 och 6.
Exempel. Ett mynt har två sidor. Vi kan kalla dessa för “kung” respektive “krona”. Om
vi singlar två mynt samtidigt så finns fyra möjliga utfall:
• Första myntet visar kung, andra myntet visar kung.
• Första myntet visar kung, andra myntet visar krona.
• Första myntet visar krona, andra myntet visar kung.
• Första myntet visar krona, andra myntet visar krona.
En samling av ett eller flera utfall kallas för en händelse. De utfall som ingår i en viss
händelse kallas gynnsamma för händelsen.
Exempel. En möjlig händelse då vi singlar två mynt är att “precis ett av mynten visar
kung”. Genom att titta på vår lista ser vi att denna händelse har två gynnsamma utfall.
Exempel. En annan möjlig händelse när vi singlar två mynt är “minst ett av mynten
visar kung”. Denna händelse har tre gynnsamma utfall.
Exempel. Vi rullar en sexsidig tärning 100 gånger. Det finns sex olika utfall. Det kan
vara intressant att undersöka hur vanliga de olika utfallen är. Antalet gånger som ett utfall
(eller en händelse) förekommer kallas för frekvensen av detta. Ett möjligt resultat är:
Utfall
Frekvens
1
16
2
14
3
16
4
17
5
17
6
20
Ett annat mått på förekomsten av ett visst utfall är relativ frekvens, vilket är frekvensen
dividerat med antalet upprepningar. I exemplet med en tärning får vi
Utfall
Relativ frekvens
2
1
0,16
2
0,14
3
0,16
4
0,17
5
0,17
6
0,20
Utfallet av ett slumpmässigt experiment kan beskrivas med hjälp av sannolikheter.
Varje möjlig händelse tilldelas ett tal som kallas för sannolikheten att händelsen inträffar.
Om sannolikheten ska var en bra beskrivning av verkligheten bör det väljas så att den är
ungefär lika med den relativa frekvensen av händelsen då försöket upprepas ett stort antal
gånger. I vissa situationer är valet av sannolikheter mycket svårt, och i vissa situationer
kan det verka så uppenbart att vi kanske inte ens tänker på det.
Exempel. Om vi rullar en välgjord tärning många gånger så förväntar vi oss att alla
utfall ska vara lika vanligt förekommande. Sannolikheten gör varje utfall väljs då till 16 ≈
0, 167. Detta verkar stämma ganska bra med vad vi såg då vi rullade tärningen 100 gånger.
Om vi rullar den 1000000 gånger så kan vi istället få
Utfall
Relativ frekvens
1
0,1664
2
0,1663
3
0,1666
4
0,1666
5
0,1670
6
0,1672
Vi verkar alltså ha gjort ett rimlilgt val av våra sannolikheter.
Två olika händelser kallas för uteslutande om de inte kan inträffa samtidigt. En viktig
egenskap hos sannolikheter är att de är additiva i följande mening: om vi har två olika
händelser A och B som är uteslutande och har sannolikheter P (A) respektive P (B) så ges
sannolikheten för att Aeller B inträffar av
P (A eller B) = P (A) + P (B).
Exempel. Rulla en rätning och betrakta händelsen “tärningen visar tre eller fyra prickar”. Denna händelse består av utfallen “tärningen visar tre prickar” och “tärningen visar
fyra prickar”. Dessa utfall är uteslutande och därför är sannolikheten för händelsen “tärningen visar tre eller fyra prickar” lika med 61 + 16 = 13 .
2. Vi singlar tre mynt.
a) Beskriv alla möjliga utfall.
b) Beräkna sannolikheten för händelserna att få tre, två, en respektive inga kronor.
c) Addera sannolikheterna från föregående uppgift. Fundera över vad resultatet betyder.
3. Vi singlar två mynt. Men det ena myntet är lite felgjort och har därför sannolikheten
1
3 att visa kung.
a) Beräkna sannolikheterna för vart och ett av de möjliga utfallen.
b) Addera sannolikheterna från föregående uppgift. Fundera över vad resultatet betyder.
c) Hur stor är sannolikheten att få precis en kung?
4. En pirat låter förbipasserande spela följande spel: Spelaren kan satsa på 10, 11 eller
12. Därefter rullar piraten två tärningar. Om spelaren satsade på rätt antal prickar
får han tillbaka 10 gånger insatsen för 10 prickar, 20 gånger insatsen för 11 prickar
och 40 gånger insatsen för 12 prickar.
a) Beräkna sannolikheten att få 10, 11 respektive 12 prickar.
b) Vilket antal prickar är mest fördelaktigt att satsa på?
c) Antag att piraten fuskar. Sannolikheten att hans tärningar visar en etta är tre
gånger så stor som för vart och ett av de övriga antalen prickar. Gör om beräkningarna ovan. Är det möjligt att på lång sikt vinna spelet mot piraten?
3
5. I ett tv-program ingick följande moment: På scenen fanns tre dörrar. Bakom en av
dörrarna fanns en bil. Bakom de andra två fanns några getter. En tävlande fick välja
en dörr. Därefter öppnade programledaren en av de dörrar som den tävlande inte valt
(bakom den öppnade dörren fanns bara getter). Den tävlande fick därefter valet att
stå fast vid sitt tidigare val, eller att byta dörr. Hur bör man gå till väga för att
maximera sin vinstchans?
3
Sannolikhetsfördelningar
Det är vanligt att dela upp alla möjliga utfall i olika händelser och sedan göra en grafisk
representation av sannolikheterna för dessa händelser. Nedan ses sådana representationer
för sannolikheterna att få ett visst totalt antal prickar då vi rullar 1, 2 respektive 10
tärningar:
Figur 1: Sannolikhetsfördelning med avseende på antal prickar för en tärning.
Figur 2: Sannolikhetsfördelning med avseende på antal prickar för två tärningar.
När vi på detta sätt anger alla sannolikheter på en gång så talar vi ofta om en sannolikhetsfördelning.
De sannolikhetsfördelningar vi får när vi rullar tärningar är så kallade diskreta fördelningar. Det betyder att mellan två möjliga utfall eller händelser så finns det alltid
omöjliga händelser eller utfall. Vi kommer exempelvis aldrig att få 17
3 prickar när vi rullar
tre tärningar.
Om vi återgår till exemplet med födelsevikter så är situationen annorlunda. Tänkbara
värden ligger kanske här mellan 1000 gram och 6000 gram, men framför allt så är alla
värden däremellan också möjliga. En sådan sannolikhetsfördelning kallas kontinuerlig.
4
Figur 3: Sannolikhetsfördelning med avseende på antal prickar för tio tärningar.
Vill vi beskriva detta experiment med en sannolikhetsfördelning så görs detta med
hjälp av en så kallad täthetsfunktion. I fallet med födelsevikter är den så kallade normalfördelningen en lämplig beskrivning:
(x−µ)2
1
f (x) = √ e− 2σ2 .
σ 2π
Figur 4: Normalfördelningen.
Här är µ och σ två tal som beror på vilket konkret problem vi har för oss. Tolkningen
av dessa är att om vi tar ett tillräckligt stort stickprov från vår fördelning så kommer
stickprovets medelvärde och standardavvikelse att vara ungefär lika med µ respektive σ. I
exemplet med födelsevikter så är lämpliga värden för µ och σ ungefär 3400 gram respektive
400 gram.
När vi har en kontinuerlig sannolikhetsfördelning så bestämmer vi sannolikheten för en
händelse inte genom att summera sannolikheter för olika utfall, utan genom att integrera
täthetsfunktionen. Mer specifikt så ges sannolikheten att ett värde ur en normalfördelning
ligger mellan värdena a och b av integralen
Z b
(x−µ)2
1
√
e− 2σ2 dx.
σ 2π a
Observera att denna integral inte kan beräknas med hjälp av elementära funktioner. Den
måste alltså lösas numeriskt.
6. Baserat på tidigare information: Hur stor är sannolikheten att ett nyfött barn väger
mellan 3000 gram och 4000 gram? Mer än 4000 gram?
5
7. Den berömda IQ-skalan för mänsklig individuell intelligens beskrivs av en normalfördelning med medelvärde µ=100 och standardavvikelse σ=15. Vad är sannolikheten
att en slumpvis utvald person har IQ mellan 80 och 120? Mer än 140? Mindre än 60?
Vad är sannolikheten att ha IQ mindre än 0?
Facit
1.
a) x̄ ≈ 60, 3, σ ≈ 36, 3.
b) x̄ ≈ 146, 30, σ ≈ 3, 87.
c) x̄ ≈ 0, 49, σ ≈ 1, 05.
2.
a) De åtta möjliga utfallen är
(Krona, Krona, Krona)
(Krona, Krona, Kung)
(Krona, Kung, Krona)
(Krona, Kung, Kung)
(Kung, Krona, Krona)
(Kung, Krona, Kung)
(Kung, Kung, Krona)
(Kung, Kung, Kung).
b) Sannolikheterna är 81 , 38 , 83 respektive 18 .
c) Summan av sannolikheterna är 1. Detta betyder att om vi utför vårt experiment
så är sannolikheten att vi får något av de möjliga utfallen 1, dvs. 100 %.
3.
a) Sannolikheterna anges i tabellen nedan.
Krona
4
Krona
9
2
Kung
9
Kung
2
9
1
9
b) Sannolikheterna summerar återigen till 1.
c) Sannolikheten ges av 29 + 92 = 49
4.
1
1
1
a) Sannolikheterna är 12
, 18
respektive 36
.
b) 11 eller 12 prickar.
c) Med fusktärningar blir motsvarande sannolikheter
omöjligt att på lång sikt vinna mot piraten.
3
1
64 , 32
respektive
5. Genom att hålla fast vid sitt val är sannolikheten att vinna
sannolikheten att vinna 32 .
1
3.
1
64 .
Det är nu
Genom att byta är
6. Sannolikheterna är ungefär 77,5 % respektive 6,7 % .
7. Sannolikheterna är, i den ordning de nämns i texten, ungefär 81,8 %, 0,38 %, 0,38 %
respektive 1, 31 · 10−11 .
6