Osnove verjetnosti in statistike

Osnove verjetnosti in statistike
Polona Oblak
Fakulteta za raˇ
cunalniˇstvo in informatiko
Univerza v Ljubljani
23. april 2010
Statistika
Populacija je mnoˇzica vseh prouˇcevanih elementov
I
pomembno jo je natanˇcno opredeliti (ˇcasovno in prostorsko)
I
sestavljena iz enot (N)
I
obiˇcajno velika koliˇcina podatkov
Vzorec je podmnoˇzica populacije
I
dovolj velik (n enot)
I
izbran mora biti nepristransko
I
(Enostavni) sluˇcajni vzorec . . . vsak vzorec moˇci n ima isto
verjetnost, da bo izbran
Statistika
I
Opisna statistika . . . analiza zbranih podatkov/vzorca
I
Interferenˇcna statistika . . . sklepanje iz vzorca na populacijo
Opisna statistika
Podatki/spremenljivke:
I
ˇstevilˇcne
I
opisne
Pomembna je predstavitev podatkov.
I tabele
I
I
I
I
majhni vzorci: naˇstejemo vrednosti
majhno ˇstevilo razliˇcnih vrednosti: frekvenˇcna tabela
veliki vzorci: vrednosti grupiramo v razrede
razliˇcni grafiˇcni prikazi
Frekvenˇcne tabele
Prikazujejo absolutne/relativne frekvence posameznih kategorij.
ˇ
Zgled: Stevilo
toˇck, doseˇzenih na testu Kenguru 1
ˇstevilo toˇck
frekvenca
1
2
2
2
3
3
4
5
5
10
6
16
7
11
8
6
9
4
10
1
Frekvenˇcne tabele
ˇ
Zgled: Stevilo
toˇck, doseˇzenih na testu Kenguru 2
ˇstevilo toˇck
0,5 - 1,4
1.5 - 2,4
2,5 - 3,4
3,5 - 4,4
4,5 - 5,4
5,5 - 6,4
6,5 - 7,4
7,5 - 8,4
8,5 - 9,4
9,5 - 10,4
razred
1
2
3
4
5
6
7
8
9
10
frekvenca
6
10
12
12
5
5
4
4
0
2
relativna frekvenca
10%
16,7%
20%
20 %
8,3 %
8,3%
6,7%
6,7%
0%
3,3%
Kontingenˇcne tabele
Prikazujejo frekvence parov spremenljivk.
ˇ
Zgled: Stevilo
toˇck, doseˇzenih na testih Kenguru1 (X ) in Kenguru
2 (Y )
Y
X\
1
0
0
0
2
1
3
0
0
0
0
1
2
3
4
5
6
7
8
9
10
2
0
0
0
2
2
4
1
1
0
0
3
2
1
1
1
1
2
2
1
1
0
4
0
1
1
0
1
3
4
2
0
0
5
0
0
0
0
2
1
1
0
0
1
6
0
0
1
0
3
0
1
0
0
0
7
0
0
0
0
0
1
2
0
1
0
8
0
0
0
0
0
2
0
1
1
0
9
0
0
0
0
0
0
0
0
0
0
10
0
0
0
0
0
0
0
1
1
0
Histogrami
Viˇsina stolpcev je sorazmerna frekvenci razreda.
ˇ
Sirine
pravokotnikov so enake.
Histogram of k1
6
0
0
2
5
4
Frequency
Frequency
10
8
10
15
12
Histogram of k2
2
0
2
4
6
k1
8
4
6
8
10
k2
Slika: Histograma testov Kenguru 1 in Kenguru 2
10
Frekvenˇcni poligoni
6
stevilo studentov
0
2
5
4
10
stevilo studentov
8
10
15
12
V koordinatnem sistemu riˇsemo toˇcke (xi , fi ), kjer je fi frekvenca
razreda (ali sredine razreda) xi . Toˇcke poveˇzemo z daljicami.
2
4
6
8
10
2
4
6
rezultati
8
10
rezultati
Slika: Frekvenˇcna poligona testov Kenguru 1 in Kenguru 2
Strukturni krogi
Ploˇsˇcina izseka je sorazmerna frekvenci razreda.
5
2
4
3
3
2
1
1
6
10
10
9
9
8
4
8
7
7
5
6
Slika: Strukturna kroga testov Kenguru 1 in Kenguru 2
Kvantili, mediana, kvartili, percentili
Za vsak q ∈ (0, 1) imenujemo vrednost a q-kvantil za sluˇcajno
spremenljivko X (na populaciji), ˇce je
P(X ≤ a) ≥ q in P(X ≥ a) ≥ 1 − q .
I
Mediana je 0,5-kvantil.
I
0,25, 0,5 in 0,75-kvantilom pravimo kvartili.
I
0,01,. . . , 0,99-kvantili so percentili.
Primer
Koliko je mediana ˇstevila toˇck na testu Kenguru 1? Kaj pa
0,75-kvantil?
Vzorˇcno povpreˇcje
Izberemo enostavni sluˇcajni vzorec velikosti n, vrednosti
X1 , X2 , . . . , Xn .
Vzorˇcno povpreˇcje: X = n1 (X1 + X2 + . . . + Xn ).
Zgled
Na popisu prebivalstva leta 2002 je bilo zajeto 684.847
gospodinjstev, ki imajo kveˇcjemu 5 ˇclanov.
X . . . ˇstevilo ˇclanov v gospodinjstvu
ˇstevilo ˇclanov (X )
1
2
3
4
5
skupaj
E (X ) = 2, 79
frekvenca
149.757
157.195
143.337
158.145
76.413
684.847
relativna frekvenca
21,8 %
23,0 %
20,9 %
23,1 %
11,2 %
100 %
Zgled
Denimo, da vsak popisovalec tedensko popiˇse 100 gospodinjstev. In
da gospodinjstva predstavljajo sluˇcajni enostavni vzorec z n = 100.
Eden izmed teh vzorcev:
3
5
2
2
1
1
1
5
4
4
2
2
1
1
3
3
1
5
1
1
4
4
5
4
1
2
1
2
2
5
4
1
2
2
1
3
1
2
3
1
3
4
1
3
1
3
1
2
2
3
4
4
2
3
3
1
3
4
1
4
3
4
1
1
3
5
1
2
3
1
4
2
5
4
2
4
3
2
2
2
2
3
2
4
1
1
2
5
2
1
1
4
5
3
4
5
4
4
1
5
Kaj lahko povemo o povpreˇcnem ˇstevilu ˇclanov v teh 100
gospodinjstvih?
E (X ) = 2, 63.
Zgled
Izberimo sedaj 10 vzorcev z n = 100. Njihova povpreˇcja:
2,75
2,64
2,82
2,65
2,73
3,21
2,73
2,68
2,95
Povpreˇcna vrednost teh desetih povpreˇcij vzorcev je 2, 81.
1.5
1.0
0.5
0.0
Frequency
2.0
2.5
3.0
Histogram of vzorec10
2.6
2.7
2.8
2.9
3.0
vzorec n=10
3.1
3.2
3.3
2,97
Zgled
Kaj, ˇce bi vzeli 100, 400, 1000, 10000 vzorcev? Kakˇsna bi bila
porazdelitev njihovih povpreˇcij?
Histogram of vzorec400
30
Frequency
0
0
10
5
20
Frequency
40
10
50
60
15
Histogram of vzorec100
2.5
2.6
2.7
2.8
2.9
3.0
3.1
2.4
2.8
3.0
vzorec n=400
Histogram of vec1000
Histogram of vec10000
600
3.2
500
50
0
0
10
100
200
300
Frequency
400
40
30
20
Frequency
2.6
vzorec n=100
60
2.4
2.4
2.6
2.8
vzorec n=1000
3.0
3.2
2.2
2.4
2.6
2.8
3.0
3.2
vzorec n=10000
Vzorˇcno povpreˇcje
Izrek
Naj bo X spremenljivka na populaciji velikosti N, µ = E (X ),
σ 2 = D(X ). Vzorci velikosti n. Velja:
I
E (X ) = µ
I
N−n
D(X ) = σ 2 · n(N−1)
q
σ
σ(X ) = √n N−n
N−1
I
I
ˇ je na populaciji X porazdeljena normalno z N(µ, σ), potem
Ce
je X na vzorcih tudi normalno porazdeljena z N(µ, √σn ).
I
ˇ
Cetudi
X na populaciji ni normalno porazdeljena, je X na
velikih vzorcih pribliˇzno normalno porazdeljena z N(µ, √σn ).
Naloga
Na sploˇsni maturi 2009 je pisalo 1508 dijakov matematiko na
viˇsjem nivoju. Njihovi rezultati so imeli povpreˇcje 4, 2 toˇcke in
standardni odklon 2, 1 toˇcke.
Denimo, da bi ocenjevali povpreˇcje v tej populaciji z N = 1508
enotami na podlagi enostavnega sluˇcajnega vzorca velikosti
n = 100.
I Doloˇ
cimo matematiˇcno upanje za povpreˇcno ˇstevilo toˇck
vzorca.
I Doloˇ
cimo standardni odklon za povpreˇcno ˇstevilo toˇck vzorca.
I Kolikˇ
sna je verjetnost, da bi bilo povpreˇcje doseˇzenega ˇstevila
toˇck v vzorcu manj kot 4?
I Kolikˇ
sna bi bila verjetnost, da bi bilo povpreˇcno doseˇzeno
ˇstevilo toˇck v vzorcu manj kot 4, ˇce bi izbrali vzorec z n = 25?
Disperzija vzorca
Vzorec: X1 , . . . , Xn , vzorˇcno povpreˇcje X .
Vzorˇcna disperzija:
(X1 − X )2 + . . . + (Xn − X )2
s =
n
Popravljena vzorˇcna disperzija:
2
(X1 − X )2 + . . . + (Xn − X )2
ˆs =
n−1
2
Velja
E (s 2 ) =
N
n−1 2
·
·σ
N −1
n
in
E (ˆs 2 ) =
N
· σ2
N −1
Zgled
Naloga: Vzorec doseˇzenih toˇck na Kenguru 1:
5, 7, 4, 6, 6, 5, 5, 7, 1, 5, 7. Izraˇcunajmo vzorˇcno povpreˇcje, vzorˇcno
disperzijo in popravljeno vzorˇcno disperzijo.