Osnove verjetnosti in statistike Polona Oblak Fakulteta za raˇ cunalniˇstvo in informatiko Univerza v Ljubljani 23. april 2010 Statistika Populacija je mnoˇzica vseh prouˇcevanih elementov I pomembno jo je natanˇcno opredeliti (ˇcasovno in prostorsko) I sestavljena iz enot (N) I obiˇcajno velika koliˇcina podatkov Vzorec je podmnoˇzica populacije I dovolj velik (n enot) I izbran mora biti nepristransko I (Enostavni) sluˇcajni vzorec . . . vsak vzorec moˇci n ima isto verjetnost, da bo izbran Statistika I Opisna statistika . . . analiza zbranih podatkov/vzorca I Interferenˇcna statistika . . . sklepanje iz vzorca na populacijo Opisna statistika Podatki/spremenljivke: I ˇstevilˇcne I opisne Pomembna je predstavitev podatkov. I tabele I I I I majhni vzorci: naˇstejemo vrednosti majhno ˇstevilo razliˇcnih vrednosti: frekvenˇcna tabela veliki vzorci: vrednosti grupiramo v razrede razliˇcni grafiˇcni prikazi Frekvenˇcne tabele Prikazujejo absolutne/relativne frekvence posameznih kategorij. ˇ Zgled: Stevilo toˇck, doseˇzenih na testu Kenguru 1 ˇstevilo toˇck frekvenca 1 2 2 2 3 3 4 5 5 10 6 16 7 11 8 6 9 4 10 1 Frekvenˇcne tabele ˇ Zgled: Stevilo toˇck, doseˇzenih na testu Kenguru 2 ˇstevilo toˇck 0,5 - 1,4 1.5 - 2,4 2,5 - 3,4 3,5 - 4,4 4,5 - 5,4 5,5 - 6,4 6,5 - 7,4 7,5 - 8,4 8,5 - 9,4 9,5 - 10,4 razred 1 2 3 4 5 6 7 8 9 10 frekvenca 6 10 12 12 5 5 4 4 0 2 relativna frekvenca 10% 16,7% 20% 20 % 8,3 % 8,3% 6,7% 6,7% 0% 3,3% Kontingenˇcne tabele Prikazujejo frekvence parov spremenljivk. ˇ Zgled: Stevilo toˇck, doseˇzenih na testih Kenguru1 (X ) in Kenguru 2 (Y ) Y X\ 1 0 0 0 2 1 3 0 0 0 0 1 2 3 4 5 6 7 8 9 10 2 0 0 0 2 2 4 1 1 0 0 3 2 1 1 1 1 2 2 1 1 0 4 0 1 1 0 1 3 4 2 0 0 5 0 0 0 0 2 1 1 0 0 1 6 0 0 1 0 3 0 1 0 0 0 7 0 0 0 0 0 1 2 0 1 0 8 0 0 0 0 0 2 0 1 1 0 9 0 0 0 0 0 0 0 0 0 0 10 0 0 0 0 0 0 0 1 1 0 Histogrami Viˇsina stolpcev je sorazmerna frekvenci razreda. ˇ Sirine pravokotnikov so enake. Histogram of k1 6 0 0 2 5 4 Frequency Frequency 10 8 10 15 12 Histogram of k2 2 0 2 4 6 k1 8 4 6 8 10 k2 Slika: Histograma testov Kenguru 1 in Kenguru 2 10 Frekvenˇcni poligoni 6 stevilo studentov 0 2 5 4 10 stevilo studentov 8 10 15 12 V koordinatnem sistemu riˇsemo toˇcke (xi , fi ), kjer je fi frekvenca razreda (ali sredine razreda) xi . Toˇcke poveˇzemo z daljicami. 2 4 6 8 10 2 4 6 rezultati 8 10 rezultati Slika: Frekvenˇcna poligona testov Kenguru 1 in Kenguru 2 Strukturni krogi Ploˇsˇcina izseka je sorazmerna frekvenci razreda. 5 2 4 3 3 2 1 1 6 10 10 9 9 8 4 8 7 7 5 6 Slika: Strukturna kroga testov Kenguru 1 in Kenguru 2 Kvantili, mediana, kvartili, percentili Za vsak q ∈ (0, 1) imenujemo vrednost a q-kvantil za sluˇcajno spremenljivko X (na populaciji), ˇce je P(X ≤ a) ≥ q in P(X ≥ a) ≥ 1 − q . I Mediana je 0,5-kvantil. I 0,25, 0,5 in 0,75-kvantilom pravimo kvartili. I 0,01,. . . , 0,99-kvantili so percentili. Primer Koliko je mediana ˇstevila toˇck na testu Kenguru 1? Kaj pa 0,75-kvantil? Vzorˇcno povpreˇcje Izberemo enostavni sluˇcajni vzorec velikosti n, vrednosti X1 , X2 , . . . , Xn . Vzorˇcno povpreˇcje: X = n1 (X1 + X2 + . . . + Xn ). Zgled Na popisu prebivalstva leta 2002 je bilo zajeto 684.847 gospodinjstev, ki imajo kveˇcjemu 5 ˇclanov. X . . . ˇstevilo ˇclanov v gospodinjstvu ˇstevilo ˇclanov (X ) 1 2 3 4 5 skupaj E (X ) = 2, 79 frekvenca 149.757 157.195 143.337 158.145 76.413 684.847 relativna frekvenca 21,8 % 23,0 % 20,9 % 23,1 % 11,2 % 100 % Zgled Denimo, da vsak popisovalec tedensko popiˇse 100 gospodinjstev. In da gospodinjstva predstavljajo sluˇcajni enostavni vzorec z n = 100. Eden izmed teh vzorcev: 3 5 2 2 1 1 1 5 4 4 2 2 1 1 3 3 1 5 1 1 4 4 5 4 1 2 1 2 2 5 4 1 2 2 1 3 1 2 3 1 3 4 1 3 1 3 1 2 2 3 4 4 2 3 3 1 3 4 1 4 3 4 1 1 3 5 1 2 3 1 4 2 5 4 2 4 3 2 2 2 2 3 2 4 1 1 2 5 2 1 1 4 5 3 4 5 4 4 1 5 Kaj lahko povemo o povpreˇcnem ˇstevilu ˇclanov v teh 100 gospodinjstvih? E (X ) = 2, 63. Zgled Izberimo sedaj 10 vzorcev z n = 100. Njihova povpreˇcja: 2,75 2,64 2,82 2,65 2,73 3,21 2,73 2,68 2,95 Povpreˇcna vrednost teh desetih povpreˇcij vzorcev je 2, 81. 1.5 1.0 0.5 0.0 Frequency 2.0 2.5 3.0 Histogram of vzorec10 2.6 2.7 2.8 2.9 3.0 vzorec n=10 3.1 3.2 3.3 2,97 Zgled Kaj, ˇce bi vzeli 100, 400, 1000, 10000 vzorcev? Kakˇsna bi bila porazdelitev njihovih povpreˇcij? Histogram of vzorec400 30 Frequency 0 0 10 5 20 Frequency 40 10 50 60 15 Histogram of vzorec100 2.5 2.6 2.7 2.8 2.9 3.0 3.1 2.4 2.8 3.0 vzorec n=400 Histogram of vec1000 Histogram of vec10000 600 3.2 500 50 0 0 10 100 200 300 Frequency 400 40 30 20 Frequency 2.6 vzorec n=100 60 2.4 2.4 2.6 2.8 vzorec n=1000 3.0 3.2 2.2 2.4 2.6 2.8 3.0 3.2 vzorec n=10000 Vzorˇcno povpreˇcje Izrek Naj bo X spremenljivka na populaciji velikosti N, µ = E (X ), σ 2 = D(X ). Vzorci velikosti n. Velja: I E (X ) = µ I N−n D(X ) = σ 2 · n(N−1) q σ σ(X ) = √n N−n N−1 I I ˇ je na populaciji X porazdeljena normalno z N(µ, σ), potem Ce je X na vzorcih tudi normalno porazdeljena z N(µ, √σn ). I ˇ Cetudi X na populaciji ni normalno porazdeljena, je X na velikih vzorcih pribliˇzno normalno porazdeljena z N(µ, √σn ). Naloga Na sploˇsni maturi 2009 je pisalo 1508 dijakov matematiko na viˇsjem nivoju. Njihovi rezultati so imeli povpreˇcje 4, 2 toˇcke in standardni odklon 2, 1 toˇcke. Denimo, da bi ocenjevali povpreˇcje v tej populaciji z N = 1508 enotami na podlagi enostavnega sluˇcajnega vzorca velikosti n = 100. I Doloˇ cimo matematiˇcno upanje za povpreˇcno ˇstevilo toˇck vzorca. I Doloˇ cimo standardni odklon za povpreˇcno ˇstevilo toˇck vzorca. I Kolikˇ sna je verjetnost, da bi bilo povpreˇcje doseˇzenega ˇstevila toˇck v vzorcu manj kot 4? I Kolikˇ sna bi bila verjetnost, da bi bilo povpreˇcno doseˇzeno ˇstevilo toˇck v vzorcu manj kot 4, ˇce bi izbrali vzorec z n = 25? Disperzija vzorca Vzorec: X1 , . . . , Xn , vzorˇcno povpreˇcje X . Vzorˇcna disperzija: (X1 − X )2 + . . . + (Xn − X )2 s = n Popravljena vzorˇcna disperzija: 2 (X1 − X )2 + . . . + (Xn − X )2 ˆs = n−1 2 Velja E (s 2 ) = N n−1 2 · ·σ N −1 n in E (ˆs 2 ) = N · σ2 N −1 Zgled Naloga: Vzorec doseˇzenih toˇck na Kenguru 1: 5, 7, 4, 6, 6, 5, 5, 7, 1, 5, 7. Izraˇcunajmo vzorˇcno povpreˇcje, vzorˇcno disperzijo in popravljeno vzorˇcno disperzijo.
© Copyright 2025