Stat UN 2010/11 (Uvod)

STATISTIKA UN
Izloµcki predavanj
uvod
doc. dr. Petra Šparl
Kranj,
2010/11
Kazalo
1 Osnovni pojmi
4
1.1 Delitev statistike . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.1.1 Osnovne naloge statistike . . . . . . . . . . . . . . . . . . . . .
1.2 De…nicije . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
5
1.3 Delitev statistiµcnih spremenljivk . . . . . . . . . . . . . . . . . . . . .
7
1.3.1
Delitev statistiµcnih spremenljivk v praksi . . . . . . . . . . . .
7
1.3.2
Matematiµcna delitev spremenljivk . . . . . . . . . . . . . . . .
7
2 OPISNA STATISTIKA
2.1 Urejanje in prikazovanje opisnih podatkov . . . . . . . . . . . . . . .
8
8
2.1.1
Frekvenµcna tabela . . . . . . . . . . . . . . . . . . . . . . . . .
8
2.1.2
Gra…µcna predstavitev . . . . . . . . . . . . . . . . . . . . . . .
9
2.2 Urejanje in prikazovanje številskih podatkov . . . . . . . . . . . . . . 11
2.2.1 Ranµzirna vrsta . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.2
Rangi frekvenµcne porazdelitve . . . . . . . . . . . . . . . . . . 13
2.2.3
Kvantili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2
PLAN DELA
Osnovne naloge in osnovni pojmi statistike
Opisna statistika (urejanje in prikazovanje podatkov, mere centralne
tendence in mere variabilnosti)
Osnove kombinatorike in verjetnosti
Sluµcajne spremenljivke (diskretne, zvezne)
Ocenjevanje parametrov (vzorci, cenilke, intervali zaupanja)
Testiranje hipotez (testiranje povpreµcja na velikih vzorcih)
Korelacija in regresija (odvisnost dveh statistiµcnih spremenljivk)
Analiza variance (ANOVA)
µ
Casovne
vrste (linearni trend)
LITERATURA
Osnovna literatura
J.Jesenko: Statistika v organizaciji in managementu
R.Sabolek: Statistika, Gradivo za vaje UN
G. Andrašec, M.Bren: Matematika, Naloge iz kombinatorike in verjetnosti
Statistiµcne tabele
Dodatna literatura
M.Jesenko: Statistika in verjetnost: vaje
3
Poglavje 1
Osnovni pojmi
1.1
Delitev statistike
4
1.1.1
Osnovne naloge statistike
1. zbiranje podatkov:
ankete
eksperimenti
2. razvršµcanje in urejanje podatkov
frekvenµcne tabele
gra…µcni prikazi
srednje mere in mere razpršenosti
3. analiziranje podatkov (uporaba statistiµcnih metod)
1.2
De…nicije
De…nicija 1 Statistiµcna populacija je konµcna ali neskonµcna mnoµzica, na kateri
opazujemo ali merimo neko statistiµcno koliµcino, ki jo imenujemo statistiµcni znak.
De…nicija 2 Statistiµcne enote sestavljajo statistiµcno populacijo.
De…nicija 3 Statistiµcni znak ali statistiµcna spremenljivka je vsaka merljiva ali opazovana lastnost, ki jo imajo enote populacije.
De…nicija 4 Vzorec je podmnoµzica statistiµcne populacije. Je del populacije, ki je
izbran za obravnavo doloµcenih lastnosti populacije.
Obravnava celotne populacije je veµckrat zelo teµzavna, zaradi razliµcnih razlogov:
je neizvedljivo
predrago
nimamo dovolj µcasa
drugo
5
Dober vzorec mora biti:
reprezentativen: to pomeni, da dobro predstavlja populacijo
dovolj velik: veµcji kot je vzorec, boljše opisuje populacijo
Zgled 1.
Statistiµcna populacija: vsi izredno vpisani študenti UM v študijskem
letu 2009/10
Statistiµcni vzorec: študentje 1. letnika UN
Statistiµcne enote: posamezni študentje
Statistiµcne spremenljivke: spol, starost, narodnost, ocena iz matematike, barva oµci, kraj bivanja, krvna skupina,...
Zgled 2.
Statistiµcna populacija: vsa podjetja na Gorenjskem
Statistiµcni vzorec: podjetja, ki prodajajo obutev
Statistiµcne enote: posamezno podjetje
Statistiµcne spremenljivke: velikost podjetja, kraj, število zaposlenih,
deleµz izvoza...
6
1.3
Delitev statistiµcnih spremenljivk
Glede na naravo obravnavanih podatkov delimo statistiµcne spremenljivke na:
1. Opisne ali atributivne: njihove vrednosti opisujemo z besedami
spol (moški, µzenski)
narodnost (slovenska, hrvaška, nemška,...)
barva oµci (rjava, zelena, modra, siva,...)
kraj bivanja (KR, LJ, MB, CE, NG, KP,...)
krvna skupina (A,B,AB,0)
2. Številske ali numeriµcne: njihove vrednosti so realna števila:
Problem uvršµcanja spremenljivk
Spremenljivko "ocena"lahko obravnavamo kot opisno ali številsko
1.3.1
Delitev statistiµcnih spremenljivk v praksi
V praksi spremenljivke, glede na tip informacije, ki jo nosijo, delimo na:
Imenske ali nominalne: vrednosti lahko le razlikujemo med seboj (ali
sta enaki ali pa nista): spol, barva oµci, krvna skupina,..
Urejenostne ali ordinalne: vrednosti lahko razvršµcamo po velikosti
(kaj je veµc oz. manj): uµcni uspeh, stopnja izobrazbe, mesto na tekmovanju,...
Intervalne: lahko primerjamo razlike med vrednostmi: telesna teµza,
telesna višina, število strani, število prebivalcev, število zaposlenih,...
1.3.2
Matematiµcna delitev spremenljivk
Matematiµcna statistika pa spremenljivke, glede na njihovo zalogo vrednosti, deli na:
diskretne: imajo konµcno zalogo vrednosti: spol, krvna skupina, teµza (v
kg), višina (v cm), starost (v letih), število zaposlenih,...
zvezne: imajo neskonµcno zalogo vrednosti: teµza, višina, starost, deleµz
izvoza, dobiµcek,...
7
Poglavje 2
OPISNA STATISTIKA
2.1
Urejanje in prikazovanje opisnih podatkov
Kadar imamo opravka s spremenljivkami, ki imajo malo razliµcnih moµznih vrednosti,
podatke prikazujemo v obliki:
frekvenµcne tabele,
gra…µcno (v obliki strukturnih krogov),
gra…µcno (v obliki strukturnih stolpcev).
2.1.1
Frekvenµcna tabela
µ ima
V frekvenµcni tabeli prikaµzemo frekvence (fi ) in relatavne frekvence (pi ): Ce
spremenljivka veµc stopenj, lahko uporabimo še kumulativne frekvence (Fk ) in kumulativne relativne frekvence (Hk ):
Spremenljivka X
1. vrednost: x1
2. vrednost: x2
..
.
kjer je
n-ta vrednost:
xn
P
fi
pi
Fk
Hk
;
n
1
/
/
fi ... število ponovitev i-te vrednosti
pi =
8
fi
n
Fk =
k
X
fi = f1 + f2 +
+ fk = F k
1
+ fk ;
k = 1; :::; n
pi = p1 + p 2 +
+ pk = Hk
1
+ pk ;
k = 1; :::; n
i=1
Hk =
k
X
i=1
Razredi
Kadar imamo zvezno spremenljivko, vrednosti razporedimo v razrede
[xk 1 ; xk ):
Ponavadi imajo vsi razredi enako širino, ki jo oznaµcimo z
4x = xk
xk
1
Število razredov za n enot vzorca doloµcimo s pomoµcjo Sturgesovega pravila:
K = 1 + 3; 3 log n
Širino razreda doloµcimo s formulo
4x =
2.1.2
xmax
xmin
K
Gra…µcna predstavitev
De…nicija 5 Stolpµcni diagram je gra…µcen prikaz, kjer podatke prikaµzemo s stolpci,
katerih višina prikazuje frekvenco posameznega podatka.
De…nicija 6 Frekvenµcni poligon je gra…µcen prikaz, kjer podatkom doloµcimo toµcke,
kjer prva koordinata predstavlja vrednost, druga pa ustrezno frekvenco, ki jih poveµzemo
z lomljeno µcrto.
De…nicija 7 Strukturni krog je gra…µcen prikaz, kjer podatke prikaµzemo v obliki
kroga. Vsakemu podatku pripada kroµzni izsek, katerega središµcni kot doloµcimo s pomoµcjo ustrezne relativne frekvence:
k
= 360
9
pk :
Zgled. Za vzorec 40 nakljuµcno izbranih oseb, starih od 30 - 40, imamo podatke o
njihovi izobrazbi.
izobrazba
manj kot srednja šola
srednja šola
univerzitetna izobrazba
znanstveni magisterij
doktorat znanosti
P
frekvenca (fi )
5
12
16
5
2
40
deleµz (%)
0:125 = 12:5%
0:3 = 30%
0:4 = 40%
0:125 = 12:5%
0:05 = 5%
1 = 100%
Stolpµcni diagram
Spodnja slika prikazuje primer stolpµcnega diagrama za stopnjo izobrazbe, ki je
razdeljena v 5 razredov. Abscisna os predstavlja stopnjo izobrazbe, ordinatna os
pa frekvenco enot za posameznjo stopnjo izobrazbe.
10
Strukturni krog
Spodnja slika prikazuje strukturni krog za stopnjo izobrazbe. Vsak kroµzni izsek
predstavlja svojo stopnjo. Znotraj izsekov vidimo zapisane ustrezne deleµze enot, ki
pripadajo posamezni stopnji izobrazbe.
2.2
Urejanje in prikazovanje številskih podatkov
Številske podatke prikazujemo podobno kot opisne, le da imamo tokrat nekoliko veµc
moµznosti:
frekvenµcna tabela (lahko tudi z razredi),
gra…µcno (strukturni krog, stolpµcni diagram (histogram)),
ranµzirna vrsta.
11
Zgled 1. (diskretna sluµcajna sprem.). Naj spremenljivka X predstavlja število
okvar v tednu na strojih nekega industrijskega pogona v zadnjem polletju.
X : 0; 0; 1; 1; 0; 3; 1; 1; 0; 1; 1; 2; 2; 0; 3; 2; 2; 0; 0; 1; 4; 1; 0; 2; 3; 2
Zapiši frekvenµcno tabelo ter nariši stolpµcni diagram in frekvenµcni poligon.
Zgled 2. (zvezna sluµcajna sprem.). Naj spremenljivka X predstavlja µcas (v urah)
za popravilo stroja.
X : 6:07; 1:09; 3:67; 0:35; 0:68; 0:06; 0:51; 0:55; 0:46; 4:24; 0:80; 2:21;
0; 77; 0:96; 6:28; 3:67; 1:72; 0:64; 2:4; 1:6; 0:19; 2:12; 1:30; 6:14; 3:18
Podatke grupiraj v ustrezne razrede, zapiši frekvenµcno tabelo in nariši stolpµcni diagram.
12
2.2.1
Ranµzirna vrsta
Številske podatke statistiµcne spremenljivke X
x1 ; x2 ; x3 ;
; xn
lahko uredimo po velikosti, jih zapišemo v nepadajoµcem vrstnem redu:
x(1)
x(2)
x(3)
x(n) :
Dobljenemu zapisu reµcemo ranµzirna vrsta. Vsaki enoti x(k) v ranµzirni vrsti dodelimo
zaporedno številko k, ki jo imenujemo rang enote x(k) ; Rx :
Opomba: Rang enote x predstavlja torej mesto enote v ranµzirni vrsti.
2.2.2
Rangi frekvenµcne porazdelitve
Povpreµcni rang: kadar ima veµc enot isto vrednost seštejemo range, ki bi jih enote
dobile in vsoto delimo s številom teh enot.
Kadar imamo frekvenµcno porazdelitev, rang elementa x; ki se nahaja v k-tem razredu
[rk 1 ; rk ) izraµcunamo:
Rx =
k 1
X
fi + fk
i=1
x
rk
rk
rk
1
:
1
µ imajo vsi razredi konstantno širini 4x; lahko uporabimo formulo
Ce
Rx =
k 1
X
fi + fk
i=1
13
x
rk
4x
1
:
Relativni rang
Kadar imamo veliko podatkov je smiselno izraµcunati relativni rang podatka x, ki
nam pove kolikšen deleµz enot je pred oz. za x v ranµzirni vrsti.
De…nicija 8 Relativni rang ali kvantilni rang podatka x; v ranµzirni vrsti z n vrednostmi, je de…niran kot
Px =
Rx
n
oz.
Px =
Rx
0:5
n
in pove kolikšen deleµz podatkov je manjši ali enak (oziroma manjši) od podatka x:
2.2.3
Kvantili
Naj bo 0 < p < 1: Potem je p-ti kvantil xp tista vrednost (podatek), za katero velja,
da je np urejenih vrednosti izmed x1 ; :::; xn manjših od xp ; ostalih n(1
p) pa nad
xp :
Povedano drugaµce: p-kvantil xp je tista vrednost za katero velja, da je p odstotkov
vrednosti manjših, (1 p) odstotkov pa veµcjih.
Torej: p-kvantil urejene vrste statistiµcne spremenljivke X (x(1) ; x(2) ; :::; x(n) ) je:
xp =
1
(x(k)
2
x(k)
;
+ x(k+1) ) ;
k je prvo celo št. veµcje od np; µce np 2
=Z
:
k = np; µce np 2 Z
14
Zgled (posamiµcni podatki). Spodnje vrednosti predstavljajo meseµcno porabo za
pretekli mesec (v EUR) za mobilni telefon 15-ih izbranih srednješolcev:
15; 22; 5; 10; 15; 34; 28; 0; 10; 8; 23; 12; 5; 20; 18:
a) Kolik deleµz izbranih srednješolcev je pretekli mesec za telefon porabilo manj kot
15 EUR?
b) Kolik deleµz izbranih srednješolcev je pretekli mesec za telefon porabilo veµc kot 20
EUR?
c) Koliko najveµc je za telefon porabilo 25% najbolj "varµcnih"dijakov?
d) Koliko najmanj je za telefon porabilo 20% najbolj "klepetavih"dijakov?
15
Kvantili (grupirani podatki)
Za n grupiranih podatkov p-kvantil izraµcunamo po formuli
Pk 1
np
i=1 fi
4x;
xp = rk 1 +
fk
kjer je [rk 1 ; rk ) razred širine 4x, za katerega velja:
Xk
1
i=1
fi < np
in
Xk
i=1
fi
np:
Zgled (grupirani podatki). Spodnja tabela prikazuje doseµzeno število toµck 80-ih
študentov 1. letnika pri izpitu iz statistike:
razred: [rk 1 ; rk ) [0,20) [20,40) [40,60) [60,80) [80,100)
frekvenca: fk
10
19
25
21
5
a) Koliko odstotkov študentov je pisalo izpit maj kot 35 toµck?
b) Koliko odstotkov študentov je pisalo izpit veµc kot kot 80 toµck?
c) Koliko najveµc toµck je doseglo 30% študentov, ki so izpit pisali najslabše?
d) Koliko najmanj toµck je doseglo 20% študentov, ki so izpit pisali najbolje?
16
Posebni kvantili
Doloµceni kvantili nosijo posebna imena (glede na to na koliko delov razdelijo podatke):
1. Kvartili so kvantili, ki podatke razdelijo na 4 enake dele:
q1 = x0:25 ;
q2 = x0:5 ;
q3 = x0:75 :
2. Decili so kvantili, ki podatke razdelijo na 10 enakih delov:
d1 = x0:1 ;
d2 = x0:2 ;
; d9 = x0:9 :
3. Centili so kvantili, ki podatke razdelijo na 100 enakih delov:
c1 = x0:01 ;
c2 = x0:02 ;
; c99 = x0:99 :
Veµckrat nas zanimajo meje, ki nam doloµcajo osrednjo polovico populacije, torej q1
in q3 : Zato de…niramo t.i. kvartilni razmik:
RQ = q3
q1 :
Zgled (kvantili). Na vzorcu 15-ih maturantov, ki so opravljali maturo na višjem
nivoju smo po vrsti zabeleµzili naslednje število doseµzenih toµck:
25; 20; 32; 24; 34; 28; 16; 19; 21; 23; 24; 25; 27; 29; 25
a) Doloµci kvantil x0;40 in njegov pomen.
b) Doloµci prvi in tretji kvartil ter njun pomen.
c) Kolikšen deleµz dijakov je dosegel veµc kot 25 toµck?
17