Download Report

Univerza v Ljubljani
FAKULTETA ZA KEMIJO IN
KEMIJSKO TEHNOLOGIJO
Oddelek za tehniško varnost
STATISTIKA VARNOSTI
JOŽE ŠREKL
Ljubljana 2012
J. Šrekl
Statistika varnosti
1
Kazalo vsebine
Uvod........................................................................................................................................................................ 3
Prvo poglavje: Verjetnostni račun ........................................................................................................................... 4
Verjetnost ............................................................................................................................................................ 4
1.1 Dogodki ................................................................................................................................................. 4
1.2 Računanje z dogodki ............................................................................................................................. 5
1.3 Kaj je verjetnost? ................................................................................................................................... 9
1.4 Naloge: ................................................................................................................................................ 11
1.5 Pogojna verjetnost ............................................................................................................................... 11
1.6 Naloge: ................................................................................................................................................ 13
1.7 Zaporedje neodvisnih poskusov .......................................................................................................... 14
1.8 Vprašanja: ............................................................................................................................................ 16
2. Slučajne spremenljivke ................................................................................................................................. 17
2.1 Porazdelitvena funkcija ....................................................................................................................... 17
2.2 Diskretne porazdelitve (točkaste) ........................................................................................................ 18
2.3 Mere diskretne spremenljivke.............................................................................................................. 19
2.4 Zvezne porazdelitve ............................................................................................................................. 27
2.5 Vprašanja: .............................................................................................................................................. 39
Drugo poglavje: Statistične raziskave .................................................................................................................. 40
1. Kaj je statistika? ........................................................................................................................................ 40
2. Statistično opazovanje ............................................................................................................................... 40
2.1 Etape statističnega opazovanja: ........................................................................................................... 40
2.2 Prikaz statističnih podatkov ................................................................................................................. 45
3. Vzorci ........................................................................................................................................................ 49
3.1 Populacija in vzorec............................................................................................................................. 49
3.2 Reprezentativnost vzorca ..................................................................................................................... 49
3.3 Vzorčne statistike ................................................................................................................................ 50
3.4 Mere srednjih vrednosti vzorcev ......................................................................................................... 50
3.5 Mere variabilnosti (razpršenosti) ......................................................................................................... 51
3.6 Cenilke parametrov ............................................................................................................................. 55
3.7 Točkasto ocenjevanje .......................................................................................................................... 57
3.8 Vzorčna porazdelitev ........................................................................................................................... 58
3.9 Interval zaupanja ................................................................................................................................. 59
3.10
Izbira velikosti vzorca ..................................................................................................................... 61
3.10
Interval zaupanja za velike vzorce .................................................................................................. 61
3.11
Vprašanja za ponavljanje: ............................................................................................................... 63
Tretje poglavje: Testi hipotez............................................................................................................................... 65
1. Hipoteze .................................................................................................................................................... 65
2. Parametrični testi ....................................................................................................................................... 66
2.1 Splošna procedura: .............................................................................................................................. 66
2.2 Test matematičnega upanja normalne porazdelitve z znano varianco. ................................................ 67
2.3 Test matematičnega upanja normalne porazdelitve z neznano varianco. ............................................ 71
2.4 Test hipoteze za varianco in standardno deviacijo normalne porazdelitve .......................................... 72
2.5 Vprašanja: ............................................................................................................................................ 73
2.6 Test populacijskega razmerja .............................................................................................................. 74
3. Testi neparametričnih hipotez ................................................................................................................... 77
3.1 Test prilagajanja vzorca ....................................................................................................................... 77
3.2 Test enakomerne porazdelitve ............................................................................................................. 80
3.3 Testi s kontingenčno tabelo ................................................................................................................. 82
3.4 Testi za razliko matematičnih upanj pri znani varianci ....................................................................... 85
3.5 Testi za razliko matematičnih upanj pri znani varianci – veliki vzorci .................................................. 87
Četrto poglavje: Regresije in časovne vrste ......................................................................................................... 91
1. Regresije ................................................................................................................................................... 91
1.1 Empirični model ................................................................................................................................. 91
1.2 Regresijska premica ............................................................................................................................. 93
1.3 Test hipoteze o enostavni linearni regresiji ......................................................................................... 97
1.4 Analiza variance pri regresiji ............................................................................................................. 100
J. Šrekl
Statistika varnosti
2
2. Časovne vrste .......................................................................................................................................... 101
Uporabljeni viri: .................................................................................................................................................. 103
J. Šrekl
Statistika varnosti
3
Uvod
Pod pojmom statistika razumemo več stvari, od zbiranja podatkov do ustanov, ki se ukvarjajo
z zbiranjem in obdelavo podatkov. Za nas je statistika predvsem znanost, ki se ukvarja z
zakonitostmi množičnih pojavov. Obravnava vprašanja, ki izvirajo iz izkušnje, za orodje pa
uporablja verjetnostni račun. V statistiki je množični pojav vsak tak pojav, ki se v prostoru in
času pojavlja v velikem številu. Množični pojavi so lastnosti in pojavi v množici ljudi,
večkratne meritve, delovne operacije, ki se ponavljajo, nesreče na delovnih mestih, serije
izdelkov, itd.
Statistika varnosti se ukvarja pred vsem z delom verjetnosti in statističnimi metodami, ki se
uporabljajo na področju varnosti in požarne varnosti. Statistika je tudi znanost "dobrega"
odločanja nasproti poslovne negotovosti varnega odločanja nasproti tveganja in se uporablja v
številnih strokovnih disciplinah, kot so finančne analize, ekonometrija, revidiranje,
proizvodnje in poslovanja, trženja in raziskave trga. Nudi znanje in spretnosti za razlago in
uporabo statističnih tehnik pri različnih analizah in odločitvah varnega poslovanja. Predmet je
namenjen spoznavanju nekaterih orodij pri delu služb varstva pri delu ali samostojnem delu
varnostnega inženirja in zajema statistične študije, opisno statistiko (zbiranje, opis, analizo in
povzetek podatkov), verjetnost in binomsko, Poissonovo ter normalno porazdelitev, test
hipoteze in intervali zaupanja, linearna regresije in korelacije.
Odgovori, ki jih daje statistični pristop k problemom je lahko podlaga za odločanje ali izbira
ukrepov. Na primer, mestni uradniki želijo vedeti, ali je raven oskrbe z vodo v okviru
predpisanih varnostnih standardov. Ker ne morejo preveriti vse vode je je treba odgovore
iskati na podlagi delnih informacij v vzorcih vode, ki se zbirajo v ta namen. Zbrani podatki
bodo samo ob ustrezni metodologiji obdelave dovolj zanesljivo prikazali stanje Drugi primer,
inženir mora določiti moč generatorjev v elektrarni. Število tistih, ki so na voljo, morajo biti
obremenjena do okvare in njihova maksimalna moč pred okvaro bo podlaga za ocenjevanje
potrebne moči drugih generatorjev. Deleži moči vseh generatorjev morajo biti pod mejo
maksimalne zmogljivosti pred okvaro. Smisel statistične obravnave je, da preizkusimo samo
del generatorjev po katerih sklepamo mejo maksimalne dovoljene obremenitve.
Statistično delo, ki mu rečemo lahko tudi statistična raziskava obsega nekaj faz dela, ki so
tipična za skoraj vsako statistično obdelavo množičnih pojavov. Za samo obravnavo
potrebujemo določena orodja in pravila dela in zakonitosti, ki jih obravnava verjetnostni
račun. Ker se statistika ukvarja s pojavi, ki so pogosto slučajnega izvora ali so taki, da jih ni
mogoče nadzorovati z natančnim popisovanjem so večinoma odvisni od slučajnih dogodkov
in zakonitosti, ki veljajo za slučajne dogodke. Zato je pomembno, da poznamo zakonitosti
računanja s slučajnimi dogodki in njihovimi merami – verjetnostmi.
J. Šrekl
Statistika varnosti
4
Prvo poglavje: Verjetnostni račun
1.
1.2
Verjetnost
Dogodki
V praksi nastopajo celi kompleksi pojavov hkrati (npr. da pride do delovne nezgode, mora
zaposleni ravnati napačno, sistem, ki zagotavlja varnost odpove, itd.). Tako množico
dogodkov K imenujemo kompleks dogodkov. Vsaki realizaciji takega kompleksa pravimo
poskus. Poleg samega poskusa obstaja še kakšen pojav A, ki se skupaj s poskusom zgodi ali
pa ne zgodi. Temu pojavu pravimo dogodek. Nekemu poskusu lahko sledi več različnih
dogodkov. Dogodke bomo označevali z velikimi začetnimi črkami iz začetka abecede: A, B,
C, …poskuse pa z velikimi črkami iz konca abecede: X, Y, Z,...
Slika 1. Potek dogodka do realizacije
Poznamo več vrst dogodkov :
Gotov dogodek
Vzemimo dogodek, da spustimo predmet iz roke in pričakujemo izid - predmet bo padel na
tla; ta izid se zgodi pri vsakem poskusu. Govorimo o gotovem dogodku. Izid je en sam in se
vedno zgodi.
Nemogoč dogodek
J. Šrekl
Statistika varnosti
5
Nasprotje gotovemu dogodku je nemogoč dogodek. Izpustimo kamen iz roke in pričakujemo,
da ostane v zraku. Po zakonih fizike vemo, da je to nemogoče, zato govorimo o nemogočem
dogodku, ki se ne zgodi v nobenem poskusu.
Slučajni dogodek
Večina poskusov pa je takih, kjer ima poskus več različnih izidov. Naprimer gremo na izpit in
lahko dobimo različne ocene. Posameznim dogodkom, ki imajo več različnih izidov pravimo
slučajni dogodki.
1.3
Računanje z dogodki
Nad množico dogodkov je mogoče konstruirati strukturo algebre, ali enostavneje rečeno s
slučajnimi dogodki lahko računamo. Vzemimo dva dogodka in sicer naj bo do dogodek B tak,
da se zgodi vedno, če se zgodi dogodek A. V tem primeru rečemo, da je A način dogodka B
in zapišemo:
Primer: Dogodek A je nezgoda pri delu, dogodek B je zastoj proizvodnje. Kadarkoli se bo
zgodila nezgoda pri delu bo zastoj proizvodnje. Zastoj proizvodnje pa je lahko tudi takrat, ko
se ne zgodi nezgoda.
Relacija
je refleksivna saj velja:
je tudi tranzitivna:
iz
in
sledi
Na nek način je ta relacija tudi simetrična:
iz
in
sledi
Vedno veljata relaciji, ki povezujeta nemogoč, slučajni in gotov dogodek.
Sestavimo nov dogodek iz dveh ali več dogodkov. Vzemimo dogodka A in B in sestavimo
skupni dogodek, ki se zgodi, če se zgodi vsaj eden od dogodkov A ali B. Tak sestavljen
dogodek imenujemo vsota dogodkov in se zapiše
S shemo lahko predstavimo vsoto dogodkov in sicer primer, ko sta dogodka tuja (b) in ko
dogodka nista tuja (a).
J. Šrekl
Statistika varnosti
6
Seštevanje dogodkov je komutativno:
Seštejemo lahko tudi več dogodkov
⋃
Velja tudi asociativnost (poljubni vrstni red) seštevanja.
Primer: Na slepo izbiramo med igralnimi kartami (šop francoskih kart). Dogodek A je da
izberemo pika in dogodek B je, da izberemo križ. Dogodek
je, da izberemo črno karto.
Razloži, zakaj veljajo zveze:
(1)
,
(2)
,
(3)
,
(4) iz
sledi
in iz
in
sledi
.
Vzemimo dogodka A in B in sestavimo skupni dogodek, ki se zgodi, če se zgodita oba
dogodka hkrati. Tak sestavljen dogodek imenujemo produkt dogodkov in se zapiše
Produkt dogodkov lahko predstavimo tudi s shemo:
Produkt več dogodkov se zapiše
⋂
Množenje dogodkov je komutativno:
Velja tudi asociativnost množenja.
Razloži, zakaj veljajo zveze:
J. Šrekl
(1)
(2)
(3)
(4) iz
Statistika varnosti
7
,
,
,
sledi
Primer: Na slepo izbiramo med igralnimi kartami (šop francoskih kart). Dogodek A je da
izberemo pika in dogodek B je, da izberemo damo. Dogodek
je, da izberemo pikovo damo.
Primer: Poišči (
Rešitev:
)
Sestavimo nov dogodek iz dveh dogodkov A in B. Sestavljeni dogodek se zgodi, če se zgodi
A in se ne zgodi B oba dogodka hkrati. Tak sestavljen dogodek imenujemo razlika dogodkov
in se zapiše
Primer: Na slepo izbiramo med igralnimi kartami (šop francoskih kart). Dogodek A je da
izberemo pika in dogodek B je, da izberemo karto od 2 do 10. Dogodek
je, da izberemo
pika fanta, damo, kralja ali asa.
Primer: Ugotovi potrebni in zadostni pogoj za enakost
(
)
(Odgovor:
)
Še nekaj lastnosti:
Dogodka A in B sta nezdružljiva, če se ne moreta zgoditi hkrati (
) in sta nasprotna,
) in (
če se lahko zgodi natanko eden od njih, torej (
).
Če sta dogodka A in B nezdružljiva, potem imenujemo dogodek B negacijo dogodka A in
označimo ̅.
̅
̅
̅
̿
̅
Lastnosti negacije :
Primer: Preveri zveze ̅̅̅̅̅̅̅
̅ ̅ ̅̅̅̅
̅
̅
̅
̅.
J. Šrekl
Statistika varnosti
8
Pri paroma nezdružljivih dogodkih bomo za seštevanje uporabljali poseben znak
Ločimo dve vrste dogodkov. Elementarni dogodek je en sam dogodek, takemu dogodku
rečemo tudi izid. Dogodek je običajno sestavljen iz več izidov (elementarnih dogodkov).
Seveda pa je lahko dogodek v nekem poskusu sestavljen v drugem pa elementarni dogodek.
Tip dogodka je odvisen od poskusa.
Popolni sistem dogodkov je sistem dogodkov {
je sistem za katerega velja
(dogodki so paroma nezdružljivi in njihova vsota je popoln dogodek)
Primer: Vzemimo poskus met kocke. Mogočih je šest izidov meta, ki so med sabo nezdružljivi
torej predstavljajo popolni sistem dogodkov. Vsota je gotov dogodek, ker se vsaj ena vrednost
meta (od 1 do 6) gotovo realizira pri metu kocke.
Primer: sestavljanja dogodkov
Dogodke lahko sestavljamo v komplekse dogodkov (na primer v drevesa dogodkov). Z
drevesom dogodkov lahko ugotovimo končno število izidov nekega poskusa. V horizontalah
gledamo vsote dogodkov, po vejah pa je končni izid produkt dogodkov na posamezni veji.
Število izidov je odvisno od števila mogočih poti.
J. Šrekl
1.4
Statistika varnosti
9
Kaj je verjetnost?
Aksiomatična definicija verjetnosti:
Vsakemu dogodku A iz nekega obsega dogodkov priredimo neko številsko karakteristiko
med 0 in 1, ki jo imenujemo verjetnost dogodka A.
Klasično določanje verjetnosti: Razmerje med ugodnimi izidi in vsemi izidi.
Natančneje bi rekli takole (A. Kolmogorov):
Vsakemu dogodku A iz nekega obsega dogodkov priredimo neko realno število P(A), za
katerega velja
( )

( )

(
)
( )
( )
( )
) za poljubne paroma

nezdružljive dogodke
Število P(A) imenujemo verjetnost dogodka A. Definicija verjetnosti temelji na zgoraj
zapisanih treh aksiomih.
Lahko bi dokazali, da je ( )
in
( )) za vsako naravno število n.
(
)
(
)
(
)
Klasična definicija verjetnosti
V popolnem sistemu dogodkov {
naj bodo vsi dogodki enako verjetni (
, potem je verjetnost
.
Če je dogodek B vsota s dogodkov iz popolnega sistema, je njegova verjetnost enaka
( )
.
)
Primer: Določanje verjetnosti za interval , če je verjetnost porazdeljena po trikotniku. Če je
ploščina trikotnika=1, je verjetnost dogodka A ploščina nad intervalom A. Pri poljubni
ploščini p in ploščin pA nad intervalom A, je ( )
.
A
P(A) Є [1,0]
J. Šrekl
Statistika varnosti
10
Primer: Verjetnosti posameznih izidov lahko zapišemo s histogramom. Posamezne verjetnosti
so ploščine stolpcev nad posameznimi izidi. Seštevek vseh je 1.
Statistično določanje verjetnosti:
Relativna frekvenca ugodnih izidov pdogodka A se izračuna kot razmerje števila ugodnih
izidov glede na število vseh poskusov.
f n ( A) 
k
n
Verjetnost P(A) dogodka A je število, pri katerem se navadno ustali relativna
frekvenca tega dogodka pri velikem številu poskusov.
f n ( A)  P( A)
Primer. Poskusi z nekaj zaporednimi meti kovanca ugotoviti kakšna je verjetnost, da vržemo
»cifro«.
Primer: Izračunaj posamezne verjetnosti v drevesu dogodkov
J. Šrekl
1.5
Statistika varnosti
11
Naloge:
1. Za pravilno reakcijo na opozorilni znak delavec potrebuje od 12 do 45 sekund. Ukrep
bo uspešen, če ga začne izvrševati najkasneje po 24 sekundah. Kolika je verjetnost, da
bo ukrep izvršen pravočasno?
2. Prostor vsebuje 12 izhodov. Verjetnost dogodka A je 0.3. Koliko izhodov zajema
dogodek A.
3. Pošiljamo sporočilo v mrežo. Prvo vozlišče se deli na 5 strežnikov,vsak od njih deli na
naslednjih 5 strežnikov in še v tretjem koraku na 5 strežnikov. Koliko je mogočih poti?
Če so vsi prehodi enako verjetni, kolika je verjetnost, da prejemnik dobi pošto, če
uporablja tri končne naslove.
4. Polnilna linija steklenic se deli v tri dele, kjer se polnijo steklenice z različnimi
hitrostmi. Prvi stroj polni 30 steklenic na minuto, drugi 33 steklenic na minuto in tretji
28 steklenic na minuto. Določi verjetnost, da bo steklenica iz prvega stroja.
5. Določi frekvence rojstev dečkov in verjetnost, da se rodi deček!
6. Podjetje pri kontroli izdelkov ugotovi, da je med 510 slučajno izbranimi izdelki 13 ne
ustreza standardom za izdelavo. Kolikšna je verjetnost, da je podjetje na trg poslalo
nekvaliteten izdelek?
13
(Rešitev: f n 
 0,025  P(A) .Verjetnost, da podjetje pošlje na trg nekvalitetni
510
izdelek je 0,025.)
1.6
Pogojna verjetnost
Posredni ali relejni dogodki.
Pogosto se srečujemo z zaporedjem dogodkov, kjer so izidi odvisni od zaporedja dogodkov in
ne samo od enega poskusa. Poskus izvedemo v dveh korakih. V prvem koraku imamo tri
enakovredne izide med katerimi je eden ugoden. Verjetnost ugodnega izida je 1/3. Izvedemo
prvi poskus in s tem izločimo en neugoden izid. V drugem koraku sta le dva enakovredna
izida, verjetnost ugodnega je ½. Govorimo o posrednem ali relejnem poskusu, kjer so
verjetnosti v drugem delu poskusa odvisne od izidov v prvem delu. Zato govorimo o
pogojnih verjetnostih.
Z znaki bi to zapisali
J. Šrekl
P(A) = 0.33
Statistika varnosti
P(A/C)=0.50
Kadar imamo neodvisne relejne poskuse lahko nove verjetnosti izražamo s starimi
P(A/C)= P(AC)/P(C)
Naj bo X realizacija kompleksa pogojev K, A in B pa naj bosta dogodka
v poskusu X. Verjetnost dogodka A je P(A). Dogodek B prištejemo
h kompleksu K in dobimo novi kompleks K'. S tem dobimo seveda tudi
novo verjetnost P'(A), saj smo opravili nov poskus X'. P'(A) imenujemo
pogojna verjetnost dogodka A glede na dogodek B.
Primeri:
1. V proizvodnji polprevodnikov si oglejmo drevo odpovedi: Prvi nivo pove
izpostavljenost izdelkov onesnaženju, drugi verjetnost odpovedi.
Končni rezultat govori verjetnosti odpovedi izdelka.
2. Sistem na spodnji sliki deluje, če deluje vsaj ena pot. Poišči verjetnost delovanja
sistema. Izračunamo s pomočjo nasprotne verjetnosti – sistem odpove.
12
J. Šrekl
Statistika varnosti
13
Bayesov izrek.
Sedaj pa se posvetimo poskusom, kjer se lahko zgodi več zaporednih dogodkov. Takim
poskusom smo rekli relejni poskusi. Začnimo z relejnim poskusom z dvema stopnjama. Na
prvi stopnji so mogoči izidi:
H1 , H 2 ,, H n ,
na drugi stopnji pa je A eden izmed mogočih dogodkov. Recimo, da poznamo verjetnosti v
prvi stopnji relejnega poskusa.
P( H1 ), P( H 2 ),, P( H n )
Prav tako poznamo pogojne verjetnosti na drugi stopnji za iskani izid A
P( A / H1 ), P( A / H 2 ),, P( A / H n ) .
Shematsko zapišemo naš relejni poskus s sliko:
H1
H2
H3
A
P(A)
.
.
.
Hn
Do izida A lahko pridemo po vseh zarisanih poteh drevesa dogodkov. Verjetnost je vsota
verjetnosti po posameznih poteh, ki pa so produkti dogodkov na posamezni poti (veji).
P( A)  P( A.H1 )  P( A.H 2 )    P( A.H n )
Uporabimo formulo za relejne poskuse od prej in dobimo:
(
)
( ⁄ ) ( )
Zaradi komutativnosti produkta dogodkov lahko zapišemo enačbo
( ⁄ ) ( )
( ⁄ ) ( )
iz katere dobimo Bayesovo formulo.
P( H k / A) 
1.7
P( A / H k ).P( H k )
P( A)
Naloge:
3. V medicini s testi določamo bolezen: Pravilno določa bolezen z verjetnostjo 0.99
pravilno določi zdravega človeka z verjetnostjo 0.95 v celotni populaciji je delež
bolnih 0.0001. Kakšna je verjetnost bolezni pri pozitivnem testu.
Rezultat:
J. Šrekl
Statistika varnosti
14
Verjetnost, da pri slučajno izbranem človeku dobimo pozitivni test je
P( pozitivni)  0,9999  (1  0,95)  0,0001  0,99  0,05
Verjetnost, da bo pozitivno testiran človek zares bolan je
0,99  0,0001
P(bolan / pozitivni ) 
 0,002 ,
0,0501
verjetnost, da bo pozitivno testiran človek zdrav pa je
0,05  0,9999
P( zdrav / pozitivno) 
 0,998
0,0501
Verjetnost, da bo negativno testiran človek bolan je komaj
0,01  0,0001
P(bolan / negativno) 
 0,00002
0,0501
Vidimo, da je zelo majhna verjetnost, da bomo po pozitivnem testu dobili bolnega
človeka, vendar pa je bistveno manjša verjetnost, da bo pri bolnem človeku negativen
test. Testiranje je primerno za določanje skupine ljudi, ki ima morda iskano bolezen.
Če je v populaciji na 10 tisoč ljudi en bolnik smo s testiranjem zmanjšali krog na 2
bolnika na tisoč ljudi.
4. Proizvajalec A priznava, da samo 80% delovnih rokavic vzdrži 80 ali več delovnih ur,
medtem ko proizvajalec B zagotavlja, da ima tako kvaliteto 96% njegovih rokavic.
Seveda so tej zagotovitvi ustrezno dražji izdelki. Izračunaj, v kakšnem razmerju bomo
uporabljali rokavice obeh proizvajalcev, da bo 90% rokavic imelo ustrezno
vzdržljivost (80 ali več delovnih ur).
1.8
Zaporedje neodvisnih poskusov
Sestavimo zaporedje poskuse. Pod tem zaporedjem si predstavljamo ponavljanje enakega
poskusa, ki ima dva mogoča izida. Primer takega zaporedja je metanje kovanca. Met ima dva
izida, vsi meti pa so med sabo neodvisni. Rezultat enega meta je neodvisen od rezultata
drugega meta. Definiramo neodvisnost poskusov:
Dva poskusa sta neodvisna, če je vsak dogodek iz prvega poskusa neodvisen od
kateregakoli dogodka v drugem poskusu. Več poskusov
je med seboj neodvisnih, če sta neodvisna poljubna dva poskusa.
J. Šrekl
Statistika varnosti
15
Sestavimo neskončno zaporedje neodvisnih poskusov:
X 1 , X 2 , X n ,
Zaporedje je tako, da sta v vsakem poskusu mogoča le dva izida,
 dogodek A z verjetnostjo p ali
 dogodek A z verjetnostjo q = 1– p
Tako zaporedje poskusov imenujemo Bernoullijevo zaporedje. Verjetnosti v
Bernoullijevem zaporedju sta
P( A)  p; P( A )  q
Sprašujemo se, kolika je verjetnost, da se v Bernoullijevem zaporedju v n poskusih zgodi
dogodek A natanko k-krat. Dogodek, da se A zgodi v n poskusih k-krat označimo z
Bk (n)
Slika: Shematski prikaz Bernoullijevega zaporedja
Verjetnost tega dogodka dobimo z Bernoullijevo formulo:
n
Pn (k )    p k q n k
k 
Vzemimo n-kratno ponovitev za nov poskus, označimo ga z Y. V njem sestavljajo dogodki
B0 , B1 , B2 , Bn
popolni sistem dogodkov in velja zveza:
n
n n
k nk
 Pn (k )     p q
k 0
k  0 k 
Bernoullijeva formula je uporabna le pri majhnem n. Računanje binomskih koeficientov je
precej zamudno. Za velike n zato uporabljamo približni formuli.
Laplaceova lokalna formula (za veliki n in k))

1
Pn (k ) 
e
2npq
Poissonova formula (za majhni k):
( k  np ) 2
2 npq
(np) k e  np
Pn (k ) 
k!
J. Šrekl
1.9
Statistika varnosti
16
Vprašanja:
Verjetnost dogodkov
 Vrste dogodkov in njihove verjetnosti
 Klasična in statistična definicija verjetnosti
 Relejni poskus in popolni sistem dogodkov, drevo odpovedi.
 Kdaj je zaporedje neodvisnih poskusov Bernoullijevo?
 Verjetnost odpovedi stroja v enem dnevu je 0.01, kolika je verjetnost, da stroj
odpove 12 krat v enem letu (365 dni) (uporabi obe približni formuli).
J. Šrekl
Statistika varnosti
17
2. Slučajne spremenljivke
Dogodke v vsakdanjem življenju popisujemo z opisom. Pogosto se zgodi, da lahko dogodku
pripišemo neko vrednost. Mečemo kocko. Opis »vrgel sem pet pik« pogosto zamenjamo s
številom 5. Dogodku smo torej priredili vrednost. Ker se ta vrednost spreminja jo imenujemo
spremenljivka. Povezana je z slučajnimi dogodki, zato slučajna spremenljivka. Natančneje jo
definiramo:
DEFINICIJA:
Slučajna spremenljivka je funkcija, ki preslikava izide slučajnih dogodkov v realna števila.
Slučajne spremenljivke označujemo z velikimi črkami X, Y, Z,…, njihove vrednosti pa z
ustreznimi malimi črkami x, y, z, ..
Dogodek, da ima slučajna spremenljivka X vrednost x, bomo zapisali takole:
(X = x).
Ločimo diskretne in zvezne slučajne spremenljivke. Diskretne se spreminjajo s končno ali
števno neskončno mnogo posameznimi vrednostmi, zvezne pa so porazdeljene na enem ali
več intervalov.
2.1
Porazdelitvena funkcija
DEFINICIJA:
Porazdelitve na funkcija F( x) slučajne spremenljivke X je funkcija, ki ima pri vsakem
realnem x vrednost enako verjetnosti dogodka (X < x):
F(x) = P(X < x).
Lastnosti:
 F( - ∞) = 0,
 F(∞) = 1,
 x1 < x2 sledi F(Xl ) ≤ F(X2)
 P(Xl ≤ X < X2) = F(X2) - F(X l),
 F(x + O) - F(x) = P(X = x).
Za neodvisni spremenljivki X, Y seveda velja
 P(X <.x,Y < y) = P(X < x)P(Y < y),
J. Šrekl
2.2
Statistika varnosti
18
Diskretne porazdelitve (točkaste)
Diskretna slučajna spremenljivka zavzame končno ali neskončno število diskretnih vrednosti.
Vsaki vrednosti pripišemo verjetnost te vrednosti in dovimo verjetnostno funkcijo (diskretno),
ki se natančneje definira:
Naj bo (x1, x2, x3,…, xn,..) zaloga vrednosti diskretne slučajne spremenljivke X. Funkcijo,
pk = P(X = xk)
imenujemo verjetnostna funkcija diskretne slučajne spremenljivke.
Funkcijo običajno zapišemo z verjetnostnim zakonom, ki določa porazdelitev verjetnosti za
diskretno slučajno spremenljivko (vsaki vrednosti slučajne spremenljivke priredi njeno
verjetnost oziroma vrednost verjetnostne funkcije):
x
X : 1
 p1
x2
p2
x3 ... 

p3 ...
Primer:
Zapišimo primer diskretne porazdelitve s podatki
Verjetnostno shemo za porazdelitveni zakon zapišemo
1
2
3
4 
 0
X :

 0.6561 0.2916 0.0486 0.0036 0.001
Vrednosti vidimo tudi na paličnem diagramu.
Kumulativna distribucijska funkcija za diskretno slučajno spremenljivko je
F ( x )  P( X  x ) 

xi  x
f ( xi )
Vrednost kumulativne funkcije je vsota verjetnosti posameznih vrednosti slučajne
spremenljivke, ki so na levo od vrednosti x v spremenljivki funkcije. Za to funkcijo veljajo
lastnosti porazdelitvene funkcije.
Primer:
Imamo verjetnostno funkcijo (ali gostoto verjetnosti)
J. Šrekl
Statistika varnosti
19
Porazdelitvena funkcija je:
2.3
Mere diskretne spremenljivke
Matematično upanje ali pričakovana vrednost je posplošitev pojma aritmetične sredine
DEFINICIJA:
Matematično upanje ali matematično pričakovanje diskretne slučajne spremenljivke X
označujemo z µ in izračunamo:
Temu lahko rečemo tudi srednja vrednost
Matematično upanje si lahko predstavljamo kot ravnotežno točko sil.
Varianca ali disperzija diskretne spremenljivke je vrednost, ki meri spremenljivost
(variabilnost) slučajne spremenljivke in se izračuna kot matematično upanje kvadratov razlik
med vrednostjo slučajne spremenljivke in pričakovane vrednosti.
DEFINICIJA:
Varianca ali disperzija diskretne slučajne spremenljivke
izračunamo:
X označujemo z V(X)
in
J. Šrekl
Statistika varnosti
20
Standardni odklon ali standardna deviacija je mera variabilnosti slučajne spremenljivke ki
jo je uvedel K. Pearson 1893 in je kvadratni koren variance. Zato jo označujemo s  .
   2  V (X )
Primer:
Različne porazdelitve z enakim matematičnim upanjem in enako varianco
Primer:
Verjetnostni zakon za število sprejetih sporočil na uro po elektronski pošti:
x= štev.sp.
P(X=x)
10
0.08
11
0.15
12
0.30
13
0.20
14
0.20
15
0.07
Poišči matematično upanje, varianco in standardni odklon!
E(X)=12.5, V(X)=1.85, σ=1.36
Diskretna enakomerna porazdelitev
Za večino slučajnih pojavov poskušamo zapisati porazdelitveni zakon oziroma porazdelitev.
Najpreprostejša je enakomerna diskretna porazdelitev. Verjetnosti vseh vrednosti
spremenljivke so enake
pk 
1
n
k = 1, 2,… n
Diskretna enakomerna porazdelitev dobimo v primeru, ko je pri poskusu n enako verjetnih
izidov.
Številske karakteristike pri porazdelitvi
J. Šrekl
Statistika varnosti
21
n
  1n  xi
i 1
Matematično upanje je kar povprečna vrednost ali aritmetična sredina, varianca pa je:
n
V ( X )  1n  xi   2
2
i 1
Primeri enakomernih porazdelitev:
 Met kovanca
 Met kocke
 Barva karte iz šopa igralnih kart
Binomska porazdelitev b(n,p)
Opravimo n enakih poskusov, pri katerih sta mogoča dva izida: ugodni in neugodni izid. V
poskusih bomo označili ugodni izid z A in neugodni izid z A . Verjetnost ugodnega izida
označimo s p in verjetnost neugodnega izida označimo s q  (1  p) . Verjetnost, da med n
poskusi dobimo k ugodnih izidov zapišemo
n
pk  P( X  k )    p k (1  p) n k
k 
za k = 0 1, 2, 3, ...,n
Porazdelitev, ki smo jo dobili na tak način, imenujemo binomska porazdelitev b(n,p), ki je
odvisna od števila poskusov in verjetnosti ugodnega izida. Številski karakteristiki sta prav
tako odvisni od teh dveh vrednosti:
 matematično upanje µ = E(X)= np in
 varianca σ2 = V(X)= np(1-p)
Primer:
Oglejmo si binomske porazdelitve b(20, 0.5), b(10,0.1) in b(10, 0.9).
J. Šrekl
Statistika varnosti
Primer binomske porazdelitve za n=10
Primerjava binomskih porazdelitev pri različnih n in p
Primer binomske porazdelitev s parametri n  10 in p  0.5 .
22
J. Šrekl
Statistika varnosti
23
1
2
3
4
5
6
7
8
9
10 
 0
X :

 0.0005 0.0054 0.0269 0.0806 0.1611 0.2256 0.2256 0.1611 0.0806 0.0269 0.0054 
Porazdelitveno shemo smo izračunali s pomočjo Excelove funkcije BINOMDINST
Grafično dobimo porazdelitev:
P(X=x)
0,25
0,2
P(x)
0,15
0,1
0,05
0
0
2
4
6
8
x
Geometrijska porazdelitev
pk  P( X  k )  (1  p) k 1 p
za k 0 1, 2, 3, …
µ = E(X)= 1/p,
σ2 = V(X)= (1-p)/p2
Geometrijska porazdelitev za p=0.1 in p=0.9
10
12
J. Šrekl
Statistika varnosti
24
Hipergeometrična porazdelitev
Med N objekti je K ugodnih in N-K neugodnih. Med N objekti izberemo n (n<N) objektov
brez vračanja in se sprašujemo za verjetnost, da bo k ugodnih.
 K  N  K 
 

k  n  k 

pk 
N
 
n
Primer: Velika firma ima 1000 uporabnikov svojih izdelkov. V zadnjih treh mesecih je 700
uporabnikov kupilo vsaj en izdelek. Za oceno novega oblike izdelka so testirali 50 vzorec
uporabnikov. Kolika je verjetnost, da je v vzorcu več kot 45 uporabnikov, ki je v zadnjih treh
mesecih kupilo izdelek.
 700  300 


40
40 
k  50  k 
P(k  45)   pk   
 0.000166
100 
k  46
k  46


 50 
Račun lahko približno izračunamo z binomsko porazdelitvijo:
50
 50 
P( X  45)     0.7 x (1  0.7)50 x  0.00017
x  46  x 
Hipergeometrična porazdelitev za N=10, n=5
J. Šrekl
Statistika varnosti

nK
N
 2  V (X ) 
n(1  K / N ) K  N  n 


N
 N 1 
25
p  KN
Če bi v binomski porazdelitvi povečali število poskusov v neskončnost, bi dobili novo
porazdelitev, ki jo imenujemo Poissonova porazdelitev P( ) . Uporabljamo jo za
porazdelitev verjetnosti slučajne spremenljivke, ki meri število ugodnih izidov pri neznanem
številu poskusov (število klicev preko avtomatske telefonske centrale, število prometnih
nezgod na cesti) pri čemer ne poznamo verjetnosti izida posameznega dogodka. Zanima nas le
verjetnost pogostosti izidov. Verjetnost, da bo k ugodnih izidov je enaka
e   k
pk  P( X  k ) 
za k = 0, 1, 2, 3, …
k!
Parameter porazdelitve je  , ki se skriva v številskih karakteristikah porazdelitve:
 matematično upanje    in
 varianca  2   .
Primer:
Poissonova porazdelitev za  = 0.1,  = 2,  = 0.5
J. Šrekl
Statistika varnosti
26
Primer:
Prihajanje elektronske pošte je porazdeljeno po Poissonovem zakonu z najverjetnejšim
številom   7 e-mailov na uro. Kolikšna je verjetnost, da bo računalnik »zasut« z več kot 20
e-maili na uro.
Reševanje: V Excel vnesemo v prvo vrstico vrednosti x od 0 do 22. V naslednjo vrstico
izračunamo verjetnosti po Poissonovem zakonu s funkcijo =POISSON(B1;7;FALSE) in
narišemo graf
Poissonova porazdelitev
0,16
0,14
0,12
P(x)
0,1
0,08
0,06
0,04
0,02
0
0
5
10
15
20
25
x
Za izračun verjetnosti (>20 e-mailov/h) bomo uporabili kumulativno funkcijo
P(X>20) = 1- POISSON(20;7;TRUE)= 1,44953E-05
Poglejmo si še kumulativno funkcijo
Kumulativna funcija
1,2
1
P(X<x)
0,8
0,6
0,4
0,2
0
0
5
10
15
20
x
Kot smo pričakovali kumulativna funkcija narašča od nič proti 1.
25
30
J. Šrekl
2.4
Statistika varnosti
27
Zvezne porazdelitve
DEFINICIJA:
Spremenljivka X je porazdeljena zvezno,če je mogoče njeno porazdelitveno funkcijo zapisati
.
Odvod porazdelitvene funkcije
imenujemo gostota porazdelitve.
Veljajo enakosti (posledica lastnosti porazdelitvene funkcije):

 p( x)dx  1

x2
P( x1  X  x2 )   p(t )dt
x1
Prilagoditev zvezne porazdelitve diskretni porazdelitvi
Primeri porazdelitvene funkcije (kumulativne porazdelitvene funkcije):
1. Gostota je: p( x)  0.05 za 0  x  20
Dobimo porazdelitveno funkcijo (z integriranjem):
J. Šrekl
Statistika varnosti
28
x
F ( x)   0.05 dx  0.05 x
0
Celotna funkcija je:
x0 
 0,


F ( x)  0.05 x, 0  x  20 
 1
x  20 

in njena slika
2. Gostota porazdelitve naj bo p( x)  20e
funkcija se potem zapiše:
20( x 12.5)
za
x>12.5. Porazdelitvena
0,


x  12.5
x
F ( x)  

20( t 12.5)
dt  1  e20( x 12.5) x  12.5
  20e
12.5

Matematično upanje zvezne spremenljivke
Temu lahko rečemo tudi srednja vrednost
DEFINICIJA:
Matematično upanje ali matematično pričakovanje zvezne slučajne spremenljivke
označujemo z µ in izračunamo:
X
J. Šrekl
Statistika varnosti
29
Varianca ali disperzija zvezne spremenljivke
DEFINICIJA:
Varianca ali disperzija zvezne slučajne spremenljivke X označujemo z V(X) in izračunamo:
Koren iz variance imenujemo Standardni odklon ali deviacija
Primer:
Izračunajmo matematično upanje, varianco in standardni odklon za primer 2:
  E( X ) 

 x20e
20( x 12.5)
dx 12.55
12.5
 2 V (X ) 

 x 20e
2
20( x 12.5)
dx  (12.55)2  0.0025
12.5
  0.0025  0.05
Zvezna enakomerna porazdelitev
Je najenostavnejša zvezna porazdelitev, saj je gostota kar konstantna funkcija, vsi izidi na
nekem intervalu enako verjetni.
J. Šrekl
Statistika varnosti
p( x ) 
1
ba
30
a xb

0
xa 
x 1

xa
F ( x)  
dt 
, a  x  b
ba
a b  a
x  b 
1

Matematično upanje je kar srednja vrednost intervala
b
x
ab,

dx 

a
ba
2
varianca pa je:
V (X ) 
(b  a) 2
12
Normalna porazdelitev N(µ,σ)
Večina pojavov v naravi je normalno porazdeljenih, tj. v obliki normalne (Gaussove) krivulje.
Normalna porazdelitev (tudi Gaussova porazdelitev) je verjetnostna porazdelitev vrednosti
statističnih enot v statistični populaciji, ki je v grafični predstavitvi oblikovana v obliki zvona
oziroma normalne krivulje, za katero velja
( x   )2

1
2
p( x) 
e 2 ,   x   .
2
Številski karakteristiki so hkrati parametra porazdelitve.
E ( X )   in V ( X )   2
Pomen parametrov vidimo na sliki (matematično upanje določa vrh ali maksimum krivulje,
varianca pa določa obliko krivulje):
Pomen parametrov:
Verjetnost P( X  x) ali vrednost porazdelitvene funkcije F ( x) pomeni ploščino pod krivuljo.
J. Šrekl
Statistika varnosti
31
Na naslednji sliki vidimo vpliv matematičnega upanja in standardnega odklona na verjetnosti
intervalov v normalni porazdelitvi:
P(    X     )  0.6827
P(  2  X    2 )  0.9545
P(  3  X    3 )  0.9973
Standardizirana normalna porazdelitev N(0,1)
DEFINICIJA:
Normalno porazdelitev s parametri:
porazdelitev.
Porazdelitvena funkcija se označuje:
in
imenujemo standardizirana normalna
J. Šrekl
Statistika varnosti
32
Nekatere tabele imajo standardizirano normalno porazdelitev tabelirano, kot imamo zapisano
v definiciji (glej učbenika: Šrekl, Drobnič Vidic). Standardizirana normalna porazdelitev je
tabelirana v obliki funkcije  ( z ) , kot je zapisano zgoraj v definiciji.
Nekatera literatura označuje:
1
( z ) 
2
z
.
e
x
2
dx

Vrednosti v tej obliki lahko izračunamo tudi s pomočjo EXCEL-a in sicer s funkcijo
NORMSDIST(z).
Prehod iz običajne spremenljivke X v standardizirano spremenljivko Z dobimo z enačbo
X 
Z

V EXCEL-u lahko izračunamo vrednosti porazdelitvene funkcije F(x) in p(x)za poljubno
normalno porazdelitev s funkcijo NORMDIST(x,μ,σ,cumulative). Za F(x) je
cumulative=TRUE, za p(x) pa je cumulative=FALSE.
Računanje z standardizirano normalno porazdelitvijo
J. Šrekl
Statistika varnosti
Standardizacija normalne porazdelitve
Transformacijo napravimo z:
33
J. Šrekl
Statistika varnosti
34
Iskanje v tabeli:
Primer: Napaka na merilnem inštrumentu je porazdeljena normalno z matematičnim upanjem
10 mA in varianco 4 mA. Izračunaj verjetnost, da bo napaka med 9 in 11 mA.
9  10 X   11  10


)
2

2
 P( 0.5  Z  0.5 )  P( Z  0.5 )  P( Z  0.5 ) 
 0.5  ( 0.5 )  ( 0.5  ( 0.5 ))  2( 0.5 )  2  0.1915 
P( 9  X  11 )  P(
 0.3830
Primer 2.: Napaka voltmetra je porazdeljena normalno z matematičnim upanjem 0 V in
varianco 0.45 V. Izračunaj najmanjše območje napake, ki ga dosežemo z verjetnostjo 99 %..
P(  x  Z  x )  2  ( z )  0.99
( z )  0.495
x0
0.67
x  1.05  0.67  0.7035
z  1.05 
P( 0.7035  X  0.7035 )  0.99
J. Šrekl
Statistika varnosti
35
Aproksimacija binomske in Poissonove porazdelitve z normalno porazdelitvijo
Normalna aproksimacija binomske porazdelitve:
Če je X slučajna spremenljivka porazdeljena po binomskem zakonu b(n,p) potem je:
slučajna spremenljivka porazdeljena po približno N(0,1).
Približek je dober za np>5 in n(1-p)>5.
Primer: Za digitalni komunikacijski kanal privzamemo, da so napačno prenešeni bitni signali
modelirani z binomsko porazdelitvijo. Verjetnost napačno prenešenega bita je 105 . Izračunaj
verjetnost, da je pri 16 milijonih sprejetih bitov več kot 150 napak
P( X  150) 
16000000

x 151
16000000  5 x
5 16000000  x

10 (1  10 )
x


J. Šrekl
Statistika varnosti
36
Računanje te verjetnosti je skoraj nemogoče. Pri računanju z računalnikom bi nastale velike
napake.
150  160
P( X  150 )  P( Z 
160  ( 1  10 5 )
)  P( Z  0.79 ) 
 P( Z  0.79 )  0.5  ( 0.79 )  0.5  0.2852  0.7852
Normalna aproksimacija Poissonove porazdelitve:
Če je X slučajna spremenljivka porazdeljena po Poissonovem zakonu P(λ) potem je:
slučajna spremenljivka porazdeljena po približno N(0,1).
Približek je dober za λ>5.
2
Primer: Število azbestnih delcev na m je porazdeljeno po Poissonovi porazdelitvi s
povprečjem 1000. Kakšna je verjetnost, da bomo ob analizi enega kvadratnega metra našteli
največ 950 delcev.
e10001000 x
P( X  950)  
x!
x 0
950
Računanje te verjetnosti je skoraj nemogoče. Pri računanju z računalnikom bi nastale velike
napake.
950  100
)  P( Z  1.58) 
1000
 0.5  (1.58)  0.5  0.4429  0.0571
P( X  950)  P( Z 
Primer:
V mestu so montirali 2000 električnih sijalk za javno razsvetljavo. Srednja vrednost
življenjske dobe sijalke je 1000 ur in standardna deviacija je 200 ur. Kolika je verjetnost, da
bo sijalka odpovedala v obdobju med 1100 in 1300 urami delovanja.
Rešitev:
P(1100<X<1300)= NORMDIST(1300,1000,200,TRUE) –
- NORMDIST(1100,1000,200,TTRUE) = 0.2417
ali pa najprej standardiziramo vrednosti in vstavimo v standardizirano obliko:
STANDARDIZE(1300;1000;200) =1.5
STANDARDIZE(1100;1000;200) = 0.5
P(0.5<Z<1.5)= NORMSDIST(1.5) - NORMSDIST(0.5) = 0.2417
Verjetnost, da bo sijalka odpovedala v pričakovanem obdobju je 0.2417, kar pomeni, da bo
24% sijalk odpovedalo v tem obdobju. Če nalogo povežemo še z binomsko porazdelitvijo
lahko sklepamo, da bo najverjetneje odpovedalo 240 sijalk v tem obdobju (
  np  1000  0.24  240 ).
Kolikšna je verjetnost, da bo sijalka delovala več kot 2000 ur?
J. Šrekl
Statistika varnosti
37
Izračunamo:
P(X>2000) = 1 - NORMDIST(2000,1000,200,TRUE) = 1 - 0,9999997133 = 0
Med deset milijoni žarnic bodo komaj tri delovalo 2000 ur, zato je verjetnost, da žarnica
deluje toliko časa praktično 0.
Kolikšno število sijalk bo potrebno zamenjati po 200 urah delovanja?
Izračunamo:
P(X<200) = NORMDIST(200,1000,200,TRUE) = 0,00003.
Če verjetnost pomnožimo s številom sijalk, dobimo 0.06, po obdobju 200 ur ne bo potrebno
zamenjati še nobene sijalke
Eksponentna porazdelitev
p( x )    e  x , 0  x  
  E( X ) 
1

 2 V( X ) 
1
2
Porazdelitev χ2 (hi-kvadrat)
Vidimo da slučajno spremenljivko (eno ali več) vstavimo v funkcijo. Kot odvisno
spremenljivko dobimo novo slučajno spremenljivko. Lastnosti te spremenljivke
(porazdelitveni zakon ali porazdelitvena funkcija, karakteristične vrednosti, so odvisne od
lastnosti neodvisnih slučajnih spremenljivk.
V statistiki se bomo pogosto srečali s končnim nizom neodvisnih spremenljivk, ki so
porazdeljene po standardiziranem normalnem zakonu. Sešteli bomo kvadrate teh spremenljivk
in se spraševali, po kakšnem zakonu je porazdeljena vsota kvadratov teh spremenljivk. Izkaže
se, da je porazdeljena po zakonu hi-kvadrat (angl. Chi_square). Parameter te porazdelitve je
število spremenljivk, ki ga imenujemo število prostostnih stopenj.
Če je so
slučajna spremenljivka
parametroma:
in
neodvisne slučajna spremenljivka porazdeljena po N(0,1), je
porazdeljena po zakonu 𝜒 (𝑛) s
, n imenujemo število prostostnih stopenj
Studentova porazdelitev ali t – porazdelitev S(n-1)
Naslednja porazdelitev, ki jo pogosto srečujemo v statistiki in je povezana z razmerjem
(nelinearnim) dveh neodvisnih spremenljivk, kjer je prva porazdeljena po standardizirani
normalnem zakonu, druga pa po zakonu hi-kvadrat, dobimo studentovo porazdelitev ali kakor
jo včasih imenujemo tudi t-porazdelitev (oznaka S(n-1)).
J. Šrekl
Statistika varnosti
38
Če je sta X in Y dve neodvisni slučajni spremenljivki, prva je porazdeljena po N(0,1)
zakonu, druga pa je po
, je slučajna spremenljivka
porazdeljena po zakonu
s parametroma:
, n-1 imenujemo število prostostnih stopenj
in
Logaritemska normalna porazdelitev
Normalna porazdelitev je najpogostejša porazdelitev, ki jo srečujemo v povezavi s
porazdelitvami naravnih lastnosti, izmerjenih rezultatov, napak itd. Pri merjenju fizikalnih
količin, ki so večje od 0 pa se srečujemo z ugotovitvijo, da normalna porazdelitev ni pravi
model za porazdelitev rezultatov merjenja. V teh primerih uporabimo boljši model to je
logaritemska normalna porazdelitev, ki je definirana samo za pozitivna števila in ima
nekoliko drugačno nesimetrično obliko grafa gostote porazdelitve
Če je X slučajna spremenljivka porazdeljena po Normalnem zakonu, je spremenljivka
porazdeljena po logaritemskem normalnem ali lognormalnem zakonu z gostoto:
Matematično upanje in varianca spremenljivke Y dobimo:
E( Y )  e 
2
/2
V ( X )  e 2  ( e  1 )
2
in
2
Slika: logaritemske normalne porazdelitve pri različnih parametrih.
J. Šrekl
Statistika varnosti
Domača naloga:Življenjska doba polprevodnika laserja je porazdeljena po log-normalnem
zakonu s
10000 ur.
  10 ur in   1.5 ure. Določi verjetnost, da bo življenjska doba presegla
2.5 Vprašanja:
Slučajne spremenljivke
 Kaj je slučajna spremenljivka
 Diskretne in zvezne porazdelitve
 Porazdelitvena funkcija in gostota
 Porazdelitveni zakon binomske porazdelitve
Številske karakteristike
 Najverjetnejša vrednost (matematično upanje)
 Varianca (disperzija).
 Standardni odklon ali deviacija
 Disperzija pri normalni porazdelitvi in pri standardizirani normalni
porazdelitvi.
39
J. Šrekl
Statistika varnosti
40
Drugo poglavje: Statistične raziskave
1.
Kaj je statistika?
Pod besedo statistika v vsakdanjem govorjenju običajno razumemo:
 Zbiranje podatkov
 Urad, ki se ukvarja z zbiranjem podatkov
Seveda pa je statistika tudi znanstvena disciplina kjer pod pojmom statistika razumemo:
 Znanost ki se ukvarja z množičnimi pojavi
 Funkcije nad vzorci
Torej v splošnem pod pojmom statistika razumemo več stvari, od zbiranja podatkov pa do
ustanov, ki se s tem ukvarjajo, pa tudi področje znanosti ali stroke in pojme znotraj te stroke.
Objekt statistike:
Za nas je statistika predvsem znanost, ki se ukvarja z zakonitostmi
množičnih pojavov. Obravnava vprašanja, ki izvirajo iz izkušnje, za orodje pa uporablja
verjetnostni račun. Množični pojav je vsak tak pojav, ki se v prostoru in času pojavlja v
velikem številu. Množični pojavi so večkratne meritve, delovne operacije, ki se ponavljajo,
nesreče na delovnih mestih, serije izdelkov itd.
Množico vseh pojavov, ki jih proučujemo, imenujemo populacija.
2.
Statistično opazovanje
Proces statistične obravnave nekega pojava imenujemo statistično opazovanje ali statistična
obravnava. Samo opazovanje ali obravnava zajema več faz ali etap. Problem ali nalogo je
potrebno opredeliti, ji določiti objekt opazovanja – populacijo, določiti orodja za zbiranje
podatkov, prikazovanje podatkov, računsko obravnavo in prikaz rezultatov.
2.1
Etape statističnega opazovanja:
J. Šrekl
Statistika varnosti
41
Opredelitev populacije
Množico vseh pojavov, ki jih proučujemo, imenujemo populacija. Beseda izhaja iz latinske
besede populus – ljudje, ljudstvo, kar pomeni, da se je statistika v začetku ukvarjalo pred
vsem z množico ljudi, njihovimi lastnostmi in pojavi v tej množici. Danes z besedo populacija
razumemo katerokoli množico (ljudi, predmetov, pojmov) s katero se ukvarja statistična
raziskava. Pred vsakim statističnim opazovanjem moramo natančno definirati ali opredeliti
populacijo, ki bo predmet naše obravnave. Opredelimo jo s tremi kriteriji:
 Stvarni kriterij opredeli vrsto elementov v populaciji (ljudje, izdelki, ekonomski
učinki, finančni učinki, lastnosti, itd.)
J. Šrekl
Statistika varnosti
42
 Časovni kriterij opredeli časovni okvir obravnave populacije (leto, večletno obdobje,
teden, ura v določenem dnevu, itd)
 Krajevni kriterij opredeli prostorsko območje populacije (določeno podjetje, RS, EU,
Prekmurje, določeni tekoči trak v proizvodnji, itd.)
Bolj stroga je opredelitev v matematični statistiki:
Naj bo G neka končna ali neskončna množica z elementi e. Množico bomo
imenovali populacija.
Naj bo X(e) enolična realna funkcija definirana na G. Funkcija F(x) določa delež elementov e
iz G, za katere velja X(e) < x
X = X(e) je slučajna spremenljivka in F(x) njena porazdelitvena funkcija
Pri končnih populacijah je tej zahtevi vedno mogoče ustreči. F(x) je nepadajoča funkcija,
definirana na vsej realni osi. Seveda bo zanjo veljalo:
lim F ( x)  1
x 
lim F ( x)  0
x 
Primer:
S primerom osvetlimo kriterije. Zanima nas stanje delovne sile v Prekmurju v mesecu
septembru 2009. Stvarno populacijo opredelimo kot aktivno prebivalstvo, krajevno
opredelimo aktivno prebivalstvo v Prekmurju in časovno opredelimo stanje v septembru 2009.
Po izboru populacije se odločimo za načrt, kako izvajati statistično opazovanje. Določimo
namen opazovanja, cilje, ki jih želimo doseči in metode s katerimi bomo opravili statistično
opazovanje prikaz in analizo podatkov.
Izdelava opazovalnega načrta
J. Šrekl
Statistika varnosti
43
Ko izberemo in definiramo populacijo, se odločimo za načrt, kako izvajati statistično
opazovanje. Določimo namen opazovanja, cilje, ki jih želimo doseči in metode s katerimi
bomo opravili statistično opazovanje prikaz in analizo podatkov.
Načini zbiranja statističnih podatkov
Populacijo realnih enot najbolj natančno opazujemo s popisom. Ta vrsta opazovanja nam daje
najpopolnejšo sliko o populaciji, ker zberemo lastnosti o vseh elementih populacije. Lastnosti
opazujemo v trenutku, ki mu pravimo kritični trenutek. To je teoretični pojem, ki določa
trenutek na katerega se nanaša popis. Popis je običajno raztegnjen na neko določeno časovno
obdobje. Zato začetek popisa običajno proglasimo za kritični trenutek. Krajši je čas
popisovanja, kvalitetnejši so rezultati popisa.
Populacijo časovnih dogodkov ali časovnih vrst (smrti, rojstva, nesreče, …) opazujemo s
tekočo registracijo ali evidenco. Statistično poročilo ali tekoča registracija popisuje dogodke
v nekem časovnem intervalu. Tu gre za popisovanje enakih ali podobnih dogodkov v različnih
časih.
Zaradi različnih razlogov (cena, čas, nemogoča izvedba, enostavnost…) običajno ne
opazujemo cele populacije, ampak samo njen del, ki naj bi bil slučajno izbran. S pomočjo
delnega opazovanja poskušamo doseči simulacijo popisa celotne populacije. Ena najbolj
običajnih metod delnega opazovanja je vzorčenje. Namesto celotne populacije opazujemo le
izbrani del, ki ga imenujemo slučajni vzorec. Izbira vzorca bi morala biti slučajna. Ker pa
teoretične slučajnosti ni mogoče doseči, izbiramo vzorec tako, da so zajeti vsi deli populacije
(npr. po starosti, po spolu, …).
Pri zbiranju podatkov moramo upoštevati:




namen zbiranja podatkov,
vrste podatkov, ki jih zbiramo,
količina podatkov,
zaupnost, diskretnost ali javnost podatkov.
Vedno želimo zbirati podatke na čim bolj enoten način. Zato pri večini popisov, tekočih
registracij ali anket uporabljamo pripravljene obrazce, ki nedvoumno določajo podatke, ki jih
bomo zbirali. Obrazci nam poenotijo način opazovanja in nas usmerijo v opazovanje tipičnih
pojavov in značilnosti. Pogosto so obrazci predpisani z zakoni, odloki, pravilniki itd.
Grupiranje podatkov
Zbrani podatki o zveznih porazdelitvah lastnosti nam v neobdelani obliki povedo zelo malo.
Posamezne vrednosti slučajne spremenljivke dosegajo posamezni elementi vzorca običajno le
enkrat. Zato sestavimo razrede znotraj vzorca. V en razred združimo vse elemente, ki imajo
vrednost slučajne spremenljivke na nekem predpisanem intervalu. Običajno izbiramo
intervale z enako dolžino, lahko pa imajo tudi različne dolžine. Število razredov je odvisno od
vrste podatkov in vrste raziskave. Preveliki ali premajhni razredi nam lahko močno zabrišejo
preglednost rezultatov. Po razdelitvi na razrede, dobimo število elementov v posameznem
razredu kot novo slučajno spremenljivko. Porazdelitev, ki jo dobimo na tak način, imenujemo
frekvenčna distribucija.
J. Šrekl
Statistika varnosti
44
Primer:
Trdnost zlitine aluminija in litija za letalsko industrijo
Podatke iz vzorca razdelimo v razrede po metodi steblo-list (stem-leaf),
to pomeni v razrede v velikosti 10 enot. Dobimo tabelo iz katere lahko odčitamo posamezne
frekvence razredov (stem-and-leaf diagram = histogram s številkami).
J. Šrekl
Statistika varnosti
45
Lahko pa opravimo razdelitev v razrede poljubne dolžine:
in ustrezni histogram
2.2
Prikaz statističnih podatkov
Tipi podatkov
Podatki, ki jih zbiramo predstavljajo vrednosti slučajne spremenljivke v in imajo lahko
poljubne fizikalne ali drugačne enote (točkovanje). Pri tem ločimo različne tipe spremenljivk:
- urejenostne (ordinalne) spremenljivke (vrednosti omogočajo kvečjemu ureditev
enot po velikosti npr., ocena čistoče, ocena vzdrževanja naprav);
- imenske (nominalne) spremenljivke (vrednosti omogočajo le razlikovanje z
enakostjo ali neenakostjo med seboj, npr. vrsta dejavnosti);
- razmernostne spremenljivke (vrednosti omogočajo tudi primerjavo razmerij med
vrednostma dvojic).
- intervalske spremenljivke (vrednosti omogočajo primerjanje razlik med
vrednostma dvojic
J. Šrekl
Statistika varnosti
46
Načini prikazovanja statističnih podatkov:
 tabela,
 grafični prikaz:
 graf,
 histogram,
 delilna torta.
Najbolj preprost primer prikazovanja podatkov je tabela. Tu so zbrani podatki prikazani
analitično, s številkami urejeni po različnih vrstnih redih. Ločimo enostavne tabele in
sestavljene tabele. Enostavne so tabele z dvema stolpcema ali vrsticama, kjer imamo kolono
neodvisnih in kolono odvisnih podatkov. V sestavljenih tabelah poleg kolone neodvisnih
podatkov nastopa več kolon odvisnih podatkov.
Primer tabele:
Požari na gradbenih objektih po dnevih
nastanka
PONEDELJEK
TOREK
SREDA
ČETRTEK
PETEK
SOBOTA
NEDELJA
št.vseh pož.
2000
1999
1998
1997
1996
1995
1994
209
220
229
217
248
231
237
1591
199
209
199
219
232
230
209
1497
205
234
226
225
232
234
211
1567
253
214
236
226
255
249
216
1649
203
205
198
202
198
204
193
1403
194
220
207
216
226
228
190
1481
229
214
187
193
179
179
179
1360
št.pož.
po dnevih
1492
1516
1482
1498
1570
1555
1435
10548
%
14,1
14,4
14,1
14,2
14,9
14,7
13,6
100
Primer grafov (poligonski, točkasti):
Grafično prikazovanje podatkov je mogoče na več načinov. Najstarejši način prikazovanje je s
pomočjo grafa krivulje ali lomljene linearne funkcije. Lahko uporabimo tudi označevanje po
točkah. Primerjalni grafi vsebujejo več funkcij, ki jih primerjamo.
Primera grafov porazdelitve števila požarov po mesecih
1400
1600
1519
1334 1338
1200
št požarov
1200
1000
1400
1474
1082
1029 1008 1042 1032 987
800
600
1023
1109
št požarov
1600
1000
8001519
600
400
400
1334
1474
1338
1082
1029
1008
1042
200
200
0
0
meseci
meseci
1032
987
1023
1109
J. Šrekl
Statistika varnosti
47
Primerjalni graf med številom poškodb, pogostostjo in resnostjo poškodb
350
ŠTEVILO POŠKODB
300
250
INDEKS POGOSTOSTI
200
INDEKS RESNOSTI
150
100
50
0
Liv.
St.ob
Mont.
Orod.
OPP.
RZ
Primer označevanja po točkah
Primer kombinacije označevanja po točkah in črtnega diagrama
Nazornejši prikaz je prikaz s stolpci.
Primer histograma porazdelitev požarov po dnevih v tednu
J. Šrekl
Statistika varnosti
48
Primer delilne torte Kadar neko celoto delimo na več delov, na primer, da celotno število
nesreč pri delu v nekem podjetju razdelimo po vrstah nesreč (roke, noge, glava itd.),
govorimo o {\it strukturnih deležih}. Tako porazdelitev prikazujemo s stolpci ali pa tako
imenovano delitveno ali delilno torto.
PONEDELJEK
14%
TOREK
14%
15%
SREDA
14%
15%
ČETRTEK
14%
14%
PETEK
SOBOTA
NEDELJA
[število požarov]
Kombinirana predstavitev
2500,00
2000,00
1500,00
1000,00
500,00
0,00
19 19 19 19 19 19 19 19 19 20 20 20 20 20 20 20
91 92 93 94 95 96 97 98 99 00 00 01 02 03 04 05
1. četrtletje 328354380406431457483509534560560586612637663689
2.četrtletje 229253276300323347370394417441441464488511535558
3.četrtletje 254269284298313328342357372387387401416431446460
4.četrtletje 285307328349371392414435457478478499521542564585
[leto]
Prikazovanje časovnih vrst z indeksi
Podatke, ki jih dobimo v nekem časovnem zaporedju imenujemo časovna vrsta.
a1, a2 ,
an
Primeri takih vrst so število nezgod v posameznih letih (ali drugačnih časovnih enotah),
količina proizvodnje, število požarov, število rojstev itd.V primeru, ko imamo časovni prikaz
nekega pojava, rezultate v posameznih obdobjih ovrednotimo s primerjalnimi vrednostmi, ki
jih imenujemo indeksi. Razmerje med novo vrednostjo in izhodiščno vrednostjo pomnoženo s
100 predstavlja indeks:
indeksa 
ak
100
a1
Lahko izračunamo tudi relativni indeks:
indeksr 
ak
100
ak 1
Primeri relativnih indeksov: indeks inflacije, indeks dviga cen, letni indeks proizvodnje itd.
Primer:
Gibanje števila nesreč v nekem podjetju na 1000 zaposlenih:
leto
št. nes.
indeks
ver. ind.
1987
91.73
1.0
1.0
1988
85.66
0.93
0.93
1989
71.43
0.78
0.83
1990
65.68
0.72
0.92
1991
80.68
0.78
1.23
J. Šrekl
Statistika varnosti
3.
3.1
49
Vzorci
Populacija in vzorec
Populacija je običajno zelo velika. Cena preizkušanja vseh elementov je pogosto previsoka,
pri preizkušanju se lahko posamezni elementi uničijo. V vseh teh primerih se zadovoljimo s
proučevanjem spremenljivke X na primerno izbranem delu populacije. Tak del imenujemo
vzorec. Seveda se takoj pojavi vprašanje, kako natančno o populaciji lahko sodimo iz
izbranega vzorca. Vzorec mora biti sestavljen tako, da imajo vsi elementi populacije enako
možnost, da bodo izbrani. Tak vzorec imenujemo slučajni vzorec. Če želimo izbrati pravi
slučajni vzorec, je treba vsak element pred ponovnim izbiranjem vračati v populacijo tako, da
je lahko vsak element lahko tudi večkrat izbran. Pri dovolj veliki populaciji lahko brez večje
škode izbiramo elemente brez vračanja.
3.2
Reprezentativnost vzorca
Dober vzorec mora predstavljati porazdelitev lastnosti cele populacije. Teorija trdi, da se pri
dovolj velikem vzorcu vzorčna porazdelitev dovolj dobro ujema s porazdelitvijo v populaciji.
Iz populacije G izberimo slučajni vzorec
e1, e2 ,
en 
pri katerem ugotavljamo vrednosti X(e). Vzorec nam da n realizacij slučajne spremenljivke iz
katerih sestavimo vektor
z  ( x1, x2 , , xn ) .
Ta vektor je realizacija slučajnega vektorja, ki ga imenujemo slučajni vzorec
Z  ( X1 , X 2 , , X n )
V splošnem nas ne zanimajo elementi populacije kot element, ampak kot nosilec slučajne
spremenljivke. (V populaciji nezgod nas iz statističnega vidika ne zanima nosilec nezgod,
ampak teža posamezne nezgode.) Zato bomo slučajni vektor imenovali slučajni vzorec, sicer
to ni vzorec populacije, je pa vzorec vrednosti slučajne spremenljivke na tej populaciji.
Osnovna naloga matematične statistike je, na podlagi končnega števila
realizacij slučajne spremenljivke sklepati o njeni neznani porazdelitveni funkciji.
Seveda je lahko predmet obravnave tudi slučajni vektor ali slučajni proces.
To imenujemo vzorčna ali empirična porazdelitveno funkcija. V splošnem velja:
Vn ( x)  F ( x)
J. Šrekl
3.3
Statistika varnosti
50
Vzorčne statistike
Informacijo o spremenljivki X v vzorcu Z navadno ne izkoristimo neposredno, ampak jo
predelamo s preslikavo:
m<n
U : Rn  Rm
tako, da je
U  U (Z )  U ( X1, X 2 ,
, Xn)
Funkcija naj bo zvezna ali pa ima kvečjemu števno zalogo vrednosti, U je potem slučajna
spremenljivka in jo imenujemo statistika.
Primer
1  vzemimo slučajni vzorec velikosti n. Potem se ena
Za slučajno spremenljivko X :  0
 p 1 p 


zmed mogočih statistik zapiše U  X1   X n . Vzemimo dve realizaciji vzorca
Z  ( X1, X 2 , , X 5 ) : (1,1,1,0,1) in (0,1,0,1,0). Vrednost statistike prve realizacije vzorca je
4, vrednost statistike druge realizaciji vzorca je 2. Statistika je sicer enostavna, vendar pa
tudi zelo malo pove.
3.4
Mere srednjih vrednosti vzorcev
1. Modus (modalna ali tipična vrednost) - Mo
2. Mediana (središčnica) - Md
3. Aritmetična sredina (imenovana tudi težišče) - M (uporabljamo tudi simbol x
Modalna vrednost ali modus (Mo) ali tudi tipična vrednost je tista vrednost, ki se v množici
podatkov najpogosteje pojavlja. Če se enako pogosto pojavljata dve ali več vrednosti, je
modus tista vrednost, ki je natanko na sredi med njimi. Vendar v primeru, ko se več vrednosti
pojavlja enako pogosto, pravzaprav ne moremo govoriti o tipični vrednosti in ni smiselno
določati modusa. Če je populacija velika, bi bilo določanje modusa iz nerazvrščenih podatkov
na gornji način zelo zamudno, zato podatke raje uredimo.
Iz frekvenčne distribucije določamo modus na tri načine: (1) z oceno, (2) računsko in (3)
grafično. Modus je sredina tistega razreda v katerem je najvišja frekvenca. Če je enaka
frekvenca v dveh ali več razredih, je modus vrednost, ki je natanko na sredi med ustreznimi
sredinami razredov (je aritmetična sredina sredin razredov z najvišjimi frekvencami). Modus
lahko izračunamo po obrazcu
J. Šrekl
Statistika varnosti
Mo  x0,min 
51
f 0  f 1
i
( f 0  f 1 )  ( f 0  f 1 )
kjer je:
x0,min - natančna spodnja meja modalnega razreda (razreda z najvišjo frekvenco)
f0 - frekvenca modalnega razreda
f-1 - frekvenca enega razreda pred modalnim
f+1 - frekvenca enega razreda za modalnim
i - razredni interval (širina razreda)
Modus lahko določamo tudi grafično iz histograma.
Mediana ali središčnica distribucije je tista izračunana vrednost, od katere ima polovica
podatkov nižjo vrednost, polovica pa višjo. To je torej vrednost, ki razdeli distribucijo na dve
polovici.
Če podatkov še nimamo urejenih v frekvenčno distribucijo, lahko izračunamo mediano, če jih
uredimo v rastočo (ali padajočo) vrsto. Ravnamo takole:
1. Podatke uredimo v rastočo vrsto.
2. Ugotovimo, koliko znaša polovica od vseh podatkov (n / 2).
3. Štejemo podatke (začnemo z najnižjim), dokler ne pridemo do zadnjega podatka v
prvi polovici vrste.
4. Če je število podatkov liho, je naslednji podatek tisti, ki je natanko na sredini vrste,
mediana. Če je število podatkov sodo, poiščemo mediano med srednjima dvema
podatkoma; je vrednost, ki je ravno na sredini med njima.
5. Če je na sredini več podatkov, ki imajo isto vrednost, je mediana ta vrednost.
Aritmetična sredina ali srednja vrednost (tudi vzorčno povprečje) je povprečna vrednost v
vzorcu
n
X  1n  X k
k 1
Če je vzorec razdeljen v razrede izračunamo srednjo vrednost tako da izračunamo povprečje
sredin razredov pomnoženih s frekvencami razredov ali s formulo
r
X  1n  ( X k  f k ) ,
k 1
pri čemer so:
X k - sredina k-tega frekvenčnega razreda
f k - frekvenca k-tega razreda
r - število razredov
r
n   fi - število podatkov v vzorcu (numerus)
i
Izračunajmo matematično upanje vzorčnega povprečja
E( X ) 
3.5
n
1
n
 E( X
k 1
k
)   , ker je E ( X k )  E ( X )  
Mere variabilnosti (razpršenosti)
J. Šrekl
Statistika varnosti
52
Variacijski razmik ali variacijski razpon je mera variabilnosti, ki jo izračunamo kot razliko
med največjo in najmanjšo vrednostjo, ki jo zavzame statistična spremenljivka:
vr  xmax  xmin
to je razlika med največjo x( n ) in najmanjšo vrednostjo x(1) v ranžirni vrsti (po velikosti
urejene vrednosti spremenljivke). Variacijski razmik je groba in zelo nestabilna mera, ki jo
določata samo dve skrajni vrednosti statistične spremenljivke, zato ni primerna za nadaljnje
analitične obravnave.
Kvantilni razmiki.
Naj bo naravno število r določeno s predpisom:
 np ; če je np naravno število

.
r

 np   1 ; če ni np naravno število
Potem vrednost
q p  x( r )
imenujemo p-ti vzorčni kvantil. Kvantile q1/ 4 , q2/ 4 , q3/ 4 imenujemo kvartili. Kvartilni razmik
je razlika med tretjim in prvim kvartilom
kr  q3/ 4  q1/ 4
Vzorčna disperzija ali definirana enako kot disperzija
n
V ( Z )  1n  ( X k  X ) 2
k 1
Spet izračunamo matematično upanje:
E (V ( Z )) 
n
1
n
 E (( X
k 1
k
 X )2 ) 
n 1 2

n
Boljša je statistika
S 
2
n
1
n 1
(X
k 1
k
 X )2
Za to statistiko velja, da je njeno matematično upanje
E(S 2 )   2
Če imamo porazdelitveno funkcijo F(x) z gostoto porazdelitve p(x), potem definiramo
številsko karakteristiko te porazdelitve, ki jo imenujemo r-ti moment
mr (c)  E (( X  c) r ) .
Ničelni moment dobimo, če je c  0 in centralni moment dobimo, če je c   .
Med pomembne statistike štejemo vzorčne momente. Če sta r nenegativno celo število in c
poljubno realno število, je r-ti vzorčni moment enak
M r (c) 
n
1
n
(X
k
 c) r
k 1
Začetni vzorčni moment dobimo v primeru, ko je c=0
Zr 
n
1
n
X
r
k
k 1
Vzorčno povprečje je prvi ničelni moment in vzorčna varianca je drugi centralni moment.
J. Šrekl
Statistika varnosti
53
V praksi najpogosteje srečujemo populacije, ki imajo lastnosti, porazdeljene po normalnem
zakonu, zato si poglejmo še posebej statistike vzorcev takih populacij. Naj bo slučajna
spremenljivka X porazdeljen po zakonu N ( , ) . Iz te populacije izberemo slučajni vzorec
Z  ( X1 , X 2 ,
, X n ) in zapišemo porazdelitveni zakon slučajne spremenljivke
n
 2  1  ( X k  X )2
k 1
ki je vzorčna funkcija spremenljivk X1 , X 2 , , X n . Nova slučajna spremenljivka je
porazdeljena po zakonu hi-kvadrat z (n-1) prostostno stopnjo.
Trdimo lahko, da sta statistiki
in
sta med seboj neodvisni.
Pri statističnem ocenjevanju se bomo srečali še z dvema statistikama in sicer statistiko
X 
U

n,
ki je porazdeljena po standardiziranem normalnem zakonu N(0,1) in statistiko
T
X 
n,
S
je porazdeljena po Studentovem zakonu S(n-1).
Preprost primer Studentove porazdelitve je porazdelitev S(1), ki jo imenujemo tudi
Cauchyjeva porazdelitev. Gostota te porazdelitve je:
p ( x) 
1
 (1  x 2 )
in predstavlja verjetnost lege nihajoče ladje.
Vzorčni korelacijski koeficient. Naj bo (X,Y) slučajni vektor katerega komponenti imata
matematični upanji 1 in  2 ter varianci ali disperziji  12 in  22 .
Kovarianca med spremenljivkama je razlika med matematičnim upanjem produkta in
produktom matematičnih upanj.
Korelacijski koeficient je mera linearne neodvisnosti med komponentama.
Vzemimo slučajni vzorec za vektor (X,Y):
( X1,Y1 ),( X 2 ,Y2 ),
( X n , Yn )
Poiščemo povprečni vrednosti in vzorčni varianci obeh komponent
J. Šrekl
Statistika varnosti
X
S 
2
x
n
1
n
X
k 1
n
1
n 1
( X
k 1
k
54
in Y 
k
 X )2 in S y2 
n
1
n
Y
k 1
n
1
n 1
k 1
k
 (Y
k
 Y )2
Vzorčna kovarianca je
Vzorčni korelacijski koeficient je mera linearne neodvisnosti med komponentama
spremenljivk v vzorcu.
Primer:
V proizvodnji srajc so ugotavljali delež bombaža v izdelkih. V vzorcu 64 srajc so dobili
naslednje rezultate v %:
34,2
33,1
34,5
35,6
36,3
35,1
34,7
33,6
37,8
36,6
35,4
34,6
33,8
37,1
34
34,1
33,6
34,7
35
35,4
36,2
36,8
35,1
35,3
32,6
33,1
34,6
35,9
34,7
33,6
32,9
33,5
33,8
34,2
33,4
34,7
34,6
35,2
35
34,9
35,8
37,6
37,3
34,6
35,5
32,8
32,1
34,5
34,7
33,6
32,5
34,1
35,1
36,8
37,9
36,4
34,6
33,6
34,1
34,7
35,7
36,8
34,3
32,7
Izračunajmo srednjo vrednost, mediano, prvi in tretji kvartil, največjo in najmanjšo vrednost
v vzorcu,varianco in standardni odklon za podatke v tabeli.
Aritmetična sredina
34,7984375
=AVERAGE(A1:A64
J. Šrekl
Statistika varnosti
mediana
1.kvartil
3.kvartil
max
min
varianca
standarni odklon
55
=MEDIAN(A1:A64)
=QUARTILE(A1:A64;1)
=QUARTILE(A1:A64;3)
=MAX(A1:A64)
=MIN(A1:A64)
=VAR(A1:A64)
=STDEV(A1:A64)
34,7000000
33,8000000
35,5250000
37,9
32,1000000
1,860791171
1,3641082
Razdelimo še vzorec v 8 razredov in narišimo histogram podatkov in kumulativne vrednosti.
Excel: Orodja – Data Analysis –Histogram.
Dobimo tabelo:
Bin
Frequency
32,1
1
32,92857
5
33,75714
8
34,58571
9
35,41429
21
36,24286
6
37,07143
6
More
5
Cumulative %
1,64%
9,84%
22,95%
37,70%
72,13%
81,97%
91,80%
100,00%
Bin
35,41429
34,58571
33,75714
36,24286
37,07143
32,92857
More
32,1
Frequency
21
9
8
6
6
5
5
1
Cumulative %
34,43%
49,18%
62,30%
72,13%
81,97%
90,16%
98,36%
100,00%
Leva polovica tabele so razredi po rastočih vrednostih, na desni so razredi po frekvenci. Po
desni polovici se izdela tudi histogram:
Histogram
,1
32
e
M
or
71
43
85
28
57
32
,9
2
14
57
14
37
,0
7
28
42
86
,2
4
71
36
57
,7
5
33
42
,5
8
34
,4
1
35
14
29
120,00%
100,00%
80,00%
60,00%
40,00%
20,00%
0,00%
85
71
Frequency
25
20
15
10
5
0
Bin
Frequency
3.6
Cumulative %
Cenilke parametrov
Porazdelitvena funkcija v populaciji je funkcija slučajne spremenljivke in parametrov. To
pomeni, da se verjetnost izraža s funkcijo, ki poleg slučajne spremenljivke vsebuje še neznane
parametre. Verjetnost običajno pišemo kot pogojno verjetnost – verjetnost s pogojem danega
parametra.
J. Šrekl
Statistika varnosti
56
Ker parametrov ne poznamo (porazdelitvena funkcija v populaciji ima neznane parametre), s
pomočjo izbranega vzorca ocenimo vrednosti parametrov. Iz same spremenljivke se parametri
ne vidijo, zato poiščemo ustrezne statistike v katerih so izraženi parametri. Če v statistiko
vstavimo realizacijo vzorca (konkretne vrednosti vzorca), dobimo cenilko za parameter.
Slika in shema: Predstavitev realizacije vzorca
Nepristranskost cenilke
Cenilka U(Z) je nepristranska, če velja:
.
Pristranskost cenilke merimo z:
J. Šrekl
Statistika varnosti
57
Primer. Slučajna spremenljivka X ima končno matematično upanje μ. Dokaži, da je vzorčno
povprečje nepristranska cenilka za μ in da V(Z) ni nepristranska cenilka za σ2. Izračunaj
pristranskost cenilke in poišči nepristransko cenilko za varianco.
3.7
Točkasto ocenjevanje
Ločimo dve vrsti ocenjevanja parametrov:
 točkasto ocenjevanje, kjer določimo konkretno vrednost parametra,
 intervalsko ocenjevanje, kjer določimo dovolj verjetni interval za parametre
Za točkasto ocenjevanje uporabljamo dve metodi:
 metodo momentov
 metodo maksimalne zanesljivosti
Metoda momentov
Momenti porazdelitve
Če imamo porazdelitveno funkcijo F(x) z gostoto porazdelitve p(x), potem definiramo
številsko karakteristiko te porazdelitve,ki jo imenujemo r-ti moment:
mr (c)  E (( X  c)r )
Ničelni moment dobimo, če je c = 0:
in centralni moment dobimo, če je
mr (0)  E ( X r )
mr ( X )  E (( X  X )r )
Vzorčni momenti
Če sta r nenegativno celo število in c poljubno realno število, je r-ti vzorčni moment enak
n
M r (c)  1n  ( X k  c) r
k 1
Začetni vzorčni moment dobimo v primeru, ko je c=0:
n
Z r  1n  X kr
k 1
Vzemimo vzorec Z iz populacije G s porazdelitveno funkcijo F ( x, q1 , q2 ) :
Z  ( X1 ,
Xn)
Izberemo realizacijo vzorca (konkretne vrednosti iz populacije)
z  ( x1,
Izračunamo vzorčne momente:
xn )
M1  M 1 ( x1 ,
xn )
M 2  M 2 ( x1 ,
xn )
Izračunamo še momente porazdelitve:
J. Šrekl
Statistika varnosti
58
m1  E ( X  c)  m1 ( x, q1 , q2 )
Iz momentov izrazimo parametre:
m2  E (( X  c)2 )  m2 ( x, q1 , q2 )
q1  q1 (m1 , m2 )
q2  q2 (m1 , m2 )
Namesto neznanih momentov porazdelitve vstavimo ocene zanje – vzorčne momente:
q1  q1 ( M 1 , M 2 )
q2  q2 ( M 1 , M 2 )
Metoda maksimalne zanesljivosti
Slučajna spremenljivka X je v populaciji porazdeljena z gostoto p(x,q). Gostota je odvisna od
slučajne spremenljivke in parametrov porazdelitve. Izberemo slučajni vzorec
Z  ( X1 , X 2 , , X n )
in zapišemo funkcijo zanesljivosti na realizaciji vzorca
n
L( z, q)   p( xk , q)
k 1
Običajno uporabimo logaritem funkcije zanesljivosti
n
ln( L( z, q))   ln( p( xk , q))
k 1
Iščemo največjo vrednost funkcije zanesljivosti ali maksimum njenega logaritma (zaradi
monotonega naraščanja logaritemske funkcije). Logaritem funkcijo torej odvajamo in odvod
izenačimo z 0.
 ln( L( z, q))
0
q
Primeri:
1. Poišči cenilko za parameter q za porazdelitev z gostoto:
q 1e  , x  0
p ( x, q )  

 0,
x  0
x
q
Rešitev: X  q
2. Dogodek A ima verjetnost p (0 ≤ p ≤ ½). Poišči za p cenilko iz vzorca velikosti n.
Navodilo: Ker izbiramo n elementov z enako verjetnostjo jih izberemo x po Poissonovem
porazdelitvenem zakonu:
p xe p
p ( x, p ) 
x!
Rešitev: Če je povprečna vrednost vzorca manjša od ½, je to cenilka za p, sicer je p=½.
3.8
Vzorčna porazdelitev
J. Šrekl
Statistika varnosti
59
DEFINICIJA:
Porazdelitev verjetnosti statistike imenujemo vzorčna porazdelitev
Primer: Porazdelitev verjetnosti X imenujemo vzorčna porazdelitev povprečja
(matematičnega upanja).
Vzorčna porazdelitev je statistično odvisna od:
 porazdelitve v populaciji,
 velikosti vzorca in
 metode izbora vzorca.
3.9
Interval zaupanja
V prejšnjem razdelku smo videli, da je matematično upanje v porazdelitvi populacije mogoče
ocenjevati s povprečjem v vzorcu: Za pravo vrednost  dobimo oceno vrednosti ˆ  X . V
splošnem velja, da je ˆ   . Zato bomo določili nek interval, v katerem se bo dovolj
zanesljivo nahajala prava vrednost, in ga bomo imenovali interval zaupanja.
Če izberemo interval z neznanimi mejami za naše matematično upanje (ali katerikoli
parameter)
a    b,
bo znana verjetnost
P(a    b)  1  
določila meje intervala. Če imamo simetrično porazdelitev (standardizirano normalno), bo
najmanjši interval simetrični interval. Zato dobimo:
P(d    d )  1  
Interval zaupanja za matematično upanje pri znani varianci
J. Šrekl
Statistika varnosti
Vzemimo slučajni vzorec ( X1 , X 2 ,
60
, X n ) iz populacije z normalno porazdelitvijo
N ( , ) . Vemo, da je X normalno porazdeljena statistika s porazdelitvijo N (  ,

n
).
Standardiziramo statistiko X v statistiko Z, ki je standardizirana normalna:
Z
X 

n
Interval zaupanja je interval l    u kjer sta meji b in c izračunani iz vzorca.
Dobimo lahko različne meje , čeprav zahtevamo enako verjetnost intervala. Enačba:
P( L    U )  1  
nam da pri istem 0    1 različne vrednosti spremenljivk L in U. Koeficient 1  
Imenujemo koeficient zaupanja ali stopnjo zaupanja.
Ker ima najmanjšo dolžino simetrični interval glede na matematično upanje, lahko
spremenljivko standardiziramo in zapišemo simetrični interval:
P( z / 2 
P( X  z / 2
X 

n

n  z / 2 )  1  
   X  z / 2

n
) 1
DEFINICIJA:
Če je povprečje slučajnega vzorca velikosti n,
je slučajna spremenljivka porazdeljena
normalno po zakonu
in
stopnja zaupanja, dobimo za matematično upanje a
interval zaupanja:
kjer je
.
Pri različnih izborih vzorcev bomo dobili različne intervale zaupanja. Slika kaže izbor
vzorcev z ustreznim intervalom zaupanja za neko spremenljivko X v populaciji P
J. Šrekl
Statistika varnosti
61
Iz znane verjetnosti določamo širino intervala tako, (npr. izračunamo meje pri normalni
porazdelitvi,) da določimo meje intervala s pomočjo verjetnosti vrednosti v tem intervalu(na
primer z verjetnostjo 95%). Vemo, da je to interval:
(  1.96 ,   1.96 )
Zapis v tej obliki ni primeren, ker a in  ne poznamo. Zato zapišemo interval z znanimi
količinami:
( x  ks, x  ks)
k je izračunana konstanta, ki je zaradi slučajne napake večja od 1.96. Tak interval imenujemo
interval tolerance.
3.10
Izbira velikosti vzorca
Ker za oceno matematičnega upanja uporabljamo samo povprečno vrednost vzorca napravimo
s to izbiro napako E  x   , ki je manjša ali enaka
z / 2

n
. Če vzamemo
maksimalno napako, lahko izračunamo velikost vzorca.
DEFINICIJA:
Če uporabimo za oceno parametra a in
ki je povezana z velikostjo vzorca:
3.10
stopnja zaupanja, je napaka
,
Interval zaupanja za velike vzorce
Vzemimo slučajni vzorec ( X1, X 2 ,, X n ) iz populacije z neznanim matematičnim upanjem
in varianco  2 Naj bo vzorec velik, tako, da velja centralni limitni izrek:. X je približno
X a

n je približno
) in Z 
normalno porazdeljena statistika s porazdelitvijo N (a,

n
standardizirana normalna porazdelitev (asimptotično standardizirana normalna porazdelitev.
DEFINICIJA:
J. Šrekl
Statistika varnosti
62
Če je velikost vzorca n veliko število potem je,
asimptotično standardizirano normalno porazdeljena in velja:
kjer je
.
Primer:
Leta 1993 je bila objavljena raziskava, ki je govorila o okuženosti ostrižev z živim srebrom.
Vzorce so zbrali iz 53 jezer na Floridi in izmerili koncentracijo živega srebra v mišicah (v
ppm) Dobili so naslednje rezultate:
1,23
1,33
0,04
0,044
1,2
0,27
0,49
0,19
0,83
0,81
0,71
0,5
0,49
1,16
0,05
0,15
0,19
0,77
1,08
0,98
0,63
0,56
0,41
0,73
0,59
0,34
0,34
0,84
0,5
0,34
0,28
0,34
0,75
0,87
0,56
0,17
0,18
0,19
0,04
0,49
1,1
0,16
0,1
0,21
0,86
0,52
0,65
0,27
0,94
0,4
0,43
0,25
0,27
Opisna statistika in interval zaupanja
Spremenljivka N Povprečje Mediana St.deviacija Konfidence Interval zaupanja
Koncentracija 53 0,524981 0,49
0,348625
0,093858 0,431124 0,618839
0.431124  x  z / 2
s
s
   x  z / 2
 0,618839
n
n
Grafični prikaz podatkov s histogramom razredov in kumulativnim diagramom
J. Šrekl
Statistika varnosti
63
Primer:
Aparat za kavo je prilagojen, da napolni skodelico s povprečno vrednostjo 110 ml kave na
skodelico in standardni odklon 5 ml. Domneva se, da je količina kave v skodelicah
porazdeljena z normalno porazdelitvijo. Stroj redno preverjajo z vzorčenjem 12 skodelic
kave. Če povprečna količina kave v enkratnem vzorcu pade v intervalu (110-2σ) ≤ x ≤
(110+2σ) se smatra, da stroj ustrezno deluje. V nasprotnem primeru se prilagodi doziranje
kav v stroju.
a) Kaj bodo napravili, če je vzorčno povprečje 107.0 ml?
Rešitev:
Izračunamo mejni vrednosti intervala in dobimo interval v katerem sprejmemo ustreznost
doziranja
(110  2  5,110  2  5)  (100,120)
Vidimo, da vzorčno povprečje spada v sprejemljiv interval.
b) Koliko je interval zaupanja za 99% zanesljivost?
Rešitev: Izračunamo interval zaupanja in sicer si pomagamo z Excelovo funkcijo
CONFIDENCE(α;σ;n). Če vstavimo naše vrednosti, dobimo:
CONFIDENCE(0.01;5;12)= 3,717889 in interval
(110  3.717889 ,110  3.717889 )  (107.28,113.72) .
c) Koliko skodelic kave bi bilo potrebno preizkusiti, da bi z 99% zanesljivostjo lahko potrdili
korektno delovanje avtomata, če bi dobili povprečje vzorca med 102 ml in 110 ml.
Rešitev:
E  x    102  110  8
Maksimalna
napaka
je
Izračunamo
še
z / 2  =NORMSINV(0,995)=2,5758 in vstavimo
 z    2.5758  5 
n    /2   
  2.59
8

 E  
Pri podatkih iz naloge c) bi bile dovolj tri skodelice kave v vzorcu.
2
3.11



Vprašanja za ponavljanje:
kaj je interval zaupanja
kako določamo interval zaupanja
koliko je z / 2 , če je   0.05 ali   0.01
2
J. Šrekl


Statistika varnosti
kaj je napaka ocene in kako določimo velikost vzorca
interval zaupanja pri velikih vzorcih
64
J. Šrekl
Statistika varnosti
65
Tretje poglavje: Testi hipotez
1. Hipoteze
V prejšnjem poglavju smo določili interval zanesljivosti za parametre porazdelitev. Pogosto to
ni dovolj, poslovna odločitev zahteva sprejemanje ali zavračenje trditve o parametru
porazdelitve ali celo o tipu porazdelitve spremenljivke. Zato je eden pomembnejših delov
statistične analize ocenjevanje hipotez.
Shematsko si ponazorimo testiranje hipoteze
V populaciji imamo neznano porazdelitveno funkcijo lastnosti, ki je podana s slučajno
spremenljivko X. Porazdelitvena funkcija je lahko povsem neznana ali pa poznamo tip ne
poznamo pa parametrov S hipotezo postavimo trditev o vrednosti parametrov ali o tipu
porazdelitvene funkcije. Iz populacije izberemo slučajni vzorec s pomočjo katerega
preverjanje hipotetično trditev kar imenujemo test hipoteze.
Sprašujemo se: Ali izbran slučajni vzorec domnevo – hipotezo podpira ali jo zavrača?
Videli smo, da imamo glede na statistično domnevo več vrst testov.
Primeri:
1. “Normalna porazdelitev spremenljivke X ima povprečno vrednost 0. “
J. Šrekl
Statistika varnosti
66
2. “Slučajna spremenljivka X je normalno porazdeljena.”
3. “Slučajna spremenljivka je porazdeljena po Poissonovem porazdelitvenem zakonu.”
4. “Slučajni spremenljivki X in Y sta enakomerno porazdeljeni.”
1. je parametrična, 2.-4. neparametrične;
3. je enostavna hipoteza
1.,2., 4. so sestavljene: v 1. ni opredeljen , 2. nima opredeljenih parametrov in 4. nima
opredeljenih porazdelitvenih funkcij.
Hipoteze ločujemo najprej na dopustne, take ki so sploh mogoče, v samem postopku testiranja
pa imamo dve vrsti hipotez, osnovno hipotezo ali ničelno hipotezo, tej nasproti pa postavimo
alternativno hipotezo tako da skupaj tvorita popolni sistem.
Primer:
Podjetje za proizvodnjo kozmetike pošilja na trg nov šampon. Višina šampona (v mm) v
steklenički je slučajna spremenljivka, ker je polnjenje odvisno od slučajnih vplivov.
Porazdeljena je po normalnem zakonu in ima standardno deviacijo 20 mm. Preverjamo
vrednost parametra porazdelitve, to je povprečne višine šampona v steklenički. Pričakujemo,
da bo višina 175 mm, kot je zapisano na steklenički. Izberemo slučajni vzorec (npr. deset
slučajno izbranih stekleničk) in preverjamo hipotezo. Formalno to zapišemo:
H 0 :   175 mm - ničelna hipoteza
proti
H1 :   175 mm - alternativna dvostranska hipoteza
ali
H 0 :   175 mm - ničelna hipoteza
proti
H1 :   175 mm - alternativna enostranska hipoteza
ali proti
H1 :   175 mm - alternativna enostranska hipoteza
Na podlagi kriterija, ki ga dobimo z določitvijo kritične vrednosti se odločamo o sprejemanju
hipoteze, zavračanju hipoteze ali ne odločanju o hipotezi.
2. Parametrični testi
2.1
Splošna procedura:
1. Oblikujemo problem, izberemo parametre, ki nas zanimajo.
2. Postavimo ničelno hipotezo, H0.
3. Oblikujemo alternativno hipotezo, H1.
J. Šrekl
Statistika varnosti
67
Izberemo stopnjo značilnosti .
Določimo ustrezne testne statistike.
Določimo kritične vrednosti testa
Poiščemo potrebne slučajne vrednosti, ki jih vstavimo v testne statistike, da dobimo
cenilke.
8. Na podlagi primerjave s kritičnimi vrednostmi odločimo ali je H0 sprejemljiva, ali jo
zavrnemo. Dodamo komentar rezultata v smislu problema.
4.
5.
6.
7.
2.2
Test matematičnega upanja normalne porazdelitve z znano varianco.
Imamo normalno porazdelitev N(μ,σ) z znano varianco in neznanim matematičnim upanjem.
Postavimo ničelno in alternativno hipotezo za matematično upanje
H 0 :   0
H1 :    0
Izberemo stopnjo značilnosti .
Določimo ustrezno testno statistiko
Testna statistika:
Statistika je porazdeljena po standardiziranem normalnem zakonu N(0,1).
Kritična vrednost
z / 2 se določa iz enačbe:
( z / 2 )  12 ,
ki je tabelirana v tabeli II
Kriterij z-testa
Ničelna hipoteza: H 0 :    0
Testna statistika: Z  X  0 n
0

Alternativna hipoteza:
H1 :    0
H1 :    0
H1 :    0
Kriterij testa:
z0  z / 2
ali
z0   z / 2
z0  z
z0   z
J. Šrekl
Statistika varnosti
68
Napake:
1. Zavračanje pravilne ničelne hipoteze: napaka I. vrste
2. Sprejemanje ali ne zavračanje napačne ničelne hipoteze: napake II. Vrste.
Napako prve vrste omejuje predpisana stopnja tveganja .
Napako druge vrste določa koeficient . Predpostavimo da je ničelna hipoteza napačna in je
prava vrednost matematičnega upanja   0   . Testna statistika ima obliko
̅
̅
(
⁄√
)
√
⁄√
Dobili smo novo gostoto porazdelitve, ki je premaknjena v desno. Verjetnost, ki je levo od
kritične vrednosti predstavlja napako druge vrste, ker pomeni zavračanje pravilne alternativne
hipoteze.
(
⁄
√
)
J. Šrekl
Statistika varnosti
69
Velikost vzorca
(
)
DEFINICIJA:
P-vrednost je najmanjša stopnja značilnosti pri kateri še zavrnemo ničelno hipotezo, pri
danih podatkih:
Primer 1. Naj bo slučajna spremenljivka X porazdeljena po normalnem zakonu N(m,1), kjer
je m neznana količina. Iz vzorca z 10 elementi smo dobili X = 1.01 . Ugotovi ali drži
hipoteza H0(m=0) pri stopnji tveganja je α=0.01.
Vstavimo kar v tabelo za kriterij zavračanja:
Ničelna hipoteza: H 0 :    0  0
Testna statistika: Z  X   n  1.01 10  3.19
0

0
1
Alternativna hipoteza:
Kriterij testa:
H1 :    0  0
3.19  z0  z / 2  2.81
ali
z 0   z / 2  2.81
Vidimo, da hipoteza izpolnjuje kriterij zavračanja, hipotezo torej zavrnemo.
Primer 2. Sistem za reševanje posadke letala (raketni motor za izstrelitev sedeža) poganja
trdo gorivo. Pomembna karakteristika je hitrost izgorevanja. Specifikacija predpisuje, da
mora biti povprečna hitrost gorenja 50 centimetrov na sekundo. Vemo, da je σ=2 cm/sek.
Preizkus dovoljuje napako I. vrste stopnje z α = 0.05. Vzorec 25 preizkusov nam je dal
povprečno vrednost 51.3. Ali ta vrednost potrjuje našo hipotezo?
Spet vstavimo v tabelo za kriterij zavračanja za dvostransko (dvorepo) hipotezo:
Ničelna hipoteza: H 0 :    0  50
Testna statistika: Z  X   n  51.3  50 25  3.25
0
0
Alternativna hipoteza:
H1 :    0  50

2
Kriterij testa:
3.25  z0  z / 2  1.96
ali
z 0   z / 2  1.96
Vidimo, da hipoteza izpolnjuje kriterij zavračanja. Vzorec zavrača našo hipotezo.
J. Šrekl
Statistika varnosti
70
Kako velik vzorec je potrebno preizkusiti v prejšnji nalogi, če je razlika med povprečno
vrednostjo in pričakovanim matematičnim upanjem 1 cm/s in z verjetnostjo 0.90 ne bomo
zavrnili pravilne alternativne hipoteze.
Rešitev:
(
(
⁄
)
√
)
(
(
)
√
)
(
)
Približek je dober saj vrednost funkcije Φ majhna glede na β.
Testi z velikimi vzorci in neznano varianco:
Populacija je normalno porazdeljena varianca znana. Če je vzorec velik (n>40), lahko
vzorčna varianca zamenja varianco v populaciji.
Uporabljamo torej metodo, ki se sicer uporablja pri neznanih variancah.
Ničelna hipoteza: H 0 :    0
Testna statistika: T0 
Alternativna hipoteza:
X  0
n
S
Kriterij testa:
H1 :    0
t 0  t / 2,n1 ali t 0  t / 2,n1
H1 :    0
t0  t ,n1
t0  t ,n1
H1 :    0
J. Šrekl
2.3
Statistika varnosti
71
Test matematičnega upanja normalne porazdelitve z neznano varianco.
Pri normalni porazdelitvi, kjer je tudi varianca (standardni odklon) neznana bomo uporabili
drugačno testno statistiko.
Testna statistika:
Statistika je porazdeljena po t – porazdelitvi (Studentovi) z (n-1) prostostnimi stopnjami.
Kritična vrednost t / 2,n1 se določa iz enačbe:
P(| T | t / 2,n1 )  1   ,
ki je tabelirana v tabeli IV, ali jo določimo v EXCEL-u s pomočjo funkcij TINV
Kriterij t- testa je zapisan v tabeli
Ničelna hipoteza: H 0 :    0
Testna statistika: T0 
Alternativna hipoteza:
X  0
n
S
Kriterij testa:
H1 :    0
t 0  t / 2,n1 ali t 0  t / 2,n1
H1 :    0
t0  t ,n1
t0  t ,n1
H1 :    0
DEFINICIJA:
P-vrednost je najmanjša stopnja značilnosti pri kateri še zavrnemo ničelno hipotezo, pri
danih podatkih:
Ker tabela IV za t-statistiko vsebuje le nekaj kritičnih vrednosti, P-vrednosti ni mogoče
natančno izračunati. Lahko pa poiščemo spodnjo in zgornjo mejo P-vrednosti iz te tabele.
Poiščemo med katerima kritičnima vrednostma leži izračunana vrednost
J. Šrekl
Statistika varnosti
72
Primer:
Kvaliteto golf palice merijo tako, da vanjo izstrelijo kroglico in merijo razmerje med odbito in
vstopno hitrostjo. Opravili so 15 preizkusov in dobili naslednje rezultate (koeficiente odboja)
0,8411
0,8580
0,8042
0,8191
0,8532
0,8730
0,8182
0,8483
0,8282
0,8125
0,8276
0,8359
0,8750
0,7983
0,8660
Preizkušamo hipotezo, da je matematično upanje koeficienta enako 0,82 pri stopnji
značilnosti 0,05.
V EXCEL-u izračunamo
̅
(
)
(
(
)
)
(
) 2,8144
(
) 1,7613
Vidimo, da je kritična vrednost manjša od testne vrednosti, hipotezo H0 zavrnemo. Pregledno si to
poglejmo v tabeli:
Ničelna hipoteza: H 0 :    0  0,82
Testna statistika: T0 
X  0
S
n  2,81
Alternativna hipoteza:
Kriterij testa:
H1 :    0
t 0  t / 2,n1 ali t 0  t / 2,n1
H1 :    0
2,81  t 0  t ,n1  1,76
H1 :    0
t0  t ,n1
Vidimo, da je izpolnjen kriterij zavračanja hipoteze in lahko sprejmemo alternativno hipotezo,
da je srednja vrednost večja od pričakovane
2.4
Test hipoteze za varianco in standardno deviacijo normalne porazdelitve
V populaciji imamo normalno porazdelitev N (  , ) z neznanimi parametri. Vzemimo
slučajni vzorec velikosti n: X1 , X 2 ,
, X n in testirajmo hipotezi:
H 0 :  2   02
H1 :  2   02
S primerjavo med vrednostjo S v vzorcu in pričakovano standardno deviacijo poskušamo
dobiti potrditev naše hipoteze. Zato bomo za ta test bomo uporabili statistiko:
 02 
(n  1) S 2
 02
Statistika je porazdeljena po zakonu hi-kvadrat z (n-1) prostostnimi stopnjami.
Kriteriji za zavračanje ničelne hipoteze je podan v tabeli:
J. Šrekl
a)
Statistika varnosti
73
Ničelna hipoteza: H 0 :  2   02
Alternativna hipoteza
zavrnemo
2
2
2
2
H1 :    0
0   / 2,n1 ali 02  12 / 2,n1
b)
H1 :  2   02
c)
H1 :  2   02
02  2 ,n1
 02  12 ,n1
Običajno nas zanima le zgornja meja dopustnega standardnega odklona, zato uporabljamo
enostransko hipotezo H 0 :  2   02 z alternativo H1 :  2   02
Primer:
Avtomat polni plastenke s tekočim detergentom. V vzorcu 20 plastenk so ugotovili vzorčno
varianco s 2  0.0153 l. Ali varianca presega vrednost 0.01 l. (Prepolne ali preveč prazne
plastenke niso dopustne za ustrezno kvaliteto.) Predpostavimo, da je polnjenje porazdeljeno
normalno in   0.05 . Ali lahko sprejmemo hipotezo da varianca ne presega predpisane
vrednosti.
Izračun:
Kritična vrednost testa ( iz tabele III) je:  02.05 ,19  30.14
Vrednost statistike je:  02  29.07
Ker je
 02   02.05 ,19
hipotezo sprejmemo
P-vrednost iščemo v tabeli pri 19 prostostnih stopnjah:

 2 ,191
0.10
0.05
27.20
30.14
0.05<P<0.10
2.5
ali
P=0.0649.
Vprašanja:
Test hipoteze o matematičnem upanju normalne porazdelitve, varianca znana.
(a) naštej korake pri izvedbi testa,
(b) kakšno statistiko uporabljamo
(c) kriteriji testa
Test hipoteze o matematičnem upanju normalne porazdelitve, varianca znana.
(a) kaj je P-vrednost,
J. Šrekl
Statistika varnosti
(b)
(c)
(d)
(e)
74
zveza med hipotezo in intervalom zaupanja,
napake
velikost vzorca
testi z velikimi vzorci
Test hipoteze o matematičnem upanju normalne porazdelitve, varianca neznana.
(a) naštej korake pri izvedbi testa,
(b) kakšno statistiko uporabljamo
(c) kriteriji testa
2.6
Test populacijskega razmerja
V praksi se pogosto dogaja , da vzamemo končni vzorec iz velike populacije (morda celo
neskončne) kjer opazujemo slučajno spremenljivko, ki ima samo dve vrednosti (npr.
kvalitetno – nekvalitetno). V vzorcu pričakujemo izbor vrednosti po binomskem zakonu. S
testom sprejemamo ali zavračamo razmerje deležev vrednosti spremenljivke v populaciji.
Hipotetično se sprašujemo o verjetnosti izida v binomskem zaporedju poskusov. Na primer
potrjujemo hipotezo o verjetnost defektnih izdelkov v proizvodnji
H 0 : p  p0
H1 : p  p0
Test temelji na aproksimaciji ali približku binomske porazdelitve z Normalno porazdelitvijo.
Slučajna spremenljivka je porazdeljena približno normalno, kar zapišemo:
X  N (np0 , np0 (1  p0 ))
Uporabili bomo testno statistiko:
Shema zavračanja hipoteze:
Ničelna hipoteza: H 0 : p  p0
Alternativna hipoteza
H1 : p  p0
H1 : p  p0
H1 : p  p0
Testna statistika
X  np0
Z0 
np0 (1  p0 )
Zavrnemo ničelno hipotezo
z0  z / 2
ali
z0   z / 2
z0  z
z0   z
Primer:
Proizvodnja polprevodnikov za avtomobilsko industrijo. Kupec zahteva, da delež
nekvalitetnih izdelkov ne presega 5%. Zanesljivost je omejena z   0.05 . V vzorcu 200
polprevodnikov so našli štiri defektne. Ali mora proizvajalec izboljšati kvaliteto?
J. Šrekl
1.
2.
3.
4.
5.
Statistika varnosti
75
parameter, ki nas zanima, je parameter p.
Ničelna hipoteza je H 0 : p  0.05 .
Alternativna hipoteza je H1 : p  0.05 . Hipoteza postavlja strožje pogoje
proizvajalcu. Ob zavrnitvi ničelne hipoteze bodo izpolnjene zahteve kupca.
  0.05
Testna statistika:
Z0 
X  np0 ,
np0 (1  p0 )
kjer je x=4, n=200 in p0=0.05.
6.
Pogoj zavrnitve hipoteze H 0 : p  0.05 : z0   z  1.645
7.
Izračunamo cenilko za test:
z0 
4  200(0.05)
 1.95
200(0.05)(0.95)
Sklep: Ničelno hipotezo zavrnemo in sklepamo, da je defektnih izdelkov manj kot
5%, kar pomeni ustreznost kvalitete proizvodnje. Izračunamo še P-vrednost, ki je
za to testno statistiko enaka:
P  0.5  ( z0 )  0.5  0.4744  0.0265 ,
ki je manjša od alfa.
8.
Z MINITAB programom bi dobili rezultat
Napake II vrste in velikost vzorca
Napako II vrste izračunamo pri dvostranski alternativi:
ali enostranskih alternartivah:
velikost vzorca:
dvostranska alternativa
enostranska alternativa
J. Šrekl
Statistika varnosti
76
Primer:
Za naš primer proizvodnje polprevodnikov predpostavimo, da je verjetnost napake p=0.03.
Kolikšna je napaka β pri n=200 in α=0.05!
To pomeni, da je skoraj 70% verjetnost, da bo proizvajalec napačno sklepal, da je proizvodnji
proces primeren, če je ugotovljena verjetnost defektov 3%. Moč tega testa je 0.3. Vidimo, da
dobimo veliko napako oziroma šibko moč testa, ker so razlike med verjetnostmi defekta
majhne in vzorec ni dovolj velik. Če želimo zmanjšati napako β, ki ni večja od 0.1 pri enakih
podatkih, bo potrebno povečati vzorec:
Primerjalna rast moči testa pri različnih velikostih vzorca:
J. Šrekl
Statistika varnosti
77
3. Testi neparametričnih hipotez
3.1
Test prilagajanja vzorca
Testiramo neparametrično hipotezo – neparametrični test. Porazdelitve v populaciji ne
poznamo, zato skušamo s testom potrditi ali zavrniti hipotezo o porazdelitvi v populaciji.
 Vzemimo slučajni vzorec velikosti n iz populacije z neznano porazdelitvijo.
 Vzorec razdelimo v k razredov (običajno z enakimi intervali) in izračunamo
frekvence razredov Oi.
 Postavimo hipotezo o porazdelitvi, določimo hipotetično porazdelitev.
 Izračunamo frekvence razredov s hipotetično porazdelitvijo in jih označimo z Ei
 in testirajmo hipotezi:
Za ta test bomo uporabili statistiko:
( Oi  Ei )2
Ei
i 1
k
 02  
Statistika je porazdeljena po zakonu hi-kvadrat s (k-p-1) prostostnimi stopnjami, p je število
parametrov v hipotetični porazdelitvi.
Hipotezo zavrnemo, če velja
02  2 ,k  p1
Primer 1.: Število napak pri tiskanih vezjih je hipotetično porazdeljeno po Poissonu. Vzeli so
vzorec n = 60 tiskanih vezij in dobili naslednjo vzorčno porazdelitev:
Število napak
0
1
2
3
frekvenca
32
15
9
4
Ugotovi ali s stopnjo značilnosti   0.05 lahko potrdimo hipotezo.
Izračunamo parameter  za Poissonovo porazdelitev, ki ga ocenimo s povprečno vrednostjo
vzorca. (parameter predstavlja matematično upanje, ki ga ocenjujemo s povprečno vrednostjo
vzorca.
(32  0  15 1  9  2  4  3) / 60  0.75
Izračunamo pričakovane verjetnosti v razredih:
J. Šrekl
Statistika varnosti
78
V EXCEL-u je računanje enostavnejše (V celici B3 vidimo kako uporabimo formulo)
Pričakovane frekvence so produkt verjetnosti in velikosti vzorca:
število
defektov Verjetnost
0
0,472
1
0,354
2
0,133
3 ali več
0,041
Pričakovana
frekvenca
28,34
21,26
7,97
2,43
Ker ima zadnji razred frekvenco manjšo od 3, ga združimo s prejšnjim razredom:
število Merjena
defektov frekvenca
0
32
1
15
2 ali več
13
Pričakovana
frekvenca
28,34
21,26
10,44
Reševanje:
1.
Zanima nas oblika porazdelitve napak pri izdelavi tiskanih vezij.
2.
H0: porazdelitev je Poissonova!
3.
H1: porazdelitev ni Poissonova!
4.
α = 0.05.
k
( O  Ei )2
5.
Testna statistika:  02   i
Ei
i 1
6.
7.
Zavrnitev: 0  0.05,1  3.84 , ker je k – p -1=3-1-1=1.
Izračunamo cenilko:
2
2
J. Šrekl
8.
Statistika varnosti
79
Sklep:ker je cenilka manjša od kritične vrednosti hipoteze ne moremo zavrniti,
torej sprejemamo trditev, da je porazdelitev Poissonova.
Primer 2.: Kontrolor testira adapterje za prenosne računalnike. S stopnjo značilnosti
  0.05 se pričakuje, da je izhodna napetost porazdeljena z normalnim porazdelitvenim
zakonom. Iz vzorca velikosti n = 100, dobimo povprečno vrednost x  5.04 V in standardni
odklon s  0.08 V. Dobljene vrednosti so razdelili v razrede:
Pričakovane frekvence izračunamo kot produkte velikosti vzorca n in pričakovane verjetnosti
razreda:
V EXCEL-u smo izračunali pričakovane frekvence (ki se ne ujemajo natanko s podano tabelo
zgoraj):
x
4,948
4,986
5,014
5,04
5,066
5,094
5,132
Vsota
verjetnost
0,1250719
0,2498379
0,3725905
0,5
0,6274095
0,7501621
0,8749281
1
verj. interv. frekvenca
0,125071936
12,5
0,124765947
12,5
0,122752653
12,3
0,127409464
12,7
0,127409464
12,7
0,122752653
12,3
0,124765947
12,5
0,125071936
12,5
100,0
Reševanje:
1.
Zanima nas oblika porazdelitve napak pri izdelavi tiskanih vezij.
2.
H0: porazdelitev je normalna!
3.
H1: porazdelitev ni normalna!
4.
α = 0.05.
J. Šrekl
Statistika varnosti
80
( Oi  Ei )2
Ei
i 1
k
5.
Testna statistika:  02  
6.
7.
Zavrnitev: 0  0.05,5  11.07 , ker je k – p -1=8-2-1=5.
Izračunamo cenilko z podatki iz dane tabele:
2
2
Ali s pomočjo računanja v EXCEL-u:
E(i)
8.
9.
O(i)
12,5
12,5
12,3
12,7
12,7
12,3
12,5
12,5
12
14
12
13
12
11
12
14
0,020568
0,186009
0,006173
0,005267
0,04309
0,132486
0,018205
0,178175
100,0
100,00
0,590
Sklep:V obeh primerih je cenilka manjša od kritične vrednosti, hipoteze ne
moremo zavrniti, torej sprejemamo trditev, da je porazdelitev normalna.
Izračunamo še P-vrednost:
0.55)
2
P(0.64)  0.99  (0.64
 0.9885
(1.140.55)  10
Računano je z linearno interpolacijo, vendar je natančnost dovolj dobra, saj v EXCEL-u
dobimo:
(
)
3.2
Test enakomerne porazdelitve
Primer:
Poškodbe po delovnih urah v tabeli in histogramu.
LETO
1996.
1997.

0-2
3
3
6
DELOVNE URE V ENI IZMENI
2-4
4-6
7
10
9
10
16
20
6-8
5
9
14
J. Šrekl
Statistika varnosti
81
10
5
0
2
4
6
8
1996
1997
x = delovne ure
y = pogostost poškodb
Pogostnost poškodb pri delu po delovnih urah v letu 1996
Enakomerna porazdelitev bi imela
enake frekvence po letih
f
3
7
10
5
25
ft
6,25
6,25
6,25
6,25
25
(f-ft)2
10,56
0,56
14,06
1,56
f-ft
-3,25
0,75
3,75
-1,25
0
(f-ft)2/ft
1,69
0,09
2,25
0,25
2
χ =4,28
V prvi stolpec smo zapisali frekvence, ki smo jih dobili z evidencami, v drugi stolpec smo
zapisali frekvence enakomerne porazdelitve, tretji stolpec razlike, četrti kvadrate razlik in v
peti ulomke, ki jih seštevamo v statistiki. Ker je k-p-1=4-1-1=2 in  = 0.05, je ²(kritična) =
5.99, pri  = 0.01 pa ²(kritična) = 9,21.
Podatki ne potrjujejo alternativne hipoteze, da porazdelitev ni enakomerna, torej ne
zavračajo osnovne hipoteze o enakomerni porazdelitvi. Problem pri tej nalogi je, da je vzorec
zelo majhen in so vrednosti precej simetrično razporejene okoli srednje vrednosti.
Oglejmo si še, kakšno je prilagajanje z normalno porazdelitvijo
f
ft
3
7
10
5
25
Vidimo, da je 02  2 ,k  p1
za
f-ft
(f-ft)2/ft
0,10698 2,6745 0,03962
0,31784 5,27156 0,56672
0,48826 12,2064 0,39882
0,48411 12,1028 4,16843
5,17359
 = 0.01 . V primeru  = 0.05 pa lahko hipotezo sprejmemo.
J. Šrekl
3.3
Statistika varnosti
82
Testi s kontingenčno tabelo
Večkrat imamo opravka s po dvema spremenljivkama (lahko sta obe slučajni ali pa je ena
spremenljivka običajna, druga pa slučajna). Rezultate zbiranja podatkov razvrstimo v tabelo
(dvodimenzionalno) kjer so podatki dani v skupinah z dvema iskanima lastnostma. Na primer
raziskujemo neko lastnost ki ima dve vrednosti DA ali NE pri moških in ženskah. Dobimo
tabelo:
DA
NE
Moški
Ženska
V tabeli nas zanima ali so vrednosti porazdeljene enakomerno..
Vzemimo dve spremenljivki v populaciji. Zanima nas odvisnost teh dveh spremenljivk.
Izberemo vzorec z n elementi, kjer dobimo c razredov glede na prvo spremenljivko in r
razredov glede na drugo spremenljivko. Frekvence razredov razporedimo v dvorazsežno
kontingenčno tabelo velikosti r x c:
Izračunamo povprečne vrednosti vrstic in stolpcev:
pričakovane frekvence v posameznih razredih
in testna statistika
J. Šrekl
Statistika varnosti
83
porazdeljena je po zakonu hi-kvadrat (r-1)(c-1) prostostnimi stopnjami. Če izračunana
vrednost preseže kritično vrednost potem hipotezo o neodvisnosti zavrnemo.
Tabela 2x2
Primer:
Odnos kvalifikacijske strukture delavcev in pogostnost poškodb pri delu
DELAVCI
NEPOŠKODOVAN
I
POŠKODOVANI


NKV I N
PKV
48
KV I N
OSTALI
18
66
40
88
4
22
44
110
POŠKODOVANI
NEPOŠKODOVANI
KV
NKV
0
10
20
4
2  
30
40
( f dej .  fteor . )
k 1
50
60
2
fteor .
0² = 0,436363636 + 0,654545455 + 1,745454545 + 2,618181818 = 5,454545455
Kritična vrednost za α = 0.05 in (2-1)(2-1)- prostostno stopnjo je ²0.05,1=3.84 in za α = 0.01
²0.01,1=6.64. Vidimo, da hipotezo v prvem primeru zavrnemo, v drugem pa ne. Pri večjem
alfa trdimo, da kvalifikacija in poškodbe nista neodvisni spremenljivki, pri manjšem alfa pa to
trditev lahko sprejmemo.
Pogosto se uporabljajo tudi modificirane formule za izračun testne statistike
2
n

n (| ad  bc |)  
2

,
2 
(a  c)(b  d )(c  d )(a  b)
če se vrednosti v tabeli označijo:
DELAVCI
NEPOŠKODOVAN
I
POŠKODOVANI

NKV I N
PKV
52,8a
KV I N
OSTALI
13,2b
66
35,2c
8,8d
44
J. Šrekl
Statistika varnosti

88
84
22
110
Izračunamo:
2
110 

110(| 48 x 4  18 x 40 |) 
2 

2 
 8,38
88 x 22 x 44 x66
Ta vrednost presega obe kritični vrednosti, torej hipotezo o neodvisnosti zavrnem.
Sklep:Število poškodb je odvisno od kvalifikacije zaposlenih.
Tabela r x c
Ocene študentov pri matematiki in statistiki:
Ocena iz matematike
Ocena iz Statistike
6
7
8
6
25
6
17
7
17
16
15
8
18
4
18
9,10
10
8
11
Reševanje:
0,285047
0,252336
0,233645
0,228972
1
25
6
17
16
18
4
10
8
0,327103 0,158879
17
15
18
11
0,285047
13
6
10
20
0,228972
19,95327
17,66355
16,35514
16,02804
9,691589
8,579439
7,943925
7,785047
17,38785
15,39252
14,25234
13,96729
13,96729
12,36449
11,4486
11,21963
1,276456
0,024927
0,165426
2,267104
3,733913
1,40615
6,418219
1,958043
0,005935
9,788347
0,008651
0,01001
0,985451
0,630388
1,6345
0,066989
3,276051
0,183292
6,871438
10,39777 0²=25,55453
1.
2.
3.
4.
Ali obstaja zveza med ocenami pri obeh predmetih.
H0: ocene so neodvisne
H1: ocene so odvisne
α = 0.01.
9,10
13
6
10
20
J. Šrekl
Statistika varnosti
r
5.
Testna statistika:
c
  
2
0
85
(Oij  Eij )2
i 1 j 1
Eij
2
02  0.01,9
 21.67 , ker je (r-1)(c-1)=9.
6.
Zavrnitev:
7.
Izračunamo cenilko: 0²=25,55453
8.
Sklep: ker je cenilka večja od kritične vrednosti hipotezo zavrnemo, torej so ocene
neodvisne, ni povezave med ocenami pri obeh predmetih
Izračunamo še približno P-vrednost:
9.
(
)
Testi za razliko matematičnih upanj pri znani varianci
3.4
Opazujemo dve normalni porazdelitvi in primerjamo njuni matematični upanji.
Želimo testirati hipotezo:
Testna statistika je porazdeljena standardizirano normalno.
Primer:
Tehnologa zanima čas sušenja temeljne barve. Primerja standardno barvo in barvo z
dodatki za sušenje. Standardna deviacija sušenja je 8 minut. Preizkusi po 10 barvanj s
prvo in 10 barvanj z drugo barvo. Povprečni čas sušenja za prvo barvo je 121 minut in za
drugo 112 minut. Ugotovi, ali obstaja razlika med povprečno hitrostjo sušenja pri α =
0.05.
1.
2.
Zanima nas razlika
Testiramo ničelno hipotezo:
oziroma
3.
in imamo alternativno hipotezo:
4.
5.
α = 0.05
Testna statistika:
je porazdeljena po standardiziranem normalnem zakonu.
6.
Kriterij zavračanja:
J. Šrekl
Statistika varnosti
7.
Izračun vrednosti testne statistike:
8.
Sklep: Ker je
86
hipotezo zavrnemo, kar pomeni, da se druga barva suši hitreje (razlika je statistično
značilna).
9.
Izračunamo še P-vrednost:
kar pomeni, da razlika v času sušenja signifikantna, če je
  0.0059
Napako II vrste izračunamo s pomočjo karakterističnih krivulj, ki jih dobimo v tabelah.
Izračunamo:
in iz krivulje določimo n
Primer:
V prejšnji nalogi naj bo realna razlika časa sušenja več kot 10 minut. Lahko izračunamo
d:
Pogledamo krivuljo:
Za moč testa 0.9 vzamemo za d=0.88 in verjetnost 0.1. Skozi presečišče koordinat gre
krivulja n=11.
Enako bi izračunali s pomočjo formule:
J. Šrekl
Statistika varnosti
87
3.5 Testi za razliko matematičnih upanj pri znani varianci – veliki vzorci
Opazujemo dve normalni porazdelitvi in primerjamo njuni matematični upanji. Varianca
je neznana
Primer σ12 = σ22 = σ
Želimo testirati hipotezo:
Vzamemo vzorec velikosti n1 za prvo spremenljivko in vzorec velikosti n2 za drugo
spremenljivko. Cenilka za razliko matematičnih upanj je :
X1  X 2
Varianca te nove spremenljivke je:
V ( X1  X 2 ) 
2
n1

2
n2
  2 ( n11  n12 )
Poiščemo cenilko za varianco:
Statistika:
je standardizirana normalna in jo zamenjamo s statistiko:
ki je porazdeljena po S(n1+ n2-2). Zato velja:
J. Šrekl
Statistika varnosti
88
Primer:
V kemijskem procesu uporabimo dva katalizatorja. Katalizator 1 je v stalni uporabi toda
katalizator 2 je cenejši, zato želijo preizkusiti učinkovitost.
1 Ocenjujemo enakost matematičnih upanj učinkov obeh katalizatorje
2
Po 8 preizkusih z vsakim katalizatorjem smo dobili naslednje rezultate:
3
4
5
α = 0.05
Testna statistika:
6
Zavrnitev hipoteze:
7
Izračun testne statistike:
8
Sklep:
Hipoteze ne zavrnemo, pri 0.05 stopnji značilnosti (signifikantnosti) ni mogoče trditi, da sta
matematični upanji učinkovitosti katalizatorjev različni.
Primer σ12 / σ22
Želimo testirati hipotezo:
J. Šrekl
Statistika varnosti
Vzamemo vzorec velikosti n1 za prvo spremenljivko in vzorec velikosti n2 za drugo
spremenljivko. Cenilka za razliko matematičnih upanj je :
X1  X 2
Uporabimo statistiko:
Prostostno stopnjo za Studentovo porazdelitev izračunamo:
in uporabimo kriterij zavračanja kot v prejšnjem razdelku.
Primer:
Izmerili so količino arzenika v pitni vodi v državi Arizona. Primerjali so količino v glavnem
mestu Phoenix in v kmetijskem delu države:
Ocenjujemo enakost matematičnih upanj vsebovanih količin arzena v dveh okoljih:
mestnem in podeželskem okolju.
89
J. Šrekl
Statistika varnosti
α = 0.05
Testna statistika:
Število prostostnih stopenj:
Kriterij zavrnitve hipoteze:
Izračun testne statistike:
Sklep:
Ničelno hipotezo zavrnemo. To pomeni da je količina arzenika v pitni vodi v podeželskem
okolju različna od količine v mestnem okolju.
90
J. Šrekl
Statistika varnosti
91
Četrto poglavje: Regresije in časovne vrste
1.
1.1
Regresije
Empirični model
Veliko statističnih problemov je povezano z iskanjem povezav med dvema ali več
spremenljivkami. Nekaj takih smo že srečali v prejšnjem poglavju o hipotezah. Vendar
pogosteje uporabljamo statistično tehniko, ki jo imenujemo regresijska analiza.
Poglejmo si primer kemičnega destilacijskega procesa za pridobivanje kisika. Spremenljivka
Y čistot pridobljenega kisika, spremenljivka X pa je delež ogljikovodika v glavnem
kondenzatorju destilacijske enote.
Dobili smo naslednje podatke:
Podatke lahko prikažemo tudi v diagramu:
J. Šrekl
Statistika varnosti
92
Takoj lahko vidimo, da ni mogoče potegniti krivulje, ki bi šla skozi vse točke diagrama.
Vzemimo slučajno spremenljivko Y pri posameznih vrednostih x. Matematično upanje te
spremenljivke je:
E (Y | x)  Y |x  0  1x
To pomeni, da je slučajno spremenljivko Y mogoče napisati kot funkcijo x in slučajne napake
.
Y  0  1x  
Varianca te spremenljivke dobimo:
V (Y | x)  V (0  1x   )  V (0  1x)  V ( )  0   2
Kar smo zapisali zgoraj je model enopstavne linearne regresije, pri čemer je x
regresor ali prediktor Y pa je odvisna spremenljivka.
J. Šrekl
1.2
Statistika varnosti
93
Regresijska premica
Iščemo torej premico, ki se najbolje prilega vrednostim v diagramu (xy). Oceno
regresije dobimo z metodo najmanjših kvadratov (vsota kvadratov razdalj točk od
premice je minimalna)
Ocena z metodo najmanjših kvadratov:
ˆ0  y  ˆ1 x
n
ˆ1 
 y x  ny  x
i i
i 1
n
x
i 1
2
i
 nx
2

S xy
S xx
Ocena za regresijska premico se potem zapiše:
yˆ  ˆ0  ˆ1 xˆ
Če v diagram podatkov zarišemo premico, ki je podana z gornjo enačbo, dobimo premico, ki
se po metodi najmanjših kvadratov najbolje prilega izmerjenim podatkom.
J. Šrekl
Statistika varnosti
94
yi  ˆ0  ˆ1xi  ei
ei  yi  yˆi imenujemo ostanek (residual) in je razlika med prilagoditvijo modela in i-te
vrednosti spremenljivke. Ostanek se uporablja za oceno variance. Označimo vsoto kvadratov
napak:
n
n
i 1
i 1
SS E   ei2  ( yi  yˆi )2
Ker to ni nepristranska cenilka za varianco, bomo uporabili:
ˆ 2 
SS E
n2
Izračunamo še:
n
n
i 1
i 1
SS E   ( yi  yˆi ) 2   ( yi  y  ˆ1 ( xi  x )) 2 
n
 ( y  y )
i 1
i
2
 2 ˆ1 ( yi  y )( xi  x )  ˆ1 ( xi  x ) 2   SST  ˆ1S xy
n
n
SST   ( yi  y )   yi2  ny 2
2
i 1
i 1
Primer 1:
Prilagodimoenostavni linearni regresijski model podatkom iz naloge o čistosti kisika v
začetku poglavja
J. Šrekl
Statistika varnosti
95
J. Šrekl
Statistika varnosti
96
Primer 2:
V reviji Journal of Sound and Vibration (Vol. 151, 1991, pp. 383-394) je v članku opisana
povezava med izpostavljenostjo hrupu in povišanim krvnim tlakom. Priloženi so izmerjeni
podatki (y – povišanje tlaka v mm, x – hrup v decibelih):
a)
b)
c)
Nariši diagram. Ali je primeren enostavni linearni model regresije?
Prilagodi linearni model po metodi najmanjših kvadratov. Poišči oceno za
varianco.
Poišči pričakovano povprečno razliko krvnega tlaka pri zgornji meji dovoljenega
hrupa 85 decibelov.
J. Šrekl
Statistika varnosti
97
Rešitev:
a)
1.3
Test hipoteze o enostavni linearni regresiji
Pomembno področje testiranja hipotez je testiranje hipotez o linearni regresiji. Predpostavimo
vrednost parametra 1 in poskušamo potrditi ali zavrniti hipotezo o vrednosti parametra.
H 0 : 1  1,0
H1 : 1  1,0
Zapisali smo dvostransko alternativno hipotezo. Ker so napake porazdeljene neodvisno po
2
normalnem porazdelitvenem zakonu z matematičnim upanjem nič in varianco  , so
slučajne spremenljivke Yi porazdeljene po neodvisnih normalnih zakonih
N (0  1 xi , 2 )
J. Šrekl
Statistika varnosti
98
To pa pomeni, da je 1 porazdeljen po normalnem zakonu:
N ( 1 , Sxx )
2
Iz tega sledi, da je statistika:
T0 
ˆ1  1,0
ˆ 2 / S xx
porazdeljena po Studentovem zakonu S(n-2).
Podobno postavimo hipotezo za parameter 0
H 0 :  0   0,0
H1 :  0   0,0
Uporabimo statistiko:
T0 
ˆ0   0,0
ˆ 2  1n  Sx 
2
xx
Pomembna je posebna hipoteza, ki ugotavlja signifikanco ali značilnost regresije:
H 0 : 1  0
H1 : 1  0 ,
ki ob potrditvi izključuje zvezo med x in Y
Slika kaže primera, ko ničelne hipoteze ne morem zavrniti, torej ni potrjena povezava med
med x in Y.
J. Šrekl
Statistika varnosti
99
Primer:
Testiramo značilnost (signifikantnost) regresije za nalogo o destilaciji kisika.
1. Parmeter, ki ga obravnavamo, je korelacijski koeficient 1..
2. Ničelna hipoteza: H 0 : 1  0
H 0 : 1  0
  0.01
ˆ
5. Testna statistika: t0  12
3. Alternativna hipoteza:
4. Stopnja tveganja:

S xx
6. Kriterij zavračanja: t0.005,18  2.88
7. Izračun:
8. Sklep: Hipotezo zavrnemo, kar pomen, da obstaja povezava med obema
spremenljivkama.
Poglejmo si regresijsko analizo izračunano z MINITAB:
Iz analize vidimo, da je P-vrednost enaka 0,kar pomeni, da pri nobeni stopnji zanesljivosti ne
moremo testa sprejeti. Vedno ga zavračamo!
J. Šrekl
1.4
Statistika varnosti
100
Analiza variance pri regresiji
Vzorčna varianca spremenljivke je sorazmerna z vsoto kvadratov razlik med posameznimi
vrednostmi in povprečno vrednostjo
n
( y  y)
i 1
2
i
Izraz v oklepaju lahko razstavimo na dva izraza:
yi  y  yi  yˆi  yˆi  y
Če izraz kvadriramo dobimo:
Z besedami bi formulo zapisali
vsota kvadratov korekcij y = regresijska vsota kvadratov + vsota kvadratov napak
Ker je:
in
je zaradi gornje enačbe
Sestavimo statistiko:
ki je porazdeljena po F1,n-2 porazdelitvi in ima (1,(n-2)) prostostnih stopenj. Na desni smo
dobili kvocient povprečij kvadratov (regresije in napake).
J. Šrekl
Statistika varnosti
101
Seveda pa je analiza variance povezana z t-testom, ki smo ga obravnavali v prejšnjem
razdelku.
V F-testu hipotezo zavračamo, če je t0  f 0  f ,1,( n2) .
2
2.
Časovne vrste
Pogosto je čas pomemben faktor za spreminjanje vrednosti slučajne spremenljivke. Podatke
razporejamo po zaporednih časovnih enotah, zato tako zaporedje podatkov (vrednosti slučajne
spremenljivke) imenujemo časovno zaporedje ali časovna vrsta.
Primeri časovnih vrst so vse vrste slučajnih podatkov, ki so slučajno odvisni od časovnih
intervalov. (Število rojstev na leto, število nezgod na leto,...).
Iz časovne vrste poskušamo sklepati na vrednost slučajne spremenljivke v nekem bodočem
obdobju. Ne gre za neko napovedovanje vrednosti, ampak zgolj za predvidevanje, da se bo
slučajna spremenljivka ravnala po enakih zakonitostih, kot se ja v preteklem obdobju. Iz
obnašanja spremenljivke v preteklem obdobju sklepamo na gibanje vrednosti spremenljivke v
bodočem obdobju. Taki napovedi pravimo računanje trenda. Trend lahko smatramo za
regresijsko krivuljo v dvorazsežni množici slučajnih dogodkov, kjer je ena spremenljivka čas,
druga pa je običajna slučajna spremenljivka, ki se spreminja v času.
Linearni trend dobimo iz linearne regresije. Spremenljivka x je čas, od te spremenljivke pa
je po neznani povezavi odvisna opazovana slučajna spremenljivka Y. Vrednost slučajne
spremanljivke Y opazujemo v enakih časovnih intervalih v daljšem časovnem obdobju:
LETO
ŠTEVILO
POŠKODB
INDEKS
POGOSTOSTI
INDEKS
RESNOSTI P.
1988.
1989.
1990.
1991.
1992.
1993.
1994.
1995.
1996.
1997.
261
276
150
96
55
41
23
21
25
31
40,98
45,23
26,18
17,97
14,28
20,29
12,82
12,00
14,98
19,87
82,14
95,05
71,08
27,81
19,83
28,15
22,12
16,97
46,92
59,60
V naši tabeli je spremenljivka x leto, število poškodb pa je spremenljivka Y.
Izračunamo linearni trend:
Y  a  bx
Iz preteklih rezultatov je potrebno izračunati oba parametra linearne funkcije:
J. Šrekl
Statistika varnosti
102
ˆ
aˆ  Y  bx
n
bˆ 
 Y x  nYx
i 1
n
x
i 1
Leto - x
ŠTEVILO
POŠKODB
-Y
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1992,5
261
276
150
96
55
41
23
21
25
31
97,9
i i
2
i
 nx 2
x*Y
518868
548964
298500
191136
109560
81713
45862
41895
49900
61907
1948305
-2352,5
x*x
3952144
3956121
3960100
3964081
3968064
3972049
3976036
3980025
3984016
3988009
4E+07
82,5
-28,515
56914,3
226,218
197,703
169,188
140,673
112,158
83,6424
55,1273
26,6121
-1,903
-30,418
300
250
200
150
100
50
0
1985
-50
1990
1995
2000
J. Šrekl
Statistika varnosti
103
Uporabljeni viri:
1.
Srekl, J., Izbrana poglavja iz matematike in statistike, Ljubljana: FKKT, 1997,
2.
Montgomery, D.C., Runger, G.C., Applied Statistics and Probability for Engineers,
(3th edition), New York: Wiley, 2003,
3.
McKibben, M., Kirchner West, J., Excel Manual For Statistics, New York: Wiley,
4.
Statistični terminološki slovar, Ljubljana: Scripta, 2002,
5.
Jamnik, R., Matematična statistika, Ljubljana, DZS, 1980,
6.
DeCoursey, W.J., Statistics and Probability for Engineering Applications with
Microsoft Excel, London: Newnes, 2003.