Univerza v Ljubljani FAKULTETA ZA KEMIJO IN KEMIJSKO TEHNOLOGIJO Oddelek za tehniško varnost STATISTIKA VARNOSTI JOŽE ŠREKL Ljubljana 2012 J. Šrekl Statistika varnosti 1 Kazalo vsebine Uvod........................................................................................................................................................................ 3 Prvo poglavje: Verjetnostni račun ........................................................................................................................... 4 Verjetnost ............................................................................................................................................................ 4 1.1 Dogodki ................................................................................................................................................. 4 1.2 Računanje z dogodki ............................................................................................................................. 5 1.3 Kaj je verjetnost? ................................................................................................................................... 9 1.4 Naloge: ................................................................................................................................................ 11 1.5 Pogojna verjetnost ............................................................................................................................... 11 1.6 Naloge: ................................................................................................................................................ 13 1.7 Zaporedje neodvisnih poskusov .......................................................................................................... 14 1.8 Vprašanja: ............................................................................................................................................ 16 2. Slučajne spremenljivke ................................................................................................................................. 17 2.1 Porazdelitvena funkcija ....................................................................................................................... 17 2.2 Diskretne porazdelitve (točkaste) ........................................................................................................ 18 2.3 Mere diskretne spremenljivke.............................................................................................................. 19 2.4 Zvezne porazdelitve ............................................................................................................................. 27 2.5 Vprašanja: .............................................................................................................................................. 39 Drugo poglavje: Statistične raziskave .................................................................................................................. 40 1. Kaj je statistika? ........................................................................................................................................ 40 2. Statistično opazovanje ............................................................................................................................... 40 2.1 Etape statističnega opazovanja: ........................................................................................................... 40 2.2 Prikaz statističnih podatkov ................................................................................................................. 45 3. Vzorci ........................................................................................................................................................ 49 3.1 Populacija in vzorec............................................................................................................................. 49 3.2 Reprezentativnost vzorca ..................................................................................................................... 49 3.3 Vzorčne statistike ................................................................................................................................ 50 3.4 Mere srednjih vrednosti vzorcev ......................................................................................................... 50 3.5 Mere variabilnosti (razpršenosti) ......................................................................................................... 51 3.6 Cenilke parametrov ............................................................................................................................. 55 3.7 Točkasto ocenjevanje .......................................................................................................................... 57 3.8 Vzorčna porazdelitev ........................................................................................................................... 58 3.9 Interval zaupanja ................................................................................................................................. 59 3.10 Izbira velikosti vzorca ..................................................................................................................... 61 3.10 Interval zaupanja za velike vzorce .................................................................................................. 61 3.11 Vprašanja za ponavljanje: ............................................................................................................... 63 Tretje poglavje: Testi hipotez............................................................................................................................... 65 1. Hipoteze .................................................................................................................................................... 65 2. Parametrični testi ....................................................................................................................................... 66 2.1 Splošna procedura: .............................................................................................................................. 66 2.2 Test matematičnega upanja normalne porazdelitve z znano varianco. ................................................ 67 2.3 Test matematičnega upanja normalne porazdelitve z neznano varianco. ............................................ 71 2.4 Test hipoteze za varianco in standardno deviacijo normalne porazdelitve .......................................... 72 2.5 Vprašanja: ............................................................................................................................................ 73 2.6 Test populacijskega razmerja .............................................................................................................. 74 3. Testi neparametričnih hipotez ................................................................................................................... 77 3.1 Test prilagajanja vzorca ....................................................................................................................... 77 3.2 Test enakomerne porazdelitve ............................................................................................................. 80 3.3 Testi s kontingenčno tabelo ................................................................................................................. 82 3.4 Testi za razliko matematičnih upanj pri znani varianci ....................................................................... 85 3.5 Testi za razliko matematičnih upanj pri znani varianci – veliki vzorci .................................................. 87 Četrto poglavje: Regresije in časovne vrste ......................................................................................................... 91 1. Regresije ................................................................................................................................................... 91 1.1 Empirični model ................................................................................................................................. 91 1.2 Regresijska premica ............................................................................................................................. 93 1.3 Test hipoteze o enostavni linearni regresiji ......................................................................................... 97 1.4 Analiza variance pri regresiji ............................................................................................................. 100 J. Šrekl Statistika varnosti 2 2. Časovne vrste .......................................................................................................................................... 101 Uporabljeni viri: .................................................................................................................................................. 103 J. Šrekl Statistika varnosti 3 Uvod Pod pojmom statistika razumemo več stvari, od zbiranja podatkov do ustanov, ki se ukvarjajo z zbiranjem in obdelavo podatkov. Za nas je statistika predvsem znanost, ki se ukvarja z zakonitostmi množičnih pojavov. Obravnava vprašanja, ki izvirajo iz izkušnje, za orodje pa uporablja verjetnostni račun. V statistiki je množični pojav vsak tak pojav, ki se v prostoru in času pojavlja v velikem številu. Množični pojavi so lastnosti in pojavi v množici ljudi, večkratne meritve, delovne operacije, ki se ponavljajo, nesreče na delovnih mestih, serije izdelkov, itd. Statistika varnosti se ukvarja pred vsem z delom verjetnosti in statističnimi metodami, ki se uporabljajo na področju varnosti in požarne varnosti. Statistika je tudi znanost "dobrega" odločanja nasproti poslovne negotovosti varnega odločanja nasproti tveganja in se uporablja v številnih strokovnih disciplinah, kot so finančne analize, ekonometrija, revidiranje, proizvodnje in poslovanja, trženja in raziskave trga. Nudi znanje in spretnosti za razlago in uporabo statističnih tehnik pri različnih analizah in odločitvah varnega poslovanja. Predmet je namenjen spoznavanju nekaterih orodij pri delu služb varstva pri delu ali samostojnem delu varnostnega inženirja in zajema statistične študije, opisno statistiko (zbiranje, opis, analizo in povzetek podatkov), verjetnost in binomsko, Poissonovo ter normalno porazdelitev, test hipoteze in intervali zaupanja, linearna regresije in korelacije. Odgovori, ki jih daje statistični pristop k problemom je lahko podlaga za odločanje ali izbira ukrepov. Na primer, mestni uradniki želijo vedeti, ali je raven oskrbe z vodo v okviru predpisanih varnostnih standardov. Ker ne morejo preveriti vse vode je je treba odgovore iskati na podlagi delnih informacij v vzorcih vode, ki se zbirajo v ta namen. Zbrani podatki bodo samo ob ustrezni metodologiji obdelave dovolj zanesljivo prikazali stanje Drugi primer, inženir mora določiti moč generatorjev v elektrarni. Število tistih, ki so na voljo, morajo biti obremenjena do okvare in njihova maksimalna moč pred okvaro bo podlaga za ocenjevanje potrebne moči drugih generatorjev. Deleži moči vseh generatorjev morajo biti pod mejo maksimalne zmogljivosti pred okvaro. Smisel statistične obravnave je, da preizkusimo samo del generatorjev po katerih sklepamo mejo maksimalne dovoljene obremenitve. Statistično delo, ki mu rečemo lahko tudi statistična raziskava obsega nekaj faz dela, ki so tipična za skoraj vsako statistično obdelavo množičnih pojavov. Za samo obravnavo potrebujemo določena orodja in pravila dela in zakonitosti, ki jih obravnava verjetnostni račun. Ker se statistika ukvarja s pojavi, ki so pogosto slučajnega izvora ali so taki, da jih ni mogoče nadzorovati z natančnim popisovanjem so večinoma odvisni od slučajnih dogodkov in zakonitosti, ki veljajo za slučajne dogodke. Zato je pomembno, da poznamo zakonitosti računanja s slučajnimi dogodki in njihovimi merami – verjetnostmi. J. Šrekl Statistika varnosti 4 Prvo poglavje: Verjetnostni račun 1. 1.2 Verjetnost Dogodki V praksi nastopajo celi kompleksi pojavov hkrati (npr. da pride do delovne nezgode, mora zaposleni ravnati napačno, sistem, ki zagotavlja varnost odpove, itd.). Tako množico dogodkov K imenujemo kompleks dogodkov. Vsaki realizaciji takega kompleksa pravimo poskus. Poleg samega poskusa obstaja še kakšen pojav A, ki se skupaj s poskusom zgodi ali pa ne zgodi. Temu pojavu pravimo dogodek. Nekemu poskusu lahko sledi več različnih dogodkov. Dogodke bomo označevali z velikimi začetnimi črkami iz začetka abecede: A, B, C, …poskuse pa z velikimi črkami iz konca abecede: X, Y, Z,... Slika 1. Potek dogodka do realizacije Poznamo več vrst dogodkov : Gotov dogodek Vzemimo dogodek, da spustimo predmet iz roke in pričakujemo izid - predmet bo padel na tla; ta izid se zgodi pri vsakem poskusu. Govorimo o gotovem dogodku. Izid je en sam in se vedno zgodi. Nemogoč dogodek J. Šrekl Statistika varnosti 5 Nasprotje gotovemu dogodku je nemogoč dogodek. Izpustimo kamen iz roke in pričakujemo, da ostane v zraku. Po zakonih fizike vemo, da je to nemogoče, zato govorimo o nemogočem dogodku, ki se ne zgodi v nobenem poskusu. Slučajni dogodek Večina poskusov pa je takih, kjer ima poskus več različnih izidov. Naprimer gremo na izpit in lahko dobimo različne ocene. Posameznim dogodkom, ki imajo več različnih izidov pravimo slučajni dogodki. 1.3 Računanje z dogodki Nad množico dogodkov je mogoče konstruirati strukturo algebre, ali enostavneje rečeno s slučajnimi dogodki lahko računamo. Vzemimo dva dogodka in sicer naj bo do dogodek B tak, da se zgodi vedno, če se zgodi dogodek A. V tem primeru rečemo, da je A način dogodka B in zapišemo: Primer: Dogodek A je nezgoda pri delu, dogodek B je zastoj proizvodnje. Kadarkoli se bo zgodila nezgoda pri delu bo zastoj proizvodnje. Zastoj proizvodnje pa je lahko tudi takrat, ko se ne zgodi nezgoda. Relacija je refleksivna saj velja: je tudi tranzitivna: iz in sledi Na nek način je ta relacija tudi simetrična: iz in sledi Vedno veljata relaciji, ki povezujeta nemogoč, slučajni in gotov dogodek. Sestavimo nov dogodek iz dveh ali več dogodkov. Vzemimo dogodka A in B in sestavimo skupni dogodek, ki se zgodi, če se zgodi vsaj eden od dogodkov A ali B. Tak sestavljen dogodek imenujemo vsota dogodkov in se zapiše S shemo lahko predstavimo vsoto dogodkov in sicer primer, ko sta dogodka tuja (b) in ko dogodka nista tuja (a). J. Šrekl Statistika varnosti 6 Seštevanje dogodkov je komutativno: Seštejemo lahko tudi več dogodkov ⋃ Velja tudi asociativnost (poljubni vrstni red) seštevanja. Primer: Na slepo izbiramo med igralnimi kartami (šop francoskih kart). Dogodek A je da izberemo pika in dogodek B je, da izberemo križ. Dogodek je, da izberemo črno karto. Razloži, zakaj veljajo zveze: (1) , (2) , (3) , (4) iz sledi in iz in sledi . Vzemimo dogodka A in B in sestavimo skupni dogodek, ki se zgodi, če se zgodita oba dogodka hkrati. Tak sestavljen dogodek imenujemo produkt dogodkov in se zapiše Produkt dogodkov lahko predstavimo tudi s shemo: Produkt več dogodkov se zapiše ⋂ Množenje dogodkov je komutativno: Velja tudi asociativnost množenja. Razloži, zakaj veljajo zveze: J. Šrekl (1) (2) (3) (4) iz Statistika varnosti 7 , , , sledi Primer: Na slepo izbiramo med igralnimi kartami (šop francoskih kart). Dogodek A je da izberemo pika in dogodek B je, da izberemo damo. Dogodek je, da izberemo pikovo damo. Primer: Poišči ( Rešitev: ) Sestavimo nov dogodek iz dveh dogodkov A in B. Sestavljeni dogodek se zgodi, če se zgodi A in se ne zgodi B oba dogodka hkrati. Tak sestavljen dogodek imenujemo razlika dogodkov in se zapiše Primer: Na slepo izbiramo med igralnimi kartami (šop francoskih kart). Dogodek A je da izberemo pika in dogodek B je, da izberemo karto od 2 do 10. Dogodek je, da izberemo pika fanta, damo, kralja ali asa. Primer: Ugotovi potrebni in zadostni pogoj za enakost ( ) (Odgovor: ) Še nekaj lastnosti: Dogodka A in B sta nezdružljiva, če se ne moreta zgoditi hkrati ( ) in sta nasprotna, ) in ( če se lahko zgodi natanko eden od njih, torej ( ). Če sta dogodka A in B nezdružljiva, potem imenujemo dogodek B negacijo dogodka A in označimo ̅. ̅ ̅ ̅ ̿ ̅ Lastnosti negacije : Primer: Preveri zveze ̅̅̅̅̅̅̅ ̅ ̅ ̅̅̅̅ ̅ ̅ ̅ ̅. J. Šrekl Statistika varnosti 8 Pri paroma nezdružljivih dogodkih bomo za seštevanje uporabljali poseben znak Ločimo dve vrste dogodkov. Elementarni dogodek je en sam dogodek, takemu dogodku rečemo tudi izid. Dogodek je običajno sestavljen iz več izidov (elementarnih dogodkov). Seveda pa je lahko dogodek v nekem poskusu sestavljen v drugem pa elementarni dogodek. Tip dogodka je odvisen od poskusa. Popolni sistem dogodkov je sistem dogodkov { je sistem za katerega velja (dogodki so paroma nezdružljivi in njihova vsota je popoln dogodek) Primer: Vzemimo poskus met kocke. Mogočih je šest izidov meta, ki so med sabo nezdružljivi torej predstavljajo popolni sistem dogodkov. Vsota je gotov dogodek, ker se vsaj ena vrednost meta (od 1 do 6) gotovo realizira pri metu kocke. Primer: sestavljanja dogodkov Dogodke lahko sestavljamo v komplekse dogodkov (na primer v drevesa dogodkov). Z drevesom dogodkov lahko ugotovimo končno število izidov nekega poskusa. V horizontalah gledamo vsote dogodkov, po vejah pa je končni izid produkt dogodkov na posamezni veji. Število izidov je odvisno od števila mogočih poti. J. Šrekl 1.4 Statistika varnosti 9 Kaj je verjetnost? Aksiomatična definicija verjetnosti: Vsakemu dogodku A iz nekega obsega dogodkov priredimo neko številsko karakteristiko med 0 in 1, ki jo imenujemo verjetnost dogodka A. Klasično določanje verjetnosti: Razmerje med ugodnimi izidi in vsemi izidi. Natančneje bi rekli takole (A. Kolmogorov): Vsakemu dogodku A iz nekega obsega dogodkov priredimo neko realno število P(A), za katerega velja ( ) ( ) ( ) ( ) ( ) ( ) ) za poljubne paroma nezdružljive dogodke Število P(A) imenujemo verjetnost dogodka A. Definicija verjetnosti temelji na zgoraj zapisanih treh aksiomih. Lahko bi dokazali, da je ( ) in ( )) za vsako naravno število n. ( ) ( ) ( ) Klasična definicija verjetnosti V popolnem sistemu dogodkov { naj bodo vsi dogodki enako verjetni ( , potem je verjetnost . Če je dogodek B vsota s dogodkov iz popolnega sistema, je njegova verjetnost enaka ( ) . ) Primer: Določanje verjetnosti za interval , če je verjetnost porazdeljena po trikotniku. Če je ploščina trikotnika=1, je verjetnost dogodka A ploščina nad intervalom A. Pri poljubni ploščini p in ploščin pA nad intervalom A, je ( ) . A P(A) Є [1,0] J. Šrekl Statistika varnosti 10 Primer: Verjetnosti posameznih izidov lahko zapišemo s histogramom. Posamezne verjetnosti so ploščine stolpcev nad posameznimi izidi. Seštevek vseh je 1. Statistično določanje verjetnosti: Relativna frekvenca ugodnih izidov pdogodka A se izračuna kot razmerje števila ugodnih izidov glede na število vseh poskusov. f n ( A) k n Verjetnost P(A) dogodka A je število, pri katerem se navadno ustali relativna frekvenca tega dogodka pri velikem številu poskusov. f n ( A) P( A) Primer. Poskusi z nekaj zaporednimi meti kovanca ugotoviti kakšna je verjetnost, da vržemo »cifro«. Primer: Izračunaj posamezne verjetnosti v drevesu dogodkov J. Šrekl 1.5 Statistika varnosti 11 Naloge: 1. Za pravilno reakcijo na opozorilni znak delavec potrebuje od 12 do 45 sekund. Ukrep bo uspešen, če ga začne izvrševati najkasneje po 24 sekundah. Kolika je verjetnost, da bo ukrep izvršen pravočasno? 2. Prostor vsebuje 12 izhodov. Verjetnost dogodka A je 0.3. Koliko izhodov zajema dogodek A. 3. Pošiljamo sporočilo v mrežo. Prvo vozlišče se deli na 5 strežnikov,vsak od njih deli na naslednjih 5 strežnikov in še v tretjem koraku na 5 strežnikov. Koliko je mogočih poti? Če so vsi prehodi enako verjetni, kolika je verjetnost, da prejemnik dobi pošto, če uporablja tri končne naslove. 4. Polnilna linija steklenic se deli v tri dele, kjer se polnijo steklenice z različnimi hitrostmi. Prvi stroj polni 30 steklenic na minuto, drugi 33 steklenic na minuto in tretji 28 steklenic na minuto. Določi verjetnost, da bo steklenica iz prvega stroja. 5. Določi frekvence rojstev dečkov in verjetnost, da se rodi deček! 6. Podjetje pri kontroli izdelkov ugotovi, da je med 510 slučajno izbranimi izdelki 13 ne ustreza standardom za izdelavo. Kolikšna je verjetnost, da je podjetje na trg poslalo nekvaliteten izdelek? 13 (Rešitev: f n 0,025 P(A) .Verjetnost, da podjetje pošlje na trg nekvalitetni 510 izdelek je 0,025.) 1.6 Pogojna verjetnost Posredni ali relejni dogodki. Pogosto se srečujemo z zaporedjem dogodkov, kjer so izidi odvisni od zaporedja dogodkov in ne samo od enega poskusa. Poskus izvedemo v dveh korakih. V prvem koraku imamo tri enakovredne izide med katerimi je eden ugoden. Verjetnost ugodnega izida je 1/3. Izvedemo prvi poskus in s tem izločimo en neugoden izid. V drugem koraku sta le dva enakovredna izida, verjetnost ugodnega je ½. Govorimo o posrednem ali relejnem poskusu, kjer so verjetnosti v drugem delu poskusa odvisne od izidov v prvem delu. Zato govorimo o pogojnih verjetnostih. Z znaki bi to zapisali J. Šrekl P(A) = 0.33 Statistika varnosti P(A/C)=0.50 Kadar imamo neodvisne relejne poskuse lahko nove verjetnosti izražamo s starimi P(A/C)= P(AC)/P(C) Naj bo X realizacija kompleksa pogojev K, A in B pa naj bosta dogodka v poskusu X. Verjetnost dogodka A je P(A). Dogodek B prištejemo h kompleksu K in dobimo novi kompleks K'. S tem dobimo seveda tudi novo verjetnost P'(A), saj smo opravili nov poskus X'. P'(A) imenujemo pogojna verjetnost dogodka A glede na dogodek B. Primeri: 1. V proizvodnji polprevodnikov si oglejmo drevo odpovedi: Prvi nivo pove izpostavljenost izdelkov onesnaženju, drugi verjetnost odpovedi. Končni rezultat govori verjetnosti odpovedi izdelka. 2. Sistem na spodnji sliki deluje, če deluje vsaj ena pot. Poišči verjetnost delovanja sistema. Izračunamo s pomočjo nasprotne verjetnosti – sistem odpove. 12 J. Šrekl Statistika varnosti 13 Bayesov izrek. Sedaj pa se posvetimo poskusom, kjer se lahko zgodi več zaporednih dogodkov. Takim poskusom smo rekli relejni poskusi. Začnimo z relejnim poskusom z dvema stopnjama. Na prvi stopnji so mogoči izidi: H1 , H 2 ,, H n , na drugi stopnji pa je A eden izmed mogočih dogodkov. Recimo, da poznamo verjetnosti v prvi stopnji relejnega poskusa. P( H1 ), P( H 2 ),, P( H n ) Prav tako poznamo pogojne verjetnosti na drugi stopnji za iskani izid A P( A / H1 ), P( A / H 2 ),, P( A / H n ) . Shematsko zapišemo naš relejni poskus s sliko: H1 H2 H3 A P(A) . . . Hn Do izida A lahko pridemo po vseh zarisanih poteh drevesa dogodkov. Verjetnost je vsota verjetnosti po posameznih poteh, ki pa so produkti dogodkov na posamezni poti (veji). P( A) P( A.H1 ) P( A.H 2 ) P( A.H n ) Uporabimo formulo za relejne poskuse od prej in dobimo: ( ) ( ⁄ ) ( ) Zaradi komutativnosti produkta dogodkov lahko zapišemo enačbo ( ⁄ ) ( ) ( ⁄ ) ( ) iz katere dobimo Bayesovo formulo. P( H k / A) 1.7 P( A / H k ).P( H k ) P( A) Naloge: 3. V medicini s testi določamo bolezen: Pravilno določa bolezen z verjetnostjo 0.99 pravilno določi zdravega človeka z verjetnostjo 0.95 v celotni populaciji je delež bolnih 0.0001. Kakšna je verjetnost bolezni pri pozitivnem testu. Rezultat: J. Šrekl Statistika varnosti 14 Verjetnost, da pri slučajno izbranem človeku dobimo pozitivni test je P( pozitivni) 0,9999 (1 0,95) 0,0001 0,99 0,05 Verjetnost, da bo pozitivno testiran človek zares bolan je 0,99 0,0001 P(bolan / pozitivni ) 0,002 , 0,0501 verjetnost, da bo pozitivno testiran človek zdrav pa je 0,05 0,9999 P( zdrav / pozitivno) 0,998 0,0501 Verjetnost, da bo negativno testiran človek bolan je komaj 0,01 0,0001 P(bolan / negativno) 0,00002 0,0501 Vidimo, da je zelo majhna verjetnost, da bomo po pozitivnem testu dobili bolnega človeka, vendar pa je bistveno manjša verjetnost, da bo pri bolnem človeku negativen test. Testiranje je primerno za določanje skupine ljudi, ki ima morda iskano bolezen. Če je v populaciji na 10 tisoč ljudi en bolnik smo s testiranjem zmanjšali krog na 2 bolnika na tisoč ljudi. 4. Proizvajalec A priznava, da samo 80% delovnih rokavic vzdrži 80 ali več delovnih ur, medtem ko proizvajalec B zagotavlja, da ima tako kvaliteto 96% njegovih rokavic. Seveda so tej zagotovitvi ustrezno dražji izdelki. Izračunaj, v kakšnem razmerju bomo uporabljali rokavice obeh proizvajalcev, da bo 90% rokavic imelo ustrezno vzdržljivost (80 ali več delovnih ur). 1.8 Zaporedje neodvisnih poskusov Sestavimo zaporedje poskuse. Pod tem zaporedjem si predstavljamo ponavljanje enakega poskusa, ki ima dva mogoča izida. Primer takega zaporedja je metanje kovanca. Met ima dva izida, vsi meti pa so med sabo neodvisni. Rezultat enega meta je neodvisen od rezultata drugega meta. Definiramo neodvisnost poskusov: Dva poskusa sta neodvisna, če je vsak dogodek iz prvega poskusa neodvisen od kateregakoli dogodka v drugem poskusu. Več poskusov je med seboj neodvisnih, če sta neodvisna poljubna dva poskusa. J. Šrekl Statistika varnosti 15 Sestavimo neskončno zaporedje neodvisnih poskusov: X 1 , X 2 , X n , Zaporedje je tako, da sta v vsakem poskusu mogoča le dva izida, dogodek A z verjetnostjo p ali dogodek A z verjetnostjo q = 1– p Tako zaporedje poskusov imenujemo Bernoullijevo zaporedje. Verjetnosti v Bernoullijevem zaporedju sta P( A) p; P( A ) q Sprašujemo se, kolika je verjetnost, da se v Bernoullijevem zaporedju v n poskusih zgodi dogodek A natanko k-krat. Dogodek, da se A zgodi v n poskusih k-krat označimo z Bk (n) Slika: Shematski prikaz Bernoullijevega zaporedja Verjetnost tega dogodka dobimo z Bernoullijevo formulo: n Pn (k ) p k q n k k Vzemimo n-kratno ponovitev za nov poskus, označimo ga z Y. V njem sestavljajo dogodki B0 , B1 , B2 , Bn popolni sistem dogodkov in velja zveza: n n n k nk Pn (k ) p q k 0 k 0 k Bernoullijeva formula je uporabna le pri majhnem n. Računanje binomskih koeficientov je precej zamudno. Za velike n zato uporabljamo približni formuli. Laplaceova lokalna formula (za veliki n in k)) 1 Pn (k ) e 2npq Poissonova formula (za majhni k): ( k np ) 2 2 npq (np) k e np Pn (k ) k! J. Šrekl 1.9 Statistika varnosti 16 Vprašanja: Verjetnost dogodkov Vrste dogodkov in njihove verjetnosti Klasična in statistična definicija verjetnosti Relejni poskus in popolni sistem dogodkov, drevo odpovedi. Kdaj je zaporedje neodvisnih poskusov Bernoullijevo? Verjetnost odpovedi stroja v enem dnevu je 0.01, kolika je verjetnost, da stroj odpove 12 krat v enem letu (365 dni) (uporabi obe približni formuli). J. Šrekl Statistika varnosti 17 2. Slučajne spremenljivke Dogodke v vsakdanjem življenju popisujemo z opisom. Pogosto se zgodi, da lahko dogodku pripišemo neko vrednost. Mečemo kocko. Opis »vrgel sem pet pik« pogosto zamenjamo s številom 5. Dogodku smo torej priredili vrednost. Ker se ta vrednost spreminja jo imenujemo spremenljivka. Povezana je z slučajnimi dogodki, zato slučajna spremenljivka. Natančneje jo definiramo: DEFINICIJA: Slučajna spremenljivka je funkcija, ki preslikava izide slučajnih dogodkov v realna števila. Slučajne spremenljivke označujemo z velikimi črkami X, Y, Z,…, njihove vrednosti pa z ustreznimi malimi črkami x, y, z, .. Dogodek, da ima slučajna spremenljivka X vrednost x, bomo zapisali takole: (X = x). Ločimo diskretne in zvezne slučajne spremenljivke. Diskretne se spreminjajo s končno ali števno neskončno mnogo posameznimi vrednostmi, zvezne pa so porazdeljene na enem ali več intervalov. 2.1 Porazdelitvena funkcija DEFINICIJA: Porazdelitve na funkcija F( x) slučajne spremenljivke X je funkcija, ki ima pri vsakem realnem x vrednost enako verjetnosti dogodka (X < x): F(x) = P(X < x). Lastnosti: F( - ∞) = 0, F(∞) = 1, x1 < x2 sledi F(Xl ) ≤ F(X2) P(Xl ≤ X < X2) = F(X2) - F(X l), F(x + O) - F(x) = P(X = x). Za neodvisni spremenljivki X, Y seveda velja P(X <.x,Y < y) = P(X < x)P(Y < y), J. Šrekl 2.2 Statistika varnosti 18 Diskretne porazdelitve (točkaste) Diskretna slučajna spremenljivka zavzame končno ali neskončno število diskretnih vrednosti. Vsaki vrednosti pripišemo verjetnost te vrednosti in dovimo verjetnostno funkcijo (diskretno), ki se natančneje definira: Naj bo (x1, x2, x3,…, xn,..) zaloga vrednosti diskretne slučajne spremenljivke X. Funkcijo, pk = P(X = xk) imenujemo verjetnostna funkcija diskretne slučajne spremenljivke. Funkcijo običajno zapišemo z verjetnostnim zakonom, ki določa porazdelitev verjetnosti za diskretno slučajno spremenljivko (vsaki vrednosti slučajne spremenljivke priredi njeno verjetnost oziroma vrednost verjetnostne funkcije): x X : 1 p1 x2 p2 x3 ... p3 ... Primer: Zapišimo primer diskretne porazdelitve s podatki Verjetnostno shemo za porazdelitveni zakon zapišemo 1 2 3 4 0 X : 0.6561 0.2916 0.0486 0.0036 0.001 Vrednosti vidimo tudi na paličnem diagramu. Kumulativna distribucijska funkcija za diskretno slučajno spremenljivko je F ( x ) P( X x ) xi x f ( xi ) Vrednost kumulativne funkcije je vsota verjetnosti posameznih vrednosti slučajne spremenljivke, ki so na levo od vrednosti x v spremenljivki funkcije. Za to funkcijo veljajo lastnosti porazdelitvene funkcije. Primer: Imamo verjetnostno funkcijo (ali gostoto verjetnosti) J. Šrekl Statistika varnosti 19 Porazdelitvena funkcija je: 2.3 Mere diskretne spremenljivke Matematično upanje ali pričakovana vrednost je posplošitev pojma aritmetične sredine DEFINICIJA: Matematično upanje ali matematično pričakovanje diskretne slučajne spremenljivke X označujemo z µ in izračunamo: Temu lahko rečemo tudi srednja vrednost Matematično upanje si lahko predstavljamo kot ravnotežno točko sil. Varianca ali disperzija diskretne spremenljivke je vrednost, ki meri spremenljivost (variabilnost) slučajne spremenljivke in se izračuna kot matematično upanje kvadratov razlik med vrednostjo slučajne spremenljivke in pričakovane vrednosti. DEFINICIJA: Varianca ali disperzija diskretne slučajne spremenljivke izračunamo: X označujemo z V(X) in J. Šrekl Statistika varnosti 20 Standardni odklon ali standardna deviacija je mera variabilnosti slučajne spremenljivke ki jo je uvedel K. Pearson 1893 in je kvadratni koren variance. Zato jo označujemo s . 2 V (X ) Primer: Različne porazdelitve z enakim matematičnim upanjem in enako varianco Primer: Verjetnostni zakon za število sprejetih sporočil na uro po elektronski pošti: x= štev.sp. P(X=x) 10 0.08 11 0.15 12 0.30 13 0.20 14 0.20 15 0.07 Poišči matematično upanje, varianco in standardni odklon! E(X)=12.5, V(X)=1.85, σ=1.36 Diskretna enakomerna porazdelitev Za večino slučajnih pojavov poskušamo zapisati porazdelitveni zakon oziroma porazdelitev. Najpreprostejša je enakomerna diskretna porazdelitev. Verjetnosti vseh vrednosti spremenljivke so enake pk 1 n k = 1, 2,… n Diskretna enakomerna porazdelitev dobimo v primeru, ko je pri poskusu n enako verjetnih izidov. Številske karakteristike pri porazdelitvi J. Šrekl Statistika varnosti 21 n 1n xi i 1 Matematično upanje je kar povprečna vrednost ali aritmetična sredina, varianca pa je: n V ( X ) 1n xi 2 2 i 1 Primeri enakomernih porazdelitev: Met kovanca Met kocke Barva karte iz šopa igralnih kart Binomska porazdelitev b(n,p) Opravimo n enakih poskusov, pri katerih sta mogoča dva izida: ugodni in neugodni izid. V poskusih bomo označili ugodni izid z A in neugodni izid z A . Verjetnost ugodnega izida označimo s p in verjetnost neugodnega izida označimo s q (1 p) . Verjetnost, da med n poskusi dobimo k ugodnih izidov zapišemo n pk P( X k ) p k (1 p) n k k za k = 0 1, 2, 3, ...,n Porazdelitev, ki smo jo dobili na tak način, imenujemo binomska porazdelitev b(n,p), ki je odvisna od števila poskusov in verjetnosti ugodnega izida. Številski karakteristiki sta prav tako odvisni od teh dveh vrednosti: matematično upanje µ = E(X)= np in varianca σ2 = V(X)= np(1-p) Primer: Oglejmo si binomske porazdelitve b(20, 0.5), b(10,0.1) in b(10, 0.9). J. Šrekl Statistika varnosti Primer binomske porazdelitve za n=10 Primerjava binomskih porazdelitev pri različnih n in p Primer binomske porazdelitev s parametri n 10 in p 0.5 . 22 J. Šrekl Statistika varnosti 23 1 2 3 4 5 6 7 8 9 10 0 X : 0.0005 0.0054 0.0269 0.0806 0.1611 0.2256 0.2256 0.1611 0.0806 0.0269 0.0054 Porazdelitveno shemo smo izračunali s pomočjo Excelove funkcije BINOMDINST Grafično dobimo porazdelitev: P(X=x) 0,25 0,2 P(x) 0,15 0,1 0,05 0 0 2 4 6 8 x Geometrijska porazdelitev pk P( X k ) (1 p) k 1 p za k 0 1, 2, 3, … µ = E(X)= 1/p, σ2 = V(X)= (1-p)/p2 Geometrijska porazdelitev za p=0.1 in p=0.9 10 12 J. Šrekl Statistika varnosti 24 Hipergeometrična porazdelitev Med N objekti je K ugodnih in N-K neugodnih. Med N objekti izberemo n (n<N) objektov brez vračanja in se sprašujemo za verjetnost, da bo k ugodnih. K N K k n k pk N n Primer: Velika firma ima 1000 uporabnikov svojih izdelkov. V zadnjih treh mesecih je 700 uporabnikov kupilo vsaj en izdelek. Za oceno novega oblike izdelka so testirali 50 vzorec uporabnikov. Kolika je verjetnost, da je v vzorcu več kot 45 uporabnikov, ki je v zadnjih treh mesecih kupilo izdelek. 700 300 40 40 k 50 k P(k 45) pk 0.000166 100 k 46 k 46 50 Račun lahko približno izračunamo z binomsko porazdelitvijo: 50 50 P( X 45) 0.7 x (1 0.7)50 x 0.00017 x 46 x Hipergeometrična porazdelitev za N=10, n=5 J. Šrekl Statistika varnosti nK N 2 V (X ) n(1 K / N ) K N n N N 1 25 p KN Če bi v binomski porazdelitvi povečali število poskusov v neskončnost, bi dobili novo porazdelitev, ki jo imenujemo Poissonova porazdelitev P( ) . Uporabljamo jo za porazdelitev verjetnosti slučajne spremenljivke, ki meri število ugodnih izidov pri neznanem številu poskusov (število klicev preko avtomatske telefonske centrale, število prometnih nezgod na cesti) pri čemer ne poznamo verjetnosti izida posameznega dogodka. Zanima nas le verjetnost pogostosti izidov. Verjetnost, da bo k ugodnih izidov je enaka e k pk P( X k ) za k = 0, 1, 2, 3, … k! Parameter porazdelitve je , ki se skriva v številskih karakteristikah porazdelitve: matematično upanje in varianca 2 . Primer: Poissonova porazdelitev za = 0.1, = 2, = 0.5 J. Šrekl Statistika varnosti 26 Primer: Prihajanje elektronske pošte je porazdeljeno po Poissonovem zakonu z najverjetnejšim številom 7 e-mailov na uro. Kolikšna je verjetnost, da bo računalnik »zasut« z več kot 20 e-maili na uro. Reševanje: V Excel vnesemo v prvo vrstico vrednosti x od 0 do 22. V naslednjo vrstico izračunamo verjetnosti po Poissonovem zakonu s funkcijo =POISSON(B1;7;FALSE) in narišemo graf Poissonova porazdelitev 0,16 0,14 0,12 P(x) 0,1 0,08 0,06 0,04 0,02 0 0 5 10 15 20 25 x Za izračun verjetnosti (>20 e-mailov/h) bomo uporabili kumulativno funkcijo P(X>20) = 1- POISSON(20;7;TRUE)= 1,44953E-05 Poglejmo si še kumulativno funkcijo Kumulativna funcija 1,2 1 P(X<x) 0,8 0,6 0,4 0,2 0 0 5 10 15 20 x Kot smo pričakovali kumulativna funkcija narašča od nič proti 1. 25 30 J. Šrekl 2.4 Statistika varnosti 27 Zvezne porazdelitve DEFINICIJA: Spremenljivka X je porazdeljena zvezno,če je mogoče njeno porazdelitveno funkcijo zapisati . Odvod porazdelitvene funkcije imenujemo gostota porazdelitve. Veljajo enakosti (posledica lastnosti porazdelitvene funkcije): p( x)dx 1 x2 P( x1 X x2 ) p(t )dt x1 Prilagoditev zvezne porazdelitve diskretni porazdelitvi Primeri porazdelitvene funkcije (kumulativne porazdelitvene funkcije): 1. Gostota je: p( x) 0.05 za 0 x 20 Dobimo porazdelitveno funkcijo (z integriranjem): J. Šrekl Statistika varnosti 28 x F ( x) 0.05 dx 0.05 x 0 Celotna funkcija je: x0 0, F ( x) 0.05 x, 0 x 20 1 x 20 in njena slika 2. Gostota porazdelitve naj bo p( x) 20e funkcija se potem zapiše: 20( x 12.5) za x>12.5. Porazdelitvena 0, x 12.5 x F ( x) 20( t 12.5) dt 1 e20( x 12.5) x 12.5 20e 12.5 Matematično upanje zvezne spremenljivke Temu lahko rečemo tudi srednja vrednost DEFINICIJA: Matematično upanje ali matematično pričakovanje zvezne slučajne spremenljivke označujemo z µ in izračunamo: X J. Šrekl Statistika varnosti 29 Varianca ali disperzija zvezne spremenljivke DEFINICIJA: Varianca ali disperzija zvezne slučajne spremenljivke X označujemo z V(X) in izračunamo: Koren iz variance imenujemo Standardni odklon ali deviacija Primer: Izračunajmo matematično upanje, varianco in standardni odklon za primer 2: E( X ) x20e 20( x 12.5) dx 12.55 12.5 2 V (X ) x 20e 2 20( x 12.5) dx (12.55)2 0.0025 12.5 0.0025 0.05 Zvezna enakomerna porazdelitev Je najenostavnejša zvezna porazdelitev, saj je gostota kar konstantna funkcija, vsi izidi na nekem intervalu enako verjetni. J. Šrekl Statistika varnosti p( x ) 1 ba 30 a xb 0 xa x 1 xa F ( x) dt , a x b ba a b a x b 1 Matematično upanje je kar srednja vrednost intervala b x ab, dx a ba 2 varianca pa je: V (X ) (b a) 2 12 Normalna porazdelitev N(µ,σ) Večina pojavov v naravi je normalno porazdeljenih, tj. v obliki normalne (Gaussove) krivulje. Normalna porazdelitev (tudi Gaussova porazdelitev) je verjetnostna porazdelitev vrednosti statističnih enot v statistični populaciji, ki je v grafični predstavitvi oblikovana v obliki zvona oziroma normalne krivulje, za katero velja ( x )2 1 2 p( x) e 2 , x . 2 Številski karakteristiki so hkrati parametra porazdelitve. E ( X ) in V ( X ) 2 Pomen parametrov vidimo na sliki (matematično upanje določa vrh ali maksimum krivulje, varianca pa določa obliko krivulje): Pomen parametrov: Verjetnost P( X x) ali vrednost porazdelitvene funkcije F ( x) pomeni ploščino pod krivuljo. J. Šrekl Statistika varnosti 31 Na naslednji sliki vidimo vpliv matematičnega upanja in standardnega odklona na verjetnosti intervalov v normalni porazdelitvi: P( X ) 0.6827 P( 2 X 2 ) 0.9545 P( 3 X 3 ) 0.9973 Standardizirana normalna porazdelitev N(0,1) DEFINICIJA: Normalno porazdelitev s parametri: porazdelitev. Porazdelitvena funkcija se označuje: in imenujemo standardizirana normalna J. Šrekl Statistika varnosti 32 Nekatere tabele imajo standardizirano normalno porazdelitev tabelirano, kot imamo zapisano v definiciji (glej učbenika: Šrekl, Drobnič Vidic). Standardizirana normalna porazdelitev je tabelirana v obliki funkcije ( z ) , kot je zapisano zgoraj v definiciji. Nekatera literatura označuje: 1 ( z ) 2 z . e x 2 dx Vrednosti v tej obliki lahko izračunamo tudi s pomočjo EXCEL-a in sicer s funkcijo NORMSDIST(z). Prehod iz običajne spremenljivke X v standardizirano spremenljivko Z dobimo z enačbo X Z V EXCEL-u lahko izračunamo vrednosti porazdelitvene funkcije F(x) in p(x)za poljubno normalno porazdelitev s funkcijo NORMDIST(x,μ,σ,cumulative). Za F(x) je cumulative=TRUE, za p(x) pa je cumulative=FALSE. Računanje z standardizirano normalno porazdelitvijo J. Šrekl Statistika varnosti Standardizacija normalne porazdelitve Transformacijo napravimo z: 33 J. Šrekl Statistika varnosti 34 Iskanje v tabeli: Primer: Napaka na merilnem inštrumentu je porazdeljena normalno z matematičnim upanjem 10 mA in varianco 4 mA. Izračunaj verjetnost, da bo napaka med 9 in 11 mA. 9 10 X 11 10 ) 2 2 P( 0.5 Z 0.5 ) P( Z 0.5 ) P( Z 0.5 ) 0.5 ( 0.5 ) ( 0.5 ( 0.5 )) 2( 0.5 ) 2 0.1915 P( 9 X 11 ) P( 0.3830 Primer 2.: Napaka voltmetra je porazdeljena normalno z matematičnim upanjem 0 V in varianco 0.45 V. Izračunaj najmanjše območje napake, ki ga dosežemo z verjetnostjo 99 %.. P( x Z x ) 2 ( z ) 0.99 ( z ) 0.495 x0 0.67 x 1.05 0.67 0.7035 z 1.05 P( 0.7035 X 0.7035 ) 0.99 J. Šrekl Statistika varnosti 35 Aproksimacija binomske in Poissonove porazdelitve z normalno porazdelitvijo Normalna aproksimacija binomske porazdelitve: Če je X slučajna spremenljivka porazdeljena po binomskem zakonu b(n,p) potem je: slučajna spremenljivka porazdeljena po približno N(0,1). Približek je dober za np>5 in n(1-p)>5. Primer: Za digitalni komunikacijski kanal privzamemo, da so napačno prenešeni bitni signali modelirani z binomsko porazdelitvijo. Verjetnost napačno prenešenega bita je 105 . Izračunaj verjetnost, da je pri 16 milijonih sprejetih bitov več kot 150 napak P( X 150) 16000000 x 151 16000000 5 x 5 16000000 x 10 (1 10 ) x J. Šrekl Statistika varnosti 36 Računanje te verjetnosti je skoraj nemogoče. Pri računanju z računalnikom bi nastale velike napake. 150 160 P( X 150 ) P( Z 160 ( 1 10 5 ) ) P( Z 0.79 ) P( Z 0.79 ) 0.5 ( 0.79 ) 0.5 0.2852 0.7852 Normalna aproksimacija Poissonove porazdelitve: Če je X slučajna spremenljivka porazdeljena po Poissonovem zakonu P(λ) potem je: slučajna spremenljivka porazdeljena po približno N(0,1). Približek je dober za λ>5. 2 Primer: Število azbestnih delcev na m je porazdeljeno po Poissonovi porazdelitvi s povprečjem 1000. Kakšna je verjetnost, da bomo ob analizi enega kvadratnega metra našteli največ 950 delcev. e10001000 x P( X 950) x! x 0 950 Računanje te verjetnosti je skoraj nemogoče. Pri računanju z računalnikom bi nastale velike napake. 950 100 ) P( Z 1.58) 1000 0.5 (1.58) 0.5 0.4429 0.0571 P( X 950) P( Z Primer: V mestu so montirali 2000 električnih sijalk za javno razsvetljavo. Srednja vrednost življenjske dobe sijalke je 1000 ur in standardna deviacija je 200 ur. Kolika je verjetnost, da bo sijalka odpovedala v obdobju med 1100 in 1300 urami delovanja. Rešitev: P(1100<X<1300)= NORMDIST(1300,1000,200,TRUE) – - NORMDIST(1100,1000,200,TTRUE) = 0.2417 ali pa najprej standardiziramo vrednosti in vstavimo v standardizirano obliko: STANDARDIZE(1300;1000;200) =1.5 STANDARDIZE(1100;1000;200) = 0.5 P(0.5<Z<1.5)= NORMSDIST(1.5) - NORMSDIST(0.5) = 0.2417 Verjetnost, da bo sijalka odpovedala v pričakovanem obdobju je 0.2417, kar pomeni, da bo 24% sijalk odpovedalo v tem obdobju. Če nalogo povežemo še z binomsko porazdelitvijo lahko sklepamo, da bo najverjetneje odpovedalo 240 sijalk v tem obdobju ( np 1000 0.24 240 ). Kolikšna je verjetnost, da bo sijalka delovala več kot 2000 ur? J. Šrekl Statistika varnosti 37 Izračunamo: P(X>2000) = 1 - NORMDIST(2000,1000,200,TRUE) = 1 - 0,9999997133 = 0 Med deset milijoni žarnic bodo komaj tri delovalo 2000 ur, zato je verjetnost, da žarnica deluje toliko časa praktično 0. Kolikšno število sijalk bo potrebno zamenjati po 200 urah delovanja? Izračunamo: P(X<200) = NORMDIST(200,1000,200,TRUE) = 0,00003. Če verjetnost pomnožimo s številom sijalk, dobimo 0.06, po obdobju 200 ur ne bo potrebno zamenjati še nobene sijalke Eksponentna porazdelitev p( x ) e x , 0 x E( X ) 1 2 V( X ) 1 2 Porazdelitev χ2 (hi-kvadrat) Vidimo da slučajno spremenljivko (eno ali več) vstavimo v funkcijo. Kot odvisno spremenljivko dobimo novo slučajno spremenljivko. Lastnosti te spremenljivke (porazdelitveni zakon ali porazdelitvena funkcija, karakteristične vrednosti, so odvisne od lastnosti neodvisnih slučajnih spremenljivk. V statistiki se bomo pogosto srečali s končnim nizom neodvisnih spremenljivk, ki so porazdeljene po standardiziranem normalnem zakonu. Sešteli bomo kvadrate teh spremenljivk in se spraševali, po kakšnem zakonu je porazdeljena vsota kvadratov teh spremenljivk. Izkaže se, da je porazdeljena po zakonu hi-kvadrat (angl. Chi_square). Parameter te porazdelitve je število spremenljivk, ki ga imenujemo število prostostnih stopenj. Če je so slučajna spremenljivka parametroma: in neodvisne slučajna spremenljivka porazdeljena po N(0,1), je porazdeljena po zakonu 𝜒 (𝑛) s , n imenujemo število prostostnih stopenj Studentova porazdelitev ali t – porazdelitev S(n-1) Naslednja porazdelitev, ki jo pogosto srečujemo v statistiki in je povezana z razmerjem (nelinearnim) dveh neodvisnih spremenljivk, kjer je prva porazdeljena po standardizirani normalnem zakonu, druga pa po zakonu hi-kvadrat, dobimo studentovo porazdelitev ali kakor jo včasih imenujemo tudi t-porazdelitev (oznaka S(n-1)). J. Šrekl Statistika varnosti 38 Če je sta X in Y dve neodvisni slučajni spremenljivki, prva je porazdeljena po N(0,1) zakonu, druga pa je po , je slučajna spremenljivka porazdeljena po zakonu s parametroma: , n-1 imenujemo število prostostnih stopenj in Logaritemska normalna porazdelitev Normalna porazdelitev je najpogostejša porazdelitev, ki jo srečujemo v povezavi s porazdelitvami naravnih lastnosti, izmerjenih rezultatov, napak itd. Pri merjenju fizikalnih količin, ki so večje od 0 pa se srečujemo z ugotovitvijo, da normalna porazdelitev ni pravi model za porazdelitev rezultatov merjenja. V teh primerih uporabimo boljši model to je logaritemska normalna porazdelitev, ki je definirana samo za pozitivna števila in ima nekoliko drugačno nesimetrično obliko grafa gostote porazdelitve Če je X slučajna spremenljivka porazdeljena po Normalnem zakonu, je spremenljivka porazdeljena po logaritemskem normalnem ali lognormalnem zakonu z gostoto: Matematično upanje in varianca spremenljivke Y dobimo: E( Y ) e 2 /2 V ( X ) e 2 ( e 1 ) 2 in 2 Slika: logaritemske normalne porazdelitve pri različnih parametrih. J. Šrekl Statistika varnosti Domača naloga:Življenjska doba polprevodnika laserja je porazdeljena po log-normalnem zakonu s 10000 ur. 10 ur in 1.5 ure. Določi verjetnost, da bo življenjska doba presegla 2.5 Vprašanja: Slučajne spremenljivke Kaj je slučajna spremenljivka Diskretne in zvezne porazdelitve Porazdelitvena funkcija in gostota Porazdelitveni zakon binomske porazdelitve Številske karakteristike Najverjetnejša vrednost (matematično upanje) Varianca (disperzija). Standardni odklon ali deviacija Disperzija pri normalni porazdelitvi in pri standardizirani normalni porazdelitvi. 39 J. Šrekl Statistika varnosti 40 Drugo poglavje: Statistične raziskave 1. Kaj je statistika? Pod besedo statistika v vsakdanjem govorjenju običajno razumemo: Zbiranje podatkov Urad, ki se ukvarja z zbiranjem podatkov Seveda pa je statistika tudi znanstvena disciplina kjer pod pojmom statistika razumemo: Znanost ki se ukvarja z množičnimi pojavi Funkcije nad vzorci Torej v splošnem pod pojmom statistika razumemo več stvari, od zbiranja podatkov pa do ustanov, ki se s tem ukvarjajo, pa tudi področje znanosti ali stroke in pojme znotraj te stroke. Objekt statistike: Za nas je statistika predvsem znanost, ki se ukvarja z zakonitostmi množičnih pojavov. Obravnava vprašanja, ki izvirajo iz izkušnje, za orodje pa uporablja verjetnostni račun. Množični pojav je vsak tak pojav, ki se v prostoru in času pojavlja v velikem številu. Množični pojavi so večkratne meritve, delovne operacije, ki se ponavljajo, nesreče na delovnih mestih, serije izdelkov itd. Množico vseh pojavov, ki jih proučujemo, imenujemo populacija. 2. Statistično opazovanje Proces statistične obravnave nekega pojava imenujemo statistično opazovanje ali statistična obravnava. Samo opazovanje ali obravnava zajema več faz ali etap. Problem ali nalogo je potrebno opredeliti, ji določiti objekt opazovanja – populacijo, določiti orodja za zbiranje podatkov, prikazovanje podatkov, računsko obravnavo in prikaz rezultatov. 2.1 Etape statističnega opazovanja: J. Šrekl Statistika varnosti 41 Opredelitev populacije Množico vseh pojavov, ki jih proučujemo, imenujemo populacija. Beseda izhaja iz latinske besede populus – ljudje, ljudstvo, kar pomeni, da se je statistika v začetku ukvarjalo pred vsem z množico ljudi, njihovimi lastnostmi in pojavi v tej množici. Danes z besedo populacija razumemo katerokoli množico (ljudi, predmetov, pojmov) s katero se ukvarja statistična raziskava. Pred vsakim statističnim opazovanjem moramo natančno definirati ali opredeliti populacijo, ki bo predmet naše obravnave. Opredelimo jo s tremi kriteriji: Stvarni kriterij opredeli vrsto elementov v populaciji (ljudje, izdelki, ekonomski učinki, finančni učinki, lastnosti, itd.) J. Šrekl Statistika varnosti 42 Časovni kriterij opredeli časovni okvir obravnave populacije (leto, večletno obdobje, teden, ura v določenem dnevu, itd) Krajevni kriterij opredeli prostorsko območje populacije (določeno podjetje, RS, EU, Prekmurje, določeni tekoči trak v proizvodnji, itd.) Bolj stroga je opredelitev v matematični statistiki: Naj bo G neka končna ali neskončna množica z elementi e. Množico bomo imenovali populacija. Naj bo X(e) enolična realna funkcija definirana na G. Funkcija F(x) določa delež elementov e iz G, za katere velja X(e) < x X = X(e) je slučajna spremenljivka in F(x) njena porazdelitvena funkcija Pri končnih populacijah je tej zahtevi vedno mogoče ustreči. F(x) je nepadajoča funkcija, definirana na vsej realni osi. Seveda bo zanjo veljalo: lim F ( x) 1 x lim F ( x) 0 x Primer: S primerom osvetlimo kriterije. Zanima nas stanje delovne sile v Prekmurju v mesecu septembru 2009. Stvarno populacijo opredelimo kot aktivno prebivalstvo, krajevno opredelimo aktivno prebivalstvo v Prekmurju in časovno opredelimo stanje v septembru 2009. Po izboru populacije se odločimo za načrt, kako izvajati statistično opazovanje. Določimo namen opazovanja, cilje, ki jih želimo doseči in metode s katerimi bomo opravili statistično opazovanje prikaz in analizo podatkov. Izdelava opazovalnega načrta J. Šrekl Statistika varnosti 43 Ko izberemo in definiramo populacijo, se odločimo za načrt, kako izvajati statistično opazovanje. Določimo namen opazovanja, cilje, ki jih želimo doseči in metode s katerimi bomo opravili statistično opazovanje prikaz in analizo podatkov. Načini zbiranja statističnih podatkov Populacijo realnih enot najbolj natančno opazujemo s popisom. Ta vrsta opazovanja nam daje najpopolnejšo sliko o populaciji, ker zberemo lastnosti o vseh elementih populacije. Lastnosti opazujemo v trenutku, ki mu pravimo kritični trenutek. To je teoretični pojem, ki določa trenutek na katerega se nanaša popis. Popis je običajno raztegnjen na neko določeno časovno obdobje. Zato začetek popisa običajno proglasimo za kritični trenutek. Krajši je čas popisovanja, kvalitetnejši so rezultati popisa. Populacijo časovnih dogodkov ali časovnih vrst (smrti, rojstva, nesreče, …) opazujemo s tekočo registracijo ali evidenco. Statistično poročilo ali tekoča registracija popisuje dogodke v nekem časovnem intervalu. Tu gre za popisovanje enakih ali podobnih dogodkov v različnih časih. Zaradi različnih razlogov (cena, čas, nemogoča izvedba, enostavnost…) običajno ne opazujemo cele populacije, ampak samo njen del, ki naj bi bil slučajno izbran. S pomočjo delnega opazovanja poskušamo doseči simulacijo popisa celotne populacije. Ena najbolj običajnih metod delnega opazovanja je vzorčenje. Namesto celotne populacije opazujemo le izbrani del, ki ga imenujemo slučajni vzorec. Izbira vzorca bi morala biti slučajna. Ker pa teoretične slučajnosti ni mogoče doseči, izbiramo vzorec tako, da so zajeti vsi deli populacije (npr. po starosti, po spolu, …). Pri zbiranju podatkov moramo upoštevati: namen zbiranja podatkov, vrste podatkov, ki jih zbiramo, količina podatkov, zaupnost, diskretnost ali javnost podatkov. Vedno želimo zbirati podatke na čim bolj enoten način. Zato pri večini popisov, tekočih registracij ali anket uporabljamo pripravljene obrazce, ki nedvoumno določajo podatke, ki jih bomo zbirali. Obrazci nam poenotijo način opazovanja in nas usmerijo v opazovanje tipičnih pojavov in značilnosti. Pogosto so obrazci predpisani z zakoni, odloki, pravilniki itd. Grupiranje podatkov Zbrani podatki o zveznih porazdelitvah lastnosti nam v neobdelani obliki povedo zelo malo. Posamezne vrednosti slučajne spremenljivke dosegajo posamezni elementi vzorca običajno le enkrat. Zato sestavimo razrede znotraj vzorca. V en razred združimo vse elemente, ki imajo vrednost slučajne spremenljivke na nekem predpisanem intervalu. Običajno izbiramo intervale z enako dolžino, lahko pa imajo tudi različne dolžine. Število razredov je odvisno od vrste podatkov in vrste raziskave. Preveliki ali premajhni razredi nam lahko močno zabrišejo preglednost rezultatov. Po razdelitvi na razrede, dobimo število elementov v posameznem razredu kot novo slučajno spremenljivko. Porazdelitev, ki jo dobimo na tak način, imenujemo frekvenčna distribucija. J. Šrekl Statistika varnosti 44 Primer: Trdnost zlitine aluminija in litija za letalsko industrijo Podatke iz vzorca razdelimo v razrede po metodi steblo-list (stem-leaf), to pomeni v razrede v velikosti 10 enot. Dobimo tabelo iz katere lahko odčitamo posamezne frekvence razredov (stem-and-leaf diagram = histogram s številkami). J. Šrekl Statistika varnosti 45 Lahko pa opravimo razdelitev v razrede poljubne dolžine: in ustrezni histogram 2.2 Prikaz statističnih podatkov Tipi podatkov Podatki, ki jih zbiramo predstavljajo vrednosti slučajne spremenljivke v in imajo lahko poljubne fizikalne ali drugačne enote (točkovanje). Pri tem ločimo različne tipe spremenljivk: - urejenostne (ordinalne) spremenljivke (vrednosti omogočajo kvečjemu ureditev enot po velikosti npr., ocena čistoče, ocena vzdrževanja naprav); - imenske (nominalne) spremenljivke (vrednosti omogočajo le razlikovanje z enakostjo ali neenakostjo med seboj, npr. vrsta dejavnosti); - razmernostne spremenljivke (vrednosti omogočajo tudi primerjavo razmerij med vrednostma dvojic). - intervalske spremenljivke (vrednosti omogočajo primerjanje razlik med vrednostma dvojic J. Šrekl Statistika varnosti 46 Načini prikazovanja statističnih podatkov: tabela, grafični prikaz: graf, histogram, delilna torta. Najbolj preprost primer prikazovanja podatkov je tabela. Tu so zbrani podatki prikazani analitično, s številkami urejeni po različnih vrstnih redih. Ločimo enostavne tabele in sestavljene tabele. Enostavne so tabele z dvema stolpcema ali vrsticama, kjer imamo kolono neodvisnih in kolono odvisnih podatkov. V sestavljenih tabelah poleg kolone neodvisnih podatkov nastopa več kolon odvisnih podatkov. Primer tabele: Požari na gradbenih objektih po dnevih nastanka PONEDELJEK TOREK SREDA ČETRTEK PETEK SOBOTA NEDELJA št.vseh pož. 2000 1999 1998 1997 1996 1995 1994 209 220 229 217 248 231 237 1591 199 209 199 219 232 230 209 1497 205 234 226 225 232 234 211 1567 253 214 236 226 255 249 216 1649 203 205 198 202 198 204 193 1403 194 220 207 216 226 228 190 1481 229 214 187 193 179 179 179 1360 št.pož. po dnevih 1492 1516 1482 1498 1570 1555 1435 10548 % 14,1 14,4 14,1 14,2 14,9 14,7 13,6 100 Primer grafov (poligonski, točkasti): Grafično prikazovanje podatkov je mogoče na več načinov. Najstarejši način prikazovanje je s pomočjo grafa krivulje ali lomljene linearne funkcije. Lahko uporabimo tudi označevanje po točkah. Primerjalni grafi vsebujejo več funkcij, ki jih primerjamo. Primera grafov porazdelitve števila požarov po mesecih 1400 1600 1519 1334 1338 1200 št požarov 1200 1000 1400 1474 1082 1029 1008 1042 1032 987 800 600 1023 1109 št požarov 1600 1000 8001519 600 400 400 1334 1474 1338 1082 1029 1008 1042 200 200 0 0 meseci meseci 1032 987 1023 1109 J. Šrekl Statistika varnosti 47 Primerjalni graf med številom poškodb, pogostostjo in resnostjo poškodb 350 ŠTEVILO POŠKODB 300 250 INDEKS POGOSTOSTI 200 INDEKS RESNOSTI 150 100 50 0 Liv. St.ob Mont. Orod. OPP. RZ Primer označevanja po točkah Primer kombinacije označevanja po točkah in črtnega diagrama Nazornejši prikaz je prikaz s stolpci. Primer histograma porazdelitev požarov po dnevih v tednu J. Šrekl Statistika varnosti 48 Primer delilne torte Kadar neko celoto delimo na več delov, na primer, da celotno število nesreč pri delu v nekem podjetju razdelimo po vrstah nesreč (roke, noge, glava itd.), govorimo o {\it strukturnih deležih}. Tako porazdelitev prikazujemo s stolpci ali pa tako imenovano delitveno ali delilno torto. PONEDELJEK 14% TOREK 14% 15% SREDA 14% 15% ČETRTEK 14% 14% PETEK SOBOTA NEDELJA [število požarov] Kombinirana predstavitev 2500,00 2000,00 1500,00 1000,00 500,00 0,00 19 19 19 19 19 19 19 19 19 20 20 20 20 20 20 20 91 92 93 94 95 96 97 98 99 00 00 01 02 03 04 05 1. četrtletje 328354380406431457483509534560560586612637663689 2.četrtletje 229253276300323347370394417441441464488511535558 3.četrtletje 254269284298313328342357372387387401416431446460 4.četrtletje 285307328349371392414435457478478499521542564585 [leto] Prikazovanje časovnih vrst z indeksi Podatke, ki jih dobimo v nekem časovnem zaporedju imenujemo časovna vrsta. a1, a2 , an Primeri takih vrst so število nezgod v posameznih letih (ali drugačnih časovnih enotah), količina proizvodnje, število požarov, število rojstev itd.V primeru, ko imamo časovni prikaz nekega pojava, rezultate v posameznih obdobjih ovrednotimo s primerjalnimi vrednostmi, ki jih imenujemo indeksi. Razmerje med novo vrednostjo in izhodiščno vrednostjo pomnoženo s 100 predstavlja indeks: indeksa ak 100 a1 Lahko izračunamo tudi relativni indeks: indeksr ak 100 ak 1 Primeri relativnih indeksov: indeks inflacije, indeks dviga cen, letni indeks proizvodnje itd. Primer: Gibanje števila nesreč v nekem podjetju na 1000 zaposlenih: leto št. nes. indeks ver. ind. 1987 91.73 1.0 1.0 1988 85.66 0.93 0.93 1989 71.43 0.78 0.83 1990 65.68 0.72 0.92 1991 80.68 0.78 1.23 J. Šrekl Statistika varnosti 3. 3.1 49 Vzorci Populacija in vzorec Populacija je običajno zelo velika. Cena preizkušanja vseh elementov je pogosto previsoka, pri preizkušanju se lahko posamezni elementi uničijo. V vseh teh primerih se zadovoljimo s proučevanjem spremenljivke X na primerno izbranem delu populacije. Tak del imenujemo vzorec. Seveda se takoj pojavi vprašanje, kako natančno o populaciji lahko sodimo iz izbranega vzorca. Vzorec mora biti sestavljen tako, da imajo vsi elementi populacije enako možnost, da bodo izbrani. Tak vzorec imenujemo slučajni vzorec. Če želimo izbrati pravi slučajni vzorec, je treba vsak element pred ponovnim izbiranjem vračati v populacijo tako, da je lahko vsak element lahko tudi večkrat izbran. Pri dovolj veliki populaciji lahko brez večje škode izbiramo elemente brez vračanja. 3.2 Reprezentativnost vzorca Dober vzorec mora predstavljati porazdelitev lastnosti cele populacije. Teorija trdi, da se pri dovolj velikem vzorcu vzorčna porazdelitev dovolj dobro ujema s porazdelitvijo v populaciji. Iz populacije G izberimo slučajni vzorec e1, e2 , en pri katerem ugotavljamo vrednosti X(e). Vzorec nam da n realizacij slučajne spremenljivke iz katerih sestavimo vektor z ( x1, x2 , , xn ) . Ta vektor je realizacija slučajnega vektorja, ki ga imenujemo slučajni vzorec Z ( X1 , X 2 , , X n ) V splošnem nas ne zanimajo elementi populacije kot element, ampak kot nosilec slučajne spremenljivke. (V populaciji nezgod nas iz statističnega vidika ne zanima nosilec nezgod, ampak teža posamezne nezgode.) Zato bomo slučajni vektor imenovali slučajni vzorec, sicer to ni vzorec populacije, je pa vzorec vrednosti slučajne spremenljivke na tej populaciji. Osnovna naloga matematične statistike je, na podlagi končnega števila realizacij slučajne spremenljivke sklepati o njeni neznani porazdelitveni funkciji. Seveda je lahko predmet obravnave tudi slučajni vektor ali slučajni proces. To imenujemo vzorčna ali empirična porazdelitveno funkcija. V splošnem velja: Vn ( x) F ( x) J. Šrekl 3.3 Statistika varnosti 50 Vzorčne statistike Informacijo o spremenljivki X v vzorcu Z navadno ne izkoristimo neposredno, ampak jo predelamo s preslikavo: m<n U : Rn Rm tako, da je U U (Z ) U ( X1, X 2 , , Xn) Funkcija naj bo zvezna ali pa ima kvečjemu števno zalogo vrednosti, U je potem slučajna spremenljivka in jo imenujemo statistika. Primer 1 vzemimo slučajni vzorec velikosti n. Potem se ena Za slučajno spremenljivko X : 0 p 1 p zmed mogočih statistik zapiše U X1 X n . Vzemimo dve realizaciji vzorca Z ( X1, X 2 , , X 5 ) : (1,1,1,0,1) in (0,1,0,1,0). Vrednost statistike prve realizacije vzorca je 4, vrednost statistike druge realizaciji vzorca je 2. Statistika je sicer enostavna, vendar pa tudi zelo malo pove. 3.4 Mere srednjih vrednosti vzorcev 1. Modus (modalna ali tipična vrednost) - Mo 2. Mediana (središčnica) - Md 3. Aritmetična sredina (imenovana tudi težišče) - M (uporabljamo tudi simbol x Modalna vrednost ali modus (Mo) ali tudi tipična vrednost je tista vrednost, ki se v množici podatkov najpogosteje pojavlja. Če se enako pogosto pojavljata dve ali več vrednosti, je modus tista vrednost, ki je natanko na sredi med njimi. Vendar v primeru, ko se več vrednosti pojavlja enako pogosto, pravzaprav ne moremo govoriti o tipični vrednosti in ni smiselno določati modusa. Če je populacija velika, bi bilo določanje modusa iz nerazvrščenih podatkov na gornji način zelo zamudno, zato podatke raje uredimo. Iz frekvenčne distribucije določamo modus na tri načine: (1) z oceno, (2) računsko in (3) grafično. Modus je sredina tistega razreda v katerem je najvišja frekvenca. Če je enaka frekvenca v dveh ali več razredih, je modus vrednost, ki je natanko na sredi med ustreznimi sredinami razredov (je aritmetična sredina sredin razredov z najvišjimi frekvencami). Modus lahko izračunamo po obrazcu J. Šrekl Statistika varnosti Mo x0,min 51 f 0 f 1 i ( f 0 f 1 ) ( f 0 f 1 ) kjer je: x0,min - natančna spodnja meja modalnega razreda (razreda z najvišjo frekvenco) f0 - frekvenca modalnega razreda f-1 - frekvenca enega razreda pred modalnim f+1 - frekvenca enega razreda za modalnim i - razredni interval (širina razreda) Modus lahko določamo tudi grafično iz histograma. Mediana ali središčnica distribucije je tista izračunana vrednost, od katere ima polovica podatkov nižjo vrednost, polovica pa višjo. To je torej vrednost, ki razdeli distribucijo na dve polovici. Če podatkov še nimamo urejenih v frekvenčno distribucijo, lahko izračunamo mediano, če jih uredimo v rastočo (ali padajočo) vrsto. Ravnamo takole: 1. Podatke uredimo v rastočo vrsto. 2. Ugotovimo, koliko znaša polovica od vseh podatkov (n / 2). 3. Štejemo podatke (začnemo z najnižjim), dokler ne pridemo do zadnjega podatka v prvi polovici vrste. 4. Če je število podatkov liho, je naslednji podatek tisti, ki je natanko na sredini vrste, mediana. Če je število podatkov sodo, poiščemo mediano med srednjima dvema podatkoma; je vrednost, ki je ravno na sredini med njima. 5. Če je na sredini več podatkov, ki imajo isto vrednost, je mediana ta vrednost. Aritmetična sredina ali srednja vrednost (tudi vzorčno povprečje) je povprečna vrednost v vzorcu n X 1n X k k 1 Če je vzorec razdeljen v razrede izračunamo srednjo vrednost tako da izračunamo povprečje sredin razredov pomnoženih s frekvencami razredov ali s formulo r X 1n ( X k f k ) , k 1 pri čemer so: X k - sredina k-tega frekvenčnega razreda f k - frekvenca k-tega razreda r - število razredov r n fi - število podatkov v vzorcu (numerus) i Izračunajmo matematično upanje vzorčnega povprečja E( X ) 3.5 n 1 n E( X k 1 k ) , ker je E ( X k ) E ( X ) Mere variabilnosti (razpršenosti) J. Šrekl Statistika varnosti 52 Variacijski razmik ali variacijski razpon je mera variabilnosti, ki jo izračunamo kot razliko med največjo in najmanjšo vrednostjo, ki jo zavzame statistična spremenljivka: vr xmax xmin to je razlika med največjo x( n ) in najmanjšo vrednostjo x(1) v ranžirni vrsti (po velikosti urejene vrednosti spremenljivke). Variacijski razmik je groba in zelo nestabilna mera, ki jo določata samo dve skrajni vrednosti statistične spremenljivke, zato ni primerna za nadaljnje analitične obravnave. Kvantilni razmiki. Naj bo naravno število r določeno s predpisom: np ; če je np naravno število . r np 1 ; če ni np naravno število Potem vrednost q p x( r ) imenujemo p-ti vzorčni kvantil. Kvantile q1/ 4 , q2/ 4 , q3/ 4 imenujemo kvartili. Kvartilni razmik je razlika med tretjim in prvim kvartilom kr q3/ 4 q1/ 4 Vzorčna disperzija ali definirana enako kot disperzija n V ( Z ) 1n ( X k X ) 2 k 1 Spet izračunamo matematično upanje: E (V ( Z )) n 1 n E (( X k 1 k X )2 ) n 1 2 n Boljša je statistika S 2 n 1 n 1 (X k 1 k X )2 Za to statistiko velja, da je njeno matematično upanje E(S 2 ) 2 Če imamo porazdelitveno funkcijo F(x) z gostoto porazdelitve p(x), potem definiramo številsko karakteristiko te porazdelitve, ki jo imenujemo r-ti moment mr (c) E (( X c) r ) . Ničelni moment dobimo, če je c 0 in centralni moment dobimo, če je c . Med pomembne statistike štejemo vzorčne momente. Če sta r nenegativno celo število in c poljubno realno število, je r-ti vzorčni moment enak M r (c) n 1 n (X k c) r k 1 Začetni vzorčni moment dobimo v primeru, ko je c=0 Zr n 1 n X r k k 1 Vzorčno povprečje je prvi ničelni moment in vzorčna varianca je drugi centralni moment. J. Šrekl Statistika varnosti 53 V praksi najpogosteje srečujemo populacije, ki imajo lastnosti, porazdeljene po normalnem zakonu, zato si poglejmo še posebej statistike vzorcev takih populacij. Naj bo slučajna spremenljivka X porazdeljen po zakonu N ( , ) . Iz te populacije izberemo slučajni vzorec Z ( X1 , X 2 , , X n ) in zapišemo porazdelitveni zakon slučajne spremenljivke n 2 1 ( X k X )2 k 1 ki je vzorčna funkcija spremenljivk X1 , X 2 , , X n . Nova slučajna spremenljivka je porazdeljena po zakonu hi-kvadrat z (n-1) prostostno stopnjo. Trdimo lahko, da sta statistiki in sta med seboj neodvisni. Pri statističnem ocenjevanju se bomo srečali še z dvema statistikama in sicer statistiko X U n, ki je porazdeljena po standardiziranem normalnem zakonu N(0,1) in statistiko T X n, S je porazdeljena po Studentovem zakonu S(n-1). Preprost primer Studentove porazdelitve je porazdelitev S(1), ki jo imenujemo tudi Cauchyjeva porazdelitev. Gostota te porazdelitve je: p ( x) 1 (1 x 2 ) in predstavlja verjetnost lege nihajoče ladje. Vzorčni korelacijski koeficient. Naj bo (X,Y) slučajni vektor katerega komponenti imata matematični upanji 1 in 2 ter varianci ali disperziji 12 in 22 . Kovarianca med spremenljivkama je razlika med matematičnim upanjem produkta in produktom matematičnih upanj. Korelacijski koeficient je mera linearne neodvisnosti med komponentama. Vzemimo slučajni vzorec za vektor (X,Y): ( X1,Y1 ),( X 2 ,Y2 ), ( X n , Yn ) Poiščemo povprečni vrednosti in vzorčni varianci obeh komponent J. Šrekl Statistika varnosti X S 2 x n 1 n X k 1 n 1 n 1 ( X k 1 k 54 in Y k X )2 in S y2 n 1 n Y k 1 n 1 n 1 k 1 k (Y k Y )2 Vzorčna kovarianca je Vzorčni korelacijski koeficient je mera linearne neodvisnosti med komponentama spremenljivk v vzorcu. Primer: V proizvodnji srajc so ugotavljali delež bombaža v izdelkih. V vzorcu 64 srajc so dobili naslednje rezultate v %: 34,2 33,1 34,5 35,6 36,3 35,1 34,7 33,6 37,8 36,6 35,4 34,6 33,8 37,1 34 34,1 33,6 34,7 35 35,4 36,2 36,8 35,1 35,3 32,6 33,1 34,6 35,9 34,7 33,6 32,9 33,5 33,8 34,2 33,4 34,7 34,6 35,2 35 34,9 35,8 37,6 37,3 34,6 35,5 32,8 32,1 34,5 34,7 33,6 32,5 34,1 35,1 36,8 37,9 36,4 34,6 33,6 34,1 34,7 35,7 36,8 34,3 32,7 Izračunajmo srednjo vrednost, mediano, prvi in tretji kvartil, največjo in najmanjšo vrednost v vzorcu,varianco in standardni odklon za podatke v tabeli. Aritmetična sredina 34,7984375 =AVERAGE(A1:A64 J. Šrekl Statistika varnosti mediana 1.kvartil 3.kvartil max min varianca standarni odklon 55 =MEDIAN(A1:A64) =QUARTILE(A1:A64;1) =QUARTILE(A1:A64;3) =MAX(A1:A64) =MIN(A1:A64) =VAR(A1:A64) =STDEV(A1:A64) 34,7000000 33,8000000 35,5250000 37,9 32,1000000 1,860791171 1,3641082 Razdelimo še vzorec v 8 razredov in narišimo histogram podatkov in kumulativne vrednosti. Excel: Orodja – Data Analysis –Histogram. Dobimo tabelo: Bin Frequency 32,1 1 32,92857 5 33,75714 8 34,58571 9 35,41429 21 36,24286 6 37,07143 6 More 5 Cumulative % 1,64% 9,84% 22,95% 37,70% 72,13% 81,97% 91,80% 100,00% Bin 35,41429 34,58571 33,75714 36,24286 37,07143 32,92857 More 32,1 Frequency 21 9 8 6 6 5 5 1 Cumulative % 34,43% 49,18% 62,30% 72,13% 81,97% 90,16% 98,36% 100,00% Leva polovica tabele so razredi po rastočih vrednostih, na desni so razredi po frekvenci. Po desni polovici se izdela tudi histogram: Histogram ,1 32 e M or 71 43 85 28 57 32 ,9 2 14 57 14 37 ,0 7 28 42 86 ,2 4 71 36 57 ,7 5 33 42 ,5 8 34 ,4 1 35 14 29 120,00% 100,00% 80,00% 60,00% 40,00% 20,00% 0,00% 85 71 Frequency 25 20 15 10 5 0 Bin Frequency 3.6 Cumulative % Cenilke parametrov Porazdelitvena funkcija v populaciji je funkcija slučajne spremenljivke in parametrov. To pomeni, da se verjetnost izraža s funkcijo, ki poleg slučajne spremenljivke vsebuje še neznane parametre. Verjetnost običajno pišemo kot pogojno verjetnost – verjetnost s pogojem danega parametra. J. Šrekl Statistika varnosti 56 Ker parametrov ne poznamo (porazdelitvena funkcija v populaciji ima neznane parametre), s pomočjo izbranega vzorca ocenimo vrednosti parametrov. Iz same spremenljivke se parametri ne vidijo, zato poiščemo ustrezne statistike v katerih so izraženi parametri. Če v statistiko vstavimo realizacijo vzorca (konkretne vrednosti vzorca), dobimo cenilko za parameter. Slika in shema: Predstavitev realizacije vzorca Nepristranskost cenilke Cenilka U(Z) je nepristranska, če velja: . Pristranskost cenilke merimo z: J. Šrekl Statistika varnosti 57 Primer. Slučajna spremenljivka X ima končno matematično upanje μ. Dokaži, da je vzorčno povprečje nepristranska cenilka za μ in da V(Z) ni nepristranska cenilka za σ2. Izračunaj pristranskost cenilke in poišči nepristransko cenilko za varianco. 3.7 Točkasto ocenjevanje Ločimo dve vrsti ocenjevanja parametrov: točkasto ocenjevanje, kjer določimo konkretno vrednost parametra, intervalsko ocenjevanje, kjer določimo dovolj verjetni interval za parametre Za točkasto ocenjevanje uporabljamo dve metodi: metodo momentov metodo maksimalne zanesljivosti Metoda momentov Momenti porazdelitve Če imamo porazdelitveno funkcijo F(x) z gostoto porazdelitve p(x), potem definiramo številsko karakteristiko te porazdelitve,ki jo imenujemo r-ti moment: mr (c) E (( X c)r ) Ničelni moment dobimo, če je c = 0: in centralni moment dobimo, če je mr (0) E ( X r ) mr ( X ) E (( X X )r ) Vzorčni momenti Če sta r nenegativno celo število in c poljubno realno število, je r-ti vzorčni moment enak n M r (c) 1n ( X k c) r k 1 Začetni vzorčni moment dobimo v primeru, ko je c=0: n Z r 1n X kr k 1 Vzemimo vzorec Z iz populacije G s porazdelitveno funkcijo F ( x, q1 , q2 ) : Z ( X1 , Xn) Izberemo realizacijo vzorca (konkretne vrednosti iz populacije) z ( x1, Izračunamo vzorčne momente: xn ) M1 M 1 ( x1 , xn ) M 2 M 2 ( x1 , xn ) Izračunamo še momente porazdelitve: J. Šrekl Statistika varnosti 58 m1 E ( X c) m1 ( x, q1 , q2 ) Iz momentov izrazimo parametre: m2 E (( X c)2 ) m2 ( x, q1 , q2 ) q1 q1 (m1 , m2 ) q2 q2 (m1 , m2 ) Namesto neznanih momentov porazdelitve vstavimo ocene zanje – vzorčne momente: q1 q1 ( M 1 , M 2 ) q2 q2 ( M 1 , M 2 ) Metoda maksimalne zanesljivosti Slučajna spremenljivka X je v populaciji porazdeljena z gostoto p(x,q). Gostota je odvisna od slučajne spremenljivke in parametrov porazdelitve. Izberemo slučajni vzorec Z ( X1 , X 2 , , X n ) in zapišemo funkcijo zanesljivosti na realizaciji vzorca n L( z, q) p( xk , q) k 1 Običajno uporabimo logaritem funkcije zanesljivosti n ln( L( z, q)) ln( p( xk , q)) k 1 Iščemo največjo vrednost funkcije zanesljivosti ali maksimum njenega logaritma (zaradi monotonega naraščanja logaritemske funkcije). Logaritem funkcijo torej odvajamo in odvod izenačimo z 0. ln( L( z, q)) 0 q Primeri: 1. Poišči cenilko za parameter q za porazdelitev z gostoto: q 1e , x 0 p ( x, q ) 0, x 0 x q Rešitev: X q 2. Dogodek A ima verjetnost p (0 ≤ p ≤ ½). Poišči za p cenilko iz vzorca velikosti n. Navodilo: Ker izbiramo n elementov z enako verjetnostjo jih izberemo x po Poissonovem porazdelitvenem zakonu: p xe p p ( x, p ) x! Rešitev: Če je povprečna vrednost vzorca manjša od ½, je to cenilka za p, sicer je p=½. 3.8 Vzorčna porazdelitev J. Šrekl Statistika varnosti 59 DEFINICIJA: Porazdelitev verjetnosti statistike imenujemo vzorčna porazdelitev Primer: Porazdelitev verjetnosti X imenujemo vzorčna porazdelitev povprečja (matematičnega upanja). Vzorčna porazdelitev je statistično odvisna od: porazdelitve v populaciji, velikosti vzorca in metode izbora vzorca. 3.9 Interval zaupanja V prejšnjem razdelku smo videli, da je matematično upanje v porazdelitvi populacije mogoče ocenjevati s povprečjem v vzorcu: Za pravo vrednost dobimo oceno vrednosti ˆ X . V splošnem velja, da je ˆ . Zato bomo določili nek interval, v katerem se bo dovolj zanesljivo nahajala prava vrednost, in ga bomo imenovali interval zaupanja. Če izberemo interval z neznanimi mejami za naše matematično upanje (ali katerikoli parameter) a b, bo znana verjetnost P(a b) 1 določila meje intervala. Če imamo simetrično porazdelitev (standardizirano normalno), bo najmanjši interval simetrični interval. Zato dobimo: P(d d ) 1 Interval zaupanja za matematično upanje pri znani varianci J. Šrekl Statistika varnosti Vzemimo slučajni vzorec ( X1 , X 2 , 60 , X n ) iz populacije z normalno porazdelitvijo N ( , ) . Vemo, da je X normalno porazdeljena statistika s porazdelitvijo N ( , n ). Standardiziramo statistiko X v statistiko Z, ki je standardizirana normalna: Z X n Interval zaupanja je interval l u kjer sta meji b in c izračunani iz vzorca. Dobimo lahko različne meje , čeprav zahtevamo enako verjetnost intervala. Enačba: P( L U ) 1 nam da pri istem 0 1 različne vrednosti spremenljivk L in U. Koeficient 1 Imenujemo koeficient zaupanja ali stopnjo zaupanja. Ker ima najmanjšo dolžino simetrični interval glede na matematično upanje, lahko spremenljivko standardiziramo in zapišemo simetrični interval: P( z / 2 P( X z / 2 X n n z / 2 ) 1 X z / 2 n ) 1 DEFINICIJA: Če je povprečje slučajnega vzorca velikosti n, je slučajna spremenljivka porazdeljena normalno po zakonu in stopnja zaupanja, dobimo za matematično upanje a interval zaupanja: kjer je . Pri različnih izborih vzorcev bomo dobili različne intervale zaupanja. Slika kaže izbor vzorcev z ustreznim intervalom zaupanja za neko spremenljivko X v populaciji P J. Šrekl Statistika varnosti 61 Iz znane verjetnosti določamo širino intervala tako, (npr. izračunamo meje pri normalni porazdelitvi,) da določimo meje intervala s pomočjo verjetnosti vrednosti v tem intervalu(na primer z verjetnostjo 95%). Vemo, da je to interval: ( 1.96 , 1.96 ) Zapis v tej obliki ni primeren, ker a in ne poznamo. Zato zapišemo interval z znanimi količinami: ( x ks, x ks) k je izračunana konstanta, ki je zaradi slučajne napake večja od 1.96. Tak interval imenujemo interval tolerance. 3.10 Izbira velikosti vzorca Ker za oceno matematičnega upanja uporabljamo samo povprečno vrednost vzorca napravimo s to izbiro napako E x , ki je manjša ali enaka z / 2 n . Če vzamemo maksimalno napako, lahko izračunamo velikost vzorca. DEFINICIJA: Če uporabimo za oceno parametra a in ki je povezana z velikostjo vzorca: 3.10 stopnja zaupanja, je napaka , Interval zaupanja za velike vzorce Vzemimo slučajni vzorec ( X1, X 2 ,, X n ) iz populacije z neznanim matematičnim upanjem in varianco 2 Naj bo vzorec velik, tako, da velja centralni limitni izrek:. X je približno X a n je približno ) in Z normalno porazdeljena statistika s porazdelitvijo N (a, n standardizirana normalna porazdelitev (asimptotično standardizirana normalna porazdelitev. DEFINICIJA: J. Šrekl Statistika varnosti 62 Če je velikost vzorca n veliko število potem je, asimptotično standardizirano normalno porazdeljena in velja: kjer je . Primer: Leta 1993 je bila objavljena raziskava, ki je govorila o okuženosti ostrižev z živim srebrom. Vzorce so zbrali iz 53 jezer na Floridi in izmerili koncentracijo živega srebra v mišicah (v ppm) Dobili so naslednje rezultate: 1,23 1,33 0,04 0,044 1,2 0,27 0,49 0,19 0,83 0,81 0,71 0,5 0,49 1,16 0,05 0,15 0,19 0,77 1,08 0,98 0,63 0,56 0,41 0,73 0,59 0,34 0,34 0,84 0,5 0,34 0,28 0,34 0,75 0,87 0,56 0,17 0,18 0,19 0,04 0,49 1,1 0,16 0,1 0,21 0,86 0,52 0,65 0,27 0,94 0,4 0,43 0,25 0,27 Opisna statistika in interval zaupanja Spremenljivka N Povprečje Mediana St.deviacija Konfidence Interval zaupanja Koncentracija 53 0,524981 0,49 0,348625 0,093858 0,431124 0,618839 0.431124 x z / 2 s s x z / 2 0,618839 n n Grafični prikaz podatkov s histogramom razredov in kumulativnim diagramom J. Šrekl Statistika varnosti 63 Primer: Aparat za kavo je prilagojen, da napolni skodelico s povprečno vrednostjo 110 ml kave na skodelico in standardni odklon 5 ml. Domneva se, da je količina kave v skodelicah porazdeljena z normalno porazdelitvijo. Stroj redno preverjajo z vzorčenjem 12 skodelic kave. Če povprečna količina kave v enkratnem vzorcu pade v intervalu (110-2σ) ≤ x ≤ (110+2σ) se smatra, da stroj ustrezno deluje. V nasprotnem primeru se prilagodi doziranje kav v stroju. a) Kaj bodo napravili, če je vzorčno povprečje 107.0 ml? Rešitev: Izračunamo mejni vrednosti intervala in dobimo interval v katerem sprejmemo ustreznost doziranja (110 2 5,110 2 5) (100,120) Vidimo, da vzorčno povprečje spada v sprejemljiv interval. b) Koliko je interval zaupanja za 99% zanesljivost? Rešitev: Izračunamo interval zaupanja in sicer si pomagamo z Excelovo funkcijo CONFIDENCE(α;σ;n). Če vstavimo naše vrednosti, dobimo: CONFIDENCE(0.01;5;12)= 3,717889 in interval (110 3.717889 ,110 3.717889 ) (107.28,113.72) . c) Koliko skodelic kave bi bilo potrebno preizkusiti, da bi z 99% zanesljivostjo lahko potrdili korektno delovanje avtomata, če bi dobili povprečje vzorca med 102 ml in 110 ml. Rešitev: E x 102 110 8 Maksimalna napaka je Izračunamo še z / 2 =NORMSINV(0,995)=2,5758 in vstavimo z 2.5758 5 n /2 2.59 8 E Pri podatkih iz naloge c) bi bile dovolj tri skodelice kave v vzorcu. 2 3.11 Vprašanja za ponavljanje: kaj je interval zaupanja kako določamo interval zaupanja koliko je z / 2 , če je 0.05 ali 0.01 2 J. Šrekl Statistika varnosti kaj je napaka ocene in kako določimo velikost vzorca interval zaupanja pri velikih vzorcih 64 J. Šrekl Statistika varnosti 65 Tretje poglavje: Testi hipotez 1. Hipoteze V prejšnjem poglavju smo določili interval zanesljivosti za parametre porazdelitev. Pogosto to ni dovolj, poslovna odločitev zahteva sprejemanje ali zavračenje trditve o parametru porazdelitve ali celo o tipu porazdelitve spremenljivke. Zato je eden pomembnejših delov statistične analize ocenjevanje hipotez. Shematsko si ponazorimo testiranje hipoteze V populaciji imamo neznano porazdelitveno funkcijo lastnosti, ki je podana s slučajno spremenljivko X. Porazdelitvena funkcija je lahko povsem neznana ali pa poznamo tip ne poznamo pa parametrov S hipotezo postavimo trditev o vrednosti parametrov ali o tipu porazdelitvene funkcije. Iz populacije izberemo slučajni vzorec s pomočjo katerega preverjanje hipotetično trditev kar imenujemo test hipoteze. Sprašujemo se: Ali izbran slučajni vzorec domnevo – hipotezo podpira ali jo zavrača? Videli smo, da imamo glede na statistično domnevo več vrst testov. Primeri: 1. “Normalna porazdelitev spremenljivke X ima povprečno vrednost 0. “ J. Šrekl Statistika varnosti 66 2. “Slučajna spremenljivka X je normalno porazdeljena.” 3. “Slučajna spremenljivka je porazdeljena po Poissonovem porazdelitvenem zakonu.” 4. “Slučajni spremenljivki X in Y sta enakomerno porazdeljeni.” 1. je parametrična, 2.-4. neparametrične; 3. je enostavna hipoteza 1.,2., 4. so sestavljene: v 1. ni opredeljen , 2. nima opredeljenih parametrov in 4. nima opredeljenih porazdelitvenih funkcij. Hipoteze ločujemo najprej na dopustne, take ki so sploh mogoče, v samem postopku testiranja pa imamo dve vrsti hipotez, osnovno hipotezo ali ničelno hipotezo, tej nasproti pa postavimo alternativno hipotezo tako da skupaj tvorita popolni sistem. Primer: Podjetje za proizvodnjo kozmetike pošilja na trg nov šampon. Višina šampona (v mm) v steklenički je slučajna spremenljivka, ker je polnjenje odvisno od slučajnih vplivov. Porazdeljena je po normalnem zakonu in ima standardno deviacijo 20 mm. Preverjamo vrednost parametra porazdelitve, to je povprečne višine šampona v steklenički. Pričakujemo, da bo višina 175 mm, kot je zapisano na steklenički. Izberemo slučajni vzorec (npr. deset slučajno izbranih stekleničk) in preverjamo hipotezo. Formalno to zapišemo: H 0 : 175 mm - ničelna hipoteza proti H1 : 175 mm - alternativna dvostranska hipoteza ali H 0 : 175 mm - ničelna hipoteza proti H1 : 175 mm - alternativna enostranska hipoteza ali proti H1 : 175 mm - alternativna enostranska hipoteza Na podlagi kriterija, ki ga dobimo z določitvijo kritične vrednosti se odločamo o sprejemanju hipoteze, zavračanju hipoteze ali ne odločanju o hipotezi. 2. Parametrični testi 2.1 Splošna procedura: 1. Oblikujemo problem, izberemo parametre, ki nas zanimajo. 2. Postavimo ničelno hipotezo, H0. 3. Oblikujemo alternativno hipotezo, H1. J. Šrekl Statistika varnosti 67 Izberemo stopnjo značilnosti . Določimo ustrezne testne statistike. Določimo kritične vrednosti testa Poiščemo potrebne slučajne vrednosti, ki jih vstavimo v testne statistike, da dobimo cenilke. 8. Na podlagi primerjave s kritičnimi vrednostmi odločimo ali je H0 sprejemljiva, ali jo zavrnemo. Dodamo komentar rezultata v smislu problema. 4. 5. 6. 7. 2.2 Test matematičnega upanja normalne porazdelitve z znano varianco. Imamo normalno porazdelitev N(μ,σ) z znano varianco in neznanim matematičnim upanjem. Postavimo ničelno in alternativno hipotezo za matematično upanje H 0 : 0 H1 : 0 Izberemo stopnjo značilnosti . Določimo ustrezno testno statistiko Testna statistika: Statistika je porazdeljena po standardiziranem normalnem zakonu N(0,1). Kritična vrednost z / 2 se določa iz enačbe: ( z / 2 ) 12 , ki je tabelirana v tabeli II Kriterij z-testa Ničelna hipoteza: H 0 : 0 Testna statistika: Z X 0 n 0 Alternativna hipoteza: H1 : 0 H1 : 0 H1 : 0 Kriterij testa: z0 z / 2 ali z0 z / 2 z0 z z0 z J. Šrekl Statistika varnosti 68 Napake: 1. Zavračanje pravilne ničelne hipoteze: napaka I. vrste 2. Sprejemanje ali ne zavračanje napačne ničelne hipoteze: napake II. Vrste. Napako prve vrste omejuje predpisana stopnja tveganja . Napako druge vrste določa koeficient . Predpostavimo da je ničelna hipoteza napačna in je prava vrednost matematičnega upanja 0 . Testna statistika ima obliko ̅ ̅ ( ⁄√ ) √ ⁄√ Dobili smo novo gostoto porazdelitve, ki je premaknjena v desno. Verjetnost, ki je levo od kritične vrednosti predstavlja napako druge vrste, ker pomeni zavračanje pravilne alternativne hipoteze. ( ⁄ √ ) J. Šrekl Statistika varnosti 69 Velikost vzorca ( ) DEFINICIJA: P-vrednost je najmanjša stopnja značilnosti pri kateri še zavrnemo ničelno hipotezo, pri danih podatkih: Primer 1. Naj bo slučajna spremenljivka X porazdeljena po normalnem zakonu N(m,1), kjer je m neznana količina. Iz vzorca z 10 elementi smo dobili X = 1.01 . Ugotovi ali drži hipoteza H0(m=0) pri stopnji tveganja je α=0.01. Vstavimo kar v tabelo za kriterij zavračanja: Ničelna hipoteza: H 0 : 0 0 Testna statistika: Z X n 1.01 10 3.19 0 0 1 Alternativna hipoteza: Kriterij testa: H1 : 0 0 3.19 z0 z / 2 2.81 ali z 0 z / 2 2.81 Vidimo, da hipoteza izpolnjuje kriterij zavračanja, hipotezo torej zavrnemo. Primer 2. Sistem za reševanje posadke letala (raketni motor za izstrelitev sedeža) poganja trdo gorivo. Pomembna karakteristika je hitrost izgorevanja. Specifikacija predpisuje, da mora biti povprečna hitrost gorenja 50 centimetrov na sekundo. Vemo, da je σ=2 cm/sek. Preizkus dovoljuje napako I. vrste stopnje z α = 0.05. Vzorec 25 preizkusov nam je dal povprečno vrednost 51.3. Ali ta vrednost potrjuje našo hipotezo? Spet vstavimo v tabelo za kriterij zavračanja za dvostransko (dvorepo) hipotezo: Ničelna hipoteza: H 0 : 0 50 Testna statistika: Z X n 51.3 50 25 3.25 0 0 Alternativna hipoteza: H1 : 0 50 2 Kriterij testa: 3.25 z0 z / 2 1.96 ali z 0 z / 2 1.96 Vidimo, da hipoteza izpolnjuje kriterij zavračanja. Vzorec zavrača našo hipotezo. J. Šrekl Statistika varnosti 70 Kako velik vzorec je potrebno preizkusiti v prejšnji nalogi, če je razlika med povprečno vrednostjo in pričakovanim matematičnim upanjem 1 cm/s in z verjetnostjo 0.90 ne bomo zavrnili pravilne alternativne hipoteze. Rešitev: ( ( ⁄ ) √ ) ( ( ) √ ) ( ) Približek je dober saj vrednost funkcije Φ majhna glede na β. Testi z velikimi vzorci in neznano varianco: Populacija je normalno porazdeljena varianca znana. Če je vzorec velik (n>40), lahko vzorčna varianca zamenja varianco v populaciji. Uporabljamo torej metodo, ki se sicer uporablja pri neznanih variancah. Ničelna hipoteza: H 0 : 0 Testna statistika: T0 Alternativna hipoteza: X 0 n S Kriterij testa: H1 : 0 t 0 t / 2,n1 ali t 0 t / 2,n1 H1 : 0 t0 t ,n1 t0 t ,n1 H1 : 0 J. Šrekl 2.3 Statistika varnosti 71 Test matematičnega upanja normalne porazdelitve z neznano varianco. Pri normalni porazdelitvi, kjer je tudi varianca (standardni odklon) neznana bomo uporabili drugačno testno statistiko. Testna statistika: Statistika je porazdeljena po t – porazdelitvi (Studentovi) z (n-1) prostostnimi stopnjami. Kritična vrednost t / 2,n1 se določa iz enačbe: P(| T | t / 2,n1 ) 1 , ki je tabelirana v tabeli IV, ali jo določimo v EXCEL-u s pomočjo funkcij TINV Kriterij t- testa je zapisan v tabeli Ničelna hipoteza: H 0 : 0 Testna statistika: T0 Alternativna hipoteza: X 0 n S Kriterij testa: H1 : 0 t 0 t / 2,n1 ali t 0 t / 2,n1 H1 : 0 t0 t ,n1 t0 t ,n1 H1 : 0 DEFINICIJA: P-vrednost je najmanjša stopnja značilnosti pri kateri še zavrnemo ničelno hipotezo, pri danih podatkih: Ker tabela IV za t-statistiko vsebuje le nekaj kritičnih vrednosti, P-vrednosti ni mogoče natančno izračunati. Lahko pa poiščemo spodnjo in zgornjo mejo P-vrednosti iz te tabele. Poiščemo med katerima kritičnima vrednostma leži izračunana vrednost J. Šrekl Statistika varnosti 72 Primer: Kvaliteto golf palice merijo tako, da vanjo izstrelijo kroglico in merijo razmerje med odbito in vstopno hitrostjo. Opravili so 15 preizkusov in dobili naslednje rezultate (koeficiente odboja) 0,8411 0,8580 0,8042 0,8191 0,8532 0,8730 0,8182 0,8483 0,8282 0,8125 0,8276 0,8359 0,8750 0,7983 0,8660 Preizkušamo hipotezo, da je matematično upanje koeficienta enako 0,82 pri stopnji značilnosti 0,05. V EXCEL-u izračunamo ̅ ( ) ( ( ) ) ( ) 2,8144 ( ) 1,7613 Vidimo, da je kritična vrednost manjša od testne vrednosti, hipotezo H0 zavrnemo. Pregledno si to poglejmo v tabeli: Ničelna hipoteza: H 0 : 0 0,82 Testna statistika: T0 X 0 S n 2,81 Alternativna hipoteza: Kriterij testa: H1 : 0 t 0 t / 2,n1 ali t 0 t / 2,n1 H1 : 0 2,81 t 0 t ,n1 1,76 H1 : 0 t0 t ,n1 Vidimo, da je izpolnjen kriterij zavračanja hipoteze in lahko sprejmemo alternativno hipotezo, da je srednja vrednost večja od pričakovane 2.4 Test hipoteze za varianco in standardno deviacijo normalne porazdelitve V populaciji imamo normalno porazdelitev N ( , ) z neznanimi parametri. Vzemimo slučajni vzorec velikosti n: X1 , X 2 , , X n in testirajmo hipotezi: H 0 : 2 02 H1 : 2 02 S primerjavo med vrednostjo S v vzorcu in pričakovano standardno deviacijo poskušamo dobiti potrditev naše hipoteze. Zato bomo za ta test bomo uporabili statistiko: 02 (n 1) S 2 02 Statistika je porazdeljena po zakonu hi-kvadrat z (n-1) prostostnimi stopnjami. Kriteriji za zavračanje ničelne hipoteze je podan v tabeli: J. Šrekl a) Statistika varnosti 73 Ničelna hipoteza: H 0 : 2 02 Alternativna hipoteza zavrnemo 2 2 2 2 H1 : 0 0 / 2,n1 ali 02 12 / 2,n1 b) H1 : 2 02 c) H1 : 2 02 02 2 ,n1 02 12 ,n1 Običajno nas zanima le zgornja meja dopustnega standardnega odklona, zato uporabljamo enostransko hipotezo H 0 : 2 02 z alternativo H1 : 2 02 Primer: Avtomat polni plastenke s tekočim detergentom. V vzorcu 20 plastenk so ugotovili vzorčno varianco s 2 0.0153 l. Ali varianca presega vrednost 0.01 l. (Prepolne ali preveč prazne plastenke niso dopustne za ustrezno kvaliteto.) Predpostavimo, da je polnjenje porazdeljeno normalno in 0.05 . Ali lahko sprejmemo hipotezo da varianca ne presega predpisane vrednosti. Izračun: Kritična vrednost testa ( iz tabele III) je: 02.05 ,19 30.14 Vrednost statistike je: 02 29.07 Ker je 02 02.05 ,19 hipotezo sprejmemo P-vrednost iščemo v tabeli pri 19 prostostnih stopnjah: 2 ,191 0.10 0.05 27.20 30.14 0.05<P<0.10 2.5 ali P=0.0649. Vprašanja: Test hipoteze o matematičnem upanju normalne porazdelitve, varianca znana. (a) naštej korake pri izvedbi testa, (b) kakšno statistiko uporabljamo (c) kriteriji testa Test hipoteze o matematičnem upanju normalne porazdelitve, varianca znana. (a) kaj je P-vrednost, J. Šrekl Statistika varnosti (b) (c) (d) (e) 74 zveza med hipotezo in intervalom zaupanja, napake velikost vzorca testi z velikimi vzorci Test hipoteze o matematičnem upanju normalne porazdelitve, varianca neznana. (a) naštej korake pri izvedbi testa, (b) kakšno statistiko uporabljamo (c) kriteriji testa 2.6 Test populacijskega razmerja V praksi se pogosto dogaja , da vzamemo končni vzorec iz velike populacije (morda celo neskončne) kjer opazujemo slučajno spremenljivko, ki ima samo dve vrednosti (npr. kvalitetno – nekvalitetno). V vzorcu pričakujemo izbor vrednosti po binomskem zakonu. S testom sprejemamo ali zavračamo razmerje deležev vrednosti spremenljivke v populaciji. Hipotetično se sprašujemo o verjetnosti izida v binomskem zaporedju poskusov. Na primer potrjujemo hipotezo o verjetnost defektnih izdelkov v proizvodnji H 0 : p p0 H1 : p p0 Test temelji na aproksimaciji ali približku binomske porazdelitve z Normalno porazdelitvijo. Slučajna spremenljivka je porazdeljena približno normalno, kar zapišemo: X N (np0 , np0 (1 p0 )) Uporabili bomo testno statistiko: Shema zavračanja hipoteze: Ničelna hipoteza: H 0 : p p0 Alternativna hipoteza H1 : p p0 H1 : p p0 H1 : p p0 Testna statistika X np0 Z0 np0 (1 p0 ) Zavrnemo ničelno hipotezo z0 z / 2 ali z0 z / 2 z0 z z0 z Primer: Proizvodnja polprevodnikov za avtomobilsko industrijo. Kupec zahteva, da delež nekvalitetnih izdelkov ne presega 5%. Zanesljivost je omejena z 0.05 . V vzorcu 200 polprevodnikov so našli štiri defektne. Ali mora proizvajalec izboljšati kvaliteto? J. Šrekl 1. 2. 3. 4. 5. Statistika varnosti 75 parameter, ki nas zanima, je parameter p. Ničelna hipoteza je H 0 : p 0.05 . Alternativna hipoteza je H1 : p 0.05 . Hipoteza postavlja strožje pogoje proizvajalcu. Ob zavrnitvi ničelne hipoteze bodo izpolnjene zahteve kupca. 0.05 Testna statistika: Z0 X np0 , np0 (1 p0 ) kjer je x=4, n=200 in p0=0.05. 6. Pogoj zavrnitve hipoteze H 0 : p 0.05 : z0 z 1.645 7. Izračunamo cenilko za test: z0 4 200(0.05) 1.95 200(0.05)(0.95) Sklep: Ničelno hipotezo zavrnemo in sklepamo, da je defektnih izdelkov manj kot 5%, kar pomeni ustreznost kvalitete proizvodnje. Izračunamo še P-vrednost, ki je za to testno statistiko enaka: P 0.5 ( z0 ) 0.5 0.4744 0.0265 , ki je manjša od alfa. 8. Z MINITAB programom bi dobili rezultat Napake II vrste in velikost vzorca Napako II vrste izračunamo pri dvostranski alternativi: ali enostranskih alternartivah: velikost vzorca: dvostranska alternativa enostranska alternativa J. Šrekl Statistika varnosti 76 Primer: Za naš primer proizvodnje polprevodnikov predpostavimo, da je verjetnost napake p=0.03. Kolikšna je napaka β pri n=200 in α=0.05! To pomeni, da je skoraj 70% verjetnost, da bo proizvajalec napačno sklepal, da je proizvodnji proces primeren, če je ugotovljena verjetnost defektov 3%. Moč tega testa je 0.3. Vidimo, da dobimo veliko napako oziroma šibko moč testa, ker so razlike med verjetnostmi defekta majhne in vzorec ni dovolj velik. Če želimo zmanjšati napako β, ki ni večja od 0.1 pri enakih podatkih, bo potrebno povečati vzorec: Primerjalna rast moči testa pri različnih velikostih vzorca: J. Šrekl Statistika varnosti 77 3. Testi neparametričnih hipotez 3.1 Test prilagajanja vzorca Testiramo neparametrično hipotezo – neparametrični test. Porazdelitve v populaciji ne poznamo, zato skušamo s testom potrditi ali zavrniti hipotezo o porazdelitvi v populaciji. Vzemimo slučajni vzorec velikosti n iz populacije z neznano porazdelitvijo. Vzorec razdelimo v k razredov (običajno z enakimi intervali) in izračunamo frekvence razredov Oi. Postavimo hipotezo o porazdelitvi, določimo hipotetično porazdelitev. Izračunamo frekvence razredov s hipotetično porazdelitvijo in jih označimo z Ei in testirajmo hipotezi: Za ta test bomo uporabili statistiko: ( Oi Ei )2 Ei i 1 k 02 Statistika je porazdeljena po zakonu hi-kvadrat s (k-p-1) prostostnimi stopnjami, p je število parametrov v hipotetični porazdelitvi. Hipotezo zavrnemo, če velja 02 2 ,k p1 Primer 1.: Število napak pri tiskanih vezjih je hipotetično porazdeljeno po Poissonu. Vzeli so vzorec n = 60 tiskanih vezij in dobili naslednjo vzorčno porazdelitev: Število napak 0 1 2 3 frekvenca 32 15 9 4 Ugotovi ali s stopnjo značilnosti 0.05 lahko potrdimo hipotezo. Izračunamo parameter za Poissonovo porazdelitev, ki ga ocenimo s povprečno vrednostjo vzorca. (parameter predstavlja matematično upanje, ki ga ocenjujemo s povprečno vrednostjo vzorca. (32 0 15 1 9 2 4 3) / 60 0.75 Izračunamo pričakovane verjetnosti v razredih: J. Šrekl Statistika varnosti 78 V EXCEL-u je računanje enostavnejše (V celici B3 vidimo kako uporabimo formulo) Pričakovane frekvence so produkt verjetnosti in velikosti vzorca: število defektov Verjetnost 0 0,472 1 0,354 2 0,133 3 ali več 0,041 Pričakovana frekvenca 28,34 21,26 7,97 2,43 Ker ima zadnji razred frekvenco manjšo od 3, ga združimo s prejšnjim razredom: število Merjena defektov frekvenca 0 32 1 15 2 ali več 13 Pričakovana frekvenca 28,34 21,26 10,44 Reševanje: 1. Zanima nas oblika porazdelitve napak pri izdelavi tiskanih vezij. 2. H0: porazdelitev je Poissonova! 3. H1: porazdelitev ni Poissonova! 4. α = 0.05. k ( O Ei )2 5. Testna statistika: 02 i Ei i 1 6. 7. Zavrnitev: 0 0.05,1 3.84 , ker je k – p -1=3-1-1=1. Izračunamo cenilko: 2 2 J. Šrekl 8. Statistika varnosti 79 Sklep:ker je cenilka manjša od kritične vrednosti hipoteze ne moremo zavrniti, torej sprejemamo trditev, da je porazdelitev Poissonova. Primer 2.: Kontrolor testira adapterje za prenosne računalnike. S stopnjo značilnosti 0.05 se pričakuje, da je izhodna napetost porazdeljena z normalnim porazdelitvenim zakonom. Iz vzorca velikosti n = 100, dobimo povprečno vrednost x 5.04 V in standardni odklon s 0.08 V. Dobljene vrednosti so razdelili v razrede: Pričakovane frekvence izračunamo kot produkte velikosti vzorca n in pričakovane verjetnosti razreda: V EXCEL-u smo izračunali pričakovane frekvence (ki se ne ujemajo natanko s podano tabelo zgoraj): x 4,948 4,986 5,014 5,04 5,066 5,094 5,132 Vsota verjetnost 0,1250719 0,2498379 0,3725905 0,5 0,6274095 0,7501621 0,8749281 1 verj. interv. frekvenca 0,125071936 12,5 0,124765947 12,5 0,122752653 12,3 0,127409464 12,7 0,127409464 12,7 0,122752653 12,3 0,124765947 12,5 0,125071936 12,5 100,0 Reševanje: 1. Zanima nas oblika porazdelitve napak pri izdelavi tiskanih vezij. 2. H0: porazdelitev je normalna! 3. H1: porazdelitev ni normalna! 4. α = 0.05. J. Šrekl Statistika varnosti 80 ( Oi Ei )2 Ei i 1 k 5. Testna statistika: 02 6. 7. Zavrnitev: 0 0.05,5 11.07 , ker je k – p -1=8-2-1=5. Izračunamo cenilko z podatki iz dane tabele: 2 2 Ali s pomočjo računanja v EXCEL-u: E(i) 8. 9. O(i) 12,5 12,5 12,3 12,7 12,7 12,3 12,5 12,5 12 14 12 13 12 11 12 14 0,020568 0,186009 0,006173 0,005267 0,04309 0,132486 0,018205 0,178175 100,0 100,00 0,590 Sklep:V obeh primerih je cenilka manjša od kritične vrednosti, hipoteze ne moremo zavrniti, torej sprejemamo trditev, da je porazdelitev normalna. Izračunamo še P-vrednost: 0.55) 2 P(0.64) 0.99 (0.64 0.9885 (1.140.55) 10 Računano je z linearno interpolacijo, vendar je natančnost dovolj dobra, saj v EXCEL-u dobimo: ( ) 3.2 Test enakomerne porazdelitve Primer: Poškodbe po delovnih urah v tabeli in histogramu. LETO 1996. 1997. 0-2 3 3 6 DELOVNE URE V ENI IZMENI 2-4 4-6 7 10 9 10 16 20 6-8 5 9 14 J. Šrekl Statistika varnosti 81 10 5 0 2 4 6 8 1996 1997 x = delovne ure y = pogostost poškodb Pogostnost poškodb pri delu po delovnih urah v letu 1996 Enakomerna porazdelitev bi imela enake frekvence po letih f 3 7 10 5 25 ft 6,25 6,25 6,25 6,25 25 (f-ft)2 10,56 0,56 14,06 1,56 f-ft -3,25 0,75 3,75 -1,25 0 (f-ft)2/ft 1,69 0,09 2,25 0,25 2 χ =4,28 V prvi stolpec smo zapisali frekvence, ki smo jih dobili z evidencami, v drugi stolpec smo zapisali frekvence enakomerne porazdelitve, tretji stolpec razlike, četrti kvadrate razlik in v peti ulomke, ki jih seštevamo v statistiki. Ker je k-p-1=4-1-1=2 in = 0.05, je ²(kritična) = 5.99, pri = 0.01 pa ²(kritična) = 9,21. Podatki ne potrjujejo alternativne hipoteze, da porazdelitev ni enakomerna, torej ne zavračajo osnovne hipoteze o enakomerni porazdelitvi. Problem pri tej nalogi je, da je vzorec zelo majhen in so vrednosti precej simetrično razporejene okoli srednje vrednosti. Oglejmo si še, kakšno je prilagajanje z normalno porazdelitvijo f ft 3 7 10 5 25 Vidimo, da je 02 2 ,k p1 za f-ft (f-ft)2/ft 0,10698 2,6745 0,03962 0,31784 5,27156 0,56672 0,48826 12,2064 0,39882 0,48411 12,1028 4,16843 5,17359 = 0.01 . V primeru = 0.05 pa lahko hipotezo sprejmemo. J. Šrekl 3.3 Statistika varnosti 82 Testi s kontingenčno tabelo Večkrat imamo opravka s po dvema spremenljivkama (lahko sta obe slučajni ali pa je ena spremenljivka običajna, druga pa slučajna). Rezultate zbiranja podatkov razvrstimo v tabelo (dvodimenzionalno) kjer so podatki dani v skupinah z dvema iskanima lastnostma. Na primer raziskujemo neko lastnost ki ima dve vrednosti DA ali NE pri moških in ženskah. Dobimo tabelo: DA NE Moški Ženska V tabeli nas zanima ali so vrednosti porazdeljene enakomerno.. Vzemimo dve spremenljivki v populaciji. Zanima nas odvisnost teh dveh spremenljivk. Izberemo vzorec z n elementi, kjer dobimo c razredov glede na prvo spremenljivko in r razredov glede na drugo spremenljivko. Frekvence razredov razporedimo v dvorazsežno kontingenčno tabelo velikosti r x c: Izračunamo povprečne vrednosti vrstic in stolpcev: pričakovane frekvence v posameznih razredih in testna statistika J. Šrekl Statistika varnosti 83 porazdeljena je po zakonu hi-kvadrat (r-1)(c-1) prostostnimi stopnjami. Če izračunana vrednost preseže kritično vrednost potem hipotezo o neodvisnosti zavrnemo. Tabela 2x2 Primer: Odnos kvalifikacijske strukture delavcev in pogostnost poškodb pri delu DELAVCI NEPOŠKODOVAN I POŠKODOVANI NKV I N PKV 48 KV I N OSTALI 18 66 40 88 4 22 44 110 POŠKODOVANI NEPOŠKODOVANI KV NKV 0 10 20 4 2 30 40 ( f dej . fteor . ) k 1 50 60 2 fteor . 0² = 0,436363636 + 0,654545455 + 1,745454545 + 2,618181818 = 5,454545455 Kritična vrednost za α = 0.05 in (2-1)(2-1)- prostostno stopnjo je ²0.05,1=3.84 in za α = 0.01 ²0.01,1=6.64. Vidimo, da hipotezo v prvem primeru zavrnemo, v drugem pa ne. Pri večjem alfa trdimo, da kvalifikacija in poškodbe nista neodvisni spremenljivki, pri manjšem alfa pa to trditev lahko sprejmemo. Pogosto se uporabljajo tudi modificirane formule za izračun testne statistike 2 n n (| ad bc |) 2 , 2 (a c)(b d )(c d )(a b) če se vrednosti v tabeli označijo: DELAVCI NEPOŠKODOVAN I POŠKODOVANI NKV I N PKV 52,8a KV I N OSTALI 13,2b 66 35,2c 8,8d 44 J. Šrekl Statistika varnosti 88 84 22 110 Izračunamo: 2 110 110(| 48 x 4 18 x 40 |) 2 2 8,38 88 x 22 x 44 x66 Ta vrednost presega obe kritični vrednosti, torej hipotezo o neodvisnosti zavrnem. Sklep:Število poškodb je odvisno od kvalifikacije zaposlenih. Tabela r x c Ocene študentov pri matematiki in statistiki: Ocena iz matematike Ocena iz Statistike 6 7 8 6 25 6 17 7 17 16 15 8 18 4 18 9,10 10 8 11 Reševanje: 0,285047 0,252336 0,233645 0,228972 1 25 6 17 16 18 4 10 8 0,327103 0,158879 17 15 18 11 0,285047 13 6 10 20 0,228972 19,95327 17,66355 16,35514 16,02804 9,691589 8,579439 7,943925 7,785047 17,38785 15,39252 14,25234 13,96729 13,96729 12,36449 11,4486 11,21963 1,276456 0,024927 0,165426 2,267104 3,733913 1,40615 6,418219 1,958043 0,005935 9,788347 0,008651 0,01001 0,985451 0,630388 1,6345 0,066989 3,276051 0,183292 6,871438 10,39777 0²=25,55453 1. 2. 3. 4. Ali obstaja zveza med ocenami pri obeh predmetih. H0: ocene so neodvisne H1: ocene so odvisne α = 0.01. 9,10 13 6 10 20 J. Šrekl Statistika varnosti r 5. Testna statistika: c 2 0 85 (Oij Eij )2 i 1 j 1 Eij 2 02 0.01,9 21.67 , ker je (r-1)(c-1)=9. 6. Zavrnitev: 7. Izračunamo cenilko: 0²=25,55453 8. Sklep: ker je cenilka večja od kritične vrednosti hipotezo zavrnemo, torej so ocene neodvisne, ni povezave med ocenami pri obeh predmetih Izračunamo še približno P-vrednost: 9. ( ) Testi za razliko matematičnih upanj pri znani varianci 3.4 Opazujemo dve normalni porazdelitvi in primerjamo njuni matematični upanji. Želimo testirati hipotezo: Testna statistika je porazdeljena standardizirano normalno. Primer: Tehnologa zanima čas sušenja temeljne barve. Primerja standardno barvo in barvo z dodatki za sušenje. Standardna deviacija sušenja je 8 minut. Preizkusi po 10 barvanj s prvo in 10 barvanj z drugo barvo. Povprečni čas sušenja za prvo barvo je 121 minut in za drugo 112 minut. Ugotovi, ali obstaja razlika med povprečno hitrostjo sušenja pri α = 0.05. 1. 2. Zanima nas razlika Testiramo ničelno hipotezo: oziroma 3. in imamo alternativno hipotezo: 4. 5. α = 0.05 Testna statistika: je porazdeljena po standardiziranem normalnem zakonu. 6. Kriterij zavračanja: J. Šrekl Statistika varnosti 7. Izračun vrednosti testne statistike: 8. Sklep: Ker je 86 hipotezo zavrnemo, kar pomeni, da se druga barva suši hitreje (razlika je statistično značilna). 9. Izračunamo še P-vrednost: kar pomeni, da razlika v času sušenja signifikantna, če je 0.0059 Napako II vrste izračunamo s pomočjo karakterističnih krivulj, ki jih dobimo v tabelah. Izračunamo: in iz krivulje določimo n Primer: V prejšnji nalogi naj bo realna razlika časa sušenja več kot 10 minut. Lahko izračunamo d: Pogledamo krivuljo: Za moč testa 0.9 vzamemo za d=0.88 in verjetnost 0.1. Skozi presečišče koordinat gre krivulja n=11. Enako bi izračunali s pomočjo formule: J. Šrekl Statistika varnosti 87 3.5 Testi za razliko matematičnih upanj pri znani varianci – veliki vzorci Opazujemo dve normalni porazdelitvi in primerjamo njuni matematični upanji. Varianca je neznana Primer σ12 = σ22 = σ Želimo testirati hipotezo: Vzamemo vzorec velikosti n1 za prvo spremenljivko in vzorec velikosti n2 za drugo spremenljivko. Cenilka za razliko matematičnih upanj je : X1 X 2 Varianca te nove spremenljivke je: V ( X1 X 2 ) 2 n1 2 n2 2 ( n11 n12 ) Poiščemo cenilko za varianco: Statistika: je standardizirana normalna in jo zamenjamo s statistiko: ki je porazdeljena po S(n1+ n2-2). Zato velja: J. Šrekl Statistika varnosti 88 Primer: V kemijskem procesu uporabimo dva katalizatorja. Katalizator 1 je v stalni uporabi toda katalizator 2 je cenejši, zato želijo preizkusiti učinkovitost. 1 Ocenjujemo enakost matematičnih upanj učinkov obeh katalizatorje 2 Po 8 preizkusih z vsakim katalizatorjem smo dobili naslednje rezultate: 3 4 5 α = 0.05 Testna statistika: 6 Zavrnitev hipoteze: 7 Izračun testne statistike: 8 Sklep: Hipoteze ne zavrnemo, pri 0.05 stopnji značilnosti (signifikantnosti) ni mogoče trditi, da sta matematični upanji učinkovitosti katalizatorjev različni. Primer σ12 / σ22 Želimo testirati hipotezo: J. Šrekl Statistika varnosti Vzamemo vzorec velikosti n1 za prvo spremenljivko in vzorec velikosti n2 za drugo spremenljivko. Cenilka za razliko matematičnih upanj je : X1 X 2 Uporabimo statistiko: Prostostno stopnjo za Studentovo porazdelitev izračunamo: in uporabimo kriterij zavračanja kot v prejšnjem razdelku. Primer: Izmerili so količino arzenika v pitni vodi v državi Arizona. Primerjali so količino v glavnem mestu Phoenix in v kmetijskem delu države: Ocenjujemo enakost matematičnih upanj vsebovanih količin arzena v dveh okoljih: mestnem in podeželskem okolju. 89 J. Šrekl Statistika varnosti α = 0.05 Testna statistika: Število prostostnih stopenj: Kriterij zavrnitve hipoteze: Izračun testne statistike: Sklep: Ničelno hipotezo zavrnemo. To pomeni da je količina arzenika v pitni vodi v podeželskem okolju različna od količine v mestnem okolju. 90 J. Šrekl Statistika varnosti 91 Četrto poglavje: Regresije in časovne vrste 1. 1.1 Regresije Empirični model Veliko statističnih problemov je povezano z iskanjem povezav med dvema ali več spremenljivkami. Nekaj takih smo že srečali v prejšnjem poglavju o hipotezah. Vendar pogosteje uporabljamo statistično tehniko, ki jo imenujemo regresijska analiza. Poglejmo si primer kemičnega destilacijskega procesa za pridobivanje kisika. Spremenljivka Y čistot pridobljenega kisika, spremenljivka X pa je delež ogljikovodika v glavnem kondenzatorju destilacijske enote. Dobili smo naslednje podatke: Podatke lahko prikažemo tudi v diagramu: J. Šrekl Statistika varnosti 92 Takoj lahko vidimo, da ni mogoče potegniti krivulje, ki bi šla skozi vse točke diagrama. Vzemimo slučajno spremenljivko Y pri posameznih vrednostih x. Matematično upanje te spremenljivke je: E (Y | x) Y |x 0 1x To pomeni, da je slučajno spremenljivko Y mogoče napisati kot funkcijo x in slučajne napake . Y 0 1x Varianca te spremenljivke dobimo: V (Y | x) V (0 1x ) V (0 1x) V ( ) 0 2 Kar smo zapisali zgoraj je model enopstavne linearne regresije, pri čemer je x regresor ali prediktor Y pa je odvisna spremenljivka. J. Šrekl 1.2 Statistika varnosti 93 Regresijska premica Iščemo torej premico, ki se najbolje prilega vrednostim v diagramu (xy). Oceno regresije dobimo z metodo najmanjših kvadratov (vsota kvadratov razdalj točk od premice je minimalna) Ocena z metodo najmanjših kvadratov: ˆ0 y ˆ1 x n ˆ1 y x ny x i i i 1 n x i 1 2 i nx 2 S xy S xx Ocena za regresijska premico se potem zapiše: yˆ ˆ0 ˆ1 xˆ Če v diagram podatkov zarišemo premico, ki je podana z gornjo enačbo, dobimo premico, ki se po metodi najmanjših kvadratov najbolje prilega izmerjenim podatkom. J. Šrekl Statistika varnosti 94 yi ˆ0 ˆ1xi ei ei yi yˆi imenujemo ostanek (residual) in je razlika med prilagoditvijo modela in i-te vrednosti spremenljivke. Ostanek se uporablja za oceno variance. Označimo vsoto kvadratov napak: n n i 1 i 1 SS E ei2 ( yi yˆi )2 Ker to ni nepristranska cenilka za varianco, bomo uporabili: ˆ 2 SS E n2 Izračunamo še: n n i 1 i 1 SS E ( yi yˆi ) 2 ( yi y ˆ1 ( xi x )) 2 n ( y y ) i 1 i 2 2 ˆ1 ( yi y )( xi x ) ˆ1 ( xi x ) 2 SST ˆ1S xy n n SST ( yi y ) yi2 ny 2 2 i 1 i 1 Primer 1: Prilagodimoenostavni linearni regresijski model podatkom iz naloge o čistosti kisika v začetku poglavja J. Šrekl Statistika varnosti 95 J. Šrekl Statistika varnosti 96 Primer 2: V reviji Journal of Sound and Vibration (Vol. 151, 1991, pp. 383-394) je v članku opisana povezava med izpostavljenostjo hrupu in povišanim krvnim tlakom. Priloženi so izmerjeni podatki (y – povišanje tlaka v mm, x – hrup v decibelih): a) b) c) Nariši diagram. Ali je primeren enostavni linearni model regresije? Prilagodi linearni model po metodi najmanjših kvadratov. Poišči oceno za varianco. Poišči pričakovano povprečno razliko krvnega tlaka pri zgornji meji dovoljenega hrupa 85 decibelov. J. Šrekl Statistika varnosti 97 Rešitev: a) 1.3 Test hipoteze o enostavni linearni regresiji Pomembno področje testiranja hipotez je testiranje hipotez o linearni regresiji. Predpostavimo vrednost parametra 1 in poskušamo potrditi ali zavrniti hipotezo o vrednosti parametra. H 0 : 1 1,0 H1 : 1 1,0 Zapisali smo dvostransko alternativno hipotezo. Ker so napake porazdeljene neodvisno po 2 normalnem porazdelitvenem zakonu z matematičnim upanjem nič in varianco , so slučajne spremenljivke Yi porazdeljene po neodvisnih normalnih zakonih N (0 1 xi , 2 ) J. Šrekl Statistika varnosti 98 To pa pomeni, da je 1 porazdeljen po normalnem zakonu: N ( 1 , Sxx ) 2 Iz tega sledi, da je statistika: T0 ˆ1 1,0 ˆ 2 / S xx porazdeljena po Studentovem zakonu S(n-2). Podobno postavimo hipotezo za parameter 0 H 0 : 0 0,0 H1 : 0 0,0 Uporabimo statistiko: T0 ˆ0 0,0 ˆ 2 1n Sx 2 xx Pomembna je posebna hipoteza, ki ugotavlja signifikanco ali značilnost regresije: H 0 : 1 0 H1 : 1 0 , ki ob potrditvi izključuje zvezo med x in Y Slika kaže primera, ko ničelne hipoteze ne morem zavrniti, torej ni potrjena povezava med med x in Y. J. Šrekl Statistika varnosti 99 Primer: Testiramo značilnost (signifikantnost) regresije za nalogo o destilaciji kisika. 1. Parmeter, ki ga obravnavamo, je korelacijski koeficient 1.. 2. Ničelna hipoteza: H 0 : 1 0 H 0 : 1 0 0.01 ˆ 5. Testna statistika: t0 12 3. Alternativna hipoteza: 4. Stopnja tveganja: S xx 6. Kriterij zavračanja: t0.005,18 2.88 7. Izračun: 8. Sklep: Hipotezo zavrnemo, kar pomen, da obstaja povezava med obema spremenljivkama. Poglejmo si regresijsko analizo izračunano z MINITAB: Iz analize vidimo, da je P-vrednost enaka 0,kar pomeni, da pri nobeni stopnji zanesljivosti ne moremo testa sprejeti. Vedno ga zavračamo! J. Šrekl 1.4 Statistika varnosti 100 Analiza variance pri regresiji Vzorčna varianca spremenljivke je sorazmerna z vsoto kvadratov razlik med posameznimi vrednostmi in povprečno vrednostjo n ( y y) i 1 2 i Izraz v oklepaju lahko razstavimo na dva izraza: yi y yi yˆi yˆi y Če izraz kvadriramo dobimo: Z besedami bi formulo zapisali vsota kvadratov korekcij y = regresijska vsota kvadratov + vsota kvadratov napak Ker je: in je zaradi gornje enačbe Sestavimo statistiko: ki je porazdeljena po F1,n-2 porazdelitvi in ima (1,(n-2)) prostostnih stopenj. Na desni smo dobili kvocient povprečij kvadratov (regresije in napake). J. Šrekl Statistika varnosti 101 Seveda pa je analiza variance povezana z t-testom, ki smo ga obravnavali v prejšnjem razdelku. V F-testu hipotezo zavračamo, če je t0 f 0 f ,1,( n2) . 2 2. Časovne vrste Pogosto je čas pomemben faktor za spreminjanje vrednosti slučajne spremenljivke. Podatke razporejamo po zaporednih časovnih enotah, zato tako zaporedje podatkov (vrednosti slučajne spremenljivke) imenujemo časovno zaporedje ali časovna vrsta. Primeri časovnih vrst so vse vrste slučajnih podatkov, ki so slučajno odvisni od časovnih intervalov. (Število rojstev na leto, število nezgod na leto,...). Iz časovne vrste poskušamo sklepati na vrednost slučajne spremenljivke v nekem bodočem obdobju. Ne gre za neko napovedovanje vrednosti, ampak zgolj za predvidevanje, da se bo slučajna spremenljivka ravnala po enakih zakonitostih, kot se ja v preteklem obdobju. Iz obnašanja spremenljivke v preteklem obdobju sklepamo na gibanje vrednosti spremenljivke v bodočem obdobju. Taki napovedi pravimo računanje trenda. Trend lahko smatramo za regresijsko krivuljo v dvorazsežni množici slučajnih dogodkov, kjer je ena spremenljivka čas, druga pa je običajna slučajna spremenljivka, ki se spreminja v času. Linearni trend dobimo iz linearne regresije. Spremenljivka x je čas, od te spremenljivke pa je po neznani povezavi odvisna opazovana slučajna spremenljivka Y. Vrednost slučajne spremanljivke Y opazujemo v enakih časovnih intervalih v daljšem časovnem obdobju: LETO ŠTEVILO POŠKODB INDEKS POGOSTOSTI INDEKS RESNOSTI P. 1988. 1989. 1990. 1991. 1992. 1993. 1994. 1995. 1996. 1997. 261 276 150 96 55 41 23 21 25 31 40,98 45,23 26,18 17,97 14,28 20,29 12,82 12,00 14,98 19,87 82,14 95,05 71,08 27,81 19,83 28,15 22,12 16,97 46,92 59,60 V naši tabeli je spremenljivka x leto, število poškodb pa je spremenljivka Y. Izračunamo linearni trend: Y a bx Iz preteklih rezultatov je potrebno izračunati oba parametra linearne funkcije: J. Šrekl Statistika varnosti 102 ˆ aˆ Y bx n bˆ Y x nYx i 1 n x i 1 Leto - x ŠTEVILO POŠKODB -Y 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1992,5 261 276 150 96 55 41 23 21 25 31 97,9 i i 2 i nx 2 x*Y 518868 548964 298500 191136 109560 81713 45862 41895 49900 61907 1948305 -2352,5 x*x 3952144 3956121 3960100 3964081 3968064 3972049 3976036 3980025 3984016 3988009 4E+07 82,5 -28,515 56914,3 226,218 197,703 169,188 140,673 112,158 83,6424 55,1273 26,6121 -1,903 -30,418 300 250 200 150 100 50 0 1985 -50 1990 1995 2000 J. Šrekl Statistika varnosti 103 Uporabljeni viri: 1. Srekl, J., Izbrana poglavja iz matematike in statistike, Ljubljana: FKKT, 1997, 2. Montgomery, D.C., Runger, G.C., Applied Statistics and Probability for Engineers, (3th edition), New York: Wiley, 2003, 3. McKibben, M., Kirchner West, J., Excel Manual For Statistics, New York: Wiley, 4. Statistični terminološki slovar, Ljubljana: Scripta, 2002, 5. Jamnik, R., Matematična statistika, Ljubljana, DZS, 1980, 6. DeCoursey, W.J., Statistics and Probability for Engineering Applications with Microsoft Excel, London: Newnes, 2003.
© Copyright 2025