TILASTOMATEMATIIKKA I Sirkku Parviainen 1. JOHDANTO MIHIN TILASTOTIEDETTÄ TARVITAAN? • • • suuren havaintomäärän (datan) keräämiseen, tietojen tiivistämiseen ja kuvailuun (deskriptiiviset menetelmät, data-analyysi) johtopäätösten tekemiseen epätäydellisen ja epävarman informaation perusteella (tilastollinen päättely: estimonti, hypoteesien testaus, riippuvuusmallit) tulevaisuuden ennustamiseen (aikasarja-analyysi, ennustusteoria) MIHIN TILASTOTIEDE PERUSTUU? Tilastollisen päättelyn menetelmät nojaavat toisaalta ilmiöistä kerättyyn käytännön kokemukseen (havaintoaineisto) ja jakaumamalleihin, toisaalta todennäköisyyslaskentaan, joka perustuu aksioomiin. Näistä aksioomista johdetaan laskusääntöjä ja päättelyssä käytettäviä kaavoja. TILASTOTIETEEN PERUSONGELMIA: • • • • • Mitä on tieto ja miten epävarmuutta mitataan? Mitä on sattumanvaraisuus? Miten erotellaan systemaattinen ja satunnainen vaihtelu toisistaan? Millä perusteella tehdään johtopäätöksiä? Miten johtopäätösten luotettavuutta arvioidaan? TILASTOTIEDETTÄ TARVITAAN MM. SEURAAVILLA ALOILLA: • • • • • • • • • • • kaikki kokeellinen tutkimus! tekninen tutkimus systeemien ohjaus laadunvalvonta luotettavuustekniikka talouselämä, kauppa vakuutusala luonnontieteet ekologia väestötiede tulevaisuudentutkimus Englanninkielinen termi statistics tarkoittaa paitsi tilastotiedettä, myös tilastoja sekä tilastollisia tunnuslukuja. Tilastomatematiikka on matemaattista tilastotiedettä. Tällä kurssilla keskitytään todennäköisyyslaskentaan, satunnaismuuttujien jakaumiin ja näihin perustuviin tilastollisen päättelyn menetelmiin. Esim. otantamenetelmät ja kokeiden suunnittelu eivät kuulu kurssin aihepiireihin, vaikka ovatkin tärkeä osa tilastollista tutkimusta. 1 2. TODENNÄKÖISYYSLASKENTAA 2.1. SATUNNAISKOKEET JA SATUNNAISMUUTTUJAT Satunnaiskoe on toistettavissa oleva tai toistuvasti tapahtuva ilmiö, jonka lopputuloksen määrää satunnainen mekanismi, lopputulosta ei siis voi ennustaa varmasti. Koetta toistettaessa esiintyy tuloksissa tilastollista säännönmukaisuutta suorituskertojen määrän kasvaessa. Satunnaiskokeen mahdolliset lopputulokset ovat alkeistapahtumia. Otosavaruus on kaikkien alkeistapahtumien joukko, jota merkitään seuraavassa S:llä. Esimerkkejä satunnaiskokeista ja otosavaruuksista: 1) Nopan heitto: S = {1,2,3,4,5,6} 2) Lamppuja pakataan 4 kappaleen rasioihin. Otetaan yksi rasia ja testataan lamput (merk. k=kunnollinen, v=viallinen): S = {kkkk, kkkv, kkvk, ... , vvvv} 3) Laitevikojen lkm/v: S = {0,1,2,...} 4) Tuotteen paino: S = {x∈ R | x > 0} 5) Pariston elinikä: S = {t ∈ R | t 0} 6) Valitaan haastateltava henkilö Suomen kansalaisista: otosavaruuteen S kuuluvat kaikki suomalaiset. Otosavaruuden määrittely riippuu tutkimuksen kohteesta, joka määrää sen mitä mitataan tai rekisteröidään. Esim. viimeisessä tapauksessa otosavaruus on määritelty hyvin yleisesti ja henkilöltä voidaan haastattelussa kysyä useita mielipiteitä, taustatietoja jne. Jos tutkijaa kiinnostaisi vain henkilön kanta yhteen ajankohtaiseen kysymykseen, voisi otosavaruus olla S = {puolesta, vastaan, ei osaa sanoa}. Tapahtuma tarkoittaa otosavaruuden osajoukkoa. Tapahtumille pyritään laskemaan todennäköisyyksiä. Sekä otosavaruus että tapahtuma voidaan kuvailla - sanallisesti - matemaattisilla symboleilla - luettelemalla tapahtumaan kuuluvat alkeistapahtumat - Vennin diagrammilla. Satunnaismuuttuja on alkeistapauksiin liittyvä muuttuja, jonka arvo on satunnainen. Satunnaismuuttujan arvo määräytyy mittaamalla tai rekisteröimällä jokin alkeistapauksen ominaisuus. Koska kokeen tulosta säätelee satunnaismekanismi, on X:n arvokin tätä kautta satunnainen. Koetta toistettaessa eri arvot vaihtelevat ja tätä vaihtelua kuvaa satunnaismuuttujan jakauma. 2 Esimerkki 2.1. Tarkastellaan lamppujen toimivuutta 4 kappaleen rasiassa. Otosavaruus on S = {kkkk, kkkv, kkvk, kvkk, vkkk, kkvv, kvkv, kvvk, vkkv, vkvk, vvkk, kvvv, vkvv, vvkv, vvvk, vvvv} Esimerkki kokeeseen liittyvästä tapahtumasta: A = "rasiassa on yksi toimiva lamppu" = {kvvv, vkvv, vvkv, vvvk} Esimerkki kokeeseen liittyvästä satunnaismuuttujasta: X = viallisten lamppujen lukumäärä, joka voi saada arvot 0,1,2,3,4. Tapahtuma A voidaan esittää myös symbolisessa muodossa A = {X=3}. Esimerkki 2.2. Valitaan koehenkilö tai haastateltava Suomen kansalaisista. Tapahtumia: A = "henkilö on opiskelija" B = "henkilö on alle 30-vuotias" Vennin diagrammilla voidaan kuvata eri tapahtumien suhteita otosavaruudessa. 2.2. JOUKKO-OPPIA Tapahtumien käsittelyssä tarvitaan joukko-opin merkintöjä, käsitteitä ja operaatioita. Merkitään seuraavassa joukkoja isoilla ja niiden alkioita pienillä kirjaimilla. Merkintä: a ∈A A⊂ B A∪B A∩B A tai Ac A–B tai A\B O / Selitys: alkio a kuuluu joukkoon A joukko A sisältyy joukkoon B eli A on B:n osajoukko (myös A ⊆ B) joukkojen A ja B yhdiste eli unioni: niiden alkioiden joukko, jotka kuuluvat joko A:han tai B:hen tai molempiin joukkojen A ja B leikkaus: niiden alkioiden joukko, jotka kuuluvat sekä A:han että B:hen A:n komplementti: niiden alkioiden joukko, jotka eivät kuulu A:han. joukkojen A ja B erotus: niiden alkioiden joukko, jotka kuuluvat A:han mutta eivät B:hen. tyhjä joukko 3 TAPAHTUMIEN KUVAUS JOUKKO-OPERAATIOILLA JA VENNIN DIAGRAMMEILLA A tai B tapahtuu (tai molemmat): A∪B A ja B tapahtuvat: A∩B A tapahtuu, B ei: A –B = A ∩ B A ei tapahdu: A Jos A ∩ B= O/ , joukot ovat erilliset eli pistevieraat: niillä ei ole yhteisiä alkioita. Tapahtumat A ja B ovat silloin toisensa poissulkevat. 4 Esim. Suomen kansalaisten joukossa tapahtumat H = "henkilön kotikunta on Helsinki" L = "henkilön kotikunta on Lappeenranta" ovat toisensa poissulkevat. De Morganin kaavat: A∪B = A∩B ”Ei päde se, että ainakin toinen tapahtuu”eli ”Kumpikaan ei tapahdu” A∩B = A∪B ”Ei päde se, että molemmat tapahtuvat”eli ”Ainakaan toinen ei tapahdu” Kaavat pätevät myös useamman joukon yhdisteille ja leikkauksille. Esimerkki 2.3. Komponentit k1,..., kn muodostavat rinnan kytketyn systeemin, jos systeemi toimii aina, kun yksikin komponentti toimii. Komponentit muodostavat sarjaan kytketyn systeemin, jos systeemi toimii vain, kun kaikki komponentit toimivat. Olkoot tiettyyn aikaväliin liittyvät tapahtumat Ai = "komponentti ki toimii". Lausu seuraavat tapahtumat tapahtumien Ai avulla: a) Rinnan kytketty systeemi toimii. b) Rinnan kytketty systeemi ei toimi. c) Sarjaan kytketty systeemi toimii. d) Sarjaan kytketty systeemi ei toimi. 2.3. TODENNÄKÖISYYS Tapahtuman A todennäköisyyttä (probability) merkitään P(A):lla. Todennäköisyys ilmoitetaan lukuna väliltä [0,1] tai prosentteina. Todennäköisyys voidaan määrittää tilanteesta riippuen erilaisilla tavoilla, jotka eivät ole kuitenkaan toisensa poissulkevia. KLASSINEN TODENNÄKÖISYYS Klassinen todennäköisyyden määrittely soveltuu, kun kaikki alkeistapahtumat ovat symmetrisiä, yhtä mahdollisia ("yhtä todennäköisiä"). Merkitään N = kaikkien alkeistapahtumien lukumäärä NA = A:n alkeistapahtumien lukumäärä eli A:lle suotuisien alkeistapahtumien lukumäärä Tapahtuman A todennäköisyys on N P( A ) = A N eli suotuisien alkeistapahtumien suhteellinen osuus. Määrittely soveltuu vain äärellisiin joukkoihin, mutta se voidaan yleistää äärettömiin, mitattaviin joukkoihin tarkastelemalla lukumäärän sijasta pituutta, pinta-alaa, tilavuutta jne. Tällöin puhutaan geometrisesta todennäköisyydestä, ks. esim. 2.6. 5 Esimerkki 2.4. Nopanheitto: kaikki luvut 1,2,3,4,5,6 ovat yhtä todennäköisiä. Tapahtuman A = "kolmella jaollinen luku" = {3, 6} todennäköisyys on silloin P(A) = 2/6 = 1/3. TILASTOLLINEN ELI SUHTEELLISIIN FREKVENSSEIHIN PERUSTUVA TODENNÄKÖISYYS Tilastollinen todennäköisyys on raja-arvo, jota tapahtuman suhteellinen osuus koesarjassa lähestyy, kun koetta toistetaan (tai ilmiö toistuu) loputtomiin. Esimerkiksi nopanheitossa kolmella jaollisten lukujen suhteellinen osuus on suunnilleen 1/3, kun nopanheittojen määrä on hyvin suuri. Lyhyessä heittosarjassa osuus saattaa poiketa paljonkin arvosta 1/3. Ongelmana on tämän raja-arvon määrittely, sillä kysymys ei ole matemaattisesta raja-arvon käsitteestä. Käytännössä toistoja voidaan tehdä vain äärellinen määrä, olkoon se n. Jos n(A) on niiden kokeiden lukumäärä jotka antoivat tuloksen A, on P( A ) ≈ n (A ) n Jos todennäköisyys on määritettävä tilastollisesti, on käytettävä riittävän laajaa aineistoa, jotta tulos olisi luotettava. Esimerkki 2.5. Teollinen kappaletuotanto. Millä todennäköisyydellä sattumanvaraisesti poimittu tuote on viallinen? Todennäköisyys on viallisten suhteellinen osuus toistettaessa poimintaa äärettömän monta kertaa samanlaisissa olosuhteissa, ts. suhteellinen osuus koko tuotannossa. Oletetaan että on poimittu n=1000 satunnaista tuotetta, sattumanvaraisina aikoina, ja havaittu näiden joukossa 12 viallista. Viallisen todennäköisyyden arvioidaan olevan noin 12/1000 = 0.012 = 1.2 %. GEOMETRINEN TODENNÄKÖISYYS Jos n-ulotteisesta joukosta valitaan piste X umpimähkään eli siten, että kaikilla pisteillä on sama valintamahdollisuus (poimintatodennäköisyys), ja A on jokin :n osajoukko, niin P( X ∈ A ) = m( A) m (Ω ) missä m on joukon n-ulotteinen mitta (pituus, pinta-ala, tilavuus jne.). Määrittely perustuu todennäköisyyden frekvenssitulkintaan, mutta se on myös yleistys klassisen todennäköisyyden määrittelyyn, kuten aiemmin huomautettiin. Esimerkki 2.6. Kaksi ystävystä ovat sopineet, että he saapuvat lounasaikaan tietyn ravintolan eteen ja lounastavat yhdessä, jos tapaavat toisensa. Kumpikin valitsee saapumisajankohdan täysin sattumanvaraisesti klo 12.00 ja 13.00 väliltä. Ensiksi saapuva odottaa ravintolan edessä tasan 10 minuuttia, jos toinen ei ole paikalla. Kuinka suurella todennäköisyydellä ystävykset tapaavat toisensa? Vastaus: 11/36. 6 SUBJEKTIIVINEN TODENNÄKÖISYYS P(A) = uskomuksen aste A:n tapahtumiselle Esimerkkejä: "Mahdollisuus, että nettituttavani suostuu tapaamiseen ensi viikonloppuna, on 70 %". "SaiPa voittaa Ässät seuraavassa ottelussa 25 %:n varmuudella." ”Millä todennäköisyydellä viiden vuoden sisällä sattuu ihmishenkiä vaativa ydinvoimalaonnettomuus?” Subjektiivista todennäköisyyttä joudutaan käyttämään tilanteissa, joissa tapahtuma on ainutkertainen eikä koetta voida toistaa. Ns. bayesiläinen tilastotiede perustuu subjektiivisiin todennäköisyyksiin, esim. Bayes-verkkojen laskenta. Subjektiiviseen todennäköisyyden määrittelyyn on suhtauduttava varoen, etenkin jos sitä käytetään hyväksi päätöksenteossa. 2.4. TODENNÄKÖISYYDEN AKSIOMAATTINEN MÄÄRITTELY Ollakseen hyvin määritelty, todennäköisyyden tulee täyttää eräitä yleisesti hyväksyttyjä ominaisuuksia, aksioomeja. Todennäköisyyttä P voidaan pitää otosavaruuden mittana, jonka on toteutettava seuraavat suhteellisen esiintymisfrekvenssin ominaisuudet: TODENNÄKÖISYYDEN PERUSOMINAISUUDET (AKSIOOMAT) P(A) 1 jokaiselle tapahtumalle A ⊂ S. A1. 0 A2. P(S) = 1 A3. Jos A ja B ovat erilliset (toisensa poissulkevat) tapahtumat eli A ∩ B= O/ , niin A tai B tapahtuu todennäköisyydellä ("varma tapahtuma") P(A ∪ B) = P(A) + P(B). Ominaisuudet A1-A3 ovat äärellisen todennäköisyyskentän aksioomat. Kun S on ääretön joukko, vaaditaan lisäksi: A3'. Jos A1,A2,... ovat toisensa poissulkevia tapahtumia eli Ai ∩ Aj = O/ kun i ≠ j, niin P(A1 ∪ A2. ∪ … ) = P(A1) + P(A2) + ... SEURAUSOMINAISUUKSIA Seuraavat ominaisuudet voidaan osoittaa aksioomien A1-A3 perusteella: (i) Mahdoton tapahtuma: P( O/ ) = 0 (ii) Komplementtitapauksen todennäköisyys: P( A ) = 1 –P(A) (iii) Jos A ⊂ B eli A:sta seuraa B, niin P(A) P(B) (iv) A tai B tapahtuu: P(A ∪ B) = P(A) + P(B) –P(A ∩ B) 7 (v) P(A –B) = P(A) –P(A ∩ B). A tapahtuu, B ei: Myös näin: P(A –B) = P(A ∪ B) –P(B) Esimerkki 2.7. Valitaan koehenkilö tai haastateltava Suomen kansalaisista. Oletetaan, että opiskelijoita on noin 8 % väestöstä ja alle 30-vuotiaiden osuus väestöstä on 36 %. Alle 30vuotiaita opiskelijoita on 7 % koko väestöstä. Merkitään tapahtumia A = "opiskelija" B = "alle 30-vuotias" Tiedetään todennäköisyydet P(A) = 0.08, P(B) = 0.36 ja P(A ∩ B) = 0.07. Laske, millä todennäköisyydellä henkilö a) ei ole opiskelija? b) on vähintään 30-vuotias opiskelija? c) vähintään 30-vuotias, ei opiskelija? Ratkaisu (piirrä kuvat): a) P( A ) = 1 –0.08 = 0.92 b) P( A ∩ B ) = P(A –B) = P(A) –P(A ∩ B) = 0.08 –0.07 = 0.01. c) P( A ∩ B ) = P( A ∪ B ) = 1 –P(A ∪ B) = 1 –[P(A) + P(B) –P(A ∩ B)] = 1 –(0.08 + 0.36 –0.07) = 0.63. Kun alkeistapauksia on äärellinen tai numeroituva määrä (ts. ne ovat lueteltavissa), on kyseessä diskreetti todennäköisyysmalli. Kun alkeistapauksia on ylinumeroituva määrä (esim. jokin reaalilukuväli), on kyseessä jatkuva todennäköisyysmalli. Jatkuvaan tapaukseen palataan jakaumien yhteydessä; seuraavassa tarkastellaan diskreettiä tapausta. TODENNÄKÖISYYDEN LASKEMINEN ALKEISTAPAHTUMIEN AVULLA Olkoon otosavaruus äärellinen, S = {e1, e2,...,en}, tai numeroituvasti ääretön, S = {e1, e2,...} ja alkeistapahtumien todennäköisyydet lukuja P(ei) = pi, missä 0 pi 1 ja pi = 1. Tapahtuman A ⊂ S todennäköisyys on 8 P ( A) = ∑ P (e ) e i ∈A i Diskreetissä tapauksessa siis Tapahtuman A todennäköisyys saadaan summaamalla A:han kuuluvien alkeistapahtumien todennäköisyydet. Klassisen todennäköisyyden mukainen kaava saadaan myös edellisen perusteella: Jos äärellisen otosavaruuden S = {e1, e2,...,eN} kaikki alkeistapahtumat ovat yhtä todennäköisiä, niin 1 P(ei) = pi = N 1 ja tapahtuman A ⊂ S todennäköisyys on P(A) = A:n alkeistapausten lkm ⋅ = NA/N N Tämä on sekä klassisen että frekvenssitulkinnan mukainen todennäköisyys. 2.5. KOMBINATORIIKKAA TULOPERIAATE: Jos jokin operaatio on mahdollista suorittaa p eri vaiheessa ja i:nnessä vaiheessa on ni eri valintamahdollisuutta (i=1,...,p), niin eri vaihtoehtoja on p ∏n i = n1n 2 ⋅ ⋅ ⋅ n p kappaletta. i =1 PERMUTAATIOT, VARIAATIOT JA KOMBINAATIOT: n-alkioisen joukon •permutaatio on joukon alkioista muodostettu järjestetty jono •k-variaatio on joukon k-alkioinen järjestetty jono •k-kombinaatio on joukon k-alkioinen osajoukko. Eri yhdistelmien lukumäärät: •n-alkioisella joukolla on n! = n·(n-1)···2·1 eri permutaatiota (n! on n:n kertoma). Perustelu: Tuloperiaatteen mukaan 1. alkio voidaan valita n tavalla, 2. alkio n-1 tavalla jne. ja viimeinen alkio yhdellä tavalla. •n-alkioisella joukolla on (n)k = n · (n-1) ··· (n-k+1) = n! / (n-k)! eri k-variaatiota. Perustelu: Tuloperiaate. •n-alkioisella joukolla on 9 n n! = k k!(n − k )! (nimitys: binomikerroin n yli k:n) eri k-kombinaatiota. Perustelu: Jokainen k-alkioinen joukko voidaan järjestää eli permutoida k! eri tavalla, joten kvariaatioita on k! kertaa k-kombinaatioiden määrä ja kombinaatioita siis variaatioiden määrä jaettuna k!:lla. TODENNÄKÖISYYKSIEN LASKEMINEN: Alkeistapahtumiksi valitaan tilanteen mukaan joko variaatiot tai kombinaatiot sen mukaan onko järjestyksellä väliä vai ei. Kun otos poimitaan "umpimähkään", on jokaisella kvariaatiolla keskenään yhtäsuuri poimintatodennäköisyys, samoin kaikilla k-kombinaatioilla. Erilaisten tapahtumien todennäköisyydet voidaan tällöin laskea klassisen todennäköisyyden eli tasaisen todennäköisyysmallin mukaisesti alkeistapahtumien lukumäärien suhteena: suotuisien alk.tap. lkm kaikkien alk.tap. lkm Esimerkki 2.8. Arvanmyyjällä on N arpaa, joista voittoarpoja on m kpl. Asiakas ostaa n arpaa. Millä todennäköisyydellä hän saa k voittoarpaa? N Otetaan alkeistapauksiksi n kappaleen kombinaatiot N:n arvan joukosta, joita on kpl. n m •k voittoarpaa voidaan valita m:n joukosta eri tavalla k N − m eri tavalla. •loput n-k ei-voittoarpaa voidaan valita n−k Tuloperiaatteen nojalla suotuisia kombinaatioita, eli sellaisia arpayhdistelmiä, joissa on k voittoarpaa ja n-k ei-voittoarpaa, on m N − m kappaletta. k n − k Koska arvat valitaan umpimähkään, on jokainen yhdistelmä yhtä mahdollinen, joten todennäköisyys saada k voittoa on m N − m k n − k P("k voittoa") = . N n Voittojen lukumäärän sanotaan noudattavan hypergeometrista jakaumaa parametrein N, m, n. Esimerkki 2.9. Tilastomatematiikan opettaja on antanut opiskelijoille 25 tenttitehtävää ratkaisuineen ja luvannut valita tästä kokoelmasta 5 kysymystä seuraavaan tenttiin täysin satunnaisesti. Optimistinen opiskelija päättää selvitä helpolla ja opiskelee ulkoa 10 helpointa tärppiä. Millä todennäköisyydellä hän pääsee tentistä läpi, jos läpipääsyrajana on 3 oikein? 10 Ratkaisu: Merkitään N = 25 tehtävien määrä m = 10 opiskelijan tärpit n = 5 opettajan valitsemat tenttikysymykset Erilaisia tenttejä voidaan muodostaa N 25 25! 21 ⋅ 22 ⋅ 23 ⋅ 24 ⋅ 25 = = = 53130 = 1⋅ 2 ⋅ 3⋅ 4 ⋅ 5 n 5 5! 20! P("k oikein") = P("kymmeneen tärppiin osuu k viidestä tenttikysymyksestä") m N − m k n − k = = N n 10 15 k 5 − k 25 5 P("tentti läpi") = P("3, 4 tai 5 oikein") = P(”3 oikein”) + P(”4 oikein”) + P(”5 oikein”) 10 15 3 2 P(”3 oikein”) = = 0.2372 25 5 10 15 4 1 P(”4 oikein”) = = 0.0593 25 5 10 15 5 0 P(”5 oikein”) = = 0.0047 25 5 joten P("tentti läpi") = 0.2372 + 0.0593 + 0.0047 = 0.3012 eli noin 30 %:n mahdollisuus. 2.6. EHDOLLINEN TODENNÄKÖISYYS Ehdollinen todennäköisyys tarkoittaa jonkin tapahtuman todennäköisyyttä, kun satunnaiskokeen tuloksesta jo tiedetään jotain. Tapahtuman A ehdollinen todennäköisyys ehdolla B on P(A | B) = P(A ∩ B) P(B) kun P(B) ≠ 0. 11 Tulkinta: •A:n todennäköisyys (suhteellinen osuus) perusjoukossa B •A:n todennäköisyys, jos B varma •ominaisuuden A toteuttavien alkeistapausten suhteellinen osuus niiden alkeistapausten joukossa, joilla on ominaisuus B Kertosääntö: P(A ∩ B) = P(B)P(A | B) = P(A )P(B | A) Yleistys: Jos P(A1 ∩ A2 ∩ ... ∩ An-1) > 0, niin P(A1 ∩ A2 ∩ ... ∩ An) = P(A1)P(A2 | A1)P(A3 | A1 ∩ A2) ···P(An | A1 ∩ A2 ∩ ... ∩ An-1) Huom. Ehdollinen todennäköisyys toteuttaa todennäköisyyden perusominaisuudet, esim. P( A | B) = 1 –P(A | B) jne. Esimerkki 2.10. Opiskelijoita on noin 8 % väestöstä ja alle 30-vuotiaiden osuus väestöstä on 36 %. Alle 30-vuotiaita opiskelijoita on 7 % koko väestöstä. Esitetään joku seuraavista kysymyksistä: •Jos satunnainen koehenkilö osoittautuu alle 30-vuotiaaksi, millä todennäköisyydellä hän on opiskelija? •Jos valitaan satunnainen koehenkilö alle 30-vuotiaiden suomalaisten joukosta, millä todennäköisyydellä hän on opiskelija? •Mikä on opiskelijoiden suhteellinen osuus alle 30-vuotiaista? Kaikissa näissä tapauksissa on kyse samasta ehdollisesta todennäköisyydestä: Merkitään tapahtumia A = "opiskelija" B = "alle 30-vuotias" Tiedetään todennäköisyydet P(A) = 0.08, P(B) = 0.36 ja P(A ∩ B) = 0.07, joten kysytty todennäköisyys (eli suhteellinen osuus) on P(A | B) = P(A ∩ B)/P(B) = 0.07 / 0.36 0.19. 2.7. TILASTOLLINEN RIIPPUMATTOMUUS Tapahtumat A ja B ovat keskenään riippumattomat, jos ja vain jos (R) P(A ∩ B) = P(A)P(B) eli jos (R1) P(A | B) = P(A ) kun P(B) 0 P(B | A) = P(B) kun P(A) 0 eli jos (R2) 12 Tulkinta: •toisen sattuminen (varmasti) ei vaikuta toisen todennäköisyyteen •tapahtumat eivät ole missään vuorovaikutuksessa keskenään •A:n todennäköisyys (suhteellinen osuus) joukossa B on sama kuin koko otosavaruudessa S •B:n todennäköisyys (suhteellinen osuus) joukossa A on sama kuin koko otosavaruudessa S Riippumattomuuden määritelmää voidaan soveltaa jompaan kumpaan suuntaan: Jos A:n ja B:n riippumattomuus on selvää (muulla tavoin perusteltavissa), niin laskukaavoja (R), (R1) tai (R1) voi käyttää. Jos et tiedä tapahtumia riippumattomiksi, tulokaavaa (R) ei voi käyttää todennäköisyyden P(A B) laskemiseksi! Käytä esim. kaavaa P(A ∪ B) = P(A) + P(B) –P(A ∩ B). Jos taas tunnetaan riippumattomuuden määritelmään (R), (R1) tai (R2) kuuluvat todennäköisyydet, niin riippumattomuus tai riippuvuus voidaan päätellä tarkastamalla kaavan paikkansapitävyys. Yleistys: Tapahtumat A1,A2,...,An ovat täydellisesti riippumattomat, jos P( I A i ) = ∏ P ( A i ) i∈I kaikilla indeksikombinaatioilla I ⊂ {1,...,n}. i∈I Huomautuksia: •Täydellisestä riippumattomuudesta seuraa tapahtumien Ai ja Aj parittainen riippumattomuus, mutta ei kääntäen. •A ja B riippumattomat ⇔ A ja B riippumattomat ⇔ A ja B riippumattomat jne. Esimerkki 2.11. Opiskelijoita on noin 8 % väestöstä ja alle 30-vuotiaiden osuus väestöstä on 36 %. Alle 30-vuotiaita opiskelijoita on 7 % koko väestöstä. Merkitään A = "opiskelija" B = "alle 30-vuotias" Ovatko A ja B riippumattomat? P(A)P(B) = 0.08·0.36 = 0.0288 0.07 = P(A ∩ B), joten tapahtumat eivät ole riippumattomat.. Vaihtoehtoinen perustelu: Esimerkin 2.10 perusteella P(A|B) ole riippumattomat. P(A), joten tapahtumat eivät Käytännöllisemmin ilmaistuna: nuorista opiskelee suurempi osuus kuin koko väestöstä (tai aikuisista). Esimerkki 2.12. Suomen kansalaisten joukossa tapahtumia A = "opiskelija" C = ”syntynyt elokuussa” voidaan pitää riippumattomina, ja elokuussa syntyneiden opiskelijoiden osuus koko väestöstä on P(A)P(C). Huomio: Toisensa poissulkevat tapahtumat eivät ole riippumattomia! 13 RIIPPUMATTOMAT SATUNNAISKOKEET Riippumattomuuden käsitettä voidaan soveltaa myös eri satunnaiskokeiden yhdistelmiin ts. kokeisiin, joissa on eri otosavaruudet. Satunnaiskokeet ovat riippumattomia, jos toisen tulos ei vaikuta toisen tuloksen todennäköisyyksiin. Kokeiden suoritusjärjestyksellä ei ole väliä. Tehdään kaksi riippumatonta satunnaiskoetta, joiden otosavaruudet ovat S1 ja S2. Jos A ⊂ S1 ja B ⊂ S2 ovat näiden tulosmahdollisuuksia (tapahtumia), niin P(A ja B) = P(A)P(B). Tapahtumaa "A ja B" merkitään symbolilla A × B (joukkojen karteesinen tulo) Esimerkki 2.13. Heitetään rahaa ja noppaa. Laskettava todennäköisyys, että rahanheitosta saadaan klaava ja nopan silmäluku on parillinen. Esimerkki 2.14. Voimalan generaattoreiden pyörittämiseen käytetään häiriötilanteessa kolmea moottoria 1, 2, ja 3, joiden tulisi vian ilmaantuessa käynnistyä automaattisesti ja toisistaan riippumatta. Tyyppiä 1 olevien moottorien käynnistymistodennäköisyys on 99 %, kun taas moottorien 2 ja 3 käynnistymistodennäköisyys on vain 90 %. Millä todennäköisyydellä häiriötilanteessa a) ainakin yksi moottori käynnistyy? b) täsmälleen kaksi moottoria käynnistyy? Alkeistapauksina ovat kaikki eri tapahtumavaihtoehdot: S = {KKK, KKE, KEK, EKK, KEE, EKE, EEK, EEE} missä K vastaa käynnistyvää, E ei käynnistyvää moottoria. Huom. P("ei käynnisty") = 1 - P("käynnistyy”) Oletetaan, että moottorit keskenään täydellisesti riippumattomia, jolloin alkeistapahtumien todennäköisyydet lasketaan tuloina: P(KKK) = 0.99·0.9·0.9 = 0.8019 P(KKE) = 0.99·0.9·0.1 = 0.0891 P(KEK) = 0.99·0.1·0.9 = 0.0891 P(EKK) = 0.01·0.9·0.9 = 0.0081 P(KEE) = 0.99·0.1·0.1 = 0.0099 P(EKE) = 0.01·0.9·0.1 = 0.0009 P(EEK) = 0.01·0.1·0.9 = 0.0009 P(EEE) = 0.01·0.1·0.1 = 0.0001 a) P("ainakin yksi käynnistyy") = 1 –P("yksikään ei käynnisty") = 1 –P(EEE) = 1 –0.0001 = 0.9999 b) P("kaksi moottoria käynnistyy") = P({KKE,KEK,EKK}) = P(KKE) + P(KEK) + P(EKK) = 0.0891 + 0.0891 + 0.0081 = 0.1863 14 2.8. KOKONAISTODENNÄKÖISYYS JA BAYESIN KAAVA Oletetaan, että otosavaruus S jakaantuu erillisiin ositteisiin A1, A2, ..., An eli S = A1 ∪ A2 ∪ ... ∪ An ja Ai ∩ Aj = O/ , kun i j. Tämä tarkoittaa että jokainen alkio kuuluu täsmälleen yhteen joukoista Ai. Oletetaan, että tunnetaan erään tapahtuman B todennäköisyydet joukoissa Ai. Silloin voidaan laskea tapahtuman B kokonaistodennäköisyys: P(B) = P(A1)P(B | A1) + ... + P(An)P(B | An) Perustelu: Koska B = B ∩ S = B ∩ (A1 ∪ A2 ∪ ... ∪ An) = (B ∩ A1) ∪ … ∪ (B ∩ An), ja yhdisteen joukot ovat erillisiä, saadaan yo. kaava soveltamalla sääntöä P(B ∩ Ai) = P(Ai)P(B | Ai). Edellisestä seuraa Bayesin kaava, jolla lasketaan käänteiset ehdolliset todennäköisyydet: P(A i | B) = P(A i )P(B | A i ) P(A i )P(B | A i ) = P(B) P(A1 )P(B | A 1 ) + ... + P(A n )P(B | A n ) Esimerkki 2.15. Kolme konetta valmistaa lasitölkkejä. Ensimmäinen kone valmistaa 40 % kaikista tölkeistä ja sen tuotannosta on 3 % viallisia. Toinen kone valmistaa 30 % tölkeistä ja se tuottaa viallisia 2 %. Kolmannen koneen tuotannosta on viallisia 1 %. a) Montako prosenttia koko tuotannosta on viallisia? b) Jos satunnaisesti valittu tölkki paljastuu vialliseksi, millä todennäköisyydellä se on peräisin ensimmäisestä koneesta? Tiedetään a) b) P(K1)=0.4 P(K2)=0.3 P(K3)=0.3 P(V | K1)=0.03 P(V | K2)=0.02 P(V | K3)=0.01 P(V) = P(K1)P(V | K1) + P(K2)P(V | K2) + P(K3)P(V | K3) = 0.4·0.03+0.3·0.02+0.3·0.01 = 0.021 P(K1 | V) = P(K1)P(V | K1)/P(V) = 0.4· 0.03 / 0.021 = 0.5714. Esimerkki 2.16. Väestöstä 0.1 % on erään viruksen kantajia. Laboratoriotesti viruksen toteamiseksi antaa oikean (positiivisen) tuloksen todennäköisyydellä 0.99, jos henkilö on viruksen kantaja. Jos henkilö on terve, testi antaa oikean (negatiivisen) tuloksen todennäköisyydellä 0.95. Jos satunnaisesti valittu henkilö testataan ja tulos on positiivinen, millä todennäköisyydellä henkilö todella on viruksen kantaja? Vastaus: 0.02. 15 3. JAKAUMAT Satunnaismuuttuja on muuttuja, jonka arvo koetta tai mittausta toistettaessa vaihtelee ennalta arvaamattomasti, jonkin satunnaismekanismin mukaan. Esim. syntyvän lapsen sukupuoli, nopan heiton tulos, kahden nopan silmälukujen summa, tilauksen toimitusaika, tuotteen kestoikä, viallisten tuotteiden määrä tuotantoerässä, koneen käyttökatkojen määrä vuorokaudessa. Satunnaismuuttujan jakauma on malli, joka kuvaa satunnaismuuttujan arvojen vaihtelua pitkällä tähtäimellä, koko perusjoukossa. Jakauma ilmaistaan pistetodennäköisyysfunktion (probability function), tiheysfunktion (probability density function) tai kertymäfunktion (cumulative distribution function) avulla. Jakauma eli satunnaismuuttujan eri arvojen tai arvojoukkojen todennäköisyys palautuu otosavaruuden todennäköisyysmittaan P, diskreetissä tapauksessa alkeistapausten todennäköisyyksiin. Merkitään satunnaismuuttujia isoilla kirjaimilla (X, Y jne.) ja satunnaismuuttujan arvoja numeroilla tai pienillä kirjaimilla. Silloin esim. lauseke "X=x" merkitsee otosavaruudessa niiden alkeistapausten joukkoa, joilla muuttuja X saa arvon x. Esimerkissä 2.1. todettiin, että jos X = viallisten lamppujen lukumäärä 4 lampun rasiassa, niin tapaus X=3 vastaa otosavaruuden osajoukkoa {kvvv, vkvv, vvkv, vvvk}. 3.1. DISKREETTI SATUNNAISMUUTTUJA Satunnaismuuttuja X on diskreetti, jos sillä on äärellinen tai numeroituvasti ääretön määrä mahdollisia arvoja. Arvot ovat yleensä kokonaislukuja, esimerkiksi kappalemääriä. Esimerkkejä: nopan heiton tulos, viallisten tuotteiden määrä tuotantoerässä, palvelupisteeseen saapuvien asiakkaiden määrä vuorokaudessa. Pistetodennäköisyysfunktio p(x) = P(X=x) ilmaisee kaikkien mahdollisten arvojen todennäköisyydet eli se määrittää X:n jakauman. Pistetodennäköisyysfunktio tarvitsee määritellä vain mahdollisten arvojen joukossa (muualla = 0). Jakauman kertymäfunktio F pisteessä x on todennäköisyys, että satunaismuuttujan arvo on korkeintaan x, eli F( x ) = P(X ≤ x ) Kertymäfunktio on määritelty kaikilla reaaliluvuilla. Jos satunnaismuuttujan X mahdolliset arvot ovat x1, x2, ..., niin kertymäfunktio lasketaan summaamalla pistetodennäköisyyksiä pienimmästä arvosta lähtien arvoon x asti: F( x ) = ∑ p( x ) xi ≤x i 16 Esimerkki 3.1. Olkoon X = koneen käyttökatkojen määrä vuorokaudessa. Oletetaan, että seuraavat todennäköisyydet on määritetty (suhteellisina frekvensseinä pitkällä aikavälillä): p(0) = P(X=0) = 0.45 p(1) = P(X=1) = 0.30 p(2) = P(X=2) = 0.15 p(3) = P(X=3) = 0.06 p(4) = P(X=4) = 0.04 Jakauma on havainnollista esittää pylväsdiagrammina: Jakauman kertymäfunktio on kun x < 0 0 0.45 kun 0 ≤ x < 1 0.75 kun 1 ≤ x < 2 F( x ) = kun 2 ≤ x < 3 0.90 0.96 kun 3 ≤ x < 4 1 kun x ≥ 4 Esimerkiksi todennäköisyys että vuorokaudessa on korkeintaan 2 katkoa on P(X 2) = F(2) = 0.9 Todennäköisyys, että vuorokaudessa on vähintään 3 katkoa on kertymäfunktion avulla P(X 3) = 1 –P(X 2) = 1 –F(2) = 1 –0.9 = 0.1 17 DISKREETIN JAKAUMAN OMINAISUUKSIA: 1. 0 p(x) 1 2. ∑ p( x ) = 1 (summaus yli kaikkien mahdollisten arvojen) x 3. Diskreetin satunnaismuuttujan kertymäfunktio on kasvava, oikealta jatkuva porrasfunktio. 4. P(a < X b) = P(X b) –P(X a) = F(b) –F(a). Jos X saa vain kokonaislukuarvoja ja a<b kokonaislukuja, niin b P(a X b) = ∑ p( x ) = F(b) –F(a–1). x =a Minkä tahansa arvojoukon A todennäköisyys saadaan summaamalla kaikkien sen arvojen todennäköisyydet: P( X ∈ A ) = ∑ p ( x ) x∈A Esimerkki 3.2. Tarkastellaan esimerkin 2.14. kolmen moottorin järjestelmää. Olkoon satunnaismuuttuja X käynnistyvien moottorien lukumäärä. Mikä on X:n jakauma? Todennäköisyydet saadaan esimerkissä 2.14. laskettujen alkeistapausten todennäköisyyksien avulla: P(X=0) = P(EEE) = 0.0001 P(X=1) = P(KEE) + P(EKE) + P(EEK) = 0.0099 + 0.0009 + 0.0009 = 0.0117 P(X=2) = P(KKE) + P(KEK) + P(EKK) = 0.0891 + 0.0.0891 + 0.0081 = 0.1863 P(X=3) = P(KKK) = 0.8019 Nämä arvot määrittävät X:n jakauman, joka voidaan esittää alla olevana taulukkona. Taulukossa laskettu lisäksi kertymäfunktion arvot kokonaislukupisteissä. k 0 1 2 3 Todennäköisyys Kertymäfunktio p(k) = P(X=k) F(k) = P(X k) 0.0001 0.0001 0.0117 0.0118 0.1863 0.1981 0.8019 1.0000 3.2. JATKUVA SATUNNAISMUUTTUJA Jatkuvalla satunnaismuuttujalla on ylinumeroituva määrä mahdollisia arvoja, esim. jokin reaalilukuväli, positiivinen reaaliakseli tai koko reaalilukujen joukko R. Esim. kappaleen massa ja pituus, tuotteen kestoikä, tuulessa kaatuvan puun suuntakulma, tilauksen toimituksen myöhästymisaika, jatkuvan suureen mittausvirhe. Eri arvojen todennäköisyyttä ei silloin voida 18 määritellä pisteittäin. Olkoon X nyt jatkuva satunnaismuuttuja. Sen arvojen jakautumista kuvaa ei-negatiivinen tiheysfunktio (eli todennäköisyystiheys) f(x), josta eri arvovälien todennäköisyydet saadaan integroimalla. Jakauman kertymäfunktio on x F( x ) = P(X ≤ x ) = ∫ f (t )dt −∞ eli x-akselin ja tiheysfunktion väliin jäävä pinta-ala alarajalta (- ) arvoon x asti. Välin a X b todennäköisyys on b P(a ≤ X ≤ b) = ∫ f ( t )dt . a Esimerkki: Viivoitetun alueen pinta-ala on a) F(a) = P(X b) P(a X a) b) Huomautus: Kaikissa integraaleissa integroidaan vain yli sen välin, jossa f(x)>0. 19 JATKUVAN JAKAUMAN OMINAISUUKSIA: 1. f(x) 0 ∞ 2. ∫ f ( x)dx = 1 −∞ 3. Jatkuvan jakauman kertymäfunktio F(x) on jatkuva, kasvava funktio ja lim F( x ) = 0 , lim F(x ) = 1 . x → −∞ x →∞ F´(x) = f(x) silloin kun F on derivoituva. b 4. P(a X b) = P(a < X b) = P(a X < b) = P(a < X < b) = F(b) –F(a) = ∫ f ( x )dx a Arvojoukon A todennäköisyys saadaan integroimalla yli tämän joukon: P(X ∈ A) = ∫ f ( x )dx A a 5. P(X=a) = ∫ f ( x )dx = 0 kaikille lukuarvoille a. a Yksittäisen arvon todennäköisyydestä ei ole mielekästä puhua. Voidaan sanoa, että arvo a on mahdollinen jos ja vain jos f(a)>0. Esimerkki 3.3. (Milton & Arnold) Oletetaan, että erään bensiinin lyijypitoisuus X voi vaihdella välillä 0.1 –0.5 g/l ja sen jakauman tiheysfunktio on 12.5x − 1.25 f (x) = 0 kun 0.1 ≤ x ≤ 0.5 muualla a) Mikä on jakauman kertymäfunktio? x Kertymäfunktio on määritelmän mukaan F( x ) = P(X ≤ x ) = ∫ f (t )dt −∞ 20 Kun x<0.1, F(x)=0. Kun 0.1 x 0.5, x F(x) = ∫ (12.5t − 1.25)dt = 0.1 x / (6.25t 2 − 1.25t ) = 6.25x2 - 1.25x + 0.0625 0.1 Kun x>0.5, F(x)=1, koska mahdollisen vaihteluvälin ylärajalla F(0.5)=1 ja tämän jälkeen tiheysfunktio on 0. (Riittää ilmoittaa kertymäfunktio sillä mahdollisten arvojen välillä, jolla tiheysfunktio on positiivinen.) b) Millä todennäköisyydellä satunnaisen bensiinilitran lyijypitoisuus on välillä 0.2–0.3 g? Tämä voidaan laskea joko integroimalla tiheysfunktiota tai suoraan kertymäfunktion avulla: P(0.2 X 0.3 0.3 0.2 0.2 0.3) = ∫ f ( t )dt = ∫ (12.5t − 1.25)dt = ... = 0.1875 tai P(0.2 X 0.3) = F(0.3) –F(0.2) = (6.25·0.32 –1.25·0.3 + 0.0625) –(6.25·0.22 –1.25·0.2 + 0.0625) = 0.1875 21 3.3. ODOTUSARVO JA VARIANSSI Odotusarvo ja varianssi ovat keskeisimmät jakaumaa kuvaavat tunnusluvut. •Odotusarvo (mean, expected value, expectation) on satunnaismuuttujan jakauman keskiarvo, "todennäköisyysmassan" painopiste. Merkintä: , E(X) tai EX. •Varianssi (variance) ja sen neliöjuuri, keskihajonta eli hajonta (standard deviation), kuvaavat satunnaismuuttujan arvojen vaihtelua ja levinneisyyttä odotusarvon ympärillä. Varianssin merkintä: 2, D2(X), D2X tai Var(X). DISKREETTI SATUNNAISMUUTTUJA Olkoon X diskreetti satunnaismuuttuja, jonka mahdolliset arvot ovat x1, x2,... todennäköisyyksin p(x1), p(x2),... Odotusarvo: µ = EX = ∑ x i p( x i ) i [ ] Varianssi: σ 2 = D 2 X = E ( X − µ) 2 = ∑ ( x i − µ) 2 p( x i ) Hajonta: σ = DX = σ i 2 JATKUVA SATUNNAISMUUTTUJA Olkoon X jatkuva satunnaismuuttuja, jonka tiheysfunktio on f(x). Odotusarvo: µ = EX = ∞ ∫ x f ( x)dx −∞ Varianssi: [ ] ∞ σ 2 = D 2 X = E (X − µ) 2 = ∫ ( x − µ) 2 f ( x )dx −∞ σ = DX = σ 2 Hajonta: •Laskettaessa integroidaan yli sen välin, jossa f(x)>0. •Odotusarvon ja hajonnan yksiköt ovat X:n yksiköitä, varianssin yksiköt ovat X:n yksiköiden neliöitä. Huom: hajonta ja varianssi aina ei-negatiivisia. Voidaan osoittaa, että E[(X – µ)2] = E(X2) – µ2, josta saadaan varianssille käsin laskettaessa kätevämpi kaava: σ 2 = ∑ x i2 p( x i ) − µ 2 , kun X diskreetti i σ = 2 ∞ ∫x 2 f ( x )dx − µ 2 , kun X jatkuva. −∞ 22 OMINAISUUKSIA (pätevät sekä diskreetille että jatkuvalle satunaismuuttujalle): 1. E(X+Y) = EX +EY 2. E(aX) = a EX E(a) = a 3. kun a on vakio. Kun X ja Y ovat riippumattomia satunnaismuuttujia, niin D2(X+Y) = D2X + D2Y D2(X–Y) = D2X + D2Y. Yleensä D(X+Y) 4. 5. DX + DY. D2(aX) = a2 D2X D2(a) = 0 kun a on vakio. Yleistys: Jos X1, X2,...,Xn ovat toisistaan riippumattomia satunnaismuuttujia ja a1,...,an ovat vakioita, niin E(a1X1 + a2X2 + ... + anXn ) = a1E(X1)+a2E(X2)+...+ anE(Xn) D2(a1X1 + a2X2 + ... + anXn ) = a12D2(X1)+a22D2(X2)+...+ an2D2(Xn) 6. Jos g(X) on satunnaismuuttujan X funktio, niin g(X) on myös satunnaismuuttuja, jonka jakauma määräytyy X:n jakaumasta ja E(g(X)) = ∑ g( x ) p( x ) , i i kun X diskreetti i ∞ ∫ g( x)f ( x)dx , E(g(X)) = kun X jatkuva. −∞ Esimerkki 3.4. Olkoon X koneen käyttökatkojen määrä vuorokaudessa, jakaumana p(0) = 0.45 p(1) = 0.30 p(2) = 0.15 p(3) = 0.06 p(4) = 0.04 4 Odotusarvo: µ = EX = ∑ x p( x ) = 0·0.45 + 1·0.3 + 2·0.15 + 3·0.06 + 4·0.04 = 0.94 x=0 4 Varianssi: σ 2 = D 2 X = ∑ x 2 p( x ) − µ 2 x =0 2 = 0 ·0.45 + 1 ·0.3 + 22·0.15 + 32·0.06 + 44·0.04 –0.942 = 1.1964 Hajonta: 2 = 1.0938 Jos yhdestä käyttökatkosta aiheutuu kiinteä kustannus, esim. 50 €, niin kustannusten C = 50X odotusarvo on E(C) = E(50X) = 50 E(X) = 47 €vuorokaudessa. 23 Esimerkki 3.5. Lasketaan bensiinin lyijypitoisuuden odotusarvo esimerkin 3.3. jakaumasta. µ= 0.5 0.5 0.1 0.1 ∫ x(12.5x − 1.25)dx = / ( 12.5 3 1.25 2 x − x )= 3 2 12.5 3 1.25 2 12.5 3 1.25 2 0.5 − 0.5 − 0.1 − 0.1 = 0.3667 g/l. 2 2 3 3 Laske lyijypitoisuuden hajonta. Vastaus: = 0.0940 g/l. Esimerkki 3.6. Olkoon X nopan heiton tulos. Laske satunnaismuuttujan g(X) = 1/X odotusarvo. X:n jakauma on p(x) = 1/6, x=1,2,3,4,5,6. Ominaisuuden 6 mukaan 1 1 1 1 1 1 49 1 6 1 E = ∑ p(x ) = ⋅ + ⋅ + ... + ⋅ = = 0.4083 1 6 2 6 6 6 120 X x =1 x Huomautus: EX = 3.5, joten E(1/X) 1 / EX. 3.4. DISKREETTEJÄ JAKAUMIA 3.4.1. BINOMIJAKAUMA Bernoullin koe on satunnaiskoe, jolla on kaksi vaihtoehtoista tulosta: tapahtuma A sattuu tai ei. Tulokset voivat olla esim. koe onnistuu tai ei, tuote viallinen tai ei, kytkin kiinni tai auki jne. Olkoon satunnaismuuttuja 1, kun A tapahtuu X= 0, kun A ei tapahdu Jos A tapahtuu todennäköisyydellä p, niin X noudattaa Bernoullin jakaumaa parametrilla p, merk. X ~ Bernoulli(p). Sen pistetodennäköisyysfunktio on P(X=0) = 1 –p P(X=1) = p Toistetaan n kertaa koetta, jossa tapahtuman A todennäköisyys on p, siten että toistot ovat riippumattomia. Tapahtuman A esiintymiskertojen lukumäärä n:n kokeen joukossa noudattaa tällöin binomijakaumaa parametrein n ja p. Jakauman pistetodennäköisyysfunktio on n P(X = x ) = p x (1 − p) n − x x Merkintä: X ~ Bin(n, p) x = 0,1,...,n Luetaan: ”X noudattaa binomijakaumaa parametrein n ja p” 24 Odotusarvo: Varianssi: EX = np D2X = np(1-p) Todennäköisyyden laskentakaava perustellaan seuraavan esimerkin yhteydessä. Huom. Bin(1,p)-jakauma on sama kuin Bernoulli(p)-jakauma ja Bin(n, p)-satunnaismuuttuja on n:n riippumattoman Bernoulli(p)-satunnaismuuttujan summa. Odotusarvon ja varianssin kaava voidaan osoittaa helposti Bernoullin jakauman avulla. Esimerkki 3.7. Olkoon X viallisten lamppujen määrä 4 kappaleen rasiassa. Oletetaan, että tuotantoprosessissa syntyy viallisia lamppuja keskimäärin 10 %. Kyseessä on tällöin toistokoe, missä n = 4 ja viallisen lampun todennäköisyys p = 0.1. Kokeita voidaan pitää riippumattomina, olettaen että lamput on poimittu sattumanvaraisesti. Viallisten määrä noudattaa siis binomijakaumaa Bin(4, 0.1). Perustelu todennäköisyydelle: Alkeistapahtumat ovat {kkkk,kkkv,kkvk,kvkk,vkkk,kkvv,kvkv,kvvk,vkkv,vkvk,vvkk,kvvv,vkvv,vvkv,vvvk,vvvv} (24 = 16 alkeistapausta) Koska lamput toisistaan riippumattomia saadaan alkeistapahtumien todennäköisyydet tuloina. P(kkkk) = (1-p)4 = 0.94 P(kkkv) = p(1-p)3 = 0.1·0.93 P(kkvv) = p2(1-p)2 = 0.12·0.92 jne. (sama kaikille tapauksille joissa 1 viallinen, 3 kunnollista) (sama kaikille tapauksille joissa 2 viallista, 2 kunnollista) 4 Esim. P(X=2) = P({kkvv,kvkv,kvvk,vkkv,vkvk,vvkk})= 6·0.12·0.92 = ·0.12·0.92 = 0.0486. 2 Yleinen tapaus: Kunkin alkeistapauksen, jossa tapahtuma sattuu x kertaa, todennäköisyys on px(1-p)n-x. n Tällaisia alkeistapauksia on kpl, josta seuraa binomitodennäköisyyden kaava.. x Binomijakauman todennäköisyyksiä ja kertymäfunktion arvoja on taulukoitu joillakin parametrien n ja p arvoilla. Edellisen tehtävän todennäköisyydet saadaan suoraan taulukoista, esim. Kaksi viallista P(X=2) = 0.0486 Korkeintaan 2 viallista P(X 2) = F(2) = 0.9963 (todennäköisyystaulukko) (kertymäfunktion taulukko) 3.4.2. POISSON-JAKAUMA Olkoon satunnaismuuttuja X toisistaan riippumattomien, sattumanvaraisten tapahtumien lukumäärä aikayksikössä tai muussa mittayksikössä, kun tapahtumilla on keskimääräinen tiheys . Tällaisen satunnaismuuttujan jakaumaksi sopii usein Poisson-jakauma. Esimerkkejä Poisson-jakautuneista satunnaismuuttujista: - puhelinkeskukseen tai palvelunumeroon saapuvien puheluiden lkm/min - ensiapuasemalle saapuvien asiakkaiden lukumäärä vuorokaudessa 25 - ainemäärässä tapahtuvien radioaktiivisten hajoamisten lkm/min - vakavien lento-onnettomuuksien määrä vuodessa (kun riski ei olennaisesti muutu) - painovirheiden lkm / kirjan sivu - bakteerien lkm / tilavuusyksikkö nestettä Satunnaismuuttuja X noudattaa Poisson-jakaumaa parametrilla köisyysfunktio on λx −λ P( X = x ) = e x! , jos sen pistetodennä- x = 0,1,2,... Merkintä: X ~ Poisson( ) tai X ~ P( ) Odotusarvo: Varianssi: EX = D2X = Poisson-jakauman todennäköisyyksiä P(X = x) ja kertymäfunktion arvoja F(x) = P(X löytyy taulukoista joillakin parametriarvoilla. x) Esim. jos X ~ Poisson(3.5), niin P(X = 4) = 0.1888 tai laskemalla P(X = 4) = P(X (todennäköisyystaulukko) λ4 −λ 3.5 4 −3.5 e = e = 0.1888 4! 4! 4) = F(4) = 0.7254 (kertymäfunktion taulukko) Poisson-jakauma Binomijakauman rajajakaumana: Kun binomijakaumassa n ja np pysyy vakiona (eli samalla p n x (np ) x −np p (1 − p) n − x → e x! x 0), niin x = 0,1,2,... Kun n on suuri ja p vastaavsti pieni, voidaan binomitodennäköisyyksiä approksimoida Poisson-todennäköisyyksillä, parametrina = np. Esimerkiksi harvinaisten tapahtumien A määrän todennäköisyyksien approksimointi suuressa populaatiossa, esim. harvinaiseen, sattumanvaraisesti iskevään tautiin sairastuvien määrä suurkaupungissa / vuosi (kun kyseessä ei tartuntatauti). Ks. Esimerkki 3.16. luvussa 3.5.6. YLEISESTI: Poisson-jakauma sopii lukumäärän jakaumaksi tilanteisiin, jossa tapahtumien keskimääräinen tiheys ei muutu minkään toimenpiteen johdosta, mutta yksittäiset tapahtumat sattuvat täysin sattumanvaraisesti, toisistaan riippumatta, eikä niitä voida ennustaa (esim. onnettomuudet, palvelupisteeseen saapuvat asiakkaat). Tällaista tapahtumien jonoa kutsutaan Poissonprosessiksi ja parametri on prosessin intensiteetti. 26 YHTEENLASKUOMINAISUUS: Jos X ~ Poisson( 1) ja Y ~ Poisson( 2) ja X ja Y ovat riippumattomat, niin X+Y ~ Poisson( 1 2) YLEISTYS: Olkoon satunnaismuuttuja X tiettyjen tapausten A määrä aikayksikössä ja X ~ Poisson( ). Jos satunnaismuuttuja Xt = tapausten A määrä t aikayksikössä (t>0) ja aikavälit ovat toisistaan riippumattomat, niin Xt ~ Poisson( t ). Esimerkki 3.8. Ydinvoimalassa sattuu havaittavissa oleva radioaktiivinen päästö satunnaisesti, keskimäärin kaksi kertaa kuussa. Päästöjen lukumäärän aikayksikössä voidaan katsoa noudattavan Poisson-jakaumaa. Perustelu jakaumalle: päästöjä tulee sattumanvaraisesti toisistaan riippumatta, keskimääräisellä tiheydellä =2 kertaa kuussa, niitä ei voida ennustaa etukäteen. Päästöjen lkm kuussa X ~ Poisson(2) EX = = 2 a) Millä todennäköisyydellä kuukauden aikana sattuu vähintään neljä päästöä? P(X 4) = 1 –P(X 3) = 1 –F(3) = 1 –0.8571 = 0.1429 (kertymäfunktion taulukosta) b) Millä todennäköisyydellä kahden kuukauden aikana sattuu vähintään kahdeksan päästöä? Olkoon X2 = päästöjen lkm 2 kk:ssa: X2 ~ Poisson(2 ) = Poisson(4) P(X2 8) = 1 –P(X2 7) = 1 –F(7) = 1 –0.9489 = 0.0511 (kertymäfunktion taulukosta) c) Millä todennäköisyydellä ensimmäinen päästö havaitaan aikaisintaan kolmen kuukauden kuluttua? P(”ensimmäinen päästö aikaisintaan 3 kk:n kuluttua”) = P(”ei yhtään päästöä 3 kk:n aikana”) Olkoon X3 = päästöjen lkm 3 kk:ssa: X3 ~ Poisson(3 ) = Poisson(6) 6 k −6 P(X3 = k) = e k! Kysytty todennäköisyys on P(X3 = 0) = e-6 = 0.0025 27 d) Johda ensimmäiseen päästöhavaintoon kuluvan ajan jakauma (jatkuva jakauma!). Olkoon T ensimmäisen päästöhavaintoon kuluva aika kuukausina. Johdetaan T:n kertymäfunktio. F(t) = P(T t) = 1 –P(T > t) = 1 –P(”ensimmäinen päästö aikaisintaan t kk:n kuluttua”) = 1 –P(”ei yhtään päästöä t kk:n aikana”) Olkoon Xt = päästöjen lkm t kk:ssa, Xt ~ Poisson( t) = Poisson(2t) (2t ) k −2t P(Xt = k) = e k! Kertymäfunktio on F(t) = 1 –P(Xt = 0) = 1 –e-2t kun t > 0 Tiheysfunktio on f(t) = F´(t) = 2e-2t kun t > 0 Tämä on luvussa 3.5 käsiteltävän eksponentiaalijakauman tiheysfunktio. 3.4.3. MUITA DISKREETTEJÄ JAKAUMIA Diskreetti tasajakauma: Kun satunnaismuuttujalla X on äärellinen määrä arvoja, jotka ovat kaikki yhtä todennäköisiä, X noudattaa diskreettiä tasajakaumaa. Esim. nopan heiton tulos, jonka pistetodennäköisyydet ovat P(X = x) = 1/6, x = 1,2,3,4,5,6. Hypergeometrinen jakauma: Esimerkit 2.8.-2.9. Geometrinen jakauma: Oletetaan, että jossain satunnaiskokeessa tuloksen A todennäköisyys on p. Kokeita toistetaan niin kauan, kunnes saadaan ensimmäisen kerran tulos A. Tarvittavien kokeiden määrä X noudattaa tällöin geometrista jakaumaa parametrilla p: X ~ Geom(p) Esimerkki 3.9. Heitetään noppaa niin kauan, että saadaan ensimmäinen kuutonen. Olkoon satunnaismuuttuja X tarvittavien heittojen lukumäärä. Johda X:n jakauma. 3.5. JATKUVIA JAKAUMIA 3.5.1. TASAJAKAUMA Satunnaismuuttuja X, jonka arvot ovat välillä (a, b) siten, että kaikilla välin pisteillä on yhtäläinen mahdollisuus tulla valituksi, noudattaa tasajakaumaa välillä (a,b), merk. X ~ U(a, b). Esim. taskulaskimen satunnaislukugeneraattori antaa välille (0, 1) tasanjakautuneita arvoja. Arvoväli voi olla avoin, puoliavoin tai suljettu (koska yhden pisteen todennäköisyys on 0, reunapisteillä ei ole merkitystä). 28 Jakauman U(a, b) tiheysfunktio: 1 kun a < x < b f (x) = b − a 0 muualla Kertymäfunktio: kun x ≤ a 0 x - a F( x ) = kun a < x < b b - a kun x ≥ b 1 Odotusarvo: Varianssi: a+b 2 (b − a ) 2 D2X = 12 EX = 3.5.2. EKSPONENTIAALIJAKAUMA Satunnaismuuttuja X noudattaa eksponentiaalijakaumaa parametrilla , merk. X ~ Exp( ), jos sen tiheysfunktio on muotoa f ( x ) = λ e − λx kun x > 0 (0 muualla) Exponential Distribution Mean 0,5 2 density 1,6 1,2 0,8 0,4 0 0 0,5 1 1,5 x 29 2 Kertymäfunktio: F( x ) = 1 − e − λx Odotusarvo: Varianssi: kun x > 0. EX = 1 / D2X = 1 / 2 Eksponentiaalijakauma on yleinen mm. kestoiän tai vikaantumisajan jakaumana tekniikassa, saapumis- ja palveluaikajakaumana jonosysteemeissä, esim. tietoliikenteessä. Yleisesti: Tietyllä keskimääräisellä tiheydellä tapahtuvien keskenään riippumattomien, sattumanvaraisten tapausten aikavälin voidaan usein sanoa noudattavan eksponentiaalijakaumaa. Esim. radioaktiivisten hajoamisten aikaväli ainemäärässä, puhelinkeskukseen saapuvien peräkkäisten puhelujen välinen aika jne. Eksponentiaalijakaumalla on seuraava "menneisyyden unohtamisominaisuus" eli muistittomuus: Jos X ~ Exp( ), niin kaikille luvuille t, h > 0 pätee, että P(X > t+h | X t) = P(X > h). Jos X on esim. tuotteen kestoikä, niin todennäköisyys sille, että jo käytössä ollut tuote kestää vielä h aikayksikköä ei riipu tähänastisesta kestosta t. Tämä ominaisuus kertoo olennaisesti, millaisten tapausten malliksi eksponentiaalijakauma sopii. Eksponentiaalijakaumaa yleisempi kestoiän jakauma on Weibullin jakauma, joka ottaa huomioon myös ns. lastentaudit ja vanhenemisen. Eksponentiaalijakauman ja Poisson-jakauman yhteys: Jos X = keskenään riippumattomien tapahtumien A lukumäärä aikayksikössä T = kahden peräkkäisen tapahtuman A välinen aika, niin X ~ Poisson( ) ⇔ T ~ Exp( ). T voi olla myös ensimmäisen tapahtuman sattumisaika, kun kello käynnistetään mielivaltaisella ajanhetkellä. Esimerkki 3.10. Suurkaupungin eräs paloasema saa hälytyksen keskimäärin 7 tunnin välein. a) Mikä voisi olla hälytysten välisen ajan jakauma ja miksi? Koska hälytykset sattuvat toisistaan riippumatta, sattumanvaraisesti keskimääräisellä vakiotiheydellä, niiden lukumäärän voi katsoa noudattavan Poisson-jakaumaa ja hälytysten välinen aika T noudattaa eksponentiaalijakaumaa, odotusarvona ET = 1/ = 7 ⇒ = 1/7. Jakauman kertymäfunktio on F(t) = P(T t) = 1 –e-t/7 , kun t > 0. b) Millä todennäköisyydellä hälytyksen jälkeen kuluu alle 3 tuntia seuraavaan? P(T < 3) = P(T 3) = F(3) = 1 –e-3/7 0.35 30 c) Jos edellisestä hälytyksestä on kulunut jo 3 tuntia, millä todennäköisyydellä seuraavaan kuluu vielä ainakin 2 tuntia? P(T 3+2 | T 2) = 1 –F(2) = e-2/7 3) = P(T 0.75 3.5.3. NORMAALIJAKAUMA Normaalijakauma on tärkein jatkuvien satunnaismuuttujien jakauma. Sen tiheysfunktion kuvaajaa kutsutaan Gaussin käyräksi tai kellokäyräksi, jonka sijainti ja muoto riippuvat kahdesta parametrista, odotusarvosta ja varianssista 2 (tai hajonnasta ). 2 Satunnaismuuttuja X noudattaa normaalijakaumaa parametrein µ ja X ~ N( , 2 , merk. ) jos X:n tiheysfunktio on muotoa f (x) = Odotusarvo: Varianssi: 1 2 πσ e EX = µ D2X = − ( x −µ ) 2 2σ2 2 OMINAISUUKSIA: •Odotusarvo määrää tiheysfunktion keskikohdan ja huippukohdan, jonka suhteen funktio on symmetrinen. •Varianssi 2 tai hajonta määrää käyrän muodon: mitä suurempi , sitä laveampi ja matalampi jakauman muoto; mitä pienempi , sitä jyrkempi ja kapeampi muoto. •Tiheysfunktion ja x-akselin väliin jäävä pinta-ala eli integraali yli koko reaaliakselin on 1 (kuten kaikilla jatkuvilla jakaumilla). •Arvot kasautuvat keskelle: mitä kauempana keskikohdasta, sitä harvinaisempia •Tiheysfunktio f(x) > 0 koko reaaliakselilla, mutta esim. sellaisia arvoja, jotka ovat yli 3 hajonnan etäisyydellä keskikohdasta, on alle 0.3 %. Tässä kahden normaalijakauman tiheysfunktioiden kuvaajat, parametreilla 1) µ=1, 2=4 (vasemmanpuoleinen käyrä) 2) µ=3, 2=1 (oikeanpuoleinen käyrä) Normal Distribution Mean,Std. dev. 1,2 3,1 0,4 density 0,3 0,2 0,1 0 -8 -6 -4 -2 0 2 4 x 31 6 8 10 Jakauman kertymäfunktiota x − 1 F( x ) = P(X≤ x ) = e ∫ 2πσ − ∞ ei voida lausua suljetussa muodossa ( t −µ ) 2 2σ2 dt Esimerkkejä normaalijakautuneista satunnaismuuttujista: •jatkuvien suureiden mittausvirheet •teollisuusprosessissa valmistetun tuotteen laatua mittaavat jatkuvaluonteiset ominaisuudet kuten paperin puhkaisulujuus tai teräsvaijerin vetolujuus •koneellisesti täytetyn vakiokokoisen säiliön massa: kemikaalit, lannoitteet, elintarvikkeet •keskilämpötila tai sademäärä eräässä mittauspisteessä, tiettynä kuukautena •jonkin eläinpopulaation täysikasvuisten naaraiden tai koiraiden koko tai paino Yleisesti normaalijakauma soveltuu tapauksiin, joissa •symmetrisyys ja em. keskittyneisyys, painottuminen keskikohdan ympärille voimassa •ominaisuus X muodostuu useiden riippumattomien tekijöiden summana (ks. Keskeinen rajaarvolause): esim. tuotteen lujuuteen vaikuttaa useita toisistaan riippumattomia prosessin muuttujia ja häiriöitä sekä materiaalin epätasaisuudesta johtuvia poikkeamia. Normaalijakauman yleisyyden vuoksi monet tilastollisen päättelyn menetelmät (mm. useat testisuureet) pohjautuvat tähän jakaumaan. Normaalijakauman todennäköisyyksien määrittämisessä käytetään ns. standardoitua eli normeerattua satunnaismuuttujaa. STANDARDOITU NORMAALIJAKAUMA: µ = 0, 2 =1 X ~ N(0,1) Normal Distribution Mean,Std. dev. 0,1 0,4 density 0,3 0,2 0,1 0 -4 -2 0 2 x STANDARDOINTI ELI NORMEERAUS: Jos X ~ N(µ, Z= 2 ), niin X−µ ~ N(0, 1) σ 32 4 N(0,1)-JAKAUMAN KERTYMÄFUNKTIO: Φ ( z) = P ( Z ≤ z) = 1 z ∫e 2π − ∞ − t2 2 dt Kuten muillekin jatkuville satunnaismuuttujille, kertymäfunktion arvo pisteessä z on pintaala, joka jää vaaka-akselin ja tiheysfunktion väliin alarajalta - pisteeseen z asti. Normaalijakauman kertymäfunktiota ei voida lausua suljetussa muodossa, arvot lasketaan numeerisesti. todennäköisyyksien ja erilaisten jakaumapisteiden (fraktiilien) arvoja saa taulukoista, laskimella tai tietokoneohjelmilla. Ennen taulukoiden käyttöä on aina suoritettava arvojen standardointi eli normeeraus. Taulukoista saadaan kertymäfunktion (z) arvoja positiivisilla z. Koska tiheysfunktio on symmetrinen origon suhteen, on (–z) = 1 – (z). TODENNÄKÖISYYKSIEN LASKEMINEN: Olkoon X ~ N(µ, 2 ) ja Z = (X- µ)/ , jolloin Z ~ N(0,1). Olkoon a ja b reaalilukuja. Silloin a −µ X−µ a −µ a −µ P( X ≤ a ) = P ≤ = P Z ≤ = Φ σ σ σ σ b−µ a −µ X −µ b −µ a −µ b−µ a −µ P ( a ≤ X ≤ b ) = P ≤ ≤ ≤Z≤ = P = Φ − Φ σ σ σ σ σ σ σ Huomautuksia: •Normaalijakauman todennäköisyyslausekkeet pyritään aina saattamaan muotoon jossa on kertymäfunktio (z) = P(Z z) positiivisella arvolla z > 0. Silloin voidaan käyttää taulukoita. •Älä opettele edellisiä kaavoja ulkoa! Esimerkki 3.11. Normaalijakauman taulukoiden käyttö: a) Oletetaan, että X ~ N(0,1). Määrää tapahtumien X 1.96, |X| 1.35 ja X -2 todennäköisyydet. b) Oletetaan, että X ~ N(3, 22). Laske todennäköisyydet P(X 5) ja P(1.5 X 3.0). c) Oletetaan, että X ~ N(3, 22). Määrää luku c siten, että P(X c) = 0.10. Ratkaisu: a) X ~ N(0,1). P(X 1.96) = (1.96) = 0.9750 33 P(|X| 1.35) = P(X 1.35 tai X = 2 P(X –1.35) = P(X 1.35) + P(X –1.35) 1.35) = 2 [1 –P(X (symmetria) 1.35)] = 2 [ 1 – (1.35)] = 2(1 –0.9115) = 0.1770 P(X –2) = (–2.00) = 1 – (2.00) = 1 –0.9772 = 0.0228 b) X ~ N(3, 22) Standardoitu muuttuja Z = P(X P(1.5 X−µ X−3 = ~ N(0, 1) σ 2 X −3 5−3 ≤ 5) = P = P(Z 2 2 X 1) = (1.00) = 0.8413 1.5 − 3 X − 3 3 − 3 3.0) = P ≤ ≤ = P(–0.75 2 2 2 = P(0 Z 0.75) Z 0) = (0.75) – (0) = 0.7734 –0.5 = 0.2734 c) X ~ N(3, 22). c − 3 c −3 c − 3 P(X c) = P Z ≥ = 1 − P Z ≤ = 1 − Φ = 0.10 2 2 2 c −3 ⇒ Φ = 0.90 2 Taulukko: (1.2816) = 0.90 Merkitään z0.90 = 1.2816, jakauman 0.9-fraktiili. 34 (symmetria) c−3 = 1.2816 2 ⇒ c = 5.5632 ⇒ Esimerkki 3.12. Erään ammattiryhmän vuositulot ovat normaalisti jakautuneet, keskiansiona µ = 30 264 €ja hajontana = 2 437 €. a) Kuinka suuri osuus ammattikunnasta jää vuositulorajan 25 000 €alapuolelle? Merkitään ko. ammatin harjoittajan vuosituloa satunnaismuuttujalla X. X − µ X − 30264 X ~ N(30264, 24372) ⇒ Z= = ~ N (0, 1) σ 2437 Kysytty osuus on 25000 − 30264 X − µ 25000 − µ P(X ≤ 25000) = P ≤ = P Z ≤ 2437 σ σ = P(Z –2.16) = (–2.16) = 1 – (2.16) = 1 –0.9846 = 0.0154 eli noin 1.5 %. b) Määritä tuloraja, jonka alapuolelle jää 25 % ammattikunnasta. Kysytty tuloraja q toteuttaa ehdon P(X q) = 0.25, josta q − 30264 X−µ q−µ q − 30264 ≤ P( X ≤ q ) = P = P Z ≤ = Φ = 0.25 σ 2437 σ 2437 Standardoitu tuloraja on nyt negatiivisella puolella (piirrä kuva). q − 30264 30264 − q Φ = 1 − Φ = 0.25 ⇔ 2437 2437 30264 − q Φ = 0.75 2437 Normaalijakauman taulukon perusteella (0.6745) = 0.75, joten (30264 –q) / 2437 = 0.6745, josta saadaan tulorajaksi q = 28 620 €. Normaalijakautuneiden muuttujien lineaariset muunnokset noudattavat myös normaalijakaumaa. Odotusarvo ja varianssi muodostuvat kuten lineaarikombinaatioille yleensäkin (luku 3.3). 35 2 2 ) 2 2 ) 2 2 ) 1. Jos X ~ N(µ1, 12) ja Y ~ N(µ2, X + Y ~ N(µ1+µ2, 12 X –Y ~ N(µ1–µ2, 12 2. Jos X ~ N( , 2) ja a ja b ovat vakioita, niin aX ~ N(a , a2 2) aX + b ~ N(a +b, a2 2) 3. Yleisesti: Jos Xi ~ N(µi, niin 2 i ), toisistaan riippumatta, niin i=1,… ,n, toisistaan riippumatta ja a1,...,an ovat vakioita, 2 a1X1 + a2X2 + ... + anXn ~ N(µ, missä µ = a1 1+a2 2+...+ an n 2 = a12 12 +a22 22+...+ an2 ) 2 n Jos Xi ~ N(µ, 2), i=1,… ,n, niin näiden keskiarvomuuttuja 1 n X = ∑ X i ~ N ( µ, σ 2 / n ) n i =1 4. Esimerkki 3.13. Kuvan kappaleen 2 olisi mahduttava kappaleen 1 uraan. Kappaleen 1 uran leveys on normaalijakautunut satunnaismuuttuja, odotusarvona 6.0 cm ja hajontana 0.07 cm. Kappaleen 2 leveys on myös normaalijakautunut satunnaismuuttuja, hajontana 0.03 cm. Leveyden odotusarvoa voidaan säätää. Kuinka suuri odotusarvo saa olla, jotta mahtumistodennäköisyys olisi 95%? Uran leveys Kappaleen leveys X1 ~ N(6, 0.072) X2 ~ N(µ, 0.032) Mahtumistodennäköisyys: P(X1 > X2) = P(X1–X2 > 0) Erotusmuuttuja Y = X1 –X2 ~ N( Y 2 Y ), missä = E(Y) = E(X1) –E(X2) = 6 –µ 2 2 2 2 2 Y = D (Y) = D (X1) + D (X2) = 0.07 + 0.03 = 0.0058 Y 2 Standardoitu muuttuja Z= Y − (6 − µ) 0.0058 ~ N(0,1) 36 0 − ( 6 − µ) = P Z > P(X 1 − X 2 > 0) = P(Y > 0) = P Z > 0.0058 µ−6 = 0.95 0.0058 Jotta voidaan käyttää taulukoita, tämä on lausuttava kertymäfunktion (z) = P(Z µ−6 Arvo on negatiivinen. Symmetrian perusteella (piirrä kuva!) 0.0058 6−µ 6−µ = 0.95 ⇔ Φ P Z < = 0.95 0.0058 0.0058 z) avulla. Normaalijakauman taulukon perusteella (1.6449) = 0.95, joten 6−µ = 1.6449 ⇒ µ = 6 − 1.6449 0.0058 = 5.87 cm. 0.0058 3.5.4. NORMAALIJAKAUMAAN LIITTYVIÄ JAKAUMIA Seuraavilla erikoisjakaumilla on käyttöä tilastollisessa päättelyssä, parametrien luottamusväleissä ja testauksessa. Nämä satunnaismuuttujat määritellään eräinä normaalijakaumaa noudattavien satunnaismuuttujien epälineaarisina funktioina ja niiden tiheysfunktiot voidaan johtaa teoreettisesti. Kertymäfunktioita ei voida lausua suljetussa muodossa. Jakaumapisteitä (fraktiileja) saadaan taulukoista, laskimella tai tilastollisilla ohjelmistoilla. Seuraavien jakaumien parametreja kutsutaan vapausasteiksi (degrees of freedom, df). 2 -JAKAUMA Jos X1,… ,Xv ovat riippumattomia, N(0,1)-jakautuneita satunnaismuuttujia, niin satunnaismuuttuja K = X12 + … + Xv2 noudattaa 2 -jakaumaa ( 2 ”khiin neliö”) vapausastein v, merk. K ~ 2 (v) t-JAKAUMA ELI STUDENTIN JAKAUMA Jos Z, X1,… ,Xv ovat riippumattomia, N(0,1)-jakautuneita satunnaismuuttuja, niin T= Z (X 1 + ... + X v ) / v 2 2 37 noudattaa t-jakaumaa eli Studentin jakaumaa vapausastein v, merk. T ~ t(v). Tiheysfunktio on symmetrinen 0:n suhteen ja lähenee N(0,1)-jakauman tiheysfunktiota kun . Symmetrian takia P(T t) = p ⇔ P(T t) = 1 –p ⇔ P(T –t) = 1 –p 3.5.5. JAKAUMIEN p-PISTEET Jakauman p-piste eli p-fraktiili, p-kvantiili on se lukuarvo xp, •jolla kertymäfunktio saa arvon p: F(xp) = p •jolla tiheysfunktion ja x-akselin väliin jäävä pinta-ala välillä (- , xp) on p •jota pienempiä tai yhtäsuuria arvoja esiintyy 100 p %. Näitä on taulukoitu yleisimmille jatkuville jakaumille. Fraktiileja voidaan merkitä seuraavasti: 1) Jos Z ~ N(0,1), niin jakauman p-piste on luku zp, jolla P(Z zp) = (zp) = p. 38 2) Jos K ~ P(K 2 2 (v), niin jakauman p-piste on luku p(v)) = F( 2 p(v)) 2 p(v), jolla =p 3) Jos T ~ t(v), niin jakauman p-piste on luku tp(v), jolla P(T tp(v)) = F(tp(v) = p. Huom. 0-symmetrian perusteella t1-p(v) = –tp(v) Huomautuksia: •Joissakin kirjoissa ja taulukoissa käytetään päinvastoin merkintää zp (vast. muut jakaumat) pisteestä jota suurempia arvoja on 100p %. Tarkista aina merkinnät! •Samaa symboli eri merkityksissä: esim. 2 voi olla satunnaismuuttujan nimi tai sen arvo, 2 (v) sen jakauman symboli ja 2p(v) sen p-fraktiilin arvo. Esimerkki 3.14. Taulukoiden käyttöä: a) Etsi jakaumapisteet t.975(13), 2.05(19). b) Olkoon T ~ t(7), K ~ 2(16). Määrää luvut a, b ja c siten, että P(T P(K b) = 0.01 ja P(K c) = 0.01. c) Arvioi todennäköisyyttä, että X 20, kun X ~ 2(7). Ratkaisu: a) t.975(13) on piste, jossa t(13)-jakauman kertymäfunktio on 0.975. BETAn taulukko t-distribution: joten F(2.160) = 0.975 t.975(13) = 2.160 39 a) = 0.01, 2 .05(19) on piste, jossa BETA:n taulukko 2 joten .05(19) b) T ~ t(7) 2 2 (19)-jakauman kertymäfunktio on 0.05 -distribution: F(10.12) = 0.05 = 10.12 P(T a) = F(a) = 0.01 Koska tiheysfunktio on symmetrinen ja 0-keskinen, on oltava a < 0. Symmetrian takia P(T -a) = 0.01 ⇔ P(T -a) = 0.99 eli F(-a) = 0.99 ⇔ -a = t.99(7) = 2.998 ⇔ a = -2.998 K~ P(K ⇔ 2 (16). P(K b) = 0.01 ja P(K c) = 0.01. b) = 0.01 eli F(b) = 0.01 b= 2 0.01(16) = 5.812 40 P(K ⇔ c) = 0.01 ⇔ P(K F(c) = 0.99 c= c) X ~ c) = 0.99 eli 2 2 .99(16) = 32.00 (7) P(X 20) = F(20) = ? Taulukko: P(X P(X 18.48) = F(18.48) = 0.99 20.28) = F(20.28) = 0.995 joten 0.99 F(20) 0.995 Kertymäfunktion arvo F(20) on kuvassa valkoisen alueen pinta-ala: Arvio: F(20) 0.994 Excelin CHIDIST-funktio (CHIJAKAUMA): =chidist(20;7) antaa komplementtitodennäköisyyden P(X 20) = 0.00557, josta P(X 20) = 1 –0.00557 = 0.99443. 3.5.6. KESKEINEN RAJA-ARVOLAUSE KESKEINEN RAJA-ARVOLAUSE (Central Limit Theorem): Kun X1, X2, ... , Xn ovat riippumattomia, samaa jakaumaa noudattavia satunnaismuuttujia, joilla on äärellinen odotusarvo EXi = ja varianssi D2Xi = 2, i=1,2, ...,n, niin suurilla n:n arvoilla niiden summamuuttuja Sn = X1 + X2 + ... + Xn noudattaa likimain normaalijakaumaa, merkitään X1 + X2 + ... + Xn ~a N(n , n 2). Sanotaan että summamuuttujien jono on asymptoottisesti normaalinen, mikä tarkoittaa että muuttujan Sn kertymäfunktio lähenee joka pisteessä normaalijakauman kertymäfunktiota, kun n . 41 Samoin oletuksin kuin edellä, myös keskiarvomuuttuja on asymptoottisesti normaalinen 1 X = (X 1 + X 2 + ... + X n ) ~a N( , 2/n) n Summamuuttujaa koskevia todennäköisyyksiä voidaan approksimoida normaalijakauman kertymäfunktion avulla. Ensin tehdään normeeraus käyttäen summamuuttujan odotusarvoa ja hajontaa. Esimerkki 3.15. Kun satunnaisia reaalilukuja pyöristetään kokonaisluvuiksi, niin yhden luvun pyöristysvirhe noudattaa tasajakaumaa välillä (-0.5, 0.5). On laskettava yhteen 60 reaalilukua, jotka pyöristetään ennen yhteenlaskua kokonaisluvuiksi. Millä todennäköisyydellä summan virhe on itseisarvoltaan korkeintaan 2.0? Summattavat luvut Ai = Bi + Xi, i=1,...,n missä Bi = tarkka arvo, Ai = pyöristetty arvo, Xi = pyöristysvirhe n n n ∑A = ∑B + ∑X Summa: i =1 i i =1 i i =1 i n X = ∑ Xi Summan virhe: i =1 missä n = 60 Xi ~ U(-0.5, 0.5), i=1,...,n a + b − 0.5 + 0.5 = =0 2 2 (b − a ) 2 (0.5 − (−0.5)) 2 1 2 = D2Xi = = = 12 12 12 = EXi = Koska n suuri ja Xi:den jakauma symmetrinen, niin summamuuttuja X noudattaa likimain normaalijakaumaa parametrein EX = EX1 + … + EXn = n = 60⋅0 = 0 D2X = D2X1 + … + D2Xn = n X ~a N(0,5) ⇒ Z = 2 = 60 / 12 = 5 X ~a N(0,1) 5 P(|X| ≤ 2) = P(-2 ≤ X ≤ 2) = P(-2/√5 ≤ Z ≤ 2/√5) = P(-0.8944 ≤ Z ≤ 0.8944) ≈ (0.89) – (-0.89) = (0.89) –[1– (0.89)] = 2 (0.89) –1 = 2⋅0.8133 –1 = 0.6266 Keskeisestä raja-arvolauseesta on useita versioita eri oletuksin. KESKEISEN RAJA-ARVOLAUSEEN YLEINEN MUOTO: Kun X1, X2, ... , Xn ovat riippumattomia satunnaismuuttujia, odotusarvoina EXi = riansseina D2Xi = i2 niin suurilla n:n arvoilla (tietyin oletuksin) 42 i ja va- X1 + X2+ ... + Xn ~a N( , missä = 1 + 2 + ... + n ja 2 = 2 ) 2 1 + 2 2 + ... + 2 n . Muuttujien ei siis tarvitse noudattaa samaa jakaumaa! Milloin keskeistä raja-arvolausetta voi soveltaa? •Summattavien lukumäärä n 30 on yleensä riittävä. •Periaatteessa approksimaatio on sitä tarkempi, mitä symmetrisempi X i:den jakauma on. •Approksimaation virhe on sitä pienempi, mitä suurempi n ja mitä symmetrisempi summattavien jakauma. •Useille summamuuttujille normaalijakauma-approksimaatio on käytännössä ainoa keino todennäköisyyksien laskemiseksi. Yleisesti summa ei noudata samaa jakaumaa kuin summattavat ja summamuuttujan tarkka jakauma saattaa olla varsin hankala määrittää. BINOMIJAKAUMAN NORMAALIJAKAUMA-APPROKSIMAATIO Olkoon X ~ Bin(n, p). X voidaan esittää muodossa X = X1 + X2 + ... + Xn, missä Xi on Bernoullin kokeen tulos: P(Xi = 1) = p ja P(Xi = 0) = 1–p. X on tutkittavan tuloksen esiintymisten lukumäärä n:n kokeen joukossa, odotusarvona EX = np ja varianssina D2X = np(1-p) Kun n on tarpeeksi suuri, niin keskeisen raja-arvolauseen perusteella X ~a N(np, np(1-p)) joten binomijakauman kertymäfunktiota voidaan tarvittaessa approksimoida normaalijakauman avulla. Suhteellista osuutta p koskevassa tilastollisessa päättelyssä käytetään satunnaismuuttujaa P=X/n, joka on myös asymptoottisesti normaalinen: P ~a N(p, p(1-p)/n). Standardoimalla saadaan tulos X − np = np(1 − p) P−p ~a N(0,1) p(1 − p) / n Milloin voidaan käyttää Poisson- milloin normaalijakauma-approksimaatiota? •Poisson-jakauma-approksimaatio sopii, kun n on suuri ja p pieni. •Normaalijakauma-approksimaatio sopii, kun p on lähellä arvoa 0.5, jolloin jakauma lähellä symmetristä. Käytännössä riittää, että n on niin suuri, että np(1-p) > 9. JATKUVUUSKORJAUS Kun normaalijakaumalla approksimoidaan diskreettiä jakaumaa, kuten Bin(n, p), voidaan approksimaatiota tarkentaa seuraavasti: Olkoon X satunnaismuuttuja, joka saa vain kokonaislukuarvoja. Jos a on kokonaisluku, niin 43 X − µ a + 0.5 − µ a + 0.5 − µ ≤ a+0.5) = P ≈ Φ σ σ σ kun X on likimain normaalinen. P(X a) = P(X Esimerkki 3.16. Tehtaan tuottamista vempaimista on 2 % viallisia. Kauppiaalle lähetetään 500 satunnaista vempainta tarkastamatta. Viallisten määrä X noudattaa silloin jakaumaa Bin(500,0.02). Todennäköisyys, että kauppias saa 10–20 viallista, on binomijakauman mukaan 0.541928 (voi laskea esim. Excelillä). Laske todennäköisyys käyttäen a) Poisson-approksimaatiota b) normaalijakauma-approksimaatiota. a) X ~a Poisson( ), missä = np = 500·0.02 = 10 Jos on käytettävissä Poisson(10)-jakauman kertymäfuntion taulukko tai Excel, saadaan P(10 X 20) = P(X 20) –P(X 9) = F(20) –F(9) 0.998412 –0.457930 0.5405 Jos on käytettävissä Beta-kirjan taulukot, saadaan pistetodennäköisyyksiä summaamalla P(10 X 20) = P(X=10) + P(X=11) + .... + P(X=20) 0.1251+0.1137+...+0.0019 = 0.5405 Muuten laskettava Poisson-todennäköisyyden kaavalla P(10 X 20) = P(X=10) + P(X=11) + .... + P(X=20) (1010/10! + 1011/11! + ... + 1020/20!) e-10 = 0.5405 b) X ~a N( , Z= 2 ), missä µ = np = 10, X − 10 9.8 2 = np(1-p) = 9.8 (>9) ~ a N(0,1) Ilman jatkuvuuskorjausta voidaan laskea kahdella tavalla: 10 − 10 20 − 10 P(10 X 20) = P ≤Z≤ = P(0 Z 3.19) 9.8 9.8 (3.19) – (0) = 0.9993 –0.5 = 0.4993 tai 20 − 10 9 − 10 9) = P Z ≤ – P Z ≤ 9.8 9.8 (3.19) – (-0.32) = (3.19) –[1 – (0.32)] = 0.9993 –(1 –0.6255) = 0.6248 P(10 X 20) = P(X 20) –P(X Tarkempi arvo jatkuvuuskorjausta käyttäen: 9.5 − 10 20.5 − 10 P(10 X 20) = P(9.5 X 20.5) = P ≤Z≤ = P(-0.16 Z 3.35) 9.8 9.8 (3.35) – (-0.16) = (3.35) –[1 – (0.16)] = 0.9996 –(1 –0.5636) = 0.5632 Poisson-approksimaatio oli tässä tapauksessa tarkempi, koska p oli pieni ja jakauma varsin epäsymmetrinen. 44 4. HAVAINTOAINEISTON KUVAAMINEN JA OTOSSUUREET Seuraavissa luvuissa 5-7 tarkastellaan tilastollisen päättelyn menetelmiä. Tilastollinen päättely tarkoittaa yleisesti jotain perusjoukkoa tai ilmiötä koskevien johtopäätösten tekemistä äärellisen havaintoaineiston, otoksen, perusteella. Johtopäätökset voivat koskea tutkittavan muuttujan jakautumista perusjoukossa, muuttujan keskiarvoa tai vaihtelevuutta, ilmiöiden syitä, toimenpiteiden vaikutuksia, tekijöiden riippuvuuksia tai ryhmien välisiä eroja. Havaintoaineiston tilastollista analyysia edeltää otannan suunnittelu, aineiston hankinta ja koodaaminen. 4.1. HAVAINTOAINEISTO: OTOS Otosta tarvitaan, kun koko perusjoukon tutkiminen on mahdotonta esim. seuraavista syistä: •joukko on ääretön tai erittäin suuri •kaikkia joukon alkioita ei tunneta tai voida tavoittaa •tutkimus/mittaaminen on kallista tai aikaa vievää •mittauksen tekeminen voi vahingoittaa tai tuhota tutkimuskohteen. •varmennetaan kokeellisesti jotain ilmiötä koskevaa teoriaa Otoksen poiminta voi käytännössä tarkoittaa •tarkkailevaa havainnointia •kokeiden suorittamista •mittauksia •kyselyjä, haastatteluja •tiedon keräämistä valmiista tietokannoista Otokseen perustuva päättely sisältää virhemahdollisuuksia. Päätelmiin liittyvä epävarmuus on pyrittävä ilmaisemaan johtopäätösten yhteydessä (esim. virhemarginaalit). Terminologiaa: Perusjoukko, populaatio ( ) on tutkimuksen kohdejoukko, josta otos poimitaan. Joissakin tapauksissa sama kuin otosavaruus. Satunnaisotos (tai lyhyesti vain otos) perusjoukosta on sellainen äärellinen joukko :n alkioita, johon jokaisella perusjoukon alkiolla on etukäteen yhtäsuuri valintatodennäköisyys ja valinnat ovat toisistaan riippumattomia. Otokseen valittuja alkioita a 1,...,an kutsutaan tilastoyksiköiksi ja n on otoskoko. Tilastoyksiköistä mitataan/rekisteröidään yhden tai useamman tutkimuskohteena olevan muuttujan arvot. Jos aineisto on suuri ja mitataan useita muuttujia, havaintoaineisto koodataan taulukoksi (havaintomatriisiksi) tilastollista käsittelyä varten. Otos satunnaismuuttujasta: Yhden muuttujan X arvot otoksessa muodostavat jonon satunnaismuuttujia (X1, X2,...,Xn), jotka ovat täydellisesti riippumattomia ja noudattavat samaa jakaumaa. Tätä kutsutaan otokseksi satunnaismuuttujasta X. Otoksen realisaatio on sen havaittujen arvojen jono, jota merkitään pienillä kirjaimilla (x1,x2,...,xn). SATUNNAISMUUTTUJIEN MITTAUSASTEIKOT: •Nominaali- eli luokitteluasteikko: luokkien välillä ei järjestystä. Esim. henkilön sukupuoli, kansalaisuus. •Ordinaali- eli järjestysasteikko: luokat voidaan asettaa järjestykseen, mutta luokkien välisiä eroja ei voida vertailla. Esim. insinöörien koulutustaso (Ins., DI, TkL, TkT). 45 •Intervalli- eli välimatka-asteikko: muuttuja-arvot voidaan asettaa järjestykseen ja arvojen erotuksilla on mielekäs tulkinta. Esim. lämpötila Celsius-asteissa. •Suhdeasteikko: kuten intervalliasteikko, mutta asteikossa absoluuttuinen nollakohta. Esim. lämpötila Kelvin-asteissa, tuotteen kestoikä, pituus, massa jne. Satunnaismuuttujan mittausasteikko määrää sen, mitä tunnuslukuja otoksesta voi laskea ja mitä tilastollisia menetelmiä voidaan käyttää. Vaikka intervalli- ja suhdeasteikolliset muuttujat olisivat periaatteessa jatkuvia, mittaustulokset ilmoitetaan aina äärellisellä tarkkuudella, joka tekee asteikosta käytännössä diskreetin. OTANTAMENETELMIÄ: •Yksinkertainen satunnaisotanta •Systemaattinen otanta •Ositettu otanta •Ryväsotanta 4.2. HAVAINTOAINEISTON KUVAUS Suuren numerojoukon sisältämää informaatiota pyritään tiivistämään olennaisen tutkittavan tiedon esille saamiseksi. Ennen varsinaisten otostunnuslukujen laskemista ja tilastollista päättelyä •luokitellaan havainnot (jos ne ovat intervalli- tai suhdeasteikollisia) •lasketaan luokkafrekvenssit ym. jakaumaa kuvaavia lukuja taulukoidaan •piirretään jakauman pylväsdiagrammi (diskreetit muuttujat) tai histogrammi + frekvenssimonikulmio (jatkuvat muuttujat).. Näin saadaan käsitys arvojen suuruusluokasta ja levinneisyydestä sekä jakauman muodosta. Esimerkki 4.1. Tutkittiin erään taskulaskimen litium-paristojen kestoikää, satunnaismuuttujaa X. 50:n satunnaisesti valitun pariston kestoiät olivat seuraavat: 4285 564 1278 205 3920 2066 604 209 602 1379 2584 14 349 3770 99 1009 4152 478 726 510 318 737 3032 3894 582 1429 852 1461 2662 308 981 1560 701 497 3367 1402 1786 1406 35 99 1137 520 261 2778 373 414 396 83 1379 454 Arvojen vaihteluväli: [14, 4285] Luokkien lukumäärä: Tälle ei ole tarkkaa sääntöä, erään suosituksen mukaan kannattaa valita k = log 2 n + 1 (Sturgesin sääntö). Tässä tapauksessa k = log 2 50 + 1 = 6 . Luokitellaan havainnot tasavälisesti, esimerkiksi väleihin 14-725, 726-1437, ... , 3574-4285 ja lasketaan luokkafrekvenssit eli kullekin välille kuuluvien havaintojen lukumäärät. Edellisiä kutsutaan pyöristetyiksi luokkarajoiksi, koska ne ilmoitetaan samalla tarkkuudella kuin havaintoarvot. Kun muuttuja on jatkuva, ovat ns. todelliset luokkarajat edellisten pyöristettyjen ylä- ja alarajojen välissä c0=13.5, c1=725.5, c2=1437.5, ... , c5=3573.5, c6=4285.5, jolloin mikään havaintoarvo ei osu rajan kohdalle. Todelliset luokkavälit ovat silloin [c0,c1), [c1,c2),...., [ck-1,ck). 46 Havaintoaineistosta voidaan laskea ja taulukoida esim. seuraavat luvut kaikissa luokissa i=1,… ,k: •fi = luokkafrekvenssi eli luokkaan i kuuluvien havaintojen lukumäärä •yi = (ci-1+ci)/2, luokan i keskikohta (intervalli- ja suhdeasteikollisille muuttujille, käytetään laskettaessa erilaisia tunnuslukuja luokitellulle aineistolle, kun alkuperäistä dataa ei ole käytettävissä) •fi/n = suhteellinen frekvenssi luokassa i, empiirinen vastine luokkatodennäköisyydelle tai diskreetin muuttujan pistetodennäköisyydelle •Fi = f1+… +fi = summafrekvenssi (eli kumulatiivinen frekvenssi) •Fi/n = suhteellinen summafrekvenssi (empiirinen kertymäfunktio). Luokkaväli [13.5, 725.5) [725.5, 1437.5) [1437.5, 2149.5) [2149.5, 2861.5) [2861.5, 3573,5) [3573.5, 4285.5) Luokkakeskus yi 369.5 1081.5 1793.5 2505.5 3217.5 3929.5 Suht. frekv. fi/n 0.48 0.24 0.08 0.06 0.04 0.10 Frekv. fi 24 12 4 3 2 5 Summafrekv. Fi 24 36 40 43 45 50 Suht. summafrekv. Fi/n 0.48 0.72 0.80 0.86 0.90 1.00 Luokkafrekvenssien taulukkoa voidaan kutsua frekvenessijakaumaksi tai empiiriseksi jakaumaksi. Suhteelliset frekvenssit approksimoivat todennäköisyyksiä jolla satunnaismuuttuja kuuluu kyseiseen luokkaan. Empiirisen jakauman graafinen esittäminen (jatkuva muuttuja): •Histogrammi muodostuu suorakulmioista, joiden kantoina ovat janat [ci-1 ,ci] ja korkeuksina frekvenssit fi Histogram for Kestoaika Histogrammi: 24 frequency 20 16 12 8 4 0 0 1 2 3 Kestoaika 4 5 (X 1000) •Frekvenssimonikulmio muodostuu janoista, joiden päätepisteet ovat (yi, fi). Alku- ja loppupiste ovat luokittelun ulkopuolisisten reunaluokkien keskipisteet. Frekvenssimonikulmio approksimoi tiheysfunktion muotoa. 47 Frekvenssimonikulmio: 24 frequency 20 16 12 8 4 0 0 1 2 3 4 Kestoaika 5 (X 1000) 4.3. OTOSSUUREET, OTOSTUNNUSLUVUT Otossuure on otoksesta laskettu reaaliarvoinen suure, merkitään esim. T(x1,x2,...,xn). Otossuureita kutsutaan myös otostunnusluvuiksi (sample statistics), koska ne kuvaavat muuttujan jakauman tunnusomaisia piirteitä. Koska Xi:t ovat satunnaismuuttujia, myös T(X1,X2,… ,Xn) on satunnaismuuttuja, jonka arvo vaihtelee otoksesta toiseen. Satunnaismuuttujan T(X1,X2,… ,Xn) jakaumaa kutsutaan T:n otantajakaumaksi. Esimerkkejä otossuureista: Otoskeskiarvo tai keskiarvo: x = x 1 + x 2 + ... + x n 1 n = ∑ xi n n i =1 1 n 2 1 n 1 n 2 x i − (∑ x i ) 2 ( x x ) − = ∑ ∑ i n − 1 i =1 n i =1 n − 1 i =1 Otosvarianssi tai varianssi: s2 = Otoshajonta tai hajonta: s = s2 Luokiteltu aineisto: 1 k ∑ fi yi n i =1 1 k 1 k 2 s2 = f y (∑ f i y i ) 2 − ∑ i i n − 1 i =1 n i =1 x= missä k = luokkien lukumäärä, yi = luokkavälin keskikohta, fi = luokkafrekvenssi. Otossuureita merkitään myös isoilla kirjaimilla X , S 2 silloin kun niitä käsitellään satunnaismuuttujina (esim. laskettaessa niiden odotusarvoa tms.). 48 Keskiarvo x ja varianssi s2 vastaavat jakauman tunnuslukuja ja 2 . Voidaan osoittaa, että E( X ) = µ E( S2 ) = σ 2 ja otoskoon kasvaessa nämä otosmuuttujat konvergoivat stokastisessa mielessä kohti jakauman tunnuslukuja ja 2. Otoskeskiarvon lisäksi muita yleisimpiä empiirisen jakauman keskilukuja ovat •Moodi (Mo): se havaintoarvo, jolla on suurin frekvenssi (ei välttämättä yksikäsitteinen). Moodi sopii lähinnä nominaali- tai ordinaaliasteikollisille satunnaismuuttujille tai kun aineisto on valmiiksi luokiteltuna. •Mediaani (Md): järjestetyn otoksen keskimmäinen havaintoarvo tai kahden keskimmäisen keskiarvo, kun n on parillinen. Kun kyseessä on vähintään intervalliasteikollinen muuttuja, jonka arvot on valmiiksi luokiteltu, voidaan määritellä vastaavasti moodi- ja mediaaniluokka ja näistä moodin ja mediaanin arvot joko luokkavälin keskikohtana tai erityisillä interpolointikaavoilla. Varianssin ja hajonnan lisäksi muita empiirisen jakauman hajontalukuja ovat esimerkiksi •Keskipoikkeama (mean absolute deviation): •Vaihteluvälin pituus: 1 n ∑| x i − x | n i= R = xmax –xmin missä xmax ja xmin ovat suurin ja pienin havaintoarvo •Kvartiilipoikkeama: (Q3 –Q1)/2 missä alakvartiili Q1 on arvo, jota pienempiä havaintoja on 25 %, yläkvartiili Q3 on arvo, jota pienempiä havaintoja on 75 % (ja suurempia 25 %). Kvartiilivälille (Q 1, Q3) jää puolet havainnoista. Mediaania voidaan merkitä myös symbolilla Q2. Kvartiileja voidaan havainnollistaa box plot-kuvalla (box-and-whiskers plot). •Variaatiokerroin: V = ( s / x )100 % Variaatiokerroin ilmoittaa hajonnan suhteessa keskiarvoon. Sen avulla voidaan mm. vertailla eri suuruusluokkaa olevien muuttujien hajontoja. •Keskiarvon keskivirhe: s/ n 49 Esimerkki 4.1. (Paristojen kestoikäaineisto) Luokitellun aineiston kaavoja kannattaa käyttää vain, kun alkuperäistä aineistoa ei ole käytettävissä. Lasketaan joitakin tunnuslukuja esimerkin 4.1. paristojen kestoiälle alkuperäisestä aineistosta. Keskiarvo: x= 1 n 1 (4285 + 564 + … + 454) = 63707 / 50 = 1274.14 xi = ∑ 50 n i =1 Mediaani: Md = (726 + 737)/2 = 731.5 (pienimmästä suurimpaan järjestetyn otoksen 25:nnen ja 26:nnen arvon keskiarvo) Koska jakauma on vino, keskiarvo ja mediaani poikkeavat huomattavasti toisistaan. Moodia ei voi määrätä alkuperäisestä aineistosta (jatkuva muuttuja), mutta luokitellun aineiston perusteella ensimmäisessä luokassa on suurin frekvenssi, ja voidaan valita moodiksi sen keskikohta: Mo = 369.5. Varianssi: Hajonta: [ n 1 n 2 1 4285 2 + 564 2 + ... + 454 2 − 63707 2 / 50 x i − (∑ x i ) 2 / n = ∑ n − 1 i =1 i =1 49 = 1505155.6 s2 = ] s = 1226.85 Variaatiokerroin: V = (1226.85 / 1274.14) ·100 % 96 % OUTLIERS: POIKKEAVAT ELI VIERAAT ELI ULKOPUOLISET HAVAINNOT Poikkeavat / vieraat / ulkopuoliset havainnot, engl. outliers, ovat havaintoja, jotka ovat selvästi muun havaintojoukon ulkopuolella. Ne voivat olla joko mittausvirheitä tai koodausvirheitä tai sitten havainto on toisesta populaatiosta kuin muu aineisto. Tällöin on perusteltua poistaa havainnot aineistosta ennen tilastollisten tunnuslukujen laskemista ja analyysien tekemistä. Toisaalta ne voivat olla epätavallisia havaintoja, joita satunnaisotokseen voi aina kuulua. Ne voivat olla myös merkki jakauman vinoudesta. Eräs kriteeri poikkeavien havaintojen tunnistamiselle: Olkoon kvartiilivälin pituus (interquartile range) IQR = Q3 –Q1. Jos x < Q1 –1.5 IQR tai x > Q3 + 1.5 IQR niin havaintoarvoa x voidaan pitää poikkeavana havaintona. 50 5. PARAMETRIEN ESTIMOINTI JA LUOTTAMUSVÄLIT 5.1. PISTE-ESTIMAATIT Parametrien estimointi on populaation/otosavaruuden tunnuslukujen eli jakauman parametrien arviointia sopivien otossuureiden, estimaattoreiden avulla. Estimaattori on kaava, jolla parametrin arvio lasketaan. Parametrin estimaattori, merk. Θ̂ tai Θ̂ (X1,X2,...,Xn) on siis satunnaismuuttuja. Estimaatti tai piste-estimaatti on havainnoista laskettu estimaattorin arvo eli ko. otossuureen realisaatio, merk. θˆ tai θˆ(x1,x2,...,xn). Hyvä estimaattori on ˆ) = •harhaton eli E (Θ ˆ) mahdollisimman pieni •minimivarianssinen (tehokas) eli D 2 (Θ ˆ(X ,..., X ) − θ |< ε) = 1 kaikilla >0. •tarkentuva eli lim P(| Θ 1 n n →∞ mikä tarkoittaa että estimaattori konvergoi stokastisesti kohti parametrin oikeaa arvoa . Tavallisimpia estimaatteja: Odotusarvo: Varianssi: µˆ= x σˆ2 = s 2 x (suhteellinen osuus otoksessa) n 1 λˆ= x Bin(n,p)-jakauman parametri: pˆ= Exp( )-jakauman parametri: Näistä kolme ensimmäistä ovat harhattomia. Tärkeimmät menetelmät, joilla estimaattoreita muodostetaan, ovat maximum likelihood-menetelmä ja momenttimenetelmä. 5.2. LUOTTAMUSVÄLIT Piste-estimaatti antaa yhdestä ainoasta otoksesta lasketun arvion estimoitavalle parametrille. Mitä voidaan sanoa tämän arvion tarkkuudesta? Estimaattori on satunnaismuuttuja, koska eri otokset antavat vaihtelevia estimaatteja. Pyritään määrittämään estimaattorin jakaumaa käyttäen sellaiset rajat, jotka suurella todennäköisyydellä sulkevat sisäänsä estimoitavan parametrin. 5.2.1. ESIMERKKI Esimerkki 5.1. Sokeria pussitetaan kilon paketteihin, mutta keskimääräinen massa (odotusarvo ) ei yleensä ole tasan 1000 g. Oletetaan, että pussissa olevan sokerin määrä (g), satunnaismuuttuja X noudattaa normaalijakaumaa N( 2) missä annostelulaitteen aiheuttaman massan hajonnan tiedetään olevan 4.0 g. Halutaan estimoida odotusarvoa ja saada rajat jolla olisi 95 %:n varmuudella. Tätä varten kerätään sokeripusseista otos, jossa massat X1, … , Xn noudattavat jakaumaa N( 2). 51 Koska Xi ~ N( 2), niin X ~ N(µ, X −µ ~ N(0,1) Z= σ/ n 2 /n), joten Määrätään ensin symmetrinen väli, jolla Z-muuttuja on 95 %:n varmuudella. Normaalijakauman kuvan perusteella P(–z0.975 eli Z z0.975) = 0.95 P(−z 0.975 ≤ ⇔ X−µ σ/ n ≤ z 0.975 ) = 0.95 kerrotaan nimittäjällä σ / n P(− z 0.975 σ / n ≤ X − µ ≤ z 0.975 σ / n ) = 0.95 vähennetään X P(− X − z 0.975 σ / n ≤ −µ ≤ − X + z 0.975 σ / n ) = 0.95 kerrotaan -1:llä, epäyhtälöiden suunta muuttuu ⇔ ⇔ P( X − z 0.975 σ / n ≤ µ ≤ X + z 0.975 σ / n ) = 0.95 On saatu odotusarvolle väli X − z 0.975 σ / n ≤ µ ≤ X + z 0.975 σ / n (5.1) jolle se kuuluu 95 %:n varmuudella. Välin rajat ovat satunnaismuuttujia, ei . Rajojen laskemiseksi tarvitaan havaintoarvoja. Poimittiin 12 pussin satunnaisotos, massat (g) 1004, 998, 1005, 1001, 999, 997, 1008, 1010, 1003, 1005, 1002, 998 Odotusarvon piste-estimaatti: µˆ = x = 1002.5 g Otoskoko: n = 12 Hajonta: = 4.0 g (tunnettu, ei tämän pienen otoksen otoshajonta) Taulukosta z0.975 = 1.96 (piste jossa (z0.975) = 0.975). Kun satunnaismuuttujien keskiarvo korvataan otoskeskiarvolla ja arvot sijoitetaan kaavaan (5.1), saadaan odotusarvon 95%:n luottamusväli ⇔ ⇔ 1002.5 –1.96· 4 / 12 1002.5 –2.26 1000.24 µ µ µ 1002.5 + 1.96 · 4 / 12 1002.5 + 2.26 1004.76 Luottamusväli voidaan myös ilmaista muodossa µ = 1002.5 ± 2.26. 52 5.2.2. YLEINEN VÄLIESTIMOINNIN PERIAATE: Luottamustasoa, todennäköisyyttä jolla parametri kuuluu satunnaisotoksesta riippuvalle välille (kuten (5.1)), merkitään yleensä (1 – )100 %. Tavallisin luottamustaso on 95 % ( = 0.05), mutta käytetään myös tasoja 90 % ( = 0.10), 99 % ( = 0.01) ja 99.9 % ( = 0.001). Muunnetaan otossuure (estimaattori) sellaiseen muotoon, johon sisältyy estimoitava parametri ja jonka jakauma on riippumaton :sta (vrt. normeeraus): olkoon tämä T (X1,....,Xn). Otossuureen T (X1,....,Xn) jakaumasta voidaan määrätä rajat (fraktiilit) a ja b siten, että P(a T (X1,....,Xn) b) = 1 – ja ulkopuolelle jäävä todennäköisyys jakautuu tasaisesti: P(T (X1,....,Xn) < a) = /2 P(T (X1,....,Xn) > b) = /2. Epäyhtälöparista a T (X1,....,Xn) L(X1,...,Xn) b ratkaistaan ylä- ja alaraja parametrille : U(X1,...,Xn). (5.2) Tämä pätee todennäköisyydellä 1 – . Tulkinta: Koska luottamusvälin rajat ovat satunnaismuuttujia, tämä tarkoittaa, että otoksesta toiseen vaihtelevat rajat sulkevat sisäänsä :n todellisen arvon (1 – )100%:ssa tapauksista. Parametrin luottamusväli tasolla (1 – )100%, (eli varmuusväli, väliestimaatti, engl. confidence interval) saadaan sijoittamalla havaintoarvot x1,… ,xn edellisiin rajoihin: L(x1,… ,xn) U(x1,… ,xn) (5.3) Voidaan sanoa, että kuuluu tälle välille (1 – )100%:n luottamuksella. Todennäköisyydestä ei pitäisi puhua, koska lausekkeessa ei ole satunnaismuuttujia. Huomautus: Sekä väliä (5.2) että väliä (5.3) kutsutaan luottamusväleiksi, mutta niillä on eri tulkinta. Jos kiinnostuksen kohteena on vain parametrin yläraja TAI alaraja, voidaan vastaavalla tavalla muodostaa toispuoleinen luottamusväli ratkaisemalla epäyhtälöstä P(T (X1,....,Xn) a) = 1 – tai P(T (X1,....,Xn) b) = 1 – . missä a ja b ovat T :n jakauman fraktiileja, pisteitä jossa kertymäfunktio tai sen komplementti saa halutun arvon. 53 5.2.3. ODOTUSARVON LUOTTAMUSVÄLI Odotusarvon piste-estimaatti: µˆ= x a) Kun tunnetaan: Oletukset: Xi ~ N( 2), i=1,...,n, missä tunnettu TAI otoskoko n suuri (jolloin keskiarvomuuttuja on ainakin likimain normaalinen). Z= X −µ σ/ n ~ N(0,1) Z-muuttuja on (1 – )100%:n todennäköisyydellä välillä − z 1−α / 2 ≤ X −µ σ/ n ≤ z1−α / 2 ⇔ X − z1−α / 2 σ / n ≤ µ ≤ X + z1−α / 2 σ / n (johdetaan kuten kaava (5.1) Odotusarvon (1 – )100%:n luottamusväli on x − z1−α / 2 σ / n ≤ µ ≤ x + z1−α / 2 σ / n eli µ = x ± z1−α / 2 σ / n b) Kun tuntematon: Oletukset: Xi ~ N( , 2), i=1,...,n ja tuntematon. Kun hajonta on tuntematon ja se korvataan otoshajonnalla, satunnaismuuttuja T= X −µ S/ n ~ t(n-1) (Todistaminen vaatii jakaumateoriaa.) T-muuttuja on (1 – )100%:n todennäköisyydellä välillä –t1- /2(n-1) X −µ S/ n t1- /2(n-1) Muistutus: t1- /2(n-1) on t(n-1)-jakauman piste jossa kertymäfunktio saa arvon 1– /2. Odotusarvon (1 – )100%:n luottamusväliksi saadaan samalla tavalla kuin edellä 54 x − t 1−α / 2 (n − 1) s / n x + t 1− α / 2 (n − 1) s / n eli = x ± t 1− α / 2 (n − 1) s / n Esimerkki 5.2. Oletetaan, että esimerkin 5.1. tilanteessa sokeripussien massan todellinen hajonta on tuntematon eli massan vaihtelusta ei ole aiempaa kokemusta. Muodosta massan odotusarvon 95 %:n luottamusväli käyttäen esimerkin 5.1. otosta. (Vast. 1002.5 ± 2.62) 2 Huomautus: Kun n on hyvin suuri, on oletettavissa että s2 ja t-jakauman kertymäfunktio on lähellä N(0,1)-jakauman kertymäfunktiota . Silloin ei ole suurta eroa kumpaa luottamusväliä käyttää. 5.2.4. SUHTEELLISEN OSUUDEN LUOTTAMUSVÄLI Oletukset: X ~ Bin(n, p), n suuri (jotta normaalijakauma-approksimaatiota voi käyttää) Piste-estimaatti: pˆ= x n (Vastaavaa satunnaismuuttujaa merkitään P = X/n) Luottamusväli perustuu satunnaismuuttujaan Z= P−p ~a N(0,1) p(1 − p) / n Z-muuttuja on (1 – )100%:n todennäköisyydellä välillä –z1- /2 P−p p(1 − p) / n z1- kerrotaan /2 p(1 − p) / n :llä ⇔ ⇔ ⇔ − z 1− α / 2 p(1 − p) / n ≤ P − p ≤ z1−α / 2 p(1 − p) / n vähennetään P − P − z 1− α / 2 p(1 − p) / n ≤ − p ≤ − P + z 1−α / 2 p(1 − p) / n kerrotaan -1:llä, epäyhtälöiden suunta muuttuu P − z 1−α / 2 p(1 − p) / n ≤ p ≤ P + z 1− α / 2 p(1 − p) / n Olisi huomattavan vaikeaa ratkaista p:lle rajat jotka eivät riipu p:stä. Tämän takia väli muodostettiin samoin kuin :n luottamusväliä johdettaessa. Koska n on suuri, on oletettavasti pˆ≈ p ja tehdään tämä approksimaatio neliöjuuritermissä. Luottamusväli saadaan sijoittamalla satunnaismuuttujan P paikalle sen otoksesta laskettu arvo pˆ. Suhteellisen osuuden (1 – )100%:n luottamusväli: pˆ(1 − pˆ) pˆ(1 − pˆ) ≤ p ≤ pˆ+ z 1−α / 2 pˆ− z 1−α / 2 n n eli voidaan ilmaista muodossa 55 p = pˆ± z 1−α / 2 pˆ(1 − pˆ) n eli pˆ ± virhemarginaali Kun otos on niin pieni, ettei normaaliapproksimaatiota voida käyttää, voidaan luottamusväli estimoida esim. joidenkin tilastollisten taulukoiden käyristä (ks. Beta: Confidence interval for unknown probability). Esimerkki 5.3. Transistorien valmistajalta otettiin 800 kappaleen näyte, jossa oli 36 viallista. a) Määrää 95 %:n luottamusväli viallisten osuudelle koko tuotannossa. (Vastaus: 4.5 ± 1.4 %) b) Määrää viallisten osuuden yläraja 95 %:n luottamuksella. (Vastaus: p 5.7 %) Esimerkki 5.4. Tutkitaan suhteellisen osuuden, esim. puoluekannatuksen väliestimointia 95 %:n luottamuksella. Oletetaan että kannatusosuus on luokkaa 25 %. Kuinka suuri otos tarvitaan, jotta virhemarginaali olisi korkeintaan a) 0.05 eli 5 %-yksikköä? b) 0.01 eli 1 %-yksikkö? 95%:n luottamusväli ( = 0.05) on p = pˆ± z 0.975 pˆ(1 − pˆ) / n missä pˆ = 0.25, z0.975 = 1.96 a) z 0.975 pˆ(1 − pˆ) / n ≤ 0.05 ⇒n≥ b) z 02.975 1.96 2 ˆ ˆ p ( 1 − p ) = 0.25(1 − 0.25) = 288.12 0.05 2 0.05 2 eli n 289 eli n 7203 z 0.975 pˆ(1 − pˆ) / n ≤ 0.01 ⇒n≥ z 02.975 1.96 2 ˆ ˆ p ( 1 p ) 0.25(1 − 0.25) = 7203.0 − = 0.012 0.012 5.2.5. MUIDEN PARAMETRIEN LUOTTAMUSVÄLIT Muille parametreille muodostetaan luottamusvälit samaan tapaan kuin odotusarvolle ja suhteelliselle osuudelle, käyttäen sopivaa otossuuretta (jossa parametri esiintyy ja jonka jakauma tunnetaan) ja sen jakauman fraktiileja. Edellisissä tapauksissa otossuureena oli Z tai T joiden jakauma oli symmetrinen, ja alarajan fraktiili oli ylärajan fraktiilin vastaluku. Kun jakauma on epäsymmetrinen, luottamusväli muodostetaan seuraavaan tapaan: VARIANSSIN LUOTTAMUSVÄLI Oletetaan, että kyseessä oleva satunnaismuuttuja noudattaa normaalijakaumaa. Varianssin 2 piste-estimaatti on otosvarianssi s2. Luottamusväli perustuu otossuureeseen 56 (n − 1)S 2 ~ σ2 2 (n-1) (Todistus vaatii jakaumateoriaa.) (1 – )100 %:n todennäköisyydellä χ 2 α/2 (n − 1)S 2 (n − 1) ≤ ≤ χ12−α / 2 (n − 1) 2 σ Muistutus: χ 2p (n − 1) on piste, jossa χ 2 (n − 1) -jakauman kertymäfunktio saa arvon p. Ratkaisemalla kummastakin epäyhtälöstä erikseen raja varianssille rianssi s2 saadaan varianssin (1 – )100 %:n luottamusväli 2 ja sijoittamalla otosva- (n − 1)s 2 (n − 1)s 2 2 ≤ σ ≤ χ12−α / 2 (n − 1) χ α2 / 2 (n − 1) VARIANSSIN TOISPUOLEINEN LUOTTAMUSVÄLI Usein halutaan vaihtelua mittaavalle varianssille tai hajonnalle esim. yläraja (toispuoleinen luottamusväli). Esimerkki 5.5. Normaalijakautuneen satunnaismuuttujan 30 havainnon otoksesta on laskettu otosvarianssi s2 = 4.63. Minkä arvon alapuolelle todellinen varianssi jää 95 %:n luottamuksella? Johdetaan varianssin 2 yläraja 95 %:n luottamustasolla: Koska satunnaismuuttuja (n − 1)S 2 χ2 = ~ 2(n-1) 2 σ noudattaa jakaumaa 2(n-1), niin 95 %:n todennäköisyydellä (n − 1)S2 ≥ χ 02.05 (n − 1) σ2 josta (n − 1)S2 σ ≤ 2 χ 0.05 (n − 1) 2 Numeerinen raja saadaan sijoittamalla S2:n paikalle laskettu otosvarianssi s2: (n − 1)s 2 2 σ ≤ 2 χ 0.05 (n − 1) Tämä on varianssin yläraja 95 %:n luottamuksella. Esimerkin otos: n = 30, taulukkoarvo 29 ⋅ 4.63 σ2 ≤ 17.71 eli 95 %:n luottamuksella 2 7.58 2 0.05(29) = 17.71, joten arvot sijoittamalla saadaan raja 57 6. HYPOTEESIEN TESTAUS 6.1. JOHDANTO Tilastollisessa hypoteesien testauksessa pyritään testaamaan jotain perusjoukkoa (tai useita perusjoukkoja) tai jotain toistuvaa ilmiötä koskevia väittämiä otoksen perusteella. Jos väittämät koskevat jotain perusjoukon parametria, esim. odotusarvoa, varianssia, suhteellista osuutta jne., on kyseessä parametrinen testaus, muussa tapauksessa ei-parametrinen. Eiparametrisia ovat esim. jakaumia koskevat testit ja nominaaliasteikollisten muuttujien välistä riippuvuutta koskevat testit. Esimerkki 6.1. Elektronisten komponenttien valmistajan mukaan tuotantoprosessissa syntyy 6 % viallisia komponentteja. Vastaanotetussa 100 kappaleen erässä on viallisia löytynyt 15 kpl. Onko kyse huonosta tuurista vai voidaanko valmistajan väitettä pitää vääränä? Kysymystä arvioidaan sen perusteella, miten todennäköistä on saada näin huono tulos JOS valmistajan väite pitää paikkansa. Olkoon satunnaismuuttuja X = viallisten määrä 100 kpl:een joukossa. X:n arvo vaihtelee luonnollisesti otoksesta toiseen noudattaen jakaumaa X ~ Bin(100, p), missä p on viallisten todellinen osuus. Jos valmistajan väite pitää paikkansa, p = 0.06 ja todennäköisyys saada vähintään 15 viallista on 14 100 0.06 k 0.94100 −k = 0.001 P(X ≥ 15) = 1 − ∑ k=0 k (voi laskea myös Poisson-approksimaatiolla). Tätä lukua kutsutaan testisuureen P-arvoksi eli merkitsevyystasoksi. Mitä pienempi P-arvo on, sitä epätodennäköisempi saatu otos on väitetyssä tilanteessa. Kyseinen tapaus sattuisi vain kerran tuhannesta ja valmistajan väitettä voidaan hyvällä syyllä pitää epäuskottavana. Otokseen perustuvalla tilastollisella testillä ei voida varmasti kumota tai todistaa tutkittavaa hypoteesia, vaan johtopäätöksiin liittyy aina erehtymisriski. Seuraavassa muita esimerkkejä tilastollisesti testattavista väittämistä. Mieti jokaisen kohdalla, onko kyseessä jonkin parametrin testaaminen, mihin testaamisen pitäisi perustua ja kuinka kokeet/mittaukset tulisi suorittaa: - Onko tuotteen laatu standardien mukainen? - Vähentääkö E-vitamiini sydäntautikuolleisuutta? - Onko kahden samaa tehtävää suorittavan koneen nopeuksissa eroa? - Onko ilman otsonipitoisuus kohonnut? - Ovatko kaikki lottonumerot yhtä todennäköisiä? - Onko koneellisesti valmistettu tuote tasalaatuisempaa kuin manuaalisesti valmistettu? - Onko loisteputkien kestoikä eksponentiaalisesti jakautunut? - Vaikuttaako vanhempien koulutustaso lasten koulumenestykseen? - Onko bensiininkulutus suoraan verrannollinen ajonopeuteen? 58 6.2. TESTAUKSEN PERIAATTEET JA PERUSKÄSITTEET Perinteinen testaus, jossa on tehtävä kyllä/ei-päätös jonkin hypoteesin suhteen, muodostuu seuraavista päävaiheista (järjestys voi vaihdella tilanteen mukaan): 1. HYPOTEESIEN ASETTELU 2. TESTISUUREEN VALINTA 3. RISKITASON VALINTA JA HYLKÄYSEHDON MÄÄRITTÄMINEN 4. HAVAINTOAINEISTON KERÄÄMINEN JA TESTISUUREEN ARVON LASKENTA 5. JOHTOPÄÄTÖKSEN TEKEMINEN Seuraavassa käsitellään näitä vaiheita yksityiskohtaisemmin esimerkin avulla. 1. HYPOTEESIEN ASETTELU Tilastollisessa testauksessa asetetaan kaksi vaihtoehtoista hypoteesia: H0 H1 nollahypoteesi vastahypoteesi, vaihtoehtoinen hypoteesi Parametrisessa testauksessa hypoteesit koskevat joitain tutkimuksen kohteena olevien satunnaismuuttujien jakauman parametreja, esim. odotusarvoa, varianssia, suhteellista osuutta. H0 ja H1 ovat toisensa poissulkevia ja kattavat testattavan parametrin kaikki mahdolliset tai uskottavat arvot. Hypoteesien ero: •Vastahypoteesi kuvaa yleensä poikkeamaa totutusta tilanteesta, vaikutusta, eroa, muutosta. Usein se asia, jota tutkija yrittää todistaa. •Nollahypoteesi kuvaa vallitsevaa tilannetta, tai väittää ettei todellista vaikutusta, eroa tai muutosta ole. Nollahypoteesi pysyy voimassa, ellei sitä vastaan saada riittäviä todisteita. Esimerkki 6.2. Odotusarvon testaus Oletetaan, että sokerin pussituslaite (vrt. esim. 5.1.) on säädetty annostelemaan pussiin keskimäärin 1001 g sokeria, mutta epäillään keskiarvon kasvaneen. Laite on siinä tapauksessa säädettävä uudelleen, jotta raaka-ainekulut pysyisivät minimaalisina. Asetetaan hypoteeseiksi H0: µ = 1001 g H1: µ > 1001 g (keskipaino ei ole muuttunut) (keskipaino on kasvanut) 2. TESTISUUREEN VALINTA Testisuure, merk. yleisesti T(X1,X2,...,Xn), on otossuure, jonka perusteella voidaan tehdä johtopäätös siitä, kumpi hypoteesi on uskottavampi. Testisuure perustuu yleensä testattavan parametrin harhattomaan estimaattoriin ja sen jakauma täytyy tuntea nollahypoteesin vallitessa. Esim. testattaessa odotusarvoa µ on luonnollista, että johtopäätös perustuu otoskeskiarvoon. 59 Esimerkki 6.2. jatkuu: Massa X ~ N(µ, 2), missä tunnetaan hajonta = 4 g. Koska X on odotusarvon harhaton estimaattori, perustuu testaus tähän otossuureeseen. Jos otoskeskiarvo x on hyvin suuri, tämä viittaa siihen että pakkausten keskipaino on säädetty suuremmaksi kuin 1001 g. Merkitään nollahypoteesin väittämää arvoa Jos H0 on voimassa, Xi ~ N( 0, 2) ⇒ ⇒ 0 = 1001. X ~ N(µ0, 2/n) X − µ0 Z= ~ N(0,1) σ/ n 3. RISKITASON VALINTA JA HYLKÄYSEHDON MÄÄRITTÄMINEN Perinteisessä testauksessa johtopäätös, joka perustuu havaintoaineistoon, ilmoitetaan muodossa "H0 hylätään" tai "H0 jää voimaan". Testauksessa voidaan tehdä väärä johtopäätös kahdella tavalla: 1. 2. H0 hylätään, vaikka se on tosi (1. lajin virhe eli hylkäämisvirhe) H0 hyväksytään, vaikka se ei ole tosi (2. lajin virhe eli hyväksymisvirhe). H0 on tosi H0 hyväksytään Oikea johtopäätös H0 hylätään 1. lajin virhe eli hylkäämisvirhe H0 on epätosi 2. lajin virhe eli hyväksymisvirhe Oikea johtopäätös Testin taso tai riskitaso tai koko (myös merkitsevyystaso, level of significance) misvirheen suurin sallittu todennäköisyys eli on hylkää- = todennäköisyys, että H0 hylätään, vaikka se on tosi. Koska H0:n hylkäämisvirhettä pidetään vakavampana, valitaan riskitaso perinteisessä testauksessa etukäteen. Yleensä = 0.05, 0.01 tai 0.001. Hylkäysehto määräytyy riskitason ja testisuureen jakauman perusteella. Merkitään 2. lajin virheen todennäköisyyttä :lla: = todennäköisyys, että H0 hyväksytään, kun se on epätosi Testin voimakkuus on luku 1 – = todennäköisyys, että H0 hylätään, kun se on epätosi Testin voimakkuus kuvaa testin kykyä erottaa todellinen poikkeama satunnaisvaihtelusta. Testin voimakkuus riippuu yleisesti testattavan parametrin todellisesta arvosta, ks. Esimerkki 6.3. tämän luvun lopussa. 60 Esimerkki 6.2. jatkuu: Jos otoskeskiarvo on hyvin paljon suurempi kuin väitetty odotusarvo 0 = 1001, nollahypoteesia voidaan epäillä. Kun otoskeskiarvo x on hyvin suuri (jolloin myös z:n arvo on suuri), se puoltaa vastahypoteesia, että keskipaino on kasvanut. Esimerkiksi •Jos saadaan otoskeskiarvo x = 1002, voidaanko olettaa tämän olevan pussien massan normaalia satunnaisvaihtelua vai osoittaako se että pakkauskone on säädetty annostelemaan liikaa? •Jos saadaan otoskeskiarvo x = 1020, voidaanko olettaa tämän olevan pussien massan normaalia satunnaisvaihtelua vai osoittaako se että pakkauskone on säädetty annostelemaan liikaa? Mihin raja vedetään: miten suuri otoskeskiarvo x ja z-arvo oikeuttaa päättelemään, että ”nollahypoteesi on epätosi”? Tämä riippuu siitä miten suuri erehtymisriski sallitaan. Riskitaso on todennäköisyys, että nollahypoteesi hylätään eli testisuure ylittää kriittisen rajan, vaikka odotusarvo on väitetty = 1001. Tällöin pussituslaite joutuu turhaan säädettäväksi. Kuvassa X :n jakauma H0:n vallitessa. Jos riskitasoksi on valittu raja on kohdassa jonka ylitystodennäköisyys on 0.05. = 0.05, keskiarvon Käytännössä tämä merkitsee, että vaikka odotusarvo olisi nollahypoteesin mukainen, niin otoksista 5 % ylittää painorajan, jolloin tehdään väärä päätelmä ja laite joutuu turhaan säädettäväksi. Hylkäysehto ilmoitetaan yleensä standardoidun testisuureen avulla. YLEISESTI: Testisuureen mahdolliset arvot jaetaan tietyin kriteerein kahteen toisensa poissulkevaan joukkoon: nollahypoteesin hyväksymisalueeseen (merk. S0) ja hylkäysalueseen (merk. S1). •Jos testisuureen arvo kuuluu alueeseen S0, H0 jää voimaan •Jos testisuureen arvo kuuluu alueeseen S1, H0 hylätään. Määrätään hylkäysalueen raja tai rajat eli kriittinen arvo tai kriittiset arvot siten, että nollahypoteesin vallitessa testisuure kuuluu hylkäysalueelle (korkeintaan) todennäköisyydellä . Esimerkki 6.2. jatkuu: Kriittinen arvo tasolla = 0.05 saadaan N(0,1)-jakauman taulukosta standardoidulle arvolle 61 z= missä 0 x − µ0 σ/ n = 1001 on H0-hypoteesin väittämä arvo H0 hylätään, jos z > z0.95 Tästä voidaan tarvittaessa laskea kriittinen raja myös otoskeskiarvolle: Hylkää H0, jos x > µ 0 + z 0.95 σ / n Huomautuksia: •Koska testisuure noudattaa normaalijakaumaa, niin hylkäämisvirheen todennäköisyys ei ole koskaan 0. Vaikka keskipaino olisi säilynyt muuttumattomana, otoskeskiarvo voi (harvinaisissa poikkeustapauksissa) olla miten suuri tahansa. •Miksi riskitasoa ei kannata valita "erittäin pieneksi", esim. 0.000001? Koska silloin nollahypoteesi jää voimaan hyvinkin suurilla otoskeskiarvoilla ja hyväksymisvirheen todennäköisyys tulee suureksi. 4. HAVAINTOAINEISTON KERÄÄMINEN JA TESTISUUREEN ARVON LASKENTA Havaintoaineiston keräämiseen liittyvät otannan ja kokeiden suunnittelu, otoksen poiminta ja mittausten suorittaminen. Näitä käsittelevät tilastotieteen erikoisalueet koesuunnittelu ja otantateoria. Eräs tärkeimpiä kysymyksiä on otoskoon valinta, joka vaikuttaa siihen, miten luotettavia johtopäätöksiä voidaan tehdä. Havainnoista eli otoksesta lasketaan valitun testisuureen arvo. Esimerkki 6.2. jatkuu: Sokeripusseista punnittiin satunnaiset 12 pussia ja oletetaan, että havainnot olivat samat kuin esimerkissä 5.1. Massan keskiarvoksi saadaan 1002.5 g. Massan keskihajonnan tiedetään olevan 4 g. Testisuureen arvoksi saadaan z= x − µ0 σ/ n = 1002.5 − 1001 4 / 12 = 1.2990 62 5. JOHTOPÄÄTÖKSEN TEKEMINEN Tarkistetaan hylkäysehto vertaamalla testisuureen laskettua arvoa kriittiseen arvoon (tai arvoihin). Tilastollisena johtopäätöksenä joko "H0 hylätään" tai "H0 jää voimaan" (eli "H0 hyväksytään") riskitasolla . Esimerkki 6.2. jatkuu: Kriittinen arvo tasolla = 0.05 on z0.95 = 1.6449. Testisuureen laskettu arvo oli z = 1.2990 Johtopäätös: Koska z < z0.95, niin H0 jää voimaan. Keskipainon ei siis voida katsoa kasvaneen tilastollisesti merkitsevästi, vaan havaittua poikkeamaa voidaan pitää normaaliin satunnaisvaihteluun kuuluvana. Pussituslaitetta ei siis tarvitse säätää. Huom. Saatu tulos ei todista, että keskipaino olisi säilynyt samana! Vakuuttavaa näyttöä sen suurentumisesta ei vain saatu tästä otoksesta. TESTISUUREEN P-ARVO ELI MERKITSEVYYSTASO Edellä kuvatussa perinteisessä testauksessa ei erityisesti huomioida sitä, kuinka paljon testisuureen arvo ylittää tai alittaa kriittisen arvon. Tämän vuoksi on tapana ilmoittaa testisuureen P-arvo eli testisuureen merkitsevyystaso: P-arvo on todennäköisyys saada lasketun testisuureen suuruinen tai sitä suurempi poikkeama nollahypoteesin väittämästä arvosta, jos H0 on tosi. P-arvo mittaa nollahypoteesin uskottavuutta: mitä pienempi testisuureen P-arvo, sitä vahvempi tuki vastahypoteesille! Tilastolliset ohjelmistot ilmoittavat testisuureen P-arvon, mutta muuten se voidaan laskea vain jos kertymäfunktio voidaan laskea tai katsoa taulukosta. Jos tutkimuksen tekijä käyttää perinteistä testausta ja valitsee riskitason tös tehdään seuraavasti. Tämä pätee kaikissa testeissä: etukäteen, johtopää- Jos P < , H0 hylätään. Jos P , H0 jää voimaan. Tämä on yhtäpitävää kriittiseen arvoon vertaamisen kanssa. Jos P-arvo voidaan laskea, ei johtopäätöksen tekemiseen tarvita kriittisiä arvoja. Vaihtoehtoinen määritelmä: P-arvo on pienin riskitaso, jolla kyseinen otos johtaisi H0:n hylkäämiseen. 63 Esimerkki 6.2. jatkuu: Testisuureen z = 1.299 P-arvo on P = P(Z > 1.299) = 1 – (1.299) = 0.097. Jos riskitasoksi on valittu = 0.05, niin H0 jää voimaan. Sokeripussien keskimääräinen massa ei siis ylitä säädettyä arvoa 1001 tilastollisesti merkitsevästi. Laajoissa monimuuttujaisissa tilastoaineistoissa, joissa lasketaan lukuisia testisuureen arvoja, ei johtopäätöksiä yleensä tehdä kiinteää riskitasoa käyttävällä hyväksytään/hylätäänperiaatteella, vaan esitetään P-arvot ja huomioidaan näistä merkitsevimmät: esim. merkitään *** ** * kun P < 0.001 "Erittäin merkitsevä poikkeama nollahypoteesista" kun 0.001 P < 0.01 "Merkitsevä poikkeama nollahypoteesista" kun 0.01 P < 0.05 "Melkein merkitsevä poikkeama nollahypoteesista" Kun P > 0.05, voidaan sanoa että poikkeama / ero (nollahypoteesin väitteestä) ”ei ole tilastollisesti merkitsevä”. P-arvo kannattaa aina ilmoittaa, koska se on informatiivisempi kuin pelkän johtopäätöksen ja riskitason ilmoittaminen. Perinteistä hyväksymis/hylkäämismenettelyä riskitasoineen tarvitaan silloin, kun testin tulos aiheuttaa konkreettisia toimenpiteitä. TESTIN VOIMAKKUUDEN LASKEMINEN Esimerkki 6.3. Lasketaan esimerkin 6.2. testin voimakkuus eli todennäköisyys H0:n hylkäämiselle tapauksessa, jossa todellinen keskipaino on µ = 1004 g. Normeerauksessa on käytettävä oikeaa odotusarvoa µ = 1004. Hylkäysehto: x − 1001 ⇔ σ/ n > z 0.95 x > 1001 + z 0.95 σ / n = 1001 + 1.6449 ⋅ 4 / 12 ⇔ ⇔ x > 1002.8994 64 x − 1004 ⇔ σ/ n z> ⇔ > 1002.8994 − 1004 σ/ n 1002.8994 − 1004 4 / 12 z > -0.9532 Kun = 1004, testin voimakkuus eli H0:n hylkäystodennäköisyys on 1 – = P(Z > -0.9532) = P(Z < 0.9532) (0.95) = 0.8289 6.3. PARAMETRISIA TESTEJÄ 6.3.1. ODOTUSARVON TESTAUS Hypoteesit voivat olla jotakin seuraavista muodoista. Kaksisuuntainen testaus: Tapaus 1: H0: H1: = 0 0 Yksisuuntainen testaus: Tapaus 2: Tapaus 3: H0: H1: = > H0: H1: = < 0 tai H0: H1: 0 0 tai H0: H1: 0 0 > 0 0 < 0 Esimerkki 6.2. Vaihtoehtoisia tutkimusongelmia: •Asiakkailta on tullut aikaisempaa enemmän valituksia, että sokeripussit ovat vajaita. Tämä antaa aihetta epäillä, että massan odotusarvo on pienentynyt alle tavoitearvon 1001 g. Asetetaan hypoteesit H0: = 1001 H1: < 1001 •Kahvipaketin tavoitepaino on 1001 g, tästä ei saisi poiketa kumpaankaan suuntaan. Pakkausprosessia kontrolloidaan säännöllisin välein keskipainon tarkistamiseksi. Tarkastus perustuu satunnaisotokseen, ja siinä testataan hypoteeseja H0: = 1001 H1: 1001. YLEISIÄ HUOMAUTUKSIA (pätevät kaikkien parametrien testauksessa): •Nollahypoteesissa on aina mukana yhtäsuuruus väitetyn lukuarvon 0 kanssa ja tätä arvoa käytetään testisuureen laskemisessa. Yksisuuntaisissa tapauksissa 2 ja 3 H0-hypoteesi voi olla myös muotoa µ µ0 tai 0, tämä ei vaikuta testin suorittamiseen. •Testin kriittinen alue määräytyy vastahypoteesin mukaan. 65 •Kaksisuuntaista testiä käytetään, kun - poikkeamat molempiin suuntiin mahdollisia tai merkitseviä päätöksenteon kannalta - ei ennakkoepäilyjä poikkeaman suunnasta. •Yksisuuntaista testiä käytetään, kun - poikkeama vain toiseen suuntaan mahdollinen tai uskottava tai merkitsevä päätöksenteon kannalta - vastahypoteesina epäilys, jota uusi teoria tai kokemukset puoltavat. Odotusarvon testauksessa testisuureen valinta riippuu siitä, tunnetaanko populaation / perusjoukon / jakauman todellinen hajonta vai joudutaanko se estimoimaan kyseisestä otoksesta. Tilanteissa jossa hajonta on estimoitu jostakin hyvin suuresta, aiemmasta otoksesta, sitä merkitään :lla. Jos hajonta on laskettu samasta käsillä olevasta otoksesta kuin otoskeskiarvokin, sitä merkitään s:llä. a) Kun tunnetaan: Oletukset: Xi ~ N( , 2), i=1,...,n, missä tunnettu TAI otoskoko n niin suuri, että normaalijakauma-approksimaatiota voidaan käyttää. Testisuure (sama kaikille hypoteesityypeille): Z= X − µ0 σ/ n ~ N(0,1) kun Olkoon testisuureen otoksesta laskettu arvo z = = 0 x − µ0 σ/ n Nollahypoteesin hylkäysehto eri tapauksissa Tapaus 1: H0: H1: = 0 0 Jos otoskeskiarvo x on suurempi kuin 0, z arvo on positiivinen. Jos otoskeskiarvo x on pienempi kuin 0, z arvo on negatiivinen. Suuri poikkeama kumpaan tahansa suuntaan puoltaa vastahypoteesin hyväksymistä eli nollahypoteesin hylkäämistä. H0 hylätään riskitasolla , jos |z| > z1- Tapaus 2: H0: = H1: > /2 eli 0 0 66 z > z1- /2 tai z < –z1- /2 H0 hylätään riskitasolla , jos z > z1- Tapaus 3: H0: = H1: < 0 0 H0 hylätään riskitasolla , jos z < –z1– Testisuureen lasketun arvon z merkitsevyystaso eli P-arvo (kuvissa viivoitettu pinta-ala): •Kaksisuuntainen testi, tapaus 1: P = P(Z > |z|) + P(Z < -|z|) = 2P(Z > |z|) = 2[1- (|z|)] •Yksisuuntainen testi, tapaus 2: P = P(Z > z) = 1- (z) 67 •Yksisuuntainen testi, tapaus 3: P = P(Z < z) = (z) Lasketaan siis todennäköisyys testisuureen arvosta vastahypoteesin suuntaan. b) Kun tuntematon: Yleensä todellista hajontaa ei tunneta, vaan se estimoidaan käsillä olevasta otoksesta. Silloin on käytettävä t-jakautunutta testisuuretta (kuten luottamusvälin muodostamisen yhteydessä). Oletukset: Xi ~ N( , Testisuure: T= 2 X − µ0 S/ n ), i=1,...,n ja tuntematon. ~ t(n-1) kun = 0 S on otoshajonta (satunnaismuuttujana), sen laskettua arvoa merkittiin s:llä. Koska t-jakauman kuvaaja on normaalijakauman kuvaajan kaltainen, hylkäysalueet vastaavat edellisten kuvien hylkäysalueita, mutta z-arvon paikalla on vastaava t-jakauman piste. Olkoon testisuureen otoksesta laskettu arvo t = x − µ0 s/ n . H0 hylätään riskitasolla , jos Kaksisuuntainen testi, tapaus 1: |t| > t1– /2(n-1) Yksisuuntainen testi, tapaus 2: t > t1– (n-1) Yksisuuntainen testi, tapaus 3: t < –t1– (n-1) Testisuureen lasketun arvon t merkitsevyystaso eli P-arvo on •tapauksessa 1: P = P(T > |t|) + P(T < -|t|) •tapauksessa 2: P = P(T > t) •tapauksessa 3: P = P(T < t) Tämä voidaan laskea tietokoneohjelmilla, joissa on t-jakauman kertymäfunktio, esim. Excelin funktiolla TDIST. 68 Esimerkki 6.4. Moottoriöljyn viskositeetin tulisi olla keskimäärin 85. Halutaan tutkia poikkeaako keskimääräinen viskositeetti väitetystä arvosta suuntaan tai toiseen. Oletetaan, että viskositeetti on normaalijakautunut. Testausta varten tehtiin 25 viskositeetin määritystä, joista saatiin keskiarvoksi 88.3 ja hajonnaksi 7.49. Hypoteesit: H0: µ = 85 H1: µ 85 Koska otos on pieni eikä todellista varianssia/hajontaa tunneta, käytetään t-testiä. X − µ0 Testisuure: T= ~ t(n-1) kun = 0 S/ n Valitaan riskitasoksi = 0.05 Otos: n = 25, x = 88.3, s = 7.49 0 = 85 x − µ0 88.3 − 85 = Testisuureen arvo: t = = 2.203 s/ n 7.49 / 25 H0 hylätään riskitasolla , jos |t| > t1– /2(n-1). Kriittinen arvo tasolla = 0.05 on t0.975(24) = 2.064. |t| > t0.975(24), joten H0 hylätään riskitasolla = 0.05 eli keskimääräisen viskositeetin poikkeama väitetystä arvosta on melko merkitsevä. Huom. Tasolla =0.01 kriittinen arvo on t0.995(24) = 2.797, joten H0 jäisi voimaan. Kuinka merkitsevä poikkeama on? P-arvo on P(T>2.203) + P(T<–2.203) = 2 P(T>2.203). P-arvo voidaan laskea esim. Excelin funktiolla TDIST (TJAKAUMA), kirjoittamalla kaava =TDIST(X;Df;Tails) missä X = testisuureen itseisarvo Df = vapausaste Tails = 1, jos testi on yksisuuntainen ja 2 jos testi on kaksisuuntainen Tässä kaava =tdist(2,203;24;2) antaa testisuureen arvon merkitsevyydeksi P = 0.0374. 6.3.2. SUHTEELLISEN OSUUDEN TESTAUS Testattavana jonkin ominaisuuden tai tapahtuman suhteellinen osuus p perusjoukossa, esim. viallisten osuus kappaletuotannossa, jonkin asian kannattajien osuus väestössä jne. Hypoteesit: Kaksisuuntainen testi, tapaus 1: H0: p = p0 H1: p p0 69 Yksisuuntainen testi, tapaus 2: H0: p = p0 H1: p > p0 Yksisuuntainen testi, tapaus 3: H0: p = p0 H1: p < p0 missä p0 on väitetty lukuarvo. a) Suuri otos Oletukset: Kokoa n oleva otos (suuresta tai äärettömästä) perusjoukosta, jossa tutkittavan ominaisuuden/tapahtuman suhteellinen osuus on p. Otoskoko n niin suuri että normaalijakauma-approksimaatiota voi käyttää. Esiintymiskertojen määrä otoksessa X ~ Bin(n, p) N(np, np(1-p)) Testisuure Z= P − p0 p 0 (1 − p 0 ) / n = X − np 0 np 0 (1 − p 0 ) ~a N(0,1) kun p = p0 missä satunnaismuuttuja P = X/n on tutkittavan tapahtuman suhteellinen osuus otoksessa. Sen otoksesta laskettua arvoa merkittiin pˆ = x/n. Olkoon testisuureen otoksesta laskettu arvo z = Tapaus 1: p 0 (1 − p 0 ) / n = x − np 0 np 0 (1 − p 0 ) H0: p = p0 H1: p p0 H0 hylätään riskitasolla , jos |z| > z1Tapaus 2: pˆ− p 0 /2 H0: p = p0 H1: p > p0 H0 hylätään riskitasolla , jos z > z1Tapaus 3: H0: p = p0 H1: p < p0 H0 hylätään riskitasolla , jos z < –z1– Testisuureen lasketun arvon z merkitsevyystaso eli P-arvo lasketaan kuten :n testauksessa: •tapauksessa 1: P = P(Z > |z|) + P(Z < -|z|) = 2P(Z > |z|) = 2[1- (|z|)] •tapauksessa 2: P = P(Z > z) = 1- (z) •tapauksessa 3: P = P(Z < z) = (z) b) Pieni otos: Hypoteesit kuten edellä, nyt testisuureena X ~ Bin(n, p0), jonka arvo otoksessa on x. Diskreetissä tapauksessa ei käytetä kriittisiä arvoja, koska P-arvo saadaan suoraan laskemalla. 70 Hylkäysehto: Tapaus 1: H0: p = p0 H1: p p0 H0 hylätään riskitasolla , jos x P(X x) = n ∑ k p k =0 k 0 (1 − p 0 ) n − k < /2 tai n P(X x) = k =x P-arvo: n ∑ k p P = 2 min{P(X k 0 (1 − p 0 ) n − k < /2 x), P(X x)} eli lasketaan lähempänä olevan reunan todennäköisyys ja kerrotaan se kahdella. Tapaus 2: H0: p = p0 H1: p > p0 H0 hylätään riskitasolla , jos n P = P(X Tapaus 3: x) = n ∑ k p k =x x n k (1 − p 0 ) n − k < k (1 − p 0 ) n − k < 0 H0: p = p0 H1: p < p0 H0 hylätään riskitasolla , jos P = P(X x) = ∑ k p k =0 0 Esimerkki 6.5. Uutta nenän tukkoisuuteen tarkoitettua nenäsumutetta testattiin koehenkilöillä. Lääkkeen valmistaja väitti, että nenä aukeaa 90 %:ssa tapauksista. a) Tuotetta testattiin ensin 10 potilaaseen, joista lääke tehosi 8 tapaukseen. Voidaanko valmistajan väite kumota riskitasolla = 0.05? Olkoon X parantuneiden määrä n:n potilaan joukossa: X ~ Bin(n, p). Hypoteesit: H0: p = 0.9 H1: p < 0.9 (tai p 0.9) Koska otos on erittäin pieni, käytetään testisuuretta X ~ Bin(10, p). Otoksessa x = 8. Kun p=0.9, P = P(X 8) = 0.2639 (Bin(10, 0.9)-jakauman kertymäfunktion taulukosta) Koska P > 0.05, H0 jää voimaan. Tulos ei osoita merkitsevää poikkeamaa väitetystä tehosta. 71 b) Testaamista laajennettiin 200 henkilön otokseen ja näistä lääke tehosi 170 tapaukseen. Voidaanko valmistajan väite nyt kumota? Hypoteesit kuten edellisessä kohdassa. Nyt otos on suuri, joten käytetään testisuuretta Z= X − np 0 np 0 (1 − p 0 ) ~a N(0,1), kun p = p0 H0 hylätään, jos z < -z1- (eli jos P-arvo < ) Sijoitetaan x = 170, n = 200, p0 = 0.9: z= Kun 170 − 200 ⋅ 0.9 200 ⋅ 0.9 ⋅ 0.1 = -2.357 = 0.05, kriittinen arvo on –z0.95 = –1.6449 > –2.357, joten H0 hylätään. Vaihtoehtoisesti voidaan laskea P-arvo P = P(Z < -2.357) = 1 – (2.36) = 1 –0.9909 = 0.0091 < , joten H0 hylätään. Parantuneiden osuus on siis merkitsevästi pienempi kuin valmistaja väittää, P-arvon ollessa 0.0091. Huom. Vaikka jälkimmäisessä testissä parantuneiden suhteellinen osuus pˆ = x/n = 170/200 = 0.85 oli suurempi kuin edellisessä, johtopäätös oli hylkäävä. Tämä ei johdu käytetystä testisuureesta vaan siitä, että suurempi otos tekee testistä voimakkaamman: suuremmassa otoksessa sattuman vaikutus on pienempi ja "todistusaineisto" nollahypoteesia vastaan on vakuuttavampi. Esimerkki 6.6.: Kertaustehtävä Valmistetaan laakerikuulia, joiden halkaisijan tulisi olla mahdollisimman tarkkaan 5 mm. Halkaisija X on normaalijakautunut odotusarvona säätöarvo ja keskihajontana = 0.2 mm. a) Säätöarvo tarkastetaan mittaamalla n = 20 satunnaisesti valitun laakerikuulan halkaisija ja testaamalla riskitasolla = 0.01 hypoteeseja H0: H1: =5 5. Jos H0 hylätään, valmistusprosessia on säädettävä. •Suorita testaus sekä kriittiseen arvoon vertaamalla että P-arvoa käyttäen, kun tarkastetun otoksen keskiarvoksi saatiin x = 4.87 mm. •Onko tässä tilanteessa perusteltua käyttää kiinteää riskitasoa? •Kuinka kerrot testin tuloksen jos kiinteää riskitasoa ei ole annettu? 72 Ratkaisu: Halkaisija X ~ N( , 0.22) Testisuure Z = 0= 5 n = 20 = 0.2 x = 4.87 X − µ0 σ/ n ~ N(0,1), kun = 0. (nollahypoteesin väittämä arvo) (otoskeskiarvo) Testisuureen arvo z = Annettu riskitaso 4.87 − 5 0.2 / 20 = -2.91 = 0.01 TAPA 1: Testaus kriittiseen arvoon vertaamalla H0 hylätään riskitasolla , jos |z| > z1Tasolla (kaksisuuntainen testaus). /2 = 0.01 kriittinen arvo on z0.995 = 2.575. Nyt |z| = 2.91 > z0.995, joten H0 hylätään: Säätöarvo poikkeaa merkitsevästi 5 mm:stä, riskitasolla = 0.01. TAPA 2: Testaus P-arvoa käyttäen H0 hylätään, jos P < . Testisuureen P-arvo eli merkitsevyystaso on (piirrä kuva!) P(Z > |z|) + P(Z < -|z|) = P(Z > 2.92) + P(Z<-2.91) = 2 P(Z>2.91) = 2 [1 - P(Z 2.91)] = 2 [1 – (2.91)] = 2 [1-0.9982] = 0.0036 Riskitaso = 0.01. Koska P < , H0 hylätään riskitasolla = 0.01. Säätöarvo poikkeaa merkitsevästi 5 mm:stä, riskitasolla = 0.01. •Tässä kiinteä riskitaso on perusteltu, koska testin tuloksen perustella päätetään, säädetäänkö valmistusprosessia vai ei. Raja määräytyy riskitason perusteella ja tämän tason määrää päätöksentekijä. •Jos riskitasoa ei ole annettu, P-arvo on laskettava ja johtopäätös ilmaistaan esim. näin: Säätöarvo poikkeaa 5 mm:stä merkitsevyystasolla P = 0.0036. 73 Mitä riskitaso merkitsee käytännössä? Riskitaso 0.01 tarkoittaa, että silloin kun odotusarvo on toivottu 5 mm, 1 % otoksista aiheuttaa satunnaisvaihtelun takia (turhan) säätämisen. •Mitä pienempi riskitaso, sitä suurempi otoskeskiarvon poikkeama hyväksytään ennen kuin prosessia lähdetään säätämään. •Mitä suurempi riskitaso, sitä herkemmin reagoidaan poikkeamiin eli sitä pienemmät poikkeamat johtavat säätämiseen. b) Säätöarvo tarkastetaan mittaamalla n = 20 satunnaisesti valitun laakerikuulan halkaisija. On määrätty, että jos otoskeskiarvo x poikkeaa 5 mm:stä yli 0.10 mm, prosessia täytyy säätää. Tilanne vastaa hypoteesien H0: H1: =5 5 testaamista, missä ”H0 hylätään”, kun keskiarvo poikkeaa halutusta arvosta yli 0.10 mm. Kuinka suuri on tämän testin riskitaso? Ratkaisu: Esitetään hylkäysehto standardiarvon z avulla. H0 hylätään, kun | x − µ 0 | > 0.1 ⇔ | x − µ0 | σ/ n > 0.1 σ/ n 0.1 ⇔ |z|> ⇔ | z | > 2.236 0.2 / 20 Riskitaso on tämän hylkäämisen todennäköisyys satunnaismuuttujalle Z: = P( | Z | > 2.236) 2 [ 1 – (2.24) ] = 2 [ 1 –0.9875 ] = 0.025. 6.3.3. MUIDEN PARAMETRIEN TESTAUS Muiden parametrien testaus suoritetaan samaan tapaan kuin odotusarvon ja suhteellisen osuuden käyttäen sopivaa testisuuretta, jonka jakauma tunnetaan. Kun testisuureen jakauma ei ole symmetrinen, on kaksisuuntaisessa testissä huomioitava, että ylä- ja alarajan kriittiset pisteet eivät ole toistensa vastalukuja. 74 6.4. 2 - RIIPPUMATTOMUUSTESTI Tutkitaan ovatko kaksi luokittelutasoista satunnaismuuttujaa X ja Y keskenään riippumattomia vai onko niiden välillä riippuvuutta. Tämä on esimerkki ei-parametrisesta testistä. Riippuvuus käsitetään tässä mahdollisimman yleisesti: se voi merkitä mitä tahansa yhteyttä ominaisuuksien X ja Y välillä, ei välttämättä suoraa vuorovaikutusta tai syy-seuraussuhdetta. Otokseen valitut tilastoyksiköt luokitellaan kahden muuttujan suhteen. Havaintoaineisto annetaan kontingenssitaulukkona, joka saadaan ristiintaulukoimalla kaksi muuttujaa X ja Y. Olkoot E1, … ,Ek muuttuja X luokat ja F1, … , Fm muuttujan Y luokat. Kukin tilastoyksikkö kuuluu yhteen alla olevan kontingenssitaulukon ruuduista. Taulukon alkiot ovat havaintojen lukumääriä. X\Y E1 E2 M Ek F1 n11 n21 M nk1 c1 F2 n12 n22 M nk2 c2 … … … … … … Fm n1m n2m M nkm cm r1 r2 M rk missä nij = niiden havaintojen (x,y) lukumäärä, joilla x ∈ Ei, y∈ Fj m ri = ∑n j=1 ij i = 1,...,k k cj = ∑n i =1 ij j = 1,...,m Lukuja nij kutsutaan solufrekvensseiksi, rivisummia ri ja sarakesummia cj reunafrekvensseiksi. Hypoteesit: Riippumattomuustesti H0: X ja Y riippumattomat H1: X:n ja Y:n välillä on riippuvuutta Homogeenisuustesti H0: Y:n vaakarivijakaumat samanlaisia X:n eri luokissa H1: Y:n vaakarivijakaumissa eroa tai H0: X:n pystyrivijakaumat samanlaisia Y:n eri luokissa H1: X:n pystyrivijakaumissa eroa. Hypoteesien muotoilu riippuu tutkimusongelman asettelusta. Testi suoritetaan kaikissa tapauksissa samalla tavalla, vain johtopäätöksen tulkinta on hieman erilainen. 75 Esimerkki 6.7. Vertailtiin tupakoinnin harrastamista ammattikoulua käyvien tyttöjen ja poikien keskuudessa. Haastatteluun valittiin satunnaisotannalla 40 tyttöä ja 60 poikaa. Tulokset jakautuivat seuraavasti: Kyllä 5 20 25 Tytöt Pojat Ei 35 40 75 40 60 100 Nollahypoteesi voidaan lausua muodossa H0: tupakointi ei riipu sukupuolesta tai H0: tupakoivien ja tupakoimattomien osuudet samanlaiset tyttöjen ja poikien keskuudessa. Testi perustuu siihen, että verrataan sopivan testisuureen avulla havaittuja frekvenssejä nij odotettuihin frekvensseihin riippumattomuuden vallitessa. Jos tupakointi ei riippuisi sukupuolesta eli osuudet olisivat samanlaiset tyttöjen ja poikien keskuudessa, noin 25 % tupakoisi ja 75 % ei (osuudet koko otoksessa). Riippumattomuuden vallitessa solutodennäköisyydet pij = P(X∈ Ei ja Y ∈ Fj) saadaan tulona pij = P(X∈ Ei ja Y∈ Fj) = P(X ∈ Ei) P(Y∈ Fj) Koska X:n ja Y:n jakaumia ei tunneta, estimoidaan reunatodennäköisyydet suhteellisina reunafrekvensseinä: P(X ∈ Ei) ri/n P(Y ∈ Fj) cj/n Luokkaan (i, j) kuuluu keskimäärin osuus pij kaikista havainnoista, eli npij yksilöä. Kun riippumattomuus on voimassa, odotetut frekvenssit ovat r c j ri c j . eij = npij = n P(X ∈ Ei) P(Y∈ Fj) n ⋅ i ⋅ = n n n 2 -riippumattomuustesti Testisuure 2 k = m ∑∑ i =1 j=1 missä eij = ri c j n (n ij − e ij ) 2 e ij on luokan (i, j) odotettu frekvenssi, nij havaittu frekvenssi Jos havaitut ja odotetut frekvenssit poikkeavat paljon toisistaan, se puoltaa riippumattomuushypoteesin hylkäämistä. Siis suuret testisuureen arvot johtavat H0:n hylkäämiseen. 76 Testisuureen jakauma: Voidaan osoittaa, että 2 ~a 2 ((k-1)(m-1)) kun riippumattomuus voimassa Testin käytön edellytykset: 1) havainnot riippumattomat 2) n 50 3) kaikki odotetut frekvenssit eij 2 4) korkeintaan 20 % odotetuista frekvensseistä < 5. Olkoon testin riskitasoksi valittu . 2 > 2 Hylkäysehto: H0 hylätään, jos P-arvoa käyttäen: H0 hylätään, jos (tietokoneella laskettu) P-arvo < . 1- ((k-1)(m-1)) Esimerkki 6.7. (jatkoa) Tyttöjen ja poikien tupakointi: Havaitut frekvenssit nij: Tytöt Pojat Kyllä 5 20 25 Ei 35 40 75 40 60 100 Odotetut frekvenssit eij = ri cj / n Tytöt Pojat Kyllä 10 15 Ei 30 45 Testisuureen arvon laskenta: 2 (5 − 10) 2 (35 − 30) 2 (20 − 15) 2 (40 − 45) 2 = + + + = 5.56 10 30 15 45 Luokkien lukumäärät k = 2, m = 2, joten vapausaste (k-1)(m-1) = 1. Valitaan riskitaso = 0.05. H0 hylätään, jos 2 > 77 2 1- ((k-1)(m-1)) 2 Kriittinen arvo 0.95(1) = 3.841 Koska laskettu arvo 5.56 > 20.95(1), niin H0 hylätään: Ammattikoulua käyvien tyttöjen ja poikien tupakoinnin yleisyydessä on merkitsevä ero tasolla = 0.05. Mikä on tuloksen merkitsevyys (= pienin riskitaso, jolla H 0 vielä hylätään)? Haetaan taulukosta kriittisiä arvoja pienemmillä -tasoilla: Jos Jos = 0.025, kriittinen arvo = 0.01, kriittinen arvo 2 0.975(1) = 5.024 < 5.56 2 0.99(1) = 6.635 > 5.56 H0 hylätään H0 jää voimaan. Tyttöjen ja poikien tupakoinnin yleisyydessä on merkitsevä ero P-arvolla 0.02. Taulukon perusteella saadaan vain karkea arvio. P-arvo P = P( 2 > 5.56) voidaan laskea Excel-funktiolla CHIDIST(X; DF), suom. CHIJAKAUMA(X;DF). Tässä tapauksessa kaava =chidist(5,56;1) antaa arvon P=0.0184. Esimerkki 6.8. Satunnaisesti valittuja henkilöitä pyydettiin maistamaan kolmea voileipämargariinia A, B ja C ja kertomaan mitä he pitivät parhaana. Kolmessa eri ikäryhmässä valinnat jakautuivat seuraavasti: alle 25 v 25 –50 v yli 50 v A 15 17 9 B 13 37 11 C 8 25 15 Testaa tilastollisesti, poikkeavatko eri ikäryhmien mieltymykset toisistaan. 78 7. RIIPPUVUUSANALYYSIA Seuraavassa tutkitaan välimatka-asteikollisten satunnaismuuttujien riippuvuutta: aluksi esitetään yksinkertainen riippuvuusmitta, korrelaatiokerroin, ja sen jälkeen regressioanalyysin perusteet riippuvuuden tarkempaan analysointiin ja ennusteiden tekemiseen. 7.1. KORRELAATIO 7.1.1. KORRELAATIOKERTOIMEN MÄÄRITTELY Olkoot X ja Y välimatka- tai suhdeasteikollisia satunnaismuuttujia. Havaintoaineistona on n:n suuruisesta otoksesta mitatut muuttuja-arvoparit (x1,y1), (x2,y2), ... , (xn,yn). Esimerkki 7.1. Opiskelijat tutkivat tenttiarvosanan (Y) riippuvuutta valmistautumiseen käytetystä ajasta (X). Viisi satunnaisesti valittua opiskelijaa ilmoitti seuraavat tiedot: Aika x 10 8 6 12 9 Arvosana y 4 2 0 4 1 Muuttujien riippuvuutta voidaan tarkastella pisteiden sirontakuvion (scatter plot) avulla, joka saadaan plottaamalla pisteet xy-koordinaatistoon: Plot of y vs x 5 4 y 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 x Kuvasta voidaan havaita muuttujien välillä jonkin asteinen positiivinen riippuvuus. Muuttujien X ja Y lineaarista riippuvuutta mittaa korrelaatiokerroin r= ∑ xy − (∑ x)(∑ y) / n (∑ x − (∑ x ) / n )(∑ y − (∑ y) 2 2 2 2 / n) jossa on selkeyden vuoksi jätetty pois havaintojen alaindeksit. Tätä kutsutaan myös Pearsonin tulomomenttikorrelaatiokertoimeksi erotukseksi muista korrelaatiokertoimista. Jos merkitään 79 n SSxy = ∑ (x i =1 i n SSxx = ∑ (x i =1 n SSyy = ∑ (y i =1 i i − x )( y i − y) = n ∑x − x) 2 = i =1 n n ∑x y i i =1 i n n 1=1 i =1 − (∑ x i )(∑ y i ) / n n 2 i − (∑ x i ) 2 / n 1=1 n − y) 2 = ∑ y i2 − (∑ y i ) 2 / n i =1 1=1 on r= SS xy SS xx SS yy SS-summalausekkeissa jälkimmäinen kaava on käsin laskettaessa suositeltavampi. Huom. Kun SSxx ja SSyy jaetaan (n-1):llä, saadaan X:n ja Y:n otosvarianssit. Esimerkki 7.1. jatkuu Lasketaan tenttiin valmistautumiseen käytetyn ajan (X) ja tenttiarvosanan (Y) välinen korrelaatiokerroin: x 10 8 6 12 9 45 y 4 2 0 4 1 11 xy 40 16 0 48 9 113 x2 100 64 36 144 81 425 y2 16 4 0 16 1 37 Alimmalla rivillä ovat sarakkeiden summat. SSxy = 113 –45 ·11/5 = 14 SSxx = 425 –452/5 = 20 SSyy = 37 –112/5 = 12.8 14 r= 20 ⋅ 12.8 = 0.875 KORRELAATIOKERTOIMEN OMINAISUUKSIA: 1) -1 r 1 2) Korrelaatiokerroin r mittaa muuttujien välistä lineaarista riippuvuutta. •Jos r < 0, muuttujien välillä on negatiivista riippuvuutta: suuriin x-arvoihin liittyy yleensä pieni y-arvo ja pieniin x-arvoihin suuri y-arvo. •Jos r > 0, muuttujienvälillä on positiivista riippuvuutta: suuriin x-arvoihin liittyy yleensä suuri y-arvo ja pieniin x-arvoihin pieni y-arvo. •Jos r 0, muuttujien välillä ei ole lineaarista riippuvuutta. Ääritapaukset: •Jos r = 1, havaintopisteet ovat samalla suoralla, jonka kulmakerroin on positiivinen. •Jos r = -1, havaintopisteet ovat samalla suoralla, jonka kulmakerroin on negatiivinen. 80 3) Korrelaatiokertoimen arvo on riippumaton käytetystä mitta-asteikosta, ts. se ei muutu, vaikka muuttuja-arvoille tehdään lineaarinen muunnos. Esimerkkejä: a) positiivinen korrelaatio b) negatiivinen korrelaatio c) ei korrelaatiota 7.1.2. KORRELAATION MERKITSEVYYS Koska r on otossuure, sen arvosta ei voida suoraan päätellä, onko muuttujien välillä todellista riippuvuutta vai ei. Jos otos on pieni, korrelaatiokerroin voi sattuman vaikutuksesta näyttää suurelta, vaikka muuttujilla ei olisi mitään tekemistä toistensa kanssa. Seuraavassa esitetään testi, joka ottaa tämän huomioon. Satunnaismuuttujien X ja Y yhteisjakaumaan perustuva lineaarisen korrelaation kerroin on ρ= σ xy σxσy (symboli: rhoo) missä xy = E((X-µx)(Y-µy)) = E(XY) – µxµy on muuttujien X ja Y kovarianssi. Jos X ja Y ovat riippumattomat, niin xy = 0. Sen laskemiseen tarvitaan muuttujien yhteisjakaumaa, jota harvoin tunnetaan. Teoreettinen korrelaatiokerroin on koko populaatiota koskeva, yleensä tuntematon parametri, jonka estimaattori on otoskorrelaatiokerroin r. Korrelaation testaus koskee parametria ja testisuure perustuu otossuureeseen r. 81 Hypoteesit: H0: H1: =0 0 (ei lineaarista riippuvuutta) (on lineaarinen riippuvuus) Testisuure: T= n−2 R 1− R 2 ~ t(n-2) kun H0 on voimassa. Tässä R on satunnaismuuttuja, ja sen otoksesta laskettu arvo on r. Testisuureen laskettu arvo: n−2 t= r 1− r2 Hylkäysehto: Hypoteesi H0 hylätään riskitasolla , jos | t | > t1– /2(n-2). Sama P-arvon avulla: P = P(T > | t |) + P(T < -| t |) (esim. Excelillä) Hypoteesi H0 hylätään riskitasolla , jos P < . Jos H0 hylätään, tämä voidaan ilmaista sanallisesti esim. muodossa "korrelaatio on merkitsevä tasolla " tai "muuttujien … ja … välillä on merkitsevä lineaarinen riippuvuus tasolla ". Jos riskitasoa ei ole annettu ja P-arvo on pieni (< 0.05), ilmoitetaan tulos: "korrelaatio on merkitsevä tasolla P = ..." Korrelaation testaus tehdään yleensä kaksisuuntaisena. Jos riippuvuus voi periaatteessa olla vain yhdensuuntaista (joko positiivista tai negatiivista), tehdään yksisuuntainen testaus, jolloin hypoteesit ovat H0: H1: =0 >0 (ei lin. riippuvuutta) (positiivinen lin. riippuvuus) Hylkäysehto: t > t 1 - (n-2) H0: H1: =0 <0 (ei lin. riippuvuutta) (negatiivinen lin. riippuvuus) Hylkäysehto: t < –t1– (n-2) tai Esimerkki 7.1. jatkuu Testataan, onko tenttiin valmistautumiseen käytetyn ajan ja tenttiarvosanan välillä merkitsevää lineaarista riippuvuutta: H0: H1: =0 0 (ei lineaarista riippuvuutta) (on lineaarinen riippuvuus) Käytetään riskitasoa t= 5− 2 = 0.05. Lasketaan testisuureen arvo, kun n=5, r = 0.875. 0.875 1 − 0.875 2 Kriittinen arvo tasolla = 3.1305. = 0.05 on t1– /2(n-2) = t0.975(3) = 3.182. 82 Koska | t | < t0.975(3), H0 jää voimaan. Muuttujien välillä ei ole tilastollisesti merkitsevää riippuvuutta tämän pienen otoksen perusteella. Huomautus: Näin pientä otosta ei tilastollisessa päättelyssä pitäisi käyttää! Sattuman vaikutus on liian suuri eikä riippuvuus tule helposti esiin. Esimerkki 7.2. Öljyteollisuudessa on tärkeää pystyä arvioimaan öljylähteen porauskustannuksia. Tutkitaan kustannusten Y (1000 $) riippuvuutta poraussyvyydestä X (m). Käytettävissä on 16 öljylähteen tiedot: Syvyys x 1527 1829 1993 2117 2303 2440 2501 2502 2751 2803 3025 3296 3482 3742 4033 4119 Kustannukset y 2596.8 3381.9 3198.4 4779.9 5905.1 5769.2 8089.5 4813.1 7980.0 6788.3 7840.8 8882.5 7530.0 10531.2 9373.3 11387.0 Plot of Y vs X (X 1000) 12 10 Y 8 6 4 2 0 0 0,5 1 1,5 2 2,5 X 3 3,5 4 4,5 (X 1000) Kuvan perusteella muuttujien välillä näyttää olevan selvä positiivinen riippuvuus. Lasketaan apusummat ja korrelaatiokerroin: x = 44 463 y = 108 847 xy =330 903 284.40 x2 = 132 700 311 y2 = 843 285 604.04 n = 16 SSxy = 330 903 284.4 –44 463·108 847/16 = 28 424 274.34 SSxx = 132 700 311 –44 4632/16 = 9 140 412.94 SSyy = 843 285 604.04 –108 8472/16 = 102 806 265.98 r= 28424274.34 9140412.94 ⋅ 102806265.98 = 0.9272 83 Kasvavatko kustannukset poraussyvyyden myötä eli onko muuttujien välillä merkitsevä positiivinen korrelaatio? H0: H1: =0 >0 Korrelaatiokertoimen arvo r = 0.9272, otoskoko n = 16. Testisuureen arvo: t = 16 − 2 0.9272 1 − 0.9272 2 = 9.266 Tässä ei ole annettu riskitasoa eikä testin johtopäätös aiheuta toimenpiteitä. Arvioidaan tuloksen merkitsevyyttä. Jos riskitaso on Jos riskitaso on = 0.05, kriittinen arvo on t1– (n-2) = t0.95(14) = 1.761 = 0.0005, kriittinen arvo on t1– (n-2) = t0.9995(14) = 4.140 Koska t > t0.9995(14), niin H0 hylätään vielä arvoa 0.0005 pienemmilläkin riskitasoilla. P << 0.0005, joten muuttujien välillä on erittäin merkitsevä positiivinen korrelaatio. OTOSKOON MERKITYS: Kuten esimerkin 7.1. yhteydessä mainittiin, otoskoko vaikuttaa olennaisesti testin tulokseen. Minkä suuruinen korrelaatio on merkitsevä kaksisuuntaisessa testissä esim. tasolla = 0.05 eri n:n arvoilla? n 10 20 100 |r| vähintään 0.632 0.444 0.196 KORRELAATION VOIMAKKUUS VS. MERKITSEVYYS Merkitsevyys tarkoittaa eri asiaa kuin korrelaatiokertoimen "voimakkuus", jota joissakin kirjoissa käytetään. Esim. puhutaan että korrelaatio on voimakas, jos r > 0.8, mutta tällöin ei huomioida otoskoon merkitystä. VAROITUS: Havaittu tilastollinen riippuvuus ei välttämättä merkitse suoraa syy-seuraussuhdetta muuttujien välillä! Kyseessä voi olla molempiin muuttujiin yhdessä vaikuttava kolmas tekijä tai useampia tekijöitä. Jos vaikuttavat tekijät voidaan tunnistaa, voidaan muuttujien välisiä vuorovaikutuksia analysoida verkkorakenteena, esim. ns. Bayes-verkkojen avulla. Em. varoitus koskee myös 2 -riippumattomuustestiä ja regressioanalyysia. 84 7.2. REGRESSIOANALYYSIN PERIAATTEET Regressioanalyysin tavoitteena on kuvata ja analysoida selitettävän eli riippuvan muuttujan Y riippuvuutta selittävistä eli riippumattomista muuttujista X1, X2, ... , Xk. Lineaarinen regressiomalli: Y = β 0 + β1 X1 + ... + β k X k + 144424443 determinis tinen osa ε { satunnaiso sa •parametrit 0, 1, ... , k ovat tuntemattomia vakioita •jäännöstermi eli residuaali on satunnaismuuttuja •selittävät muuttujat Xj voivat olla satunnaismuuttujia tai niiden arvot voidaan määrätä kontrolloidusti, jolloin niitä merkitään x1, x2,… , xk. REGRESSIOANALYYSIN VAIHEET: 1. Mallin muodostaminen: selittävien muuttujien valinta ja riippuvuutta kuvaavan funktion valinta. 2. Mallin parametrien estimointi. 3. Satunnaisvaihtelun estimointi (satunnaistermin jakauma ja parametrit). 4. Mallin parametrien ja/tai yhteensopivuuden testaus. 5. Mallilla ennustaminen. Havaintoaineistona (joka kerätään alussa tai viimeistään ennen vaihetta 2) on n:n yksikön otos, joista mitataan ominaisuudet Y, X1,...,Xk. 7.3. YHDEN SELITTÄVÄN MUUTTUJAN LINEAARINEN REGRESSIOANALYYSI Tutkitaan muuttujan Y lineaarista riippuvuutta yhdestä selittävästä muuttujasta x. Havaintoaineisto: n:n otoksesta mitatut muuttuja-arvoparit (x1,y1), (x2,y2), ... , (xn,yn). 7.3.1. MALLIN OLETUKSET Malli: Y = 0 + 1x + missä on vakiotermi 1 on regressiokerroin (regressiosuoran kulmakerroin). 0 Oletuksia: •Jäännöstermit kaikilla i. i ovat samoin jakautuneita ja riippumattomia ja E( i) = 0, D2 i) = 85 2 Jäännöstermit kuvaavat ihannetapauksessa (kun Y riippuu suoraan ainoastaan x:stä) aitoa satunnaisuutta, esim. mittausvirhettä: ne eivät sisällä mitään vaikuttavia tekijöitä. •Jos mallia käytetään tilastolliseen päättelyyn, esim. testaukseen, oletetaan, että i ~ N(0, 2). Oletuksista seuraa, että Y:n arvo i:nnessä havaintoyksikössä määräytyy mallista Yi = 0 + 1xi + i Yi:t ovat silloin riippumattomia satunnaismuuttujia, odotusarvona EYi = + 0 1xi ja varianssina D2Yi = 2 . Jos jäännökset ovat normaalijakautuneita, niin Yi ~N( 0 + 1xi, 2 ). 7.3.2. MALLIN PARAMETRIEN ESTIMOINTI: PIENIMMÄN NELIÖSUMMAN MENETELMÄ Mikä malli sopii parhaiten yhteen havaintoarvojen kanssa? Määrättävä havaintoaineiston perusteella "parhaat" estimaattorit βˆ0 = b0 ja βˆ1 = b1. Merkitään yˆi = b0 +b1 xi Minimoidaan jäännösneliösummaa n SSE = ∑ ( y - yˆ) i i =1 i n 2 = ∑ (y - b i 0 - b1 xi )2 i =1 parametrien b0 ja b1 funktiona. Minimissä osittaisderivaatat ovat 0: n ∂SSE = - 2 ∑ ( yi - b0 - b1 x i ) = 0 ∂ b0 i =1 n ∂SSE = - 2 ∑ ( yi - b0 - b1 x i )x i = 0 ∂ b1 i =1 josta saadaan ns. normaaliyhtälöt nb0 + (Σ xi)b1 = Σyi (Σxi)b0 + (Σxi2)b1 = Σxiyi 86 Normaaliyhtälöiden ratkaisu (esim. Gaussin eliminoinnilla): kertoimien pienimmän neliösumman estimaatit eli pns-estimaatit ∑ x i yi - (∑ x i )(∑ yi)/n SSxy βˆ1 = b1 = = ∑ x i2 - (∑ x i )2 /n SSxx 1 βˆ0 = b0 = (∑ yi - b1 ∑ x i ) = y - b1 x n Sovitettu regressiosuora: yˆ= b0 +b1x antaa ennusteet Y:lle x:n funktiona. Havaintopisteittäin lasketut sovitteet ovat yˆi = b0 +b1xi ja havaitut poikkeamat eli jäännökset (residuals) ei = yi - yˆi. 7.3.3. VAIHTELUN TUTKIMINEN Regressioanalyysin tavoitteena on Y:n vaihtelun syiden tutkiminen. Poikkeamien yi- y neliösumma Σ(yi- y )2 kuvaa Y:n kokonaisvaihtelua: Σ(yi- y )2 = Σ[(yi- yˆi) + ( yˆi- y )]2 = Σ(yi- yˆi)2 + Σ( yˆi- y )2 + 2Σ(yi- yˆi)( yˆi- y ) Sijoittamalla viimeiseen summaan yˆi = y + b1(xi- x ) ja b1=SSxy/SSxx seuraa 2Σ(yi- yˆi)( yˆi- y )=0 joten Σ(yi - y )2 = Σ( yˆi - y )2 + Σ(yi - yˆi)2 eli SST = SSD + SSE missä SST = Σ(yi- y )2 = Σyi2 - (Σyi)2/n = SSyy on selitettävän kokonaisneliösumma (total sum of squares) SSD = Σ( yˆi- y )2 = b1Σ(yi- y )(xi- x ) = b1SSxy = b12Σ(xi - x )2 = b12SSxx = SSxy2/SSxx on selitetty neliösumma (model sum of squares, regression sum of squares, determined sum of squares) 87 = Σ(yi- yˆi)2 = Σ(yi-b0-b1 xi)2 = SST - SSD SSE on jäännösneliösumma, virheneliösumma (residual sum of squares, error sum of squares) Regressiomallin sopivuutta havaintoaineistoon kuvaa mallin selitysaste 2 R = SSD SST joka on mallin selittämä osuus y-arvojen vaihtelusta ja ilmoitetaan yleensä prosentteina. Yhteiskorrelaatiokerroin SSD SST R= on yi-arvojen ja yˆi-arvojen välinen korrelaatiokerroin. Yhden selittävän muuttujan tapauksessa R = |rxy| Selitysaste on välillä 0 ≤ R2 ≤ 1. Jos lineaarinen malli sopii hyvin aineistoon (havaintopisteet lähellä regressiosuoraa), SSE ≈ 0 ja SSD SST - SSE SSE 2 ≈ 1. = =1R = SST SST SST Satunnaisvirheen varianssin eli jäännösvarianssin laskettu jäännösvarianssi 2 s = 2 = D2 ) harhaton estimaatti on otoksesta SSE n-2 s = jäännöshajonta, standard error of the estimate 7.3.4. MALLIN PARAMETRIEN LUOTTAMUSVÄLIT JA TESTAUS Kertoimien 0 ja 1 estimaattorit βˆ0 = b0 ja βˆ1 = b1 ovat satunnaismuuttujia, joiden voidaan osoittaa noudattavan jakaumia b1 ~ N( 1, 2 /SSxx) b0 ~ N( 0, 2 Σxi2/(nSSxx)) Korvaamalla s(b1) = 2 estimaatillaan s2 = SSE/(n-2) saadaan hajontaestimaatit s SSxx ∑ x i2 1 x2 s(b0) = s =s + n SSxx n SSxx 88 Voidaan osoittaa, että bj - βj T= ~ t(n-2) j=0,1 s(b j) Tätä satunnaismuuttujaa käytetään -kertoimien luottamusvälien muodostamiseen ja testaamiseen. LUOTTAMUSVÄLIT: Parametrien (1- )100%:n luottamusvälit: j = bj ± t1- /2(n-2)s(bj) j=0 tai 1. HYPOTEESIEN TESTAUS: H0: H1: =b b j j missä j = 0 tai 1 ja b testattava lukuarvo, yleensä 0. Testisuure: T= bj - b ~ t(n-2) s(b j) kun H0 on tosi. H0 hylätään riskitasolla , jos | t | > t1- /2(n-2) (eli jos P < ) Yksisuuntaiset hypoteesit vastaavasti. Regressiokertoimen testi H0: H1: =0 0 1 1 testaa myös koko lineaarisen mallin mielekkyyttä: Jos 1 = 0, Y ei riipu X:stä lineaarisesti eli malli ei selitä Y:n vaihtelua Jos 1 0, Y riippuu X:stä lineaarisesti eli malli selittää Y:n vaihtelua. Testi on yhtäpitävä korrelaatiokertoimen testin kanssa, jossa hypoteesit ovat H0: H1: =0 0 Testisuure voidaan siis laskea kummalla kaavalla hyvänsä (vain kun H0-arvo 0!) 89 Esimerkki 7.2. jatkuu Öljyteollisuudessa halutaan arvioida öljylähteen porauskustannuksia. Porattavan kohteen syvyyden X (m) ja porauskustannusten Y (1000 $) välinen korrelaatio on erittäin merkitsevä. Lasketut summat: Σx = 44463 Σx2 = 132700311 Σy = 108847 Σy2 = 843285604.04 Σxy =330903284.40 n = 16 SSxy SSxx SSyy = 330903284.4 –44463⋅108847/16 = 28424274.34 = 132700311 –444632/16 = 9140412.94 = 843285604.04 –1088472/16 = 102806265.98 Kertoimien pns-estimaatit: b1 = SSxy /SSxx = 28424274.34 / 9140412.94 ≈ 3.10973647 ≈ 3.1097 b0 = y –b1 x = (108847 –b1 44463)/16 ≈ -1838.82545 ≈ -1838.8 Riippuvuutta kuvaava pienimmän neliösumman suora: yˆ= - 1838.8 + 3.1097x SST = SSyy SSD = SSxy2/SSxx SSE = SST –SSD = 102 806 265.9775 = 88 391 999.04 = 14 414 266.9357 Selitysaste: R2 = SSD/SST ≈ 0.86 Poraussyvyys selittää noin 86 % kustannusten vaihtelusta. Jäännösvarianssi: s2 = SSE/(n-2) = 1029590.4954 Jäännöshajonta: s = 1014.6874 Hajontaestimaatit: 2 s(b1) = s(b0) = s = 0.335621 SSxx 2 2 s ∑ x = 966.5522 n SSxx Testataan riskitasolla 1) H0: H1: = 0.05 hypoteeseja =0 0≠ 0 0 Testisuureen arvo Kriittinen arvo: t =b0 / s(b0) = -1.902 t0.975(14 ) = 2.145 Koska | t | < t0.975(14), niin H0 jää voimaan. Kustannuksiin ei sisälly merkittävää vakiotermiä poraussyvyydestä riippuvan osan lisäksi. 90 2) H0: H1: =0 1 >0 1 Testisuureen arvo Kriittinen arvo: t = b1 / s(b1) = 9.266 (Sama kuin korrelaation testi!) t0.95(14 )= 1.761 Koska t > t0.95(14), niin H0 hylätään riskitasolla =0.05. Kuten korrelaation testissä, H0 hylätään vielä paljon pienemmillä riskitasoilla ja merkitsevyys P < 0.0005. Poraussyvyyden ja kustannusten välillä on siis erittäin merkitsevä positiivinen lineaarinen riippuvuus. 7.3.5. ENNUSTEET JA NIIDEN LUOTTAMUSRAJAT Mallin Y = 0 + 1x + antama ennuste, kun x:llä on kiinteä arvo a, on yˆ= b0 + b1a 1) Y:N ODOTUSARVON ELI REGRESSIOSUORAN LUOTTAMUSRAJAT Y:n odotusarvo, kun x = a, on = EY = 0 + 1a Piste-estimaatti µˆ = yˆ = b0 + b1a = y - b1(a – x ) Voidaan osoittaa, että 2 1 (a - x ) D2( yˆ) = D2( y ) + (a- x )2 D2(b1) = σ2 [ + ] n SSxx Ennusteen hajontaestimaatti: s( yˆ) = s 2 1 (a - x ) + n SSxx Satunnaismuuttuja yˆ- µ ~ t(n-2), s(yˆ) josta saadaan (1- ) 100%:n luottamusväli Y:n odotusarvolle regressiosuoran luottamusrajat pisteessä x = a: = 0 + 1a eli 2 2 1 (a - x ) 1 (a - x ) = b0 + b1a ± t1- /2(n-2) s = yˆ ± t1- /2(n-2) s + + n n SSxx SSxx 91 2) Y:N ARVON ELI YKSITTÄISEN ENNUSTEEN LUOTTAMUSRAJAT Y:n arvon luottamusväli mallin Y = Y –yˆ= missä = 0 + 0 + 1x + puitteissa perustuu satunnaismuuttujaan – yˆ + 1a. E(Y –yˆ) = 0 D2(Y –yˆ) = 2 1 (a - x )2 + D2( yˆ) = σ2 1 + + SSxx n Hajontaestimaatti: s(Y- yˆ) = s 1 + Satunnaismuuttuja 1 (a - x ) + n SSxx 2 Y - yˆ ~ t(n-2) s(Y - yˆ) josta saadaan (1- )100 %:n luottamusväli Y:lle eli yksittäisen ennusteen luottamusrajat pisteessä x = a: Y = yˆ ± t1- /2(n-2) s 1 + 2 1 (a - x ) . + n SSxx Esimerkki 7.2. jatkuu Öljy-yhtiö haluaa arvioida 3000 m syvän öljylähteen porauskustannuksia. Ennuste: yˆ= - 1838.8 + 3.1097 ⋅ 3000 = 7490.4 Millä välillä kustannukset vaihtelevat 95%:n varmuudella ( =0.05)? Sijoitetaan luottamusvälin kaavaan s = 1014.6874 n = 16 t1- /2(n-2) = t0.975(14) = 2.145 a = 3000 x = 44463/16 = 2778.9375 SSxx = 9140412.9375 jolloin saadaan Y = 7490.4 ± 2248.9 eli 5241.5 ≤ Y ≤ 9739.3 (1000$) 92 REGRESSIOANALYYSI STATGRAPHICS-OHJELMALLA: Simple Regression - Y vs. X Regression Analysis - Linear model: Y = a + b*X -------------------------------------------------------------Dependent variable: Y Independent variable: X -------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value -------------------------------------------------------------Intercept -1838,83 966,552 -1,90246 0,0779 Slope 3,10974 0,335621 9,26561 0,0000 -------------------------------------------------------------Analysis of Variance -------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value -------------------------------------------------------------Model 8,8392E7 1 8,8392E7 85,85 0,0000 Residual 1,44143E7 14 1,02959E6 -------------------------------------------------------------Total (Corr.) 1,02806E8 15 Correlation Coefficient = 0,92725 R-squared = 85,9792 percent Standard Error of Est. = 1014,69 SELITYKSIÄ Ylempi taulukko: •Intercept = vakiotermi 0 •Slope = regressiosuoran kulmakerroin 1 •Estimate: b0, b1 •Standard Error: s(b0), s(b1) •T Statistic: bi/s(bi) on t-testisuureen arvo, joka testaa hypoteeseja H0: •P-Value: P-arvo eli merkitsevyystaso ed. testissä Analysis of Variance-taulukko (ANOVA): •Source = vaihtelun lähde, Model = malli, Residual = jäännös •Model Sum of Squares = SSD •Residual Sum of Squares = SSE •Total Sum of Squares = SST •Df = vapausaste •Mean square = SS / Df •Correlation = yhteiskorrelaatiokerroin R = | r | •R-squared = selitysaste R2 (%) •Standard Error of Est. = jäännöshajonta s 93 i = 0, H1: i ≠ 0. •F-ratio = MSD / MSE = SSD/1 SSE/(n - 2) on testisuure, joka testaa koko mallin yhteensopivuutta. Tarpeellinen lähinnä usean selittäjän malleissa. Yhden selittäjän mallissa F-testi on yhtäpitävä edellä mainitun 1-kertoimen kaksisuuntaisen t-testin kanssa. Plot of Fitted Model (X 1000) 12 10 Y 8 6 4 2 0 0 0,5 1 1,5 2 2,5 3 3,5 4 X 4,5 (X 1000) Kuvassa keskellä pns-suora yˆ= - 1838.8 + 3.1097x ja sen molemmin puolin regressiosuoran eli kustannusten odotusarvon 95 %:n luottamusrajat (sisemmät käyrät) sekä kustannusten Y 95 %:n luottamusrajat (ulommat käyrät). Luottamusrajat ovat kapeimmillaan pisteessä x . Epätarkkuus/epävarmuus lisääntyy (väli laajenee) kun ekstrapoloidaan havaittujen x-arvojen ulkopuolelle. 94 Käytetyt symbolit: ∪ ∩ ∈ ⊂ ~ ~a , alfa , beeta ei, eij f fi F , fii , khii 2 p(v) , lambda Md Mo , myy nij P p r R2, r2 , rhoo s s2 , sigma 2 SSD SSE SST t tp(v) T x z zp Z joukkojen yhdiste joukkojen leikkaus (alkio) kuuluu joukkoon ... (joukko) sisältyy joukkoon ... (osajoukko) ... noudattaa jakaumaa ... ... noudattaa asymptoottisesti jakaumaa ... testin riskitaso, testin koko II lajin virheen (hyväksymisvirheen) todennäköisyys testauksessa; i:llä merkitään lineaarisen regressiomallin kertoimia odotetut frekvenssit regressiomallin satunnaistermi eli jäännöstermi jatkuvan jakauman tiheysfunktio luokkafrekvenssi kertymäfunktio, F(x) = P(X x) (myös F-jakauman nimi tai tätä jakaumaa noudattava otossuure tai testisuure) standardoidun normaalijakauman N(0,1) kertymäfunktio 2 on erään jakauman symboli tai tätä jakaumaa noudattava otossuure tai testisuure, 2(v) on 2-jakauma vapaustein v 2 (v)-jakauman p-fraktiili eli piste jossa kertymäfunktion arvo on p. Poisson- ja Exp-jakauman parametri (empiirisen) jakauman mediaani (empiirisen) jakauman moodi satunnaismuuttujan jakauman odotusarvo, jakauman/populaation/perusjoukon keskiarvo, merkitään myös E(X) solufrekvenssi todennäköisyys; suhteellinen osuus (satunnaismuuttujana); testauksessa testisuureen merkitsevyystaso eli P-arvo suhteellinen osuus, todennäköisyys, pistetodennäköisyysfunktio otoksesta laskettu korrelaatiokerroin regressiomallin selitysaste satunnaismuuttujien yhteisjakauman korrelaatiokerroin otoshajonta eli otoksesta laskettu (keski)hajonta otosvarianssi eli otoksesta laskettu varianssi satunnaismuuttujan jakauman (keski)hajonta, merkitään myös D(X) satunnaismuuttujan jakauman varianssi, merkitään myös D2(X) regressiomallin selitetty neliösumma regressiomallin jäännösneliösumma regressiomallin kokonaisneliösumma = SSyy t-jakauman eli Studentin jakauman symboli, t(v) on t-jakauma vapausastein v t(v)-jakauman p-fraktiili eli piste jossa kertymäfunktion arvo on p t-jakaumaa noudattavan satunnaismuuttujan nimi, Betassa yl. testisuureen nimi otoskeskiarvo, otoksesta laskettu aritmeettinen keskiarvo normaalijakaumaa noudattavan muuttujan standardoitu arvo z = (x- )/ standardoidun normaalijakauman N(0,1) p-fraktiili eli piste jossa kertymäfunktion arvo on p. standardoitua normaalijakaumaa noudattava satunnaismuuttuja, Z ~ N(0,1) 95
© Copyright 2024