Luentomoniste

TILASTOMATEMATIIKKA I
Sirkku Parviainen
1. JOHDANTO
MIHIN TILASTOTIEDETTÄ TARVITAAN?
•
•
•
suuren havaintomäärän (datan) keräämiseen, tietojen tiivistämiseen ja kuvailuun (deskriptiiviset menetelmät, data-analyysi)
johtopäätösten tekemiseen epätäydellisen ja epävarman informaation perusteella (tilastollinen päättely: estimonti, hypoteesien testaus, riippuvuusmallit)
tulevaisuuden ennustamiseen (aikasarja-analyysi, ennustusteoria)
MIHIN TILASTOTIEDE PERUSTUU?
Tilastollisen päättelyn menetelmät nojaavat toisaalta ilmiöistä kerättyyn käytännön kokemukseen (havaintoaineisto) ja jakaumamalleihin, toisaalta todennäköisyyslaskentaan, joka perustuu aksioomiin. Näistä aksioomista johdetaan laskusääntöjä ja päättelyssä käytettäviä kaavoja.
TILASTOTIETEEN PERUSONGELMIA:
•
•
•
•
•
Mitä on tieto ja miten epävarmuutta mitataan?
Mitä on sattumanvaraisuus?
Miten erotellaan systemaattinen ja satunnainen vaihtelu toisistaan?
Millä perusteella tehdään johtopäätöksiä?
Miten johtopäätösten luotettavuutta arvioidaan?
TILASTOTIEDETTÄ TARVITAAN MM. SEURAAVILLA ALOILLA:
•
•
•
•
•
•
•
•
•
•
•
kaikki kokeellinen tutkimus!
tekninen tutkimus
systeemien ohjaus
laadunvalvonta
luotettavuustekniikka
talouselämä, kauppa
vakuutusala
luonnontieteet
ekologia
väestötiede
tulevaisuudentutkimus
Englanninkielinen termi statistics tarkoittaa paitsi tilastotiedettä, myös tilastoja sekä tilastollisia tunnuslukuja.
Tilastomatematiikka on matemaattista tilastotiedettä. Tällä kurssilla keskitytään todennäköisyyslaskentaan, satunnaismuuttujien jakaumiin ja näihin perustuviin tilastollisen päättelyn
menetelmiin. Esim. otantamenetelmät ja kokeiden suunnittelu eivät kuulu kurssin aihepiireihin, vaikka ovatkin tärkeä osa tilastollista tutkimusta.
1
2. TODENNÄKÖISYYSLASKENTAA
2.1. SATUNNAISKOKEET JA SATUNNAISMUUTTUJAT
Satunnaiskoe on toistettavissa oleva tai toistuvasti tapahtuva ilmiö, jonka lopputuloksen määrää satunnainen mekanismi, lopputulosta ei siis voi ennustaa varmasti. Koetta toistettaessa
esiintyy tuloksissa tilastollista säännönmukaisuutta suorituskertojen määrän kasvaessa.
Satunnaiskokeen mahdolliset lopputulokset ovat alkeistapahtumia.
Otosavaruus on kaikkien alkeistapahtumien joukko, jota merkitään seuraavassa S:llä.
Esimerkkejä satunnaiskokeista ja otosavaruuksista:
1) Nopan heitto:
S = {1,2,3,4,5,6}
2) Lamppuja pakataan 4 kappaleen rasioihin. Otetaan yksi rasia ja testataan lamput (merk.
k=kunnollinen, v=viallinen): S = {kkkk, kkkv, kkvk, ... , vvvv}
3) Laitevikojen lkm/v:
S = {0,1,2,...}
4) Tuotteen paino:
S = {x∈ R | x > 0}
5) Pariston elinikä:
S = {t ∈ R | t
0}
6) Valitaan haastateltava henkilö Suomen kansalaisista: otosavaruuteen S kuuluvat kaikki
suomalaiset.
Otosavaruuden määrittely riippuu tutkimuksen kohteesta, joka määrää sen mitä mitataan tai
rekisteröidään. Esim. viimeisessä tapauksessa otosavaruus on määritelty hyvin yleisesti ja
henkilöltä voidaan haastattelussa kysyä useita mielipiteitä, taustatietoja jne. Jos tutkijaa kiinnostaisi vain henkilön kanta yhteen ajankohtaiseen kysymykseen, voisi otosavaruus olla
S = {puolesta, vastaan, ei osaa sanoa}.
Tapahtuma tarkoittaa otosavaruuden osajoukkoa. Tapahtumille pyritään laskemaan todennäköisyyksiä.
Sekä otosavaruus että tapahtuma voidaan kuvailla
- sanallisesti
- matemaattisilla symboleilla
- luettelemalla tapahtumaan kuuluvat alkeistapahtumat
- Vennin diagrammilla.
Satunnaismuuttuja on alkeistapauksiin liittyvä muuttuja, jonka arvo on satunnainen. Satunnaismuuttujan arvo määräytyy mittaamalla tai rekisteröimällä jokin alkeistapauksen ominaisuus.
Koska kokeen tulosta säätelee satunnaismekanismi, on X:n arvokin tätä kautta satunnainen.
Koetta toistettaessa eri arvot vaihtelevat ja tätä vaihtelua kuvaa satunnaismuuttujan jakauma.
2
Esimerkki 2.1. Tarkastellaan lamppujen toimivuutta 4 kappaleen rasiassa. Otosavaruus on
S = {kkkk, kkkv, kkvk, kvkk, vkkk, kkvv, kvkv, kvvk, vkkv, vkvk, vvkk,
kvvv, vkvv, vvkv, vvvk, vvvv}
Esimerkki kokeeseen liittyvästä tapahtumasta:
A = "rasiassa on yksi toimiva lamppu" = {kvvv, vkvv, vvkv, vvvk}
Esimerkki kokeeseen liittyvästä satunnaismuuttujasta:
X = viallisten lamppujen lukumäärä, joka voi saada arvot 0,1,2,3,4.
Tapahtuma A voidaan esittää myös symbolisessa muodossa A = {X=3}.
Esimerkki 2.2. Valitaan koehenkilö tai haastateltava Suomen kansalaisista.
Tapahtumia:
A = "henkilö on opiskelija"
B = "henkilö on alle 30-vuotias"
Vennin diagrammilla voidaan kuvata eri tapahtumien suhteita otosavaruudessa.
2.2. JOUKKO-OPPIA
Tapahtumien käsittelyssä tarvitaan joukko-opin merkintöjä, käsitteitä ja operaatioita.
Merkitään seuraavassa joukkoja isoilla ja niiden alkioita pienillä kirjaimilla.
Merkintä:
a ∈A
A⊂ B
A∪B
A∩B
A tai Ac
A–B tai A\B
O
/
Selitys:
alkio a kuuluu joukkoon A
joukko A sisältyy joukkoon B eli A on B:n osajoukko (myös A ⊆ B)
joukkojen A ja B yhdiste eli unioni: niiden alkioiden joukko, jotka
kuuluvat joko A:han tai B:hen tai molempiin
joukkojen A ja B leikkaus: niiden alkioiden joukko, jotka kuuluvat sekä
A:han että B:hen
A:n komplementti: niiden alkioiden joukko, jotka eivät kuulu A:han.
joukkojen A ja B erotus: niiden alkioiden joukko, jotka kuuluvat A:han
mutta eivät B:hen.
tyhjä joukko
3
TAPAHTUMIEN KUVAUS JOUKKO-OPERAATIOILLA JA VENNIN
DIAGRAMMEILLA
A tai B tapahtuu (tai molemmat):
A∪B
A ja B tapahtuvat:
A∩B
A tapahtuu, B ei:
A –B = A ∩ B
A ei tapahdu: A
Jos A ∩ B= O/ , joukot ovat erilliset eli pistevieraat: niillä ei ole yhteisiä alkioita. Tapahtumat
A ja B ovat silloin toisensa poissulkevat.
4
Esim. Suomen kansalaisten joukossa tapahtumat
H = "henkilön kotikunta on Helsinki"
L = "henkilön kotikunta on Lappeenranta"
ovat toisensa poissulkevat.
De Morganin kaavat:
A∪B = A∩B
”Ei päde se, että ainakin toinen tapahtuu”eli ”Kumpikaan ei tapahdu”
A∩B = A∪B
”Ei päde se, että molemmat tapahtuvat”eli ”Ainakaan toinen ei tapahdu”
Kaavat pätevät myös useamman joukon yhdisteille ja leikkauksille.
Esimerkki 2.3. Komponentit k1,..., kn muodostavat rinnan kytketyn systeemin, jos systeemi
toimii aina, kun yksikin komponentti toimii. Komponentit muodostavat sarjaan kytketyn systeemin, jos systeemi toimii vain, kun kaikki komponentit toimivat.
Olkoot tiettyyn aikaväliin liittyvät tapahtumat
Ai = "komponentti ki toimii".
Lausu seuraavat tapahtumat tapahtumien Ai avulla:
a) Rinnan kytketty systeemi toimii.
b) Rinnan kytketty systeemi ei toimi.
c) Sarjaan kytketty systeemi toimii.
d) Sarjaan kytketty systeemi ei toimi.
2.3. TODENNÄKÖISYYS
Tapahtuman A todennäköisyyttä (probability) merkitään P(A):lla.
Todennäköisyys ilmoitetaan lukuna väliltä [0,1] tai prosentteina.
Todennäköisyys voidaan määrittää tilanteesta riippuen erilaisilla tavoilla, jotka eivät ole kuitenkaan toisensa poissulkevia.
KLASSINEN TODENNÄKÖISYYS
Klassinen todennäköisyyden määrittely soveltuu, kun kaikki alkeistapahtumat ovat symmetrisiä, yhtä mahdollisia ("yhtä todennäköisiä"). Merkitään
N = kaikkien alkeistapahtumien lukumäärä
NA = A:n alkeistapahtumien lukumäärä eli A:lle suotuisien alkeistapahtumien lukumäärä
Tapahtuman A todennäköisyys on
N
P( A ) = A
N
eli suotuisien alkeistapahtumien suhteellinen osuus.
Määrittely soveltuu vain äärellisiin joukkoihin, mutta se voidaan yleistää äärettömiin, mitattaviin joukkoihin tarkastelemalla lukumäärän sijasta pituutta, pinta-alaa, tilavuutta jne. Tällöin
puhutaan geometrisesta todennäköisyydestä, ks. esim. 2.6.
5
Esimerkki 2.4. Nopanheitto: kaikki luvut 1,2,3,4,5,6 ovat yhtä todennäköisiä. Tapahtuman
A = "kolmella jaollinen luku" = {3, 6} todennäköisyys on silloin P(A) = 2/6 = 1/3.
TILASTOLLINEN ELI SUHTEELLISIIN FREKVENSSEIHIN PERUSTUVA
TODENNÄKÖISYYS
Tilastollinen todennäköisyys on raja-arvo, jota tapahtuman suhteellinen osuus koesarjassa lähestyy, kun koetta toistetaan (tai ilmiö toistuu) loputtomiin.
Esimerkiksi nopanheitossa kolmella jaollisten lukujen suhteellinen osuus on suunnilleen 1/3,
kun nopanheittojen määrä on hyvin suuri. Lyhyessä heittosarjassa osuus saattaa poiketa paljonkin arvosta 1/3.
Ongelmana on tämän raja-arvon määrittely, sillä kysymys ei ole matemaattisesta raja-arvon
käsitteestä. Käytännössä toistoja voidaan tehdä vain äärellinen määrä, olkoon se n. Jos n(A)
on niiden kokeiden lukumäärä jotka antoivat tuloksen A, on
P( A ) ≈
n (A )
n
Jos todennäköisyys on määritettävä tilastollisesti, on käytettävä riittävän laajaa aineistoa, jotta
tulos olisi luotettava.
Esimerkki 2.5. Teollinen kappaletuotanto. Millä todennäköisyydellä sattumanvaraisesti poimittu tuote on viallinen?
Todennäköisyys on viallisten suhteellinen osuus toistettaessa poimintaa äärettömän monta
kertaa samanlaisissa olosuhteissa, ts. suhteellinen osuus koko tuotannossa.
Oletetaan että on poimittu n=1000 satunnaista tuotetta, sattumanvaraisina aikoina, ja havaittu
näiden joukossa 12 viallista. Viallisen todennäköisyyden arvioidaan olevan noin 12/1000 =
0.012 = 1.2 %.
GEOMETRINEN TODENNÄKÖISYYS
Jos n-ulotteisesta joukosta valitaan piste X umpimähkään eli siten, että kaikilla pisteillä on
sama valintamahdollisuus (poimintatodennäköisyys), ja A on jokin :n osajoukko, niin
P( X ∈ A ) =
m( A)
m (Ω )
missä m on joukon n-ulotteinen mitta (pituus, pinta-ala, tilavuus jne.). Määrittely perustuu
todennäköisyyden frekvenssitulkintaan, mutta se on myös yleistys klassisen todennäköisyyden määrittelyyn, kuten aiemmin huomautettiin.
Esimerkki 2.6. Kaksi ystävystä ovat sopineet, että he saapuvat lounasaikaan tietyn ravintolan
eteen ja lounastavat yhdessä, jos tapaavat toisensa. Kumpikin valitsee saapumisajankohdan
täysin sattumanvaraisesti klo 12.00 ja 13.00 väliltä. Ensiksi saapuva odottaa ravintolan edessä
tasan 10 minuuttia, jos toinen ei ole paikalla. Kuinka suurella todennäköisyydellä ystävykset
tapaavat toisensa? Vastaus: 11/36.
6
SUBJEKTIIVINEN TODENNÄKÖISYYS
P(A) = uskomuksen aste A:n tapahtumiselle
Esimerkkejä:
"Mahdollisuus, että nettituttavani suostuu tapaamiseen ensi viikonloppuna, on 70 %".
"SaiPa voittaa Ässät seuraavassa ottelussa 25 %:n varmuudella."
”Millä todennäköisyydellä viiden vuoden sisällä sattuu ihmishenkiä vaativa ydinvoimalaonnettomuus?”
Subjektiivista todennäköisyyttä joudutaan käyttämään tilanteissa, joissa tapahtuma on ainutkertainen eikä koetta voida toistaa. Ns. bayesiläinen tilastotiede perustuu subjektiivisiin todennäköisyyksiin, esim. Bayes-verkkojen laskenta. Subjektiiviseen todennäköisyyden määrittelyyn on suhtauduttava varoen, etenkin jos sitä käytetään hyväksi päätöksenteossa.
2.4. TODENNÄKÖISYYDEN AKSIOMAATTINEN MÄÄRITTELY
Ollakseen hyvin määritelty, todennäköisyyden tulee täyttää eräitä yleisesti hyväksyttyjä ominaisuuksia, aksioomeja. Todennäköisyyttä P voidaan pitää otosavaruuden mittana, jonka on
toteutettava seuraavat suhteellisen esiintymisfrekvenssin ominaisuudet:
TODENNÄKÖISYYDEN PERUSOMINAISUUDET (AKSIOOMAT)
P(A)
1 jokaiselle tapahtumalle A ⊂ S.
A1.
0
A2.
P(S) = 1
A3.
Jos A ja B ovat erilliset (toisensa poissulkevat) tapahtumat eli A ∩ B= O/ , niin A tai B
tapahtuu todennäköisyydellä
("varma tapahtuma")
P(A ∪ B) = P(A) + P(B).
Ominaisuudet A1-A3 ovat äärellisen todennäköisyyskentän aksioomat. Kun S on ääretön
joukko, vaaditaan lisäksi:
A3'. Jos A1,A2,... ovat toisensa poissulkevia tapahtumia eli Ai ∩ Aj = O/ kun i ≠ j, niin
P(A1 ∪ A2. ∪ … ) = P(A1) + P(A2) + ...
SEURAUSOMINAISUUKSIA
Seuraavat ominaisuudet voidaan osoittaa aksioomien A1-A3 perusteella:
(i)
Mahdoton tapahtuma: P( O/ ) = 0
(ii)
Komplementtitapauksen todennäköisyys: P( A ) = 1 –P(A)
(iii)
Jos A ⊂ B eli A:sta seuraa B, niin P(A) P(B)
(iv)
A tai B tapahtuu: P(A ∪ B) = P(A) + P(B) –P(A ∩ B)
7
(v)
P(A –B) = P(A) –P(A ∩ B).
A tapahtuu, B ei:
Myös näin: P(A –B) = P(A ∪ B) –P(B)
Esimerkki 2.7. Valitaan koehenkilö tai haastateltava Suomen kansalaisista. Oletetaan, että
opiskelijoita on noin 8 % väestöstä ja alle 30-vuotiaiden osuus väestöstä on 36 %. Alle 30vuotiaita opiskelijoita on 7 % koko väestöstä.
Merkitään tapahtumia
A = "opiskelija"
B = "alle 30-vuotias"
Tiedetään todennäköisyydet P(A) = 0.08, P(B) = 0.36 ja P(A ∩ B) = 0.07.
Laske, millä todennäköisyydellä henkilö
a) ei ole opiskelija?
b) on vähintään 30-vuotias opiskelija?
c) vähintään 30-vuotias, ei opiskelija?
Ratkaisu (piirrä kuvat):
a)
P( A ) = 1 –0.08 = 0.92
b)
P( A ∩ B ) = P(A –B) = P(A) –P(A ∩ B) = 0.08 –0.07 = 0.01.
c)
P( A ∩ B ) = P( A ∪ B ) = 1 –P(A ∪ B) = 1 –[P(A) + P(B) –P(A ∩ B)]
= 1 –(0.08 + 0.36 –0.07) = 0.63.
Kun alkeistapauksia on äärellinen tai numeroituva määrä (ts. ne ovat lueteltavissa), on kyseessä diskreetti todennäköisyysmalli. Kun alkeistapauksia on ylinumeroituva määrä (esim. jokin
reaalilukuväli), on kyseessä jatkuva todennäköisyysmalli. Jatkuvaan tapaukseen palataan jakaumien yhteydessä; seuraavassa tarkastellaan diskreettiä tapausta.
TODENNÄKÖISYYDEN LASKEMINEN ALKEISTAPAHTUMIEN AVULLA
Olkoon otosavaruus äärellinen, S = {e1, e2,...,en}, tai numeroituvasti ääretön, S = {e1, e2,...} ja
alkeistapahtumien todennäköisyydet lukuja
P(ei) = pi,
missä 0
pi
1 ja
pi = 1.
Tapahtuman A ⊂ S todennäköisyys on
8
P ( A) =
∑ P (e )
e i ∈A
i
Diskreetissä tapauksessa siis
Tapahtuman A todennäköisyys saadaan summaamalla A:han kuuluvien alkeistapahtumien
todennäköisyydet.
Klassisen todennäköisyyden mukainen kaava saadaan myös edellisen perusteella: Jos äärellisen otosavaruuden S = {e1, e2,...,eN} kaikki alkeistapahtumat ovat yhtä todennäköisiä, niin
1
P(ei) = pi =
N
1
ja tapahtuman A ⊂ S todennäköisyys on P(A) = A:n alkeistapausten lkm ⋅ = NA/N
N
Tämä on sekä klassisen että frekvenssitulkinnan mukainen todennäköisyys.
2.5. KOMBINATORIIKKAA
TULOPERIAATE:
Jos jokin operaatio on mahdollista suorittaa p eri vaiheessa ja i:nnessä vaiheessa on ni eri valintamahdollisuutta (i=1,...,p), niin eri vaihtoehtoja on
p
∏n
i
= n1n 2 ⋅ ⋅ ⋅ n p
kappaletta.
i =1
PERMUTAATIOT, VARIAATIOT JA KOMBINAATIOT:
n-alkioisen joukon
•permutaatio on joukon alkioista muodostettu järjestetty jono
•k-variaatio on joukon k-alkioinen järjestetty jono
•k-kombinaatio on joukon k-alkioinen osajoukko.
Eri yhdistelmien lukumäärät:
•n-alkioisella joukolla on
n! = n·(n-1)···2·1
eri permutaatiota (n! on n:n kertoma).
Perustelu: Tuloperiaatteen mukaan 1. alkio voidaan valita n tavalla, 2. alkio n-1 tavalla jne. ja
viimeinen alkio yhdellä tavalla.
•n-alkioisella joukolla on (n)k = n · (n-1) ··· (n-k+1) = n! / (n-k)! eri k-variaatiota.
Perustelu: Tuloperiaate.
•n-alkioisella joukolla on
9
n
n!
  =
 k  k!(n − k )!
(nimitys: binomikerroin n yli k:n)
eri k-kombinaatiota.
Perustelu: Jokainen k-alkioinen joukko voidaan järjestää eli permutoida k! eri tavalla, joten kvariaatioita on k! kertaa k-kombinaatioiden määrä ja kombinaatioita siis variaatioiden määrä
jaettuna k!:lla.
TODENNÄKÖISYYKSIEN LASKEMINEN:
Alkeistapahtumiksi valitaan tilanteen mukaan joko variaatiot tai kombinaatiot sen mukaan
onko järjestyksellä väliä vai ei. Kun otos poimitaan "umpimähkään", on jokaisella kvariaatiolla keskenään yhtäsuuri poimintatodennäköisyys, samoin kaikilla k-kombinaatioilla.
Erilaisten tapahtumien todennäköisyydet voidaan tällöin laskea klassisen todennäköisyyden
eli tasaisen todennäköisyysmallin mukaisesti alkeistapahtumien lukumäärien suhteena:
suotuisien alk.tap. lkm
kaikkien alk.tap. lkm
Esimerkki 2.8. Arvanmyyjällä on N arpaa, joista voittoarpoja on m kpl. Asiakas ostaa n arpaa. Millä todennäköisyydellä hän saa k voittoarpaa?
 N
Otetaan alkeistapauksiksi n kappaleen kombinaatiot N:n arvan joukosta, joita on   kpl.
n
m
•k voittoarpaa voidaan valita m:n joukosta   eri tavalla
k
 N − m
 eri tavalla.
•loput n-k ei-voittoarpaa voidaan valita 
 n−k 
Tuloperiaatteen nojalla suotuisia kombinaatioita, eli sellaisia arpayhdistelmiä, joissa on k
voittoarpaa ja n-k ei-voittoarpaa, on
 m  N − m 
 kappaletta.
 
 k  n − k 
Koska arvat valitaan umpimähkään, on jokainen yhdistelmä yhtä mahdollinen, joten todennäköisyys saada k voittoa on
m N − m

  
k   n − k 

P("k voittoa") =
.
 N
 
n
Voittojen lukumäärän sanotaan noudattavan hypergeometrista jakaumaa parametrein N, m, n.
Esimerkki 2.9. Tilastomatematiikan opettaja on antanut opiskelijoille 25 tenttitehtävää ratkaisuineen ja luvannut valita tästä kokoelmasta 5 kysymystä seuraavaan tenttiin täysin satunnaisesti. Optimistinen opiskelija päättää selvitä helpolla ja opiskelee ulkoa 10 helpointa tärppiä. Millä todennäköisyydellä hän pääsee tentistä läpi, jos läpipääsyrajana on 3 oikein?
10
Ratkaisu:
Merkitään
N = 25 tehtävien määrä
m = 10 opiskelijan tärpit
n = 5 opettajan valitsemat tenttikysymykset
Erilaisia tenttejä voidaan muodostaa
 N   25 
25!
21 ⋅ 22 ⋅ 23 ⋅ 24 ⋅ 25
  =   =
= 53130
=
1⋅ 2 ⋅ 3⋅ 4 ⋅ 5
 n   5  5! 20!
P("k oikein") = P("kymmeneen tärppiin osuu k viidestä tenttikysymyksestä")
m N − m

  
k   n − k 

=
=
 N
 
n
10  15 

 
 k  5 − k 
 25 
 
5
P("tentti läpi") = P("3, 4 tai 5 oikein") = P(”3 oikein”) + P(”4 oikein”) + P(”5 oikein”)
10  15 
   
3 2
P(”3 oikein”) =     = 0.2372
 25 
 
5
10  15 
   
4 1
P(”4 oikein”) =     = 0.0593
 25 
 
5
10  15 
   
5 0
P(”5 oikein”) =     = 0.0047
 25 
 
5
joten P("tentti läpi") = 0.2372 + 0.0593 + 0.0047 = 0.3012 eli noin 30 %:n mahdollisuus.
2.6. EHDOLLINEN TODENNÄKÖISYYS
Ehdollinen todennäköisyys tarkoittaa jonkin tapahtuman todennäköisyyttä, kun satunnaiskokeen tuloksesta jo tiedetään jotain.
Tapahtuman A ehdollinen todennäköisyys ehdolla B on
P(A | B) =
P(A ∩ B)
P(B)
kun P(B) ≠ 0.
11
Tulkinta:
•A:n todennäköisyys (suhteellinen osuus) perusjoukossa B
•A:n todennäköisyys, jos B varma
•ominaisuuden A toteuttavien alkeistapausten suhteellinen osuus niiden alkeistapausten
joukossa, joilla on ominaisuus B
Kertosääntö:
P(A ∩ B) = P(B)P(A | B) = P(A )P(B | A)
Yleistys: Jos P(A1 ∩ A2 ∩ ... ∩ An-1) > 0, niin
P(A1 ∩ A2 ∩ ... ∩ An) = P(A1)P(A2 | A1)P(A3 | A1 ∩ A2) ···P(An | A1 ∩ A2 ∩ ... ∩ An-1)
Huom. Ehdollinen todennäköisyys toteuttaa todennäköisyyden perusominaisuudet, esim.
P( A | B) = 1 –P(A | B) jne.
Esimerkki 2.10. Opiskelijoita on noin 8 % väestöstä ja alle 30-vuotiaiden osuus väestöstä on
36 %. Alle 30-vuotiaita opiskelijoita on 7 % koko väestöstä. Esitetään joku seuraavista kysymyksistä:
•Jos satunnainen koehenkilö osoittautuu alle 30-vuotiaaksi, millä todennäköisyydellä hän on
opiskelija?
•Jos valitaan satunnainen koehenkilö alle 30-vuotiaiden suomalaisten joukosta, millä todennäköisyydellä hän on opiskelija?
•Mikä on opiskelijoiden suhteellinen osuus alle 30-vuotiaista?
Kaikissa näissä tapauksissa on kyse samasta ehdollisesta todennäköisyydestä:
Merkitään tapahtumia
A = "opiskelija"
B = "alle 30-vuotias"
Tiedetään todennäköisyydet P(A) = 0.08, P(B) = 0.36 ja P(A ∩ B) = 0.07, joten kysytty todennäköisyys (eli suhteellinen osuus) on P(A | B) = P(A ∩ B)/P(B) = 0.07 / 0.36 0.19.
2.7. TILASTOLLINEN RIIPPUMATTOMUUS
Tapahtumat A ja B ovat keskenään riippumattomat, jos ja vain jos
(R)
P(A ∩ B) = P(A)P(B)
eli jos
(R1)
P(A | B) = P(A )
kun P(B)
0
P(B | A) = P(B)
kun P(A)
0
eli jos
(R2)
12
Tulkinta:
•toisen sattuminen (varmasti) ei vaikuta toisen todennäköisyyteen
•tapahtumat eivät ole missään vuorovaikutuksessa keskenään
•A:n todennäköisyys (suhteellinen osuus) joukossa B on sama kuin koko otosavaruudessa S
•B:n todennäköisyys (suhteellinen osuus) joukossa A on sama kuin koko otosavaruudessa S
Riippumattomuuden määritelmää voidaan soveltaa jompaan kumpaan suuntaan:
Jos A:n ja B:n riippumattomuus on selvää (muulla tavoin perusteltavissa), niin laskukaavoja
(R), (R1) tai (R1) voi käyttää. Jos et tiedä tapahtumia riippumattomiksi, tulokaavaa (R) ei voi
käyttää todennäköisyyden P(A B) laskemiseksi! Käytä esim. kaavaa
P(A ∪ B) = P(A) + P(B) –P(A ∩ B).
Jos taas tunnetaan riippumattomuuden määritelmään (R), (R1) tai (R2) kuuluvat todennäköisyydet, niin riippumattomuus tai riippuvuus voidaan päätellä tarkastamalla kaavan paikkansapitävyys.
Yleistys: Tapahtumat A1,A2,...,An ovat täydellisesti riippumattomat, jos
P( I A i ) = ∏ P ( A i )
i∈I
kaikilla indeksikombinaatioilla I ⊂ {1,...,n}.
i∈I
Huomautuksia:
•Täydellisestä riippumattomuudesta seuraa tapahtumien Ai ja Aj parittainen riippumattomuus,
mutta ei kääntäen.
•A ja B riippumattomat ⇔ A ja B riippumattomat ⇔ A ja B riippumattomat jne.
Esimerkki 2.11. Opiskelijoita on noin 8 % väestöstä ja alle 30-vuotiaiden osuus väestöstä on
36 %. Alle 30-vuotiaita opiskelijoita on 7 % koko väestöstä. Merkitään
A = "opiskelija"
B = "alle 30-vuotias"
Ovatko A ja B riippumattomat?
P(A)P(B) = 0.08·0.36 = 0.0288
0.07 = P(A ∩ B), joten tapahtumat eivät ole riippumattomat..
Vaihtoehtoinen perustelu: Esimerkin 2.10 perusteella P(A|B)
ole riippumattomat.
P(A), joten tapahtumat eivät
Käytännöllisemmin ilmaistuna: nuorista opiskelee suurempi osuus kuin koko väestöstä (tai
aikuisista).
Esimerkki 2.12. Suomen kansalaisten joukossa tapahtumia
A = "opiskelija"
C = ”syntynyt elokuussa”
voidaan pitää riippumattomina, ja elokuussa syntyneiden opiskelijoiden osuus koko väestöstä
on P(A)P(C).
Huomio: Toisensa poissulkevat tapahtumat eivät ole riippumattomia!
13
RIIPPUMATTOMAT SATUNNAISKOKEET
Riippumattomuuden käsitettä voidaan soveltaa myös eri satunnaiskokeiden yhdistelmiin ts.
kokeisiin, joissa on eri otosavaruudet. Satunnaiskokeet ovat riippumattomia, jos toisen tulos ei
vaikuta toisen tuloksen todennäköisyyksiin. Kokeiden suoritusjärjestyksellä ei ole väliä.
Tehdään kaksi riippumatonta satunnaiskoetta, joiden otosavaruudet ovat S1 ja S2. Jos A ⊂ S1 ja
B ⊂ S2 ovat näiden tulosmahdollisuuksia (tapahtumia), niin
P(A ja B) = P(A)P(B).
Tapahtumaa "A ja B" merkitään symbolilla A × B (joukkojen karteesinen tulo)
Esimerkki 2.13. Heitetään rahaa ja noppaa. Laskettava todennäköisyys, että rahanheitosta
saadaan klaava ja nopan silmäluku on parillinen.
Esimerkki 2.14. Voimalan generaattoreiden pyörittämiseen käytetään häiriötilanteessa kolmea moottoria 1, 2, ja 3, joiden tulisi vian ilmaantuessa käynnistyä automaattisesti ja toisistaan riippumatta. Tyyppiä 1 olevien moottorien käynnistymistodennäköisyys on 99 %, kun
taas moottorien 2 ja 3 käynnistymistodennäköisyys on vain 90 %. Millä todennäköisyydellä
häiriötilanteessa
a) ainakin yksi moottori käynnistyy?
b) täsmälleen kaksi moottoria käynnistyy?
Alkeistapauksina ovat kaikki eri tapahtumavaihtoehdot:
S = {KKK, KKE, KEK, EKK, KEE, EKE, EEK, EEE}
missä K vastaa käynnistyvää, E ei käynnistyvää moottoria.
Huom. P("ei käynnisty") = 1 - P("käynnistyy”)
Oletetaan, että moottorit keskenään täydellisesti riippumattomia, jolloin alkeistapahtumien
todennäköisyydet lasketaan tuloina:
P(KKK) = 0.99·0.9·0.9 = 0.8019
P(KKE) = 0.99·0.9·0.1 = 0.0891
P(KEK) = 0.99·0.1·0.9 = 0.0891
P(EKK) = 0.01·0.9·0.9 = 0.0081
P(KEE) = 0.99·0.1·0.1 = 0.0099
P(EKE) = 0.01·0.9·0.1 = 0.0009
P(EEK) = 0.01·0.1·0.9 = 0.0009
P(EEE) = 0.01·0.1·0.1 = 0.0001
a) P("ainakin yksi käynnistyy") = 1 –P("yksikään ei käynnisty") = 1 –P(EEE)
= 1 –0.0001 = 0.9999
b) P("kaksi moottoria käynnistyy") = P({KKE,KEK,EKK})
= P(KKE) + P(KEK) + P(EKK) = 0.0891 + 0.0891 + 0.0081 = 0.1863
14
2.8. KOKONAISTODENNÄKÖISYYS JA BAYESIN KAAVA
Oletetaan, että otosavaruus S jakaantuu erillisiin ositteisiin A1, A2, ..., An eli
S = A1 ∪ A2 ∪ ... ∪ An
ja
Ai ∩ Aj = O/ , kun i
j.
Tämä tarkoittaa että jokainen alkio kuuluu täsmälleen yhteen joukoista Ai.
Oletetaan, että tunnetaan erään tapahtuman B todennäköisyydet joukoissa Ai. Silloin voidaan
laskea tapahtuman B kokonaistodennäköisyys:
P(B) = P(A1)P(B | A1) + ... + P(An)P(B | An)
Perustelu: Koska B = B ∩ S = B ∩ (A1 ∪ A2 ∪ ... ∪ An) = (B ∩ A1) ∪ … ∪ (B ∩ An),
ja yhdisteen joukot ovat erillisiä, saadaan yo. kaava soveltamalla sääntöä
P(B ∩ Ai) = P(Ai)P(B | Ai).
Edellisestä seuraa Bayesin kaava, jolla lasketaan käänteiset ehdolliset todennäköisyydet:
P(A i | B) =
P(A i )P(B | A i )
P(A i )P(B | A i )
=
P(B)
P(A1 )P(B | A 1 ) + ... + P(A n )P(B | A n )
Esimerkki 2.15. Kolme konetta valmistaa lasitölkkejä. Ensimmäinen kone valmistaa 40 %
kaikista tölkeistä ja sen tuotannosta on 3 % viallisia. Toinen kone valmistaa 30 % tölkeistä ja
se tuottaa viallisia 2 %. Kolmannen koneen tuotannosta on viallisia 1 %.
a) Montako prosenttia koko tuotannosta on viallisia?
b) Jos satunnaisesti valittu tölkki paljastuu vialliseksi, millä todennäköisyydellä se on peräisin
ensimmäisestä koneesta?
Tiedetään
a)
b)
P(K1)=0.4
P(K2)=0.3
P(K3)=0.3
P(V | K1)=0.03
P(V | K2)=0.02
P(V | K3)=0.01
P(V) = P(K1)P(V | K1) + P(K2)P(V | K2) + P(K3)P(V | K3)
= 0.4·0.03+0.3·0.02+0.3·0.01 = 0.021
P(K1 | V) = P(K1)P(V | K1)/P(V) = 0.4· 0.03 / 0.021 = 0.5714.
Esimerkki 2.16. Väestöstä 0.1 % on erään viruksen kantajia. Laboratoriotesti viruksen toteamiseksi antaa oikean (positiivisen) tuloksen todennäköisyydellä 0.99, jos henkilö on viruksen
kantaja. Jos henkilö on terve, testi antaa oikean (negatiivisen) tuloksen todennäköisyydellä
0.95. Jos satunnaisesti valittu henkilö testataan ja tulos on positiivinen, millä todennäköisyydellä henkilö todella on viruksen kantaja? Vastaus: 0.02.
15
3. JAKAUMAT
Satunnaismuuttuja on muuttuja, jonka arvo koetta tai mittausta toistettaessa vaihtelee ennalta
arvaamattomasti, jonkin satunnaismekanismin mukaan. Esim. syntyvän lapsen sukupuoli, nopan heiton tulos, kahden nopan silmälukujen summa, tilauksen toimitusaika, tuotteen kestoikä, viallisten tuotteiden määrä tuotantoerässä, koneen käyttökatkojen määrä vuorokaudessa.
Satunnaismuuttujan jakauma on malli, joka kuvaa satunnaismuuttujan arvojen vaihtelua pitkällä tähtäimellä, koko perusjoukossa.
Jakauma ilmaistaan pistetodennäköisyysfunktion (probability function), tiheysfunktion (probability density function) tai kertymäfunktion (cumulative distribution function) avulla.
Jakauma eli satunnaismuuttujan eri arvojen tai arvojoukkojen todennäköisyys palautuu
otosavaruuden todennäköisyysmittaan P, diskreetissä tapauksessa alkeistapausten todennäköisyyksiin.
Merkitään satunnaismuuttujia isoilla kirjaimilla (X, Y jne.) ja satunnaismuuttujan arvoja numeroilla tai pienillä kirjaimilla. Silloin esim. lauseke "X=x" merkitsee otosavaruudessa niiden
alkeistapausten joukkoa, joilla muuttuja X saa arvon x.
Esimerkissä 2.1. todettiin, että jos X = viallisten lamppujen lukumäärä 4 lampun rasiassa, niin
tapaus X=3 vastaa otosavaruuden osajoukkoa {kvvv, vkvv, vvkv, vvvk}.
3.1. DISKREETTI SATUNNAISMUUTTUJA
Satunnaismuuttuja X on diskreetti, jos sillä on äärellinen tai numeroituvasti ääretön määrä
mahdollisia arvoja. Arvot ovat yleensä kokonaislukuja, esimerkiksi kappalemääriä. Esimerkkejä: nopan heiton tulos, viallisten tuotteiden määrä tuotantoerässä, palvelupisteeseen saapuvien asiakkaiden määrä vuorokaudessa.
Pistetodennäköisyysfunktio
p(x) = P(X=x)
ilmaisee kaikkien mahdollisten arvojen todennäköisyydet eli se määrittää X:n jakauman.
Pistetodennäköisyysfunktio tarvitsee määritellä vain mahdollisten arvojen joukossa (muualla
= 0).
Jakauman kertymäfunktio F pisteessä x on todennäköisyys, että satunaismuuttujan arvo on
korkeintaan x, eli
F( x ) = P(X ≤ x )
Kertymäfunktio on määritelty kaikilla reaaliluvuilla. Jos satunnaismuuttujan X mahdolliset
arvot ovat x1, x2, ..., niin kertymäfunktio lasketaan summaamalla pistetodennäköisyyksiä pienimmästä arvosta lähtien arvoon x asti:
F( x ) =
∑ p( x )
xi ≤x
i
16
Esimerkki 3.1. Olkoon X = koneen käyttökatkojen määrä vuorokaudessa. Oletetaan, että seuraavat todennäköisyydet on määritetty (suhteellisina frekvensseinä pitkällä aikavälillä):
p(0) = P(X=0) = 0.45
p(1) = P(X=1) = 0.30
p(2) = P(X=2) = 0.15
p(3) = P(X=3) = 0.06
p(4) = P(X=4) = 0.04
Jakauma on havainnollista esittää pylväsdiagrammina:
Jakauman kertymäfunktio on
kun x < 0
0
0.45
kun 0 ≤ x < 1

0.75
kun 1 ≤ x < 2
F( x ) = 
kun 2 ≤ x < 3
0.90
0.96
kun 3 ≤ x < 4

1
kun x ≥ 4
Esimerkiksi todennäköisyys että vuorokaudessa on korkeintaan 2 katkoa on
P(X
2) = F(2) = 0.9
Todennäköisyys, että vuorokaudessa on vähintään 3 katkoa on kertymäfunktion avulla
P(X
3) = 1 –P(X
2) = 1 –F(2) = 1 –0.9 = 0.1
17
DISKREETIN JAKAUMAN OMINAISUUKSIA:
1.
0
p(x)
1
2.
∑ p( x ) = 1
(summaus yli kaikkien mahdollisten arvojen)
x
3.
Diskreetin satunnaismuuttujan kertymäfunktio on kasvava, oikealta jatkuva
porrasfunktio.
4.
P(a < X
b) = P(X
b) –P(X
a) = F(b) –F(a).
Jos X saa vain kokonaislukuarvoja ja a<b kokonaislukuja, niin
b
P(a
X
b) =
∑ p( x ) = F(b) –F(a–1).
x =a
Minkä tahansa arvojoukon A todennäköisyys saadaan summaamalla kaikkien sen
arvojen todennäköisyydet:
P( X ∈ A ) = ∑ p ( x )
x∈A
Esimerkki 3.2. Tarkastellaan esimerkin 2.14. kolmen moottorin järjestelmää. Olkoon satunnaismuuttuja X käynnistyvien moottorien lukumäärä. Mikä on X:n jakauma?
Todennäköisyydet saadaan esimerkissä 2.14. laskettujen alkeistapausten todennäköisyyksien
avulla:
P(X=0) = P(EEE) = 0.0001
P(X=1) = P(KEE) + P(EKE) + P(EEK) = 0.0099 + 0.0009 + 0.0009 = 0.0117
P(X=2) = P(KKE) + P(KEK) + P(EKK) = 0.0891 + 0.0.0891 + 0.0081 = 0.1863
P(X=3) = P(KKK) = 0.8019
Nämä arvot määrittävät X:n jakauman, joka voidaan esittää alla olevana taulukkona. Taulukossa laskettu lisäksi kertymäfunktion arvot kokonaislukupisteissä.
k
0
1
2
3
Todennäköisyys Kertymäfunktio
p(k) = P(X=k)
F(k) = P(X k)
0.0001
0.0001
0.0117
0.0118
0.1863
0.1981
0.8019
1.0000
3.2. JATKUVA SATUNNAISMUUTTUJA
Jatkuvalla satunnaismuuttujalla on ylinumeroituva määrä mahdollisia arvoja, esim. jokin reaalilukuväli, positiivinen reaaliakseli tai koko reaalilukujen joukko R. Esim. kappaleen massa
ja pituus, tuotteen kestoikä, tuulessa kaatuvan puun suuntakulma, tilauksen toimituksen myöhästymisaika, jatkuvan suureen mittausvirhe. Eri arvojen todennäköisyyttä ei silloin voida
18
määritellä pisteittäin. Olkoon X nyt jatkuva satunnaismuuttuja. Sen arvojen jakautumista kuvaa ei-negatiivinen tiheysfunktio (eli todennäköisyystiheys) f(x), josta eri arvovälien todennäköisyydet saadaan integroimalla.
Jakauman kertymäfunktio on
x
F( x ) = P(X ≤ x ) = ∫ f (t )dt
−∞
eli x-akselin ja tiheysfunktion väliin jäävä pinta-ala alarajalta (- ) arvoon x asti.
Välin a
X
b todennäköisyys on
b
P(a ≤ X ≤ b) = ∫ f ( t )dt .
a
Esimerkki: Viivoitetun alueen pinta-ala on
a)
F(a) = P(X
b)
P(a
X
a)
b)
Huomautus: Kaikissa integraaleissa integroidaan vain yli sen välin, jossa f(x)>0.
19
JATKUVAN JAKAUMAN OMINAISUUKSIA:
1.
f(x)
0
∞
2.
∫ f ( x)dx = 1
−∞
3.
Jatkuvan jakauman kertymäfunktio F(x) on jatkuva, kasvava funktio ja
lim F( x ) = 0 , lim F(x ) = 1 .
x → −∞
x →∞
F´(x) = f(x)
silloin kun F on derivoituva.
b
4.
P(a
X
b) = P(a < X
b) = P(a
X < b) = P(a < X < b) = F(b) –F(a) = ∫ f ( x )dx
a
Arvojoukon A todennäköisyys saadaan integroimalla yli tämän joukon:
P(X ∈ A) = ∫ f ( x )dx
A
a
5.
P(X=a) = ∫ f ( x )dx = 0
kaikille lukuarvoille a.
a
Yksittäisen arvon todennäköisyydestä ei ole mielekästä puhua. Voidaan sanoa, että
arvo a on mahdollinen jos ja vain jos f(a)>0.
Esimerkki 3.3. (Milton & Arnold) Oletetaan, että erään bensiinin lyijypitoisuus X voi vaihdella välillä 0.1 –0.5 g/l ja sen jakauman tiheysfunktio on
12.5x − 1.25
f (x) = 
0
kun 0.1 ≤ x ≤ 0.5
muualla
a) Mikä on jakauman kertymäfunktio?
x
Kertymäfunktio on määritelmän mukaan F( x ) = P(X ≤ x ) = ∫ f (t )dt
−∞
20
Kun x<0.1, F(x)=0.
Kun 0.1
x
0.5,
x
F(x) =
∫ (12.5t − 1.25)dt =
0.1
x
/ (6.25t
2
− 1.25t ) = 6.25x2 - 1.25x + 0.0625
0.1
Kun x>0.5, F(x)=1, koska mahdollisen vaihteluvälin ylärajalla F(0.5)=1 ja tämän jälkeen tiheysfunktio on 0.
(Riittää ilmoittaa kertymäfunktio sillä mahdollisten arvojen välillä, jolla tiheysfunktio on positiivinen.)
b) Millä todennäköisyydellä satunnaisen bensiinilitran lyijypitoisuus on välillä 0.2–0.3 g?
Tämä voidaan laskea joko integroimalla tiheysfunktiota tai suoraan kertymäfunktion avulla:
P(0.2
X
0.3
0.3
0.2
0.2
0.3) = ∫ f ( t )dt = ∫ (12.5t − 1.25)dt = ... = 0.1875
tai
P(0.2 X 0.3) = F(0.3) –F(0.2) =
(6.25·0.32 –1.25·0.3 + 0.0625) –(6.25·0.22 –1.25·0.2 + 0.0625) = 0.1875
21
3.3. ODOTUSARVO JA VARIANSSI
Odotusarvo ja varianssi ovat keskeisimmät jakaumaa kuvaavat tunnusluvut.
•Odotusarvo (mean, expected value, expectation) on satunnaismuuttujan jakauman keskiarvo,
"todennäköisyysmassan" painopiste. Merkintä: , E(X) tai EX.
•Varianssi (variance) ja sen neliöjuuri, keskihajonta eli hajonta (standard deviation), kuvaavat satunnaismuuttujan arvojen vaihtelua ja levinneisyyttä odotusarvon ympärillä.
Varianssin merkintä: 2, D2(X), D2X tai Var(X).
DISKREETTI SATUNNAISMUUTTUJA
Olkoon X diskreetti satunnaismuuttuja, jonka mahdolliset arvot ovat x1, x2,... todennäköisyyksin p(x1), p(x2),...
Odotusarvo:
µ = EX = ∑ x i p( x i )
i
[
]
Varianssi:
σ 2 = D 2 X = E ( X − µ) 2 = ∑ ( x i − µ) 2 p( x i )
Hajonta:
σ = DX = σ
i
2
JATKUVA SATUNNAISMUUTTUJA
Olkoon X jatkuva satunnaismuuttuja, jonka tiheysfunktio on f(x).
Odotusarvo:
µ = EX =
∞
∫ x f ( x)dx
−∞
Varianssi:
[
]
∞
σ 2 = D 2 X = E (X − µ) 2 = ∫ ( x − µ) 2 f ( x )dx
−∞
σ = DX = σ 2
Hajonta:
•Laskettaessa integroidaan yli sen välin, jossa f(x)>0.
•Odotusarvon ja hajonnan yksiköt ovat X:n yksiköitä, varianssin yksiköt ovat X:n yksiköiden
neliöitä. Huom: hajonta ja varianssi aina ei-negatiivisia.
Voidaan osoittaa, että E[(X – µ)2] = E(X2) – µ2, josta saadaan varianssille käsin laskettaessa
kätevämpi kaava:
σ 2 = ∑ x i2 p( x i ) − µ 2 ,
kun X diskreetti
i
σ =
2
∞
∫x
2
f ( x )dx − µ 2 ,
kun X jatkuva.
−∞
22
OMINAISUUKSIA (pätevät sekä diskreetille että jatkuvalle satunaismuuttujalle):
1.
E(X+Y) = EX +EY
2.
E(aX) = a EX
E(a) = a
3.
kun a on vakio.
Kun X ja Y ovat riippumattomia satunnaismuuttujia, niin
D2(X+Y) = D2X + D2Y
D2(X–Y) = D2X + D2Y.
Yleensä D(X+Y)
4.
5.
DX + DY.
D2(aX) = a2 D2X
D2(a) = 0
kun a on vakio.
Yleistys: Jos X1, X2,...,Xn ovat toisistaan riippumattomia satunnaismuuttujia ja a1,...,an
ovat vakioita, niin
E(a1X1 + a2X2 + ... + anXn ) = a1E(X1)+a2E(X2)+...+ anE(Xn)
D2(a1X1 + a2X2 + ... + anXn ) = a12D2(X1)+a22D2(X2)+...+ an2D2(Xn)
6.
Jos g(X) on satunnaismuuttujan X funktio, niin g(X) on myös satunnaismuuttuja,
jonka jakauma määräytyy X:n jakaumasta ja
E(g(X)) =
∑ g( x ) p( x ) ,
i
i
kun X diskreetti
i
∞
∫ g( x)f ( x)dx ,
E(g(X)) =
kun X jatkuva.
−∞
Esimerkki 3.4. Olkoon X koneen käyttökatkojen määrä vuorokaudessa, jakaumana
p(0) = 0.45
p(1) = 0.30
p(2) = 0.15
p(3) = 0.06
p(4) = 0.04
4
Odotusarvo:
µ = EX = ∑ x p( x ) = 0·0.45 + 1·0.3 + 2·0.15 + 3·0.06 + 4·0.04 = 0.94
x=0
4
Varianssi:
σ 2 = D 2 X = ∑ x 2 p( x ) − µ 2
x =0
2
= 0 ·0.45 + 1 ·0.3 + 22·0.15 + 32·0.06 + 44·0.04 –0.942 = 1.1964
Hajonta:
2
= 1.0938
Jos yhdestä käyttökatkosta aiheutuu kiinteä kustannus, esim. 50 €, niin kustannusten C = 50X
odotusarvo on E(C) = E(50X) = 50 E(X) = 47 €vuorokaudessa.
23
Esimerkki 3.5. Lasketaan bensiinin lyijypitoisuuden odotusarvo esimerkin 3.3. jakaumasta.
µ=
0.5
0.5
0.1
0.1
∫ x(12.5x − 1.25)dx = / (
12.5 3 1.25 2
x −
x )=
3
2
 12.5 3 1.25 2   12.5 3 1.25 2 
0.5 −
0.5  − 
0.1 −
0.1  = 0.3667 g/l.

2
2
 3
  3

Laske lyijypitoisuuden hajonta. Vastaus:
= 0.0940 g/l.
Esimerkki 3.6. Olkoon X nopan heiton tulos. Laske satunnaismuuttujan g(X) = 1/X odotusarvo.
X:n jakauma on p(x) = 1/6, x=1,2,3,4,5,6.
Ominaisuuden 6 mukaan
1 1 1 1
1 1 49
1 6 1
E  = ∑ p(x ) = ⋅ + ⋅ + ... + ⋅ =
= 0.4083
1 6 2 6
6 6 120
 X  x =1 x
Huomautus: EX = 3.5, joten E(1/X)
1 / EX.
3.4. DISKREETTEJÄ JAKAUMIA
3.4.1. BINOMIJAKAUMA
Bernoullin koe on satunnaiskoe, jolla on kaksi vaihtoehtoista tulosta: tapahtuma A sattuu tai
ei. Tulokset voivat olla esim. koe onnistuu tai ei, tuote viallinen tai ei, kytkin kiinni tai auki
jne. Olkoon satunnaismuuttuja
1, kun A tapahtuu
X= 
0, kun A ei tapahdu
Jos A tapahtuu todennäköisyydellä p, niin X noudattaa Bernoullin jakaumaa parametrilla p,
merk. X ~ Bernoulli(p). Sen pistetodennäköisyysfunktio on
P(X=0) = 1 –p
P(X=1) = p
Toistetaan n kertaa koetta, jossa tapahtuman A todennäköisyys on p, siten että toistot ovat
riippumattomia. Tapahtuman A esiintymiskertojen lukumäärä n:n kokeen joukossa noudattaa
tällöin binomijakaumaa parametrein n ja p. Jakauman pistetodennäköisyysfunktio on
n
P(X = x ) =  p x (1 − p) n − x
x
Merkintä: X ~ Bin(n, p)
x = 0,1,...,n
Luetaan: ”X noudattaa binomijakaumaa parametrein n ja p”
24
Odotusarvo:
Varianssi:
EX = np
D2X = np(1-p)
Todennäköisyyden laskentakaava perustellaan seuraavan esimerkin yhteydessä.
Huom. Bin(1,p)-jakauma on sama kuin Bernoulli(p)-jakauma ja Bin(n, p)-satunnaismuuttuja
on n:n riippumattoman Bernoulli(p)-satunnaismuuttujan summa. Odotusarvon ja varianssin
kaava voidaan osoittaa helposti Bernoullin jakauman avulla.
Esimerkki 3.7. Olkoon X viallisten lamppujen määrä 4 kappaleen rasiassa. Oletetaan, että
tuotantoprosessissa syntyy viallisia lamppuja keskimäärin 10 %. Kyseessä on tällöin toistokoe, missä n = 4 ja viallisen lampun todennäköisyys p = 0.1. Kokeita voidaan pitää riippumattomina, olettaen että lamput on poimittu sattumanvaraisesti. Viallisten määrä noudattaa siis
binomijakaumaa Bin(4, 0.1).
Perustelu todennäköisyydelle:
Alkeistapahtumat ovat
{kkkk,kkkv,kkvk,kvkk,vkkk,kkvv,kvkv,kvvk,vkkv,vkvk,vvkk,kvvv,vkvv,vvkv,vvvk,vvvv}
(24 = 16 alkeistapausta)
Koska lamput toisistaan riippumattomia saadaan alkeistapahtumien todennäköisyydet tuloina.
P(kkkk) = (1-p)4 = 0.94
P(kkkv) = p(1-p)3 = 0.1·0.93
P(kkvv) = p2(1-p)2 = 0.12·0.92
jne.
(sama kaikille tapauksille joissa 1 viallinen, 3 kunnollista)
(sama kaikille tapauksille joissa 2 viallista, 2 kunnollista)
 4
Esim. P(X=2) = P({kkvv,kvkv,kvvk,vkkv,vkvk,vvkk})= 6·0.12·0.92 =   ·0.12·0.92 = 0.0486.
 2
Yleinen tapaus:
Kunkin alkeistapauksen, jossa tapahtuma sattuu x kertaa, todennäköisyys on px(1-p)n-x.
n
Tällaisia alkeistapauksia on   kpl, josta seuraa binomitodennäköisyyden kaava..
x
Binomijakauman todennäköisyyksiä ja kertymäfunktion arvoja on taulukoitu joillakin parametrien n ja p arvoilla. Edellisen tehtävän todennäköisyydet saadaan suoraan taulukoista,
esim.
Kaksi viallista P(X=2) = 0.0486
Korkeintaan 2 viallista P(X 2) = F(2) = 0.9963
(todennäköisyystaulukko)
(kertymäfunktion taulukko)
3.4.2. POISSON-JAKAUMA
Olkoon satunnaismuuttuja X toisistaan riippumattomien, sattumanvaraisten tapahtumien lukumäärä aikayksikössä tai muussa mittayksikössä, kun tapahtumilla on keskimääräinen tiheys
. Tällaisen satunnaismuuttujan jakaumaksi sopii usein Poisson-jakauma.
Esimerkkejä Poisson-jakautuneista satunnaismuuttujista:
- puhelinkeskukseen tai palvelunumeroon saapuvien puheluiden lkm/min
- ensiapuasemalle saapuvien asiakkaiden lukumäärä vuorokaudessa
25
- ainemäärässä tapahtuvien radioaktiivisten hajoamisten lkm/min
- vakavien lento-onnettomuuksien määrä vuodessa (kun riski ei olennaisesti muutu)
- painovirheiden lkm / kirjan sivu
- bakteerien lkm / tilavuusyksikkö nestettä
Satunnaismuuttuja X noudattaa Poisson-jakaumaa parametrilla
köisyysfunktio on
λx −λ
P( X = x ) = e
x!
, jos sen pistetodennä-
x = 0,1,2,...
Merkintä: X ~ Poisson( ) tai X ~ P( )
Odotusarvo:
Varianssi:
EX =
D2X =
Poisson-jakauman todennäköisyyksiä P(X = x) ja kertymäfunktion arvoja F(x) = P(X
löytyy taulukoista joillakin parametriarvoilla.
x)
Esim. jos X ~ Poisson(3.5), niin
P(X = 4) = 0.1888
tai laskemalla P(X = 4) =
P(X
(todennäköisyystaulukko)
λ4 −λ 3.5 4 −3.5
e =
e = 0.1888
4!
4!
4) = F(4) = 0.7254
(kertymäfunktion taulukko)
Poisson-jakauma Binomijakauman rajajakaumana:
Kun binomijakaumassa n
ja np pysyy vakiona (eli samalla p
n x
(np ) x −np
 p (1 − p) n − x →
e
x!
x
0), niin
x = 0,1,2,...
Kun n on suuri ja p vastaavsti pieni, voidaan binomitodennäköisyyksiä approksimoida Poisson-todennäköisyyksillä, parametrina = np.
Esimerkiksi harvinaisten tapahtumien A määrän todennäköisyyksien approksimointi suuressa
populaatiossa, esim. harvinaiseen, sattumanvaraisesti iskevään tautiin sairastuvien määrä
suurkaupungissa / vuosi (kun kyseessä ei tartuntatauti). Ks. Esimerkki 3.16. luvussa 3.5.6.
YLEISESTI:
Poisson-jakauma sopii lukumäärän jakaumaksi tilanteisiin, jossa tapahtumien keskimääräinen
tiheys ei muutu minkään toimenpiteen johdosta, mutta yksittäiset tapahtumat sattuvat täysin
sattumanvaraisesti, toisistaan riippumatta, eikä niitä voida ennustaa (esim. onnettomuudet,
palvelupisteeseen saapuvat asiakkaat). Tällaista tapahtumien jonoa kutsutaan Poissonprosessiksi ja parametri on prosessin intensiteetti.
26
YHTEENLASKUOMINAISUUS:
Jos X ~ Poisson( 1) ja Y ~ Poisson( 2) ja X ja Y ovat riippumattomat, niin
X+Y ~ Poisson(
1
2)
YLEISTYS:
Olkoon satunnaismuuttuja X tiettyjen tapausten A määrä aikayksikössä ja X ~ Poisson( ). Jos
satunnaismuuttuja Xt = tapausten A määrä t aikayksikössä (t>0) ja aikavälit ovat toisistaan
riippumattomat, niin
Xt ~ Poisson( t ).
Esimerkki 3.8. Ydinvoimalassa sattuu havaittavissa oleva radioaktiivinen päästö satunnaisesti, keskimäärin kaksi kertaa kuussa. Päästöjen lukumäärän aikayksikössä voidaan katsoa noudattavan Poisson-jakaumaa.
Perustelu jakaumalle: päästöjä tulee sattumanvaraisesti toisistaan riippumatta, keskimääräisellä tiheydellä =2 kertaa kuussa, niitä ei voida ennustaa etukäteen.
Päästöjen lkm kuussa X ~ Poisson(2)
EX = = 2
a) Millä todennäköisyydellä kuukauden aikana sattuu vähintään neljä päästöä?
P(X 4) = 1 –P(X 3) = 1 –F(3) = 1 –0.8571 = 0.1429
(kertymäfunktion taulukosta)
b) Millä todennäköisyydellä kahden kuukauden aikana sattuu vähintään kahdeksan päästöä?
Olkoon X2 = päästöjen lkm 2 kk:ssa: X2 ~ Poisson(2 ) = Poisson(4)
P(X2 8) = 1 –P(X2 7) = 1 –F(7) = 1 –0.9489 = 0.0511
(kertymäfunktion taulukosta)
c) Millä todennäköisyydellä ensimmäinen päästö havaitaan aikaisintaan kolmen kuukauden
kuluttua?
P(”ensimmäinen päästö aikaisintaan 3 kk:n kuluttua”)
= P(”ei yhtään päästöä 3 kk:n aikana”)
Olkoon X3 = päästöjen lkm 3 kk:ssa: X3 ~ Poisson(3 ) = Poisson(6)
6 k −6
P(X3 = k) =
e
k!
Kysytty todennäköisyys on
P(X3 = 0) = e-6 = 0.0025
27
d) Johda ensimmäiseen päästöhavaintoon kuluvan ajan jakauma (jatkuva jakauma!).
Olkoon T ensimmäisen päästöhavaintoon kuluva aika kuukausina. Johdetaan T:n kertymäfunktio.
F(t) = P(T t) = 1 –P(T > t)
= 1 –P(”ensimmäinen päästö aikaisintaan t kk:n kuluttua”)
= 1 –P(”ei yhtään päästöä t kk:n aikana”)
Olkoon Xt = päästöjen lkm t kk:ssa, Xt ~ Poisson( t) = Poisson(2t)
(2t ) k −2t
P(Xt = k) =
e
k!
Kertymäfunktio on
F(t) = 1 –P(Xt = 0) = 1 –e-2t kun t > 0
Tiheysfunktio on
f(t) = F´(t) = 2e-2t
kun t > 0
Tämä on luvussa 3.5 käsiteltävän eksponentiaalijakauman tiheysfunktio.
3.4.3. MUITA DISKREETTEJÄ JAKAUMIA
Diskreetti tasajakauma:
Kun satunnaismuuttujalla X on äärellinen määrä arvoja, jotka ovat kaikki yhtä todennäköisiä,
X noudattaa diskreettiä tasajakaumaa. Esim. nopan heiton tulos, jonka pistetodennäköisyydet
ovat
P(X = x) = 1/6,
x = 1,2,3,4,5,6.
Hypergeometrinen jakauma: Esimerkit 2.8.-2.9.
Geometrinen jakauma:
Oletetaan, että jossain satunnaiskokeessa tuloksen A todennäköisyys on p. Kokeita toistetaan
niin kauan, kunnes saadaan ensimmäisen kerran tulos A. Tarvittavien kokeiden määrä X noudattaa tällöin geometrista jakaumaa parametrilla p: X ~ Geom(p)
Esimerkki 3.9. Heitetään noppaa niin kauan, että saadaan ensimmäinen kuutonen. Olkoon
satunnaismuuttuja X tarvittavien heittojen lukumäärä. Johda X:n jakauma.
3.5. JATKUVIA JAKAUMIA
3.5.1. TASAJAKAUMA
Satunnaismuuttuja X, jonka arvot ovat välillä (a, b) siten, että kaikilla välin pisteillä on yhtäläinen mahdollisuus tulla valituksi, noudattaa tasajakaumaa välillä (a,b), merk. X ~ U(a, b).
Esim. taskulaskimen satunnaislukugeneraattori antaa välille (0, 1) tasanjakautuneita arvoja.
Arvoväli voi olla avoin, puoliavoin tai suljettu (koska yhden pisteen todennäköisyys on 0,
reunapisteillä ei ole merkitystä).
28
Jakauman U(a, b) tiheysfunktio:
 1
kun a < x < b

f (x) =  b − a
 0
muualla
Kertymäfunktio:
kun x ≤ a
0
x - a

F( x ) = 
kun a < x < b
b - a
kun x ≥ b
1
Odotusarvo:
Varianssi:
a+b
2
(b − a ) 2
D2X =
12
EX =
3.5.2. EKSPONENTIAALIJAKAUMA
Satunnaismuuttuja X noudattaa eksponentiaalijakaumaa parametrilla , merk. X ~ Exp( ), jos
sen tiheysfunktio on muotoa
f ( x ) = λ e − λx
kun x > 0
(0 muualla)
Exponential Distribution
Mean
0,5
2
density
1,6
1,2
0,8
0,4
0
0
0,5
1
1,5
x
29
2
Kertymäfunktio:
F( x ) = 1 − e − λx
Odotusarvo:
Varianssi:
kun x > 0.
EX = 1 /
D2X = 1 /
2
Eksponentiaalijakauma on yleinen mm. kestoiän tai vikaantumisajan jakaumana tekniikassa,
saapumis- ja palveluaikajakaumana jonosysteemeissä, esim. tietoliikenteessä.
Yleisesti: Tietyllä keskimääräisellä tiheydellä tapahtuvien keskenään riippumattomien, sattumanvaraisten tapausten aikavälin voidaan usein sanoa noudattavan eksponentiaalijakaumaa.
Esim. radioaktiivisten hajoamisten aikaväli ainemäärässä, puhelinkeskukseen saapuvien peräkkäisten puhelujen välinen aika jne.
Eksponentiaalijakaumalla on seuraava "menneisyyden unohtamisominaisuus" eli muistittomuus:
Jos X ~ Exp( ), niin kaikille luvuille t, h > 0 pätee, että
P(X > t+h | X
t) = P(X > h).
Jos X on esim. tuotteen kestoikä, niin todennäköisyys sille, että jo käytössä ollut tuote kestää
vielä h aikayksikköä ei riipu tähänastisesta kestosta t. Tämä ominaisuus kertoo olennaisesti,
millaisten tapausten malliksi eksponentiaalijakauma sopii. Eksponentiaalijakaumaa yleisempi
kestoiän jakauma on Weibullin jakauma, joka ottaa huomioon myös ns. lastentaudit ja vanhenemisen.
Eksponentiaalijakauman ja Poisson-jakauman yhteys:
Jos
X = keskenään riippumattomien tapahtumien A lukumäärä aikayksikössä
T = kahden peräkkäisen tapahtuman A välinen aika,
niin
X ~ Poisson( )
⇔
T ~ Exp( ).
T voi olla myös ensimmäisen tapahtuman sattumisaika, kun kello käynnistetään mielivaltaisella ajanhetkellä.
Esimerkki 3.10. Suurkaupungin eräs paloasema saa hälytyksen keskimäärin 7 tunnin välein.
a) Mikä voisi olla hälytysten välisen ajan jakauma ja miksi?
Koska hälytykset sattuvat toisistaan riippumatta, sattumanvaraisesti keskimääräisellä vakiotiheydellä, niiden lukumäärän voi katsoa noudattavan Poisson-jakaumaa ja hälytysten välinen
aika T noudattaa eksponentiaalijakaumaa, odotusarvona ET = 1/ = 7 ⇒ = 1/7.
Jakauman kertymäfunktio on F(t) = P(T
t) = 1 –e-t/7 , kun t > 0.
b) Millä todennäköisyydellä hälytyksen jälkeen kuluu alle 3 tuntia seuraavaan?
P(T < 3) = P(T
3) = F(3) = 1 –e-3/7
0.35
30
c) Jos edellisestä hälytyksestä on kulunut jo 3 tuntia, millä todennäköisyydellä seuraavaan kuluu vielä ainakin 2 tuntia?
P(T
3+2 | T
2) = 1 –F(2) = e-2/7
3) = P(T
0.75
3.5.3. NORMAALIJAKAUMA
Normaalijakauma on tärkein jatkuvien satunnaismuuttujien jakauma. Sen tiheysfunktion kuvaajaa kutsutaan Gaussin käyräksi tai kellokäyräksi, jonka sijainti ja muoto riippuvat kahdesta
parametrista, odotusarvosta ja varianssista 2 (tai hajonnasta ).
2
Satunnaismuuttuja X noudattaa normaalijakaumaa parametrein µ ja
X ~ N( ,
2
, merk.
)
jos X:n tiheysfunktio on muotoa
f (x) =
Odotusarvo:
Varianssi:
1
2 πσ
e
EX = µ
D2X =
−
( x −µ ) 2
2σ2
2
OMINAISUUKSIA:
•Odotusarvo määrää tiheysfunktion keskikohdan ja huippukohdan, jonka suhteen funktio
on symmetrinen.
•Varianssi 2 tai hajonta määrää käyrän muodon: mitä suurempi , sitä laveampi ja matalampi jakauman muoto; mitä pienempi , sitä jyrkempi ja kapeampi muoto.
•Tiheysfunktion ja x-akselin väliin jäävä pinta-ala eli integraali yli koko reaaliakselin on 1
(kuten kaikilla jatkuvilla jakaumilla).
•Arvot kasautuvat keskelle: mitä kauempana keskikohdasta, sitä harvinaisempia
•Tiheysfunktio f(x) > 0 koko reaaliakselilla, mutta esim. sellaisia arvoja, jotka ovat yli 3 hajonnan etäisyydellä keskikohdasta, on alle 0.3 %.
Tässä kahden normaalijakauman tiheysfunktioiden kuvaajat, parametreilla
1) µ=1, 2=4 (vasemmanpuoleinen käyrä)
2) µ=3, 2=1 (oikeanpuoleinen käyrä)
Normal Distribution
Mean,Std. dev.
1,2
3,1
0,4
density
0,3
0,2
0,1
0
-8
-6
-4
-2
0
2
4
x
31
6
8
10
Jakauman kertymäfunktiota
x
−
1
F( x ) = P(X≤ x ) =
e
∫
2πσ − ∞
ei voida lausua suljetussa muodossa
( t −µ ) 2
2σ2
dt
Esimerkkejä normaalijakautuneista satunnaismuuttujista:
•jatkuvien suureiden mittausvirheet
•teollisuusprosessissa valmistetun tuotteen laatua mittaavat jatkuvaluonteiset ominaisuudet
kuten paperin puhkaisulujuus tai teräsvaijerin vetolujuus
•koneellisesti täytetyn vakiokokoisen säiliön massa: kemikaalit, lannoitteet, elintarvikkeet
•keskilämpötila tai sademäärä eräässä mittauspisteessä, tiettynä kuukautena
•jonkin eläinpopulaation täysikasvuisten naaraiden tai koiraiden koko tai paino
Yleisesti normaalijakauma soveltuu tapauksiin, joissa
•symmetrisyys ja em. keskittyneisyys, painottuminen keskikohdan ympärille voimassa
•ominaisuus X muodostuu useiden riippumattomien tekijöiden summana (ks. Keskeinen rajaarvolause): esim. tuotteen lujuuteen vaikuttaa useita toisistaan riippumattomia prosessin
muuttujia ja häiriöitä sekä materiaalin epätasaisuudesta johtuvia poikkeamia.
Normaalijakauman yleisyyden vuoksi monet tilastollisen päättelyn menetelmät (mm. useat
testisuureet) pohjautuvat tähän jakaumaan.
Normaalijakauman todennäköisyyksien määrittämisessä käytetään ns. standardoitua eli normeerattua satunnaismuuttujaa.
STANDARDOITU NORMAALIJAKAUMA:
µ = 0,
2
=1
X ~ N(0,1)
Normal Distribution
Mean,Std. dev.
0,1
0,4
density
0,3
0,2
0,1
0
-4
-2
0
2
x
STANDARDOINTI ELI NORMEERAUS:
Jos X ~ N(µ,
Z=
2
), niin
X−µ
~ N(0, 1)
σ
32
4
N(0,1)-JAKAUMAN KERTYMÄFUNKTIO:
Φ ( z) = P ( Z ≤ z) =
1
z
∫e
2π − ∞
−
t2
2
dt
Kuten muillekin jatkuville satunnaismuuttujille, kertymäfunktion arvo pisteessä z on pintaala, joka jää vaaka-akselin ja tiheysfunktion väliin alarajalta - pisteeseen z asti.
Normaalijakauman kertymäfunktiota ei voida lausua suljetussa muodossa, arvot lasketaan
numeerisesti. todennäköisyyksien ja erilaisten jakaumapisteiden (fraktiilien) arvoja saa taulukoista, laskimella tai tietokoneohjelmilla. Ennen taulukoiden käyttöä on aina suoritettava arvojen standardointi eli normeeraus.
Taulukoista saadaan kertymäfunktion (z) arvoja positiivisilla z.
Koska tiheysfunktio on symmetrinen origon suhteen, on (–z) = 1 – (z).
TODENNÄKÖISYYKSIEN LASKEMINEN:
Olkoon X ~ N(µ,
2
) ja Z = (X- µ)/ , jolloin Z ~ N(0,1). Olkoon a ja b reaalilukuja. Silloin
a −µ
X−µ a −µ

a −µ
P( X ≤ a ) = P
≤
 = P Z ≤
 = Φ

σ 
σ 
 σ

 σ 
b−µ
a −µ X −µ b −µ
a −µ
b−µ
a −µ
P ( a ≤ X ≤ b ) = P
≤
≤
≤Z≤
 = P
 = Φ
 − Φ

σ
σ 
σ 
 σ
 σ
 σ 
 σ 
Huomautuksia:
•Normaalijakauman todennäköisyyslausekkeet pyritään aina saattamaan muotoon jossa on
kertymäfunktio (z) = P(Z z) positiivisella arvolla z > 0. Silloin voidaan käyttää taulukoita.
•Älä opettele edellisiä kaavoja ulkoa!
Esimerkki 3.11. Normaalijakauman taulukoiden käyttö:
a) Oletetaan, että X ~ N(0,1). Määrää tapahtumien X 1.96, |X| 1.35 ja X -2 todennäköisyydet.
b) Oletetaan, että X ~ N(3, 22). Laske todennäköisyydet P(X 5) ja P(1.5 X 3.0).
c) Oletetaan, että X ~ N(3, 22). Määrää luku c siten, että P(X c) = 0.10.
Ratkaisu:
a) X ~ N(0,1).
P(X
1.96) = (1.96) = 0.9750
33
P(|X|
1.35) = P(X
1.35 tai X
= 2 P(X
–1.35) = P(X
1.35) + P(X
–1.35)
1.35)
= 2 [1 –P(X
(symmetria)
1.35)] = 2 [ 1 – (1.35)]
= 2(1 –0.9115) = 0.1770
P(X
–2) = (–2.00) = 1 – (2.00) = 1 –0.9772 = 0.0228
b) X ~ N(3, 22)
Standardoitu muuttuja Z =
P(X
P(1.5
X−µ X−3
=
~ N(0, 1)
σ
2
 X −3 5−3
≤
5) = P
 = P(Z
2 
 2
X
1) = (1.00) = 0.8413
 1.5 − 3 X − 3 3 − 3 
3.0) = P
≤
≤
 = P(–0.75
2
2 
 2
= P(0 Z 0.75)
Z
0)
= (0.75) – (0) = 0.7734 –0.5 = 0.2734
c) X ~ N(3, 22).
c − 3
c −3


 c − 3
P(X c) = P Z ≥
 = 1 − P Z ≤
 = 1 − Φ
 = 0.10
2 
2 


 2 
c −3
⇒ Φ
 = 0.90
 2 
Taulukko: (1.2816) = 0.90
Merkitään z0.90 = 1.2816, jakauman 0.9-fraktiili.
34
(symmetria)
c−3
= 1.2816
2
⇒ c = 5.5632
⇒
Esimerkki 3.12. Erään ammattiryhmän vuositulot ovat normaalisti jakautuneet, keskiansiona
µ = 30 264 €ja hajontana = 2 437 €.
a) Kuinka suuri osuus ammattikunnasta jää vuositulorajan 25 000 €alapuolelle?
Merkitään ko. ammatin harjoittajan vuosituloa satunnaismuuttujalla X.
X − µ X − 30264
X ~ N(30264, 24372) ⇒
Z=
=
~ N (0, 1)
σ
2437
Kysytty osuus on
25000 − 30264 
 X − µ 25000 − µ 

P(X ≤ 25000) = P
≤
 = P Z ≤

2437
σ
 σ



= P(Z –2.16) = (–2.16) = 1 – (2.16) = 1 –0.9846 = 0.0154 eli noin 1.5 %.
b) Määritä tuloraja, jonka alapuolelle jää 25 % ammattikunnasta.
Kysytty tuloraja q toteuttaa ehdon P(X
q) = 0.25, josta
q − 30264 
X−µ q−µ

 q − 30264 
≤
P( X ≤ q ) = P 
 = P Z ≤
 = Φ
 = 0.25
σ 
2437 
 σ

 2437 
Standardoitu tuloraja on nyt negatiivisella puolella (piirrä kuva).
 q − 30264 
 30264 − q 
Φ
 = 1 − Φ
 = 0.25 ⇔
 2437 
 2437 
 30264 − q 
Φ
 = 0.75
 2437 
Normaalijakauman taulukon perusteella
(0.6745) = 0.75, joten
(30264 –q) / 2437 = 0.6745,
josta saadaan tulorajaksi q = 28 620 €.
Normaalijakautuneiden muuttujien lineaariset muunnokset noudattavat myös normaalijakaumaa. Odotusarvo ja varianssi muodostuvat kuten lineaarikombinaatioille yleensäkin (luku
3.3).
35
2
2 )
2
2 )
2
2 )
1.
Jos X ~ N(µ1, 12) ja Y ~ N(µ2,
X + Y ~ N(µ1+µ2, 12
X –Y ~ N(µ1–µ2, 12
2.
Jos X ~ N( , 2) ja a ja b ovat vakioita, niin
aX ~ N(a , a2 2)
aX + b ~ N(a +b, a2 2)
3.
Yleisesti: Jos Xi ~ N(µi,
niin
2
i ),
toisistaan riippumatta, niin
i=1,… ,n, toisistaan riippumatta ja a1,...,an ovat vakioita,
2
a1X1 + a2X2 + ... + anXn ~ N(µ,
missä µ = a1 1+a2 2+...+ an n
2
= a12 12 +a22 22+...+ an2
)
2
n
Jos Xi ~ N(µ, 2), i=1,… ,n, niin näiden keskiarvomuuttuja
1 n
X = ∑ X i ~ N ( µ, σ 2 / n )
n i =1
4.
Esimerkki 3.13. Kuvan kappaleen 2 olisi mahduttava kappaleen 1 uraan.
Kappaleen 1 uran leveys on normaalijakautunut satunnaismuuttuja, odotusarvona 6.0 cm ja
hajontana 0.07 cm. Kappaleen 2 leveys on myös normaalijakautunut satunnaismuuttuja, hajontana 0.03 cm. Leveyden odotusarvoa voidaan säätää. Kuinka suuri odotusarvo saa olla, jotta mahtumistodennäköisyys olisi 95%?
Uran leveys
Kappaleen leveys
X1 ~ N(6, 0.072)
X2 ~ N(µ, 0.032)
Mahtumistodennäköisyys: P(X1 > X2) = P(X1–X2 > 0)
Erotusmuuttuja Y = X1 –X2 ~ N(
Y
2
Y ),
missä
= E(Y) = E(X1) –E(X2) = 6 –µ
2
2
2
2
2
Y = D (Y) = D (X1) + D (X2) = 0.07 + 0.03 = 0.0058
Y
2
Standardoitu muuttuja
Z=
Y − (6 − µ)
0.0058
~ N(0,1)
36


0 − ( 6 − µ) 
 = P Z >
P(X 1 − X 2 > 0) = P(Y > 0) = P Z >
0.0058 


µ−6 
 = 0.95
0.0058 
Jotta voidaan käyttää taulukoita, tämä on lausuttava kertymäfunktion (z) = P(Z
µ−6
Arvo
on negatiivinen. Symmetrian perusteella (piirrä kuva!)
0.0058

 6−µ 
6−µ 
 = 0.95 ⇔ Φ
P Z <
 = 0.95
0.0058 

 0.0058 
z) avulla.
Normaalijakauman taulukon perusteella (1.6449) = 0.95, joten
6−µ
= 1.6449 ⇒ µ = 6 − 1.6449 0.0058 = 5.87 cm.
0.0058
3.5.4. NORMAALIJAKAUMAAN LIITTYVIÄ JAKAUMIA
Seuraavilla erikoisjakaumilla on käyttöä tilastollisessa päättelyssä, parametrien luottamusväleissä ja testauksessa. Nämä satunnaismuuttujat määritellään eräinä normaalijakaumaa noudattavien satunnaismuuttujien epälineaarisina funktioina ja niiden tiheysfunktiot voidaan johtaa teoreettisesti. Kertymäfunktioita ei voida lausua suljetussa muodossa. Jakaumapisteitä
(fraktiileja) saadaan taulukoista, laskimella tai tilastollisilla ohjelmistoilla. Seuraavien jakaumien parametreja kutsutaan vapausasteiksi (degrees of freedom, df).
2
-JAKAUMA
Jos X1,… ,Xv ovat riippumattomia, N(0,1)-jakautuneita satunnaismuuttujia, niin satunnaismuuttuja
K = X12 + … + Xv2
noudattaa
2
-jakaumaa (
2
”khiin neliö”) vapausastein v, merk. K ~
2
(v)
t-JAKAUMA ELI STUDENTIN JAKAUMA
Jos Z, X1,… ,Xv ovat riippumattomia, N(0,1)-jakautuneita satunnaismuuttuja, niin
T=
Z
(X 1 + ... + X v ) / v
2
2
37
noudattaa t-jakaumaa eli Studentin jakaumaa vapausastein v, merk. T ~ t(v).
Tiheysfunktio on symmetrinen 0:n suhteen ja lähenee N(0,1)-jakauman tiheysfunktiota kun
.
Symmetrian takia
P(T
t) = p ⇔ P(T
t) = 1 –p ⇔ P(T
–t) = 1 –p
3.5.5. JAKAUMIEN p-PISTEET
Jakauman p-piste eli p-fraktiili, p-kvantiili on se lukuarvo xp,
•jolla kertymäfunktio saa arvon p: F(xp) = p
•jolla tiheysfunktion ja x-akselin väliin jäävä pinta-ala välillä (- , xp) on p
•jota pienempiä tai yhtäsuuria arvoja esiintyy 100 p %.
Näitä on taulukoitu yleisimmille jatkuville jakaumille.
Fraktiileja voidaan merkitä seuraavasti:
1) Jos Z ~ N(0,1), niin jakauman p-piste on luku zp, jolla
P(Z
zp) = (zp) = p.
38
2) Jos K ~
P(K
2
2
(v), niin jakauman p-piste on luku
p(v))
= F(
2
p(v))
2
p(v),
jolla
=p
3) Jos T ~ t(v), niin jakauman p-piste on luku tp(v), jolla
P(T
tp(v)) = F(tp(v) = p.
Huom. 0-symmetrian perusteella t1-p(v) = –tp(v)
Huomautuksia:
•Joissakin kirjoissa ja taulukoissa käytetään päinvastoin merkintää zp (vast. muut jakaumat)
pisteestä jota suurempia arvoja on 100p %. Tarkista aina merkinnät!
•Samaa symboli eri merkityksissä: esim. 2 voi olla satunnaismuuttujan nimi tai sen arvo,
2
(v) sen jakauman symboli ja 2p(v) sen p-fraktiilin arvo.
Esimerkki 3.14. Taulukoiden käyttöä:
a)
Etsi jakaumapisteet t.975(13), 2.05(19).
b)
Olkoon T ~ t(7), K ~ 2(16). Määrää luvut a, b ja c siten, että P(T
P(K b) = 0.01 ja P(K c) = 0.01.
c)
Arvioi todennäköisyyttä, että X 20, kun X ~ 2(7).
Ratkaisu:
a) t.975(13) on piste, jossa t(13)-jakauman kertymäfunktio on 0.975.
BETAn taulukko t-distribution:
joten
F(2.160) = 0.975
t.975(13) = 2.160
39
a) = 0.01,
2
.05(19)
on piste, jossa
BETA:n taulukko
2
joten
.05(19)
b) T ~ t(7)
2
2
(19)-jakauman kertymäfunktio on 0.05
-distribution:
F(10.12) = 0.05
= 10.12
P(T
a) = F(a) = 0.01
Koska tiheysfunktio on symmetrinen ja 0-keskinen, on oltava a < 0.
Symmetrian takia P(T
-a) = 0.01 ⇔ P(T
-a) = 0.99 eli
F(-a) = 0.99
⇔
-a = t.99(7) = 2.998
⇔
a = -2.998
K~
P(K
⇔
2
(16).
P(K
b) = 0.01 ja P(K
c) = 0.01.
b) = 0.01 eli
F(b) = 0.01
b=
2
0.01(16)
= 5.812
40
P(K
⇔
c) = 0.01 ⇔ P(K
F(c) = 0.99
c=
c) X ~
c) = 0.99 eli
2
2
.99(16)
= 32.00
(7)
P(X
20) = F(20) = ?
Taulukko:
P(X
P(X
18.48) = F(18.48) = 0.99
20.28) = F(20.28) = 0.995
joten
0.99
F(20)
0.995
Kertymäfunktion arvo F(20) on kuvassa valkoisen alueen pinta-ala:
Arvio: F(20)
0.994
Excelin CHIDIST-funktio (CHIJAKAUMA):
=chidist(20;7)
antaa komplementtitodennäköisyyden P(X 20) = 0.00557, josta
P(X 20) = 1 –0.00557 = 0.99443.
3.5.6. KESKEINEN RAJA-ARVOLAUSE
KESKEINEN RAJA-ARVOLAUSE (Central Limit Theorem):
Kun X1, X2, ... , Xn ovat riippumattomia, samaa jakaumaa noudattavia satunnaismuuttujia,
joilla on äärellinen odotusarvo EXi = ja varianssi D2Xi = 2, i=1,2, ...,n, niin suurilla n:n
arvoilla niiden summamuuttuja Sn = X1 + X2 + ... + Xn noudattaa likimain normaalijakaumaa,
merkitään
X1 + X2 + ... + Xn ~a N(n , n 2).
Sanotaan että summamuuttujien jono on asymptoottisesti normaalinen, mikä tarkoittaa että
muuttujan Sn kertymäfunktio lähenee joka pisteessä normaalijakauman kertymäfunktiota, kun
n
.
41
Samoin oletuksin kuin edellä, myös keskiarvomuuttuja on asymptoottisesti normaalinen
1
X = (X 1 + X 2 + ... + X n ) ~a N( , 2/n)
n
Summamuuttujaa koskevia todennäköisyyksiä voidaan approksimoida normaalijakauman kertymäfunktion avulla. Ensin tehdään normeeraus käyttäen summamuuttujan odotusarvoa ja
hajontaa.
Esimerkki 3.15. Kun satunnaisia reaalilukuja pyöristetään kokonaisluvuiksi, niin yhden luvun pyöristysvirhe noudattaa tasajakaumaa välillä (-0.5, 0.5). On laskettava yhteen 60 reaalilukua, jotka pyöristetään ennen yhteenlaskua kokonaisluvuiksi. Millä todennäköisyydellä
summan virhe on itseisarvoltaan korkeintaan 2.0?
Summattavat luvut
Ai = Bi + Xi, i=1,...,n
missä Bi = tarkka arvo, Ai = pyöristetty arvo, Xi = pyöristysvirhe
n
n
n
∑A = ∑B + ∑X
Summa:
i =1
i
i =1
i
i =1
i
n
X = ∑ Xi
Summan virhe:
i =1
missä
n = 60
Xi ~ U(-0.5, 0.5), i=1,...,n
a + b − 0.5 + 0.5
=
=0
2
2
(b − a ) 2 (0.5 − (−0.5)) 2
1
2
= D2Xi =
=
=
12
12
12
= EXi =
Koska n suuri ja Xi:den jakauma symmetrinen, niin summamuuttuja X noudattaa likimain
normaalijakaumaa parametrein
EX = EX1 + … + EXn = n = 60⋅0 = 0
D2X = D2X1 + … + D2Xn = n
X ~a N(0,5) ⇒ Z =
2
= 60 / 12 = 5
X
~a N(0,1)
5
P(|X| ≤ 2) = P(-2 ≤ X ≤ 2) = P(-2/√5 ≤ Z ≤ 2/√5) = P(-0.8944 ≤ Z ≤ 0.8944)
≈ (0.89) – (-0.89) = (0.89) –[1– (0.89)] = 2 (0.89) –1 = 2⋅0.8133 –1
= 0.6266
Keskeisestä raja-arvolauseesta on useita versioita eri oletuksin.
KESKEISEN RAJA-ARVOLAUSEEN YLEINEN MUOTO:
Kun X1, X2, ... , Xn ovat riippumattomia satunnaismuuttujia, odotusarvoina EXi =
riansseina D2Xi = i2 niin suurilla n:n arvoilla (tietyin oletuksin)
42
i
ja va-
X1 + X2+ ... + Xn ~a N( ,
missä =
1
+
2
+ ... +
n
ja
2
=
2
)
2
1
+
2
2
+ ... +
2
n .
Muuttujien ei siis tarvitse noudattaa samaa jakaumaa!
Milloin keskeistä raja-arvolausetta voi soveltaa?
•Summattavien lukumäärä n 30 on yleensä riittävä.
•Periaatteessa approksimaatio on sitä tarkempi, mitä symmetrisempi X i:den jakauma on.
•Approksimaation virhe on sitä pienempi, mitä suurempi n ja mitä symmetrisempi summattavien jakauma.
•Useille summamuuttujille normaalijakauma-approksimaatio on käytännössä ainoa keino todennäköisyyksien laskemiseksi. Yleisesti summa ei noudata samaa jakaumaa kuin summattavat ja summamuuttujan tarkka jakauma saattaa olla varsin hankala määrittää.
BINOMIJAKAUMAN NORMAALIJAKAUMA-APPROKSIMAATIO
Olkoon X ~ Bin(n, p). X voidaan esittää muodossa X = X1 + X2 + ... + Xn, missä Xi on
Bernoullin kokeen tulos: P(Xi = 1) = p ja P(Xi = 0) = 1–p.
X on tutkittavan tuloksen esiintymisten lukumäärä n:n kokeen joukossa, odotusarvona
EX = np ja varianssina D2X = np(1-p)
Kun n on tarpeeksi suuri, niin keskeisen raja-arvolauseen perusteella
X ~a N(np, np(1-p))
joten binomijakauman kertymäfunktiota voidaan tarvittaessa approksimoida normaalijakauman avulla.
Suhteellista osuutta p koskevassa tilastollisessa päättelyssä käytetään satunnaismuuttujaa
P=X/n, joka on myös asymptoottisesti normaalinen: P ~a N(p, p(1-p)/n). Standardoimalla saadaan tulos
X − np
=
np(1 − p)
P−p
~a N(0,1)
p(1 − p) / n
Milloin voidaan käyttää Poisson- milloin normaalijakauma-approksimaatiota?
•Poisson-jakauma-approksimaatio sopii, kun n on suuri ja p pieni.
•Normaalijakauma-approksimaatio sopii, kun p on lähellä arvoa 0.5, jolloin jakauma lähellä
symmetristä. Käytännössä riittää, että n on niin suuri, että np(1-p) > 9.
JATKUVUUSKORJAUS
Kun normaalijakaumalla approksimoidaan diskreettiä jakaumaa, kuten Bin(n, p), voidaan
approksimaatiota tarkentaa seuraavasti:
Olkoon X satunnaismuuttuja, joka saa vain kokonaislukuarvoja. Jos a on kokonaisluku, niin
43
 X − µ a + 0.5 − µ 
 a + 0.5 − µ 
≤
a+0.5) = P
 ≈ Φ

σ
σ
 σ



kun X on likimain normaalinen.
P(X
a) = P(X
Esimerkki 3.16. Tehtaan tuottamista vempaimista on 2 % viallisia. Kauppiaalle lähetetään
500 satunnaista vempainta tarkastamatta. Viallisten määrä X noudattaa silloin jakaumaa
Bin(500,0.02). Todennäköisyys, että kauppias saa 10–20 viallista, on binomijakauman mukaan 0.541928 (voi laskea esim. Excelillä). Laske todennäköisyys käyttäen
a) Poisson-approksimaatiota
b) normaalijakauma-approksimaatiota.
a) X ~a Poisson( ), missä = np = 500·0.02 = 10
Jos on käytettävissä Poisson(10)-jakauman kertymäfuntion taulukko tai Excel, saadaan
P(10
X
20) = P(X
20) –P(X
9) = F(20) –F(9)
0.998412 –0.457930
0.5405
Jos on käytettävissä Beta-kirjan taulukot, saadaan pistetodennäköisyyksiä summaamalla
P(10
X
20) = P(X=10) + P(X=11) + .... + P(X=20)
0.1251+0.1137+...+0.0019 = 0.5405
Muuten laskettava Poisson-todennäköisyyden kaavalla
P(10 X 20) = P(X=10) + P(X=11) + .... + P(X=20)
(1010/10! + 1011/11! + ... + 1020/20!) e-10 = 0.5405
b) X ~a N( ,
Z=
2
), missä µ = np = 10,
X − 10
9.8
2
= np(1-p) = 9.8 (>9)
~ a N(0,1)
Ilman jatkuvuuskorjausta voidaan laskea kahdella tavalla:
 10 − 10
20 − 10 
P(10 X 20) = P
≤Z≤
 = P(0 Z 3.19)
9.8 
 9.8
(3.19) – (0) = 0.9993 –0.5 = 0.4993
tai

20 − 10 

9 − 10 
9) = P Z ≤
 – P Z ≤

9.8 
9.8 


(3.19) – (-0.32) = (3.19) –[1 – (0.32)] = 0.9993 –(1 –0.6255) = 0.6248
P(10
X
20) = P(X
20) –P(X
Tarkempi arvo jatkuvuuskorjausta käyttäen:
 9.5 − 10
20.5 − 10 
P(10 X 20) = P(9.5 X 20.5) = P
≤Z≤
 = P(-0.16 Z 3.35)
9.8 
 9.8
(3.35) – (-0.16) = (3.35) –[1 – (0.16)] = 0.9996 –(1 –0.5636) = 0.5632
Poisson-approksimaatio oli tässä tapauksessa tarkempi, koska p oli pieni ja jakauma varsin
epäsymmetrinen.
44
4. HAVAINTOAINEISTON KUVAAMINEN JA OTOSSUUREET
Seuraavissa luvuissa 5-7 tarkastellaan tilastollisen päättelyn menetelmiä. Tilastollinen päättely
tarkoittaa yleisesti jotain perusjoukkoa tai ilmiötä koskevien johtopäätösten tekemistä äärellisen havaintoaineiston, otoksen, perusteella. Johtopäätökset voivat koskea tutkittavan muuttujan jakautumista perusjoukossa, muuttujan keskiarvoa tai vaihtelevuutta, ilmiöiden syitä, toimenpiteiden vaikutuksia, tekijöiden riippuvuuksia tai ryhmien välisiä eroja. Havaintoaineiston
tilastollista analyysia edeltää otannan suunnittelu, aineiston hankinta ja koodaaminen.
4.1. HAVAINTOAINEISTO: OTOS
Otosta tarvitaan, kun koko perusjoukon tutkiminen on mahdotonta esim. seuraavista syistä:
•joukko on ääretön tai erittäin suuri
•kaikkia joukon alkioita ei tunneta tai voida tavoittaa
•tutkimus/mittaaminen on kallista tai aikaa vievää
•mittauksen tekeminen voi vahingoittaa tai tuhota tutkimuskohteen.
•varmennetaan kokeellisesti jotain ilmiötä koskevaa teoriaa
Otoksen poiminta voi käytännössä tarkoittaa
•tarkkailevaa havainnointia
•kokeiden suorittamista
•mittauksia
•kyselyjä, haastatteluja
•tiedon keräämistä valmiista tietokannoista
Otokseen perustuva päättely sisältää virhemahdollisuuksia. Päätelmiin liittyvä epävarmuus on
pyrittävä ilmaisemaan johtopäätösten yhteydessä (esim. virhemarginaalit).
Terminologiaa:
Perusjoukko, populaatio ( ) on tutkimuksen kohdejoukko, josta otos poimitaan. Joissakin
tapauksissa sama kuin otosavaruus.
Satunnaisotos (tai lyhyesti vain otos) perusjoukosta on sellainen äärellinen joukko :n alkioita, johon jokaisella perusjoukon alkiolla on etukäteen yhtäsuuri valintatodennäköisyys ja
valinnat ovat toisistaan riippumattomia. Otokseen valittuja alkioita a 1,...,an kutsutaan tilastoyksiköiksi ja n on otoskoko. Tilastoyksiköistä mitataan/rekisteröidään yhden tai useamman
tutkimuskohteena olevan muuttujan arvot. Jos aineisto on suuri ja mitataan useita muuttujia,
havaintoaineisto koodataan taulukoksi (havaintomatriisiksi) tilastollista käsittelyä varten.
Otos satunnaismuuttujasta: Yhden muuttujan X arvot otoksessa muodostavat jonon satunnaismuuttujia (X1, X2,...,Xn), jotka ovat täydellisesti riippumattomia ja noudattavat samaa jakaumaa. Tätä kutsutaan otokseksi satunnaismuuttujasta X.
Otoksen realisaatio on sen havaittujen arvojen jono, jota merkitään pienillä kirjaimilla
(x1,x2,...,xn).
SATUNNAISMUUTTUJIEN MITTAUSASTEIKOT:
•Nominaali- eli luokitteluasteikko: luokkien välillä ei järjestystä. Esim. henkilön sukupuoli,
kansalaisuus.
•Ordinaali- eli järjestysasteikko: luokat voidaan asettaa järjestykseen, mutta luokkien välisiä
eroja ei voida vertailla. Esim. insinöörien koulutustaso (Ins., DI, TkL, TkT).
45
•Intervalli- eli välimatka-asteikko: muuttuja-arvot voidaan asettaa järjestykseen ja arvojen
erotuksilla on mielekäs tulkinta. Esim. lämpötila Celsius-asteissa.
•Suhdeasteikko: kuten intervalliasteikko, mutta asteikossa absoluuttuinen nollakohta.
Esim. lämpötila Kelvin-asteissa, tuotteen kestoikä, pituus, massa jne.
Satunnaismuuttujan mittausasteikko määrää sen, mitä tunnuslukuja otoksesta voi laskea ja
mitä tilastollisia menetelmiä voidaan käyttää. Vaikka intervalli- ja suhdeasteikolliset muuttujat olisivat periaatteessa jatkuvia, mittaustulokset ilmoitetaan aina äärellisellä tarkkuudella,
joka tekee asteikosta käytännössä diskreetin.
OTANTAMENETELMIÄ:
•Yksinkertainen satunnaisotanta
•Systemaattinen otanta
•Ositettu otanta
•Ryväsotanta
4.2. HAVAINTOAINEISTON KUVAUS
Suuren numerojoukon sisältämää informaatiota pyritään tiivistämään olennaisen tutkittavan
tiedon esille saamiseksi. Ennen varsinaisten otostunnuslukujen laskemista ja tilastollista päättelyä
•luokitellaan havainnot (jos ne ovat intervalli- tai suhdeasteikollisia)
•lasketaan luokkafrekvenssit ym. jakaumaa kuvaavia lukuja
taulukoidaan
•piirretään jakauman pylväsdiagrammi (diskreetit muuttujat) tai
histogrammi + frekvenssimonikulmio (jatkuvat muuttujat)..
Näin saadaan käsitys arvojen suuruusluokasta ja levinneisyydestä sekä jakauman muodosta.
Esimerkki 4.1. Tutkittiin erään taskulaskimen litium-paristojen kestoikää, satunnaismuuttujaa
X. 50:n satunnaisesti valitun pariston kestoiät olivat seuraavat:
4285
564 1278
205 3920 2066
604 209 602 1379
2584
14 349 3770
99 1009 4152
478 726 510
318 737 3032 3894
582 1429
852 1461 2662
308
981 1560
701
497 3367 1402 1786 1406
35
99
1137
520
261 2778
373 414
396
83 1379
454
Arvojen vaihteluväli: [14, 4285]
Luokkien lukumäärä: Tälle ei ole tarkkaa sääntöä, erään suosituksen mukaan kannattaa valita
k = log 2 n  + 1 (Sturgesin sääntö). Tässä tapauksessa k = log 2 50 + 1 = 6 .
Luokitellaan havainnot tasavälisesti, esimerkiksi väleihin 14-725, 726-1437, ... , 3574-4285 ja
lasketaan luokkafrekvenssit eli kullekin välille kuuluvien havaintojen lukumäärät. Edellisiä
kutsutaan pyöristetyiksi luokkarajoiksi, koska ne ilmoitetaan samalla tarkkuudella kuin havaintoarvot. Kun muuttuja on jatkuva, ovat ns. todelliset luokkarajat edellisten pyöristettyjen
ylä- ja alarajojen välissä c0=13.5, c1=725.5, c2=1437.5, ... , c5=3573.5, c6=4285.5, jolloin mikään havaintoarvo ei osu rajan kohdalle. Todelliset luokkavälit ovat silloin [c0,c1), [c1,c2),....,
[ck-1,ck).
46
Havaintoaineistosta voidaan laskea ja taulukoida esim. seuraavat luvut kaikissa luokissa
i=1,… ,k:
•fi = luokkafrekvenssi eli luokkaan i kuuluvien havaintojen lukumäärä
•yi = (ci-1+ci)/2, luokan i keskikohta (intervalli- ja suhdeasteikollisille muuttujille, käytetään
laskettaessa erilaisia tunnuslukuja luokitellulle aineistolle, kun alkuperäistä dataa ei ole
käytettävissä)
•fi/n = suhteellinen frekvenssi luokassa i, empiirinen vastine luokkatodennäköisyydelle tai
diskreetin muuttujan pistetodennäköisyydelle
•Fi = f1+… +fi = summafrekvenssi (eli kumulatiivinen frekvenssi)
•Fi/n = suhteellinen summafrekvenssi (empiirinen kertymäfunktio).
Luokkaväli
[13.5, 725.5)
[725.5, 1437.5)
[1437.5, 2149.5)
[2149.5, 2861.5)
[2861.5, 3573,5)
[3573.5, 4285.5)
Luokkakeskus
yi
369.5
1081.5
1793.5
2505.5
3217.5
3929.5
Suht. frekv.
fi/n
0.48
0.24
0.08
0.06
0.04
0.10
Frekv.
fi
24
12
4
3
2
5
Summafrekv.
Fi
24
36
40
43
45
50
Suht. summafrekv. Fi/n
0.48
0.72
0.80
0.86
0.90
1.00
Luokkafrekvenssien taulukkoa voidaan kutsua frekvenessijakaumaksi tai empiiriseksi jakaumaksi. Suhteelliset frekvenssit approksimoivat todennäköisyyksiä jolla satunnaismuuttuja
kuuluu kyseiseen luokkaan.
Empiirisen jakauman graafinen esittäminen (jatkuva muuttuja):
•Histogrammi muodostuu suorakulmioista, joiden kantoina ovat janat [ci-1 ,ci] ja korkeuksina
frekvenssit fi
Histogram for Kestoaika
Histogrammi:
24
frequency
20
16
12
8
4
0
0
1
2
3
Kestoaika
4
5
(X 1000)
•Frekvenssimonikulmio muodostuu janoista, joiden päätepisteet ovat (yi, fi). Alku- ja loppupiste ovat luokittelun ulkopuolisisten reunaluokkien keskipisteet.
Frekvenssimonikulmio approksimoi tiheysfunktion muotoa.
47
Frekvenssimonikulmio:
24
frequency
20
16
12
8
4
0
0
1
2
3
4
Kestoaika
5
(X 1000)
4.3. OTOSSUUREET, OTOSTUNNUSLUVUT
Otossuure on otoksesta laskettu reaaliarvoinen suure, merkitään esim. T(x1,x2,...,xn). Otossuureita kutsutaan myös otostunnusluvuiksi (sample statistics), koska ne kuvaavat muuttujan jakauman tunnusomaisia piirteitä. Koska Xi:t ovat satunnaismuuttujia, myös T(X1,X2,… ,Xn) on
satunnaismuuttuja, jonka arvo vaihtelee otoksesta toiseen. Satunnaismuuttujan
T(X1,X2,… ,Xn) jakaumaa kutsutaan T:n otantajakaumaksi.
Esimerkkejä otossuureista:
Otoskeskiarvo tai keskiarvo: x =
x 1 + x 2 + ... + x n 1 n
= ∑ xi
n
n i =1
1 n 2 1 n
1 n

2
x i − (∑ x i ) 2 
(
x
x
)
−
=
∑
∑
i



n − 1  i =1
n i =1
 n − 1  i =1

Otosvarianssi tai varianssi:
s2 =
Otoshajonta tai hajonta:
s = s2
Luokiteltu aineisto:
1 k
∑ fi yi
n i =1
1 k
1 k

2
s2 =
f
y
(∑ f i y i ) 2 
−
∑
i i

n − 1  i =1
n i =1

x=
missä k = luokkien lukumäärä, yi = luokkavälin keskikohta, fi = luokkafrekvenssi.
Otossuureita merkitään myös isoilla kirjaimilla X , S 2 silloin kun niitä käsitellään satunnaismuuttujina (esim. laskettaessa niiden odotusarvoa tms.).
48
Keskiarvo x ja varianssi s2 vastaavat jakauman tunnuslukuja
ja
2
. Voidaan osoittaa, että
E( X ) = µ
E( S2 ) = σ 2
ja otoskoon kasvaessa nämä otosmuuttujat konvergoivat stokastisessa mielessä kohti jakauman tunnuslukuja ja 2.
Otoskeskiarvon lisäksi muita yleisimpiä empiirisen jakauman keskilukuja ovat
•Moodi (Mo): se havaintoarvo, jolla on suurin frekvenssi (ei välttämättä yksikäsitteinen).
Moodi sopii lähinnä nominaali- tai ordinaaliasteikollisille satunnaismuuttujille tai kun aineisto
on valmiiksi luokiteltuna.
•Mediaani (Md): järjestetyn otoksen keskimmäinen havaintoarvo tai kahden keskimmäisen
keskiarvo, kun n on parillinen.
Kun kyseessä on vähintään intervalliasteikollinen muuttuja, jonka arvot on valmiiksi luokiteltu, voidaan määritellä vastaavasti moodi- ja mediaaniluokka ja näistä moodin ja mediaanin
arvot joko luokkavälin keskikohtana tai erityisillä interpolointikaavoilla.
Varianssin ja hajonnan lisäksi muita empiirisen jakauman hajontalukuja ovat esimerkiksi
•Keskipoikkeama (mean absolute deviation):
•Vaihteluvälin pituus:
1 n
∑| x i − x |
n i=
R = xmax –xmin
missä xmax ja xmin ovat suurin ja pienin havaintoarvo
•Kvartiilipoikkeama:
(Q3 –Q1)/2
missä alakvartiili Q1 on arvo, jota pienempiä havaintoja on 25 %, yläkvartiili Q3 on arvo, jota
pienempiä havaintoja on 75 % (ja suurempia 25 %). Kvartiilivälille (Q 1, Q3) jää puolet havainnoista. Mediaania voidaan merkitä myös symbolilla Q2.
Kvartiileja voidaan havainnollistaa box plot-kuvalla (box-and-whiskers plot).
•Variaatiokerroin:
V = ( s / x )100 %
Variaatiokerroin ilmoittaa hajonnan suhteessa keskiarvoon. Sen avulla voidaan mm. vertailla
eri suuruusluokkaa olevien muuttujien hajontoja.
•Keskiarvon keskivirhe:
s/ n
49
Esimerkki 4.1. (Paristojen kestoikäaineisto)
Luokitellun aineiston kaavoja kannattaa käyttää vain, kun alkuperäistä aineistoa ei ole käytettävissä. Lasketaan joitakin tunnuslukuja esimerkin 4.1. paristojen kestoiälle alkuperäisestä
aineistosta.
Keskiarvo:
x=
1 n
1
(4285 + 564 + … + 454) = 63707 / 50 = 1274.14
xi =
∑
50
n i =1
Mediaani:
Md = (726 + 737)/2 = 731.5
(pienimmästä suurimpaan järjestetyn otoksen 25:nnen ja 26:nnen arvon keskiarvo)
Koska jakauma on vino, keskiarvo ja mediaani poikkeavat huomattavasti toisistaan.
Moodia ei voi määrätä alkuperäisestä aineistosta (jatkuva muuttuja), mutta luokitellun aineiston perusteella ensimmäisessä luokassa on suurin frekvenssi, ja voidaan valita moodiksi sen
keskikohta:
Mo = 369.5.
Varianssi:
Hajonta:
[
n
1 n 2
 1
4285 2 + 564 2 + ... + 454 2 − 63707 2 / 50
x i − (∑ x i ) 2 / n  =
∑

n − 1  i =1
i =1
 49
= 1505155.6
s2 =
]
s = 1226.85
Variaatiokerroin: V = (1226.85 / 1274.14) ·100 %
96 %
OUTLIERS: POIKKEAVAT ELI VIERAAT ELI ULKOPUOLISET HAVAINNOT
Poikkeavat / vieraat / ulkopuoliset havainnot, engl. outliers, ovat havaintoja, jotka ovat selvästi muun havaintojoukon ulkopuolella. Ne voivat olla joko mittausvirheitä tai koodausvirheitä tai sitten havainto on toisesta populaatiosta kuin muu aineisto. Tällöin on perusteltua
poistaa havainnot aineistosta ennen tilastollisten tunnuslukujen laskemista ja analyysien tekemistä. Toisaalta ne voivat olla epätavallisia havaintoja, joita satunnaisotokseen voi aina
kuulua. Ne voivat olla myös merkki jakauman vinoudesta.
Eräs kriteeri poikkeavien havaintojen tunnistamiselle:
Olkoon kvartiilivälin pituus (interquartile range) IQR = Q3 –Q1. Jos
x < Q1 –1.5 IQR
tai
x > Q3 + 1.5 IQR
niin havaintoarvoa x voidaan pitää poikkeavana havaintona.
50
5. PARAMETRIEN ESTIMOINTI JA LUOTTAMUSVÄLIT
5.1. PISTE-ESTIMAATIT
Parametrien estimointi on populaation/otosavaruuden tunnuslukujen eli jakauman parametrien
arviointia sopivien otossuureiden, estimaattoreiden avulla. Estimaattori on kaava, jolla parametrin arvio lasketaan. Parametrin estimaattori, merk. Θ̂ tai Θ̂ (X1,X2,...,Xn) on siis satunnaismuuttuja.
Estimaatti tai piste-estimaatti on havainnoista laskettu estimaattorin arvo eli ko. otossuureen
realisaatio, merk. θˆ tai θˆ(x1,x2,...,xn).
Hyvä estimaattori on
ˆ) =
•harhaton eli E (Θ
ˆ) mahdollisimman pieni
•minimivarianssinen (tehokas) eli D 2 (Θ
ˆ(X ,..., X ) − θ |< ε) = 1 kaikilla >0.
•tarkentuva eli lim P(| Θ
1
n
n →∞
mikä tarkoittaa että estimaattori konvergoi stokastisesti kohti parametrin oikeaa arvoa .
Tavallisimpia estimaatteja:
Odotusarvo:
Varianssi:
µˆ= x
σˆ2 = s 2
x
(suhteellinen osuus otoksessa)
n
1
λˆ=
x
Bin(n,p)-jakauman parametri: pˆ=
Exp( )-jakauman parametri:
Näistä kolme ensimmäistä ovat harhattomia. Tärkeimmät menetelmät, joilla estimaattoreita
muodostetaan, ovat maximum likelihood-menetelmä ja momenttimenetelmä.
5.2. LUOTTAMUSVÄLIT
Piste-estimaatti antaa yhdestä ainoasta otoksesta lasketun arvion estimoitavalle parametrille.
Mitä voidaan sanoa tämän arvion tarkkuudesta? Estimaattori on satunnaismuuttuja, koska eri
otokset antavat vaihtelevia estimaatteja. Pyritään määrittämään estimaattorin jakaumaa käyttäen sellaiset rajat, jotka suurella todennäköisyydellä sulkevat sisäänsä estimoitavan parametrin.
5.2.1. ESIMERKKI
Esimerkki 5.1. Sokeria pussitetaan kilon paketteihin, mutta keskimääräinen massa (odotusarvo ) ei yleensä ole tasan 1000 g. Oletetaan, että pussissa olevan sokerin määrä (g), satunnaismuuttuja X noudattaa normaalijakaumaa N( 2) missä annostelulaitteen aiheuttaman
massan hajonnan tiedetään olevan 4.0 g.
Halutaan estimoida odotusarvoa ja saada rajat jolla olisi 95 %:n varmuudella. Tätä varten
kerätään sokeripusseista otos, jossa massat X1, … , Xn noudattavat jakaumaa N( 2).
51
Koska Xi ~ N( 2), niin X ~ N(µ,
X −µ
~ N(0,1)
Z=
σ/ n
2
/n), joten
Määrätään ensin symmetrinen väli, jolla Z-muuttuja on 95 %:n varmuudella.
Normaalijakauman kuvan perusteella
P(–z0.975
eli
Z
z0.975) = 0.95
P(−z 0.975 ≤
⇔
X−µ
σ/ n
≤ z 0.975 ) = 0.95
kerrotaan nimittäjällä σ / n
P(− z 0.975 σ / n ≤ X − µ ≤ z 0.975 σ / n ) = 0.95
vähennetään X
P(− X − z 0.975 σ / n ≤ −µ ≤ − X + z 0.975 σ / n ) = 0.95
kerrotaan -1:llä,
epäyhtälöiden suunta muuttuu
⇔
⇔
P( X − z 0.975 σ / n ≤ µ ≤ X + z 0.975 σ / n ) = 0.95
On saatu odotusarvolle väli
X − z 0.975 σ / n ≤ µ ≤ X + z 0.975 σ / n
(5.1)
jolle se kuuluu 95 %:n varmuudella. Välin rajat ovat satunnaismuuttujia, ei .
Rajojen laskemiseksi tarvitaan havaintoarvoja. Poimittiin 12 pussin satunnaisotos, massat (g)
1004, 998, 1005, 1001, 999, 997, 1008, 1010, 1003, 1005, 1002, 998
Odotusarvon piste-estimaatti: µˆ = x = 1002.5 g
Otoskoko:
n = 12
Hajonta:
= 4.0 g
(tunnettu, ei tämän pienen otoksen otoshajonta)
Taulukosta
z0.975 = 1.96
(piste jossa (z0.975) = 0.975).
Kun satunnaismuuttujien keskiarvo korvataan otoskeskiarvolla ja arvot sijoitetaan kaavaan
(5.1), saadaan odotusarvon 95%:n luottamusväli
⇔
⇔
1002.5 –1.96· 4 / 12
1002.5 –2.26
1000.24
µ
µ
µ
1002.5 + 1.96 · 4 / 12
1002.5 + 2.26
1004.76
Luottamusväli voidaan myös ilmaista muodossa µ = 1002.5 ± 2.26.
52
5.2.2. YLEINEN VÄLIESTIMOINNIN PERIAATE:
Luottamustasoa, todennäköisyyttä jolla parametri kuuluu satunnaisotoksesta riippuvalle välille (kuten (5.1)), merkitään yleensä (1 – )100 %. Tavallisin luottamustaso on 95 % ( = 0.05),
mutta käytetään myös tasoja 90 % ( = 0.10), 99 % ( = 0.01) ja 99.9 % ( = 0.001).
Muunnetaan otossuure (estimaattori) sellaiseen muotoon, johon sisältyy estimoitava parametri
ja jonka jakauma on riippumaton :sta (vrt. normeeraus): olkoon tämä T (X1,....,Xn).
Otossuureen T (X1,....,Xn) jakaumasta voidaan määrätä rajat (fraktiilit) a ja b siten, että
P(a
T (X1,....,Xn)
b) = 1 –
ja ulkopuolelle jäävä todennäköisyys jakautuu tasaisesti:
P(T (X1,....,Xn) < a) = /2
P(T (X1,....,Xn) > b) = /2.
Epäyhtälöparista a
T (X1,....,Xn)
L(X1,...,Xn)
b ratkaistaan ylä- ja alaraja parametrille :
U(X1,...,Xn).
(5.2)
Tämä pätee todennäköisyydellä 1 – .
Tulkinta: Koska luottamusvälin rajat ovat satunnaismuuttujia, tämä tarkoittaa, että otoksesta
toiseen vaihtelevat rajat sulkevat sisäänsä :n todellisen arvon (1 – )100%:ssa tapauksista.
Parametrin luottamusväli tasolla (1 – )100%, (eli varmuusväli, väliestimaatti, engl. confidence interval) saadaan sijoittamalla havaintoarvot x1,… ,xn edellisiin rajoihin:
L(x1,… ,xn)
U(x1,… ,xn)
(5.3)
Voidaan sanoa, että kuuluu tälle välille (1 – )100%:n luottamuksella. Todennäköisyydestä
ei pitäisi puhua, koska lausekkeessa ei ole satunnaismuuttujia.
Huomautus: Sekä väliä (5.2) että väliä (5.3) kutsutaan luottamusväleiksi, mutta niillä on eri
tulkinta.
Jos kiinnostuksen kohteena on vain parametrin yläraja TAI alaraja, voidaan vastaavalla tavalla muodostaa toispuoleinen luottamusväli ratkaisemalla epäyhtälöstä
P(T (X1,....,Xn)
a) = 1 –
tai
P(T (X1,....,Xn)
b) = 1 – .
missä a ja b ovat T :n jakauman fraktiileja, pisteitä jossa kertymäfunktio tai sen komplementti
saa halutun arvon.
53
5.2.3. ODOTUSARVON LUOTTAMUSVÄLI
Odotusarvon piste-estimaatti: µˆ= x
a) Kun
tunnetaan:
Oletukset: Xi ~ N( 2), i=1,...,n, missä tunnettu TAI otoskoko n suuri (jolloin keskiarvomuuttuja on ainakin likimain normaalinen).
Z=
X −µ
σ/ n
~ N(0,1)
Z-muuttuja on (1 – )100%:n todennäköisyydellä välillä
− z 1−α / 2 ≤
X −µ
σ/ n
≤ z1−α / 2
⇔
X − z1−α / 2 σ / n ≤ µ ≤ X + z1−α / 2 σ / n
(johdetaan kuten kaava (5.1)
Odotusarvon (1 – )100%:n luottamusväli on
x − z1−α / 2 σ / n ≤ µ ≤ x + z1−α / 2 σ / n
eli
µ = x ± z1−α / 2 σ / n
b) Kun
tuntematon:
Oletukset: Xi ~ N( , 2), i=1,...,n ja tuntematon.
Kun hajonta on tuntematon ja se korvataan otoshajonnalla, satunnaismuuttuja
T=
X −µ
S/ n
~ t(n-1)
(Todistaminen vaatii jakaumateoriaa.)
T-muuttuja on (1 – )100%:n todennäköisyydellä välillä
–t1- /2(n-1)
X −µ
S/ n
t1- /2(n-1)
Muistutus: t1- /2(n-1) on t(n-1)-jakauman piste jossa kertymäfunktio saa arvon 1– /2.
Odotusarvon (1 – )100%:n luottamusväliksi saadaan samalla tavalla kuin edellä
54
x − t 1−α / 2 (n − 1) s / n
x + t 1− α / 2 (n − 1) s / n
eli
= x ± t 1− α / 2 (n − 1) s / n
Esimerkki 5.2. Oletetaan, että esimerkin 5.1. tilanteessa sokeripussien massan todellinen hajonta on tuntematon eli massan vaihtelusta ei ole aiempaa kokemusta. Muodosta massan
odotusarvon 95 %:n luottamusväli käyttäen esimerkin 5.1. otosta. (Vast. 1002.5 ± 2.62)
2
Huomautus: Kun n on hyvin suuri, on oletettavissa että s2
ja t-jakauman kertymäfunktio
on lähellä N(0,1)-jakauman kertymäfunktiota . Silloin ei ole suurta eroa kumpaa luottamusväliä käyttää.
5.2.4. SUHTEELLISEN OSUUDEN LUOTTAMUSVÄLI
Oletukset: X ~ Bin(n, p), n suuri (jotta normaalijakauma-approksimaatiota voi käyttää)
Piste-estimaatti: pˆ=
x
n
(Vastaavaa satunnaismuuttujaa merkitään P = X/n)
Luottamusväli perustuu satunnaismuuttujaan
Z=
P−p
~a N(0,1)
p(1 − p) / n
Z-muuttuja on (1 – )100%:n todennäköisyydellä välillä
–z1-
/2
P−p
p(1 − p) / n
z1-
kerrotaan
/2
p(1 − p) / n :llä
⇔
⇔
⇔
− z 1− α / 2 p(1 − p) / n ≤ P − p ≤ z1−α / 2 p(1 − p) / n
vähennetään P
− P − z 1− α / 2 p(1 − p) / n ≤ − p ≤ − P + z 1−α / 2 p(1 − p) / n
kerrotaan -1:llä,
epäyhtälöiden suunta
muuttuu
P − z 1−α / 2 p(1 − p) / n ≤ p ≤ P + z 1− α / 2 p(1 − p) / n
Olisi huomattavan vaikeaa ratkaista p:lle rajat jotka eivät riipu p:stä. Tämän takia väli muodostettiin samoin kuin :n luottamusväliä johdettaessa. Koska n on suuri, on oletettavasti
pˆ≈ p ja tehdään tämä approksimaatio neliöjuuritermissä. Luottamusväli saadaan sijoittamalla
satunnaismuuttujan P paikalle sen otoksesta laskettu arvo pˆ.
Suhteellisen osuuden (1 – )100%:n luottamusväli:
pˆ(1 − pˆ)
pˆ(1 − pˆ)
≤ p ≤ pˆ+ z 1−α / 2
pˆ− z 1−α / 2
n
n
eli voidaan ilmaista muodossa
55
p = pˆ± z 1−α / 2
pˆ(1 − pˆ)
n
eli
pˆ ± virhemarginaali
Kun otos on niin pieni, ettei normaaliapproksimaatiota voida käyttää, voidaan luottamusväli
estimoida esim. joidenkin tilastollisten taulukoiden käyristä (ks. Beta: Confidence interval for
unknown probability).
Esimerkki 5.3. Transistorien valmistajalta otettiin 800 kappaleen näyte, jossa oli 36 viallista.
a) Määrää 95 %:n luottamusväli viallisten osuudelle koko tuotannossa. (Vastaus: 4.5 ± 1.4 %)
b) Määrää viallisten osuuden yläraja 95 %:n luottamuksella. (Vastaus: p 5.7 %)
Esimerkki 5.4. Tutkitaan suhteellisen osuuden, esim. puoluekannatuksen väliestimointia 95
%:n luottamuksella. Oletetaan että kannatusosuus on luokkaa 25 %. Kuinka suuri otos tarvitaan, jotta virhemarginaali olisi korkeintaan
a) 0.05 eli 5 %-yksikköä?
b) 0.01 eli 1 %-yksikkö?
95%:n luottamusväli ( = 0.05) on
p = pˆ± z 0.975 pˆ(1 − pˆ) / n
missä pˆ = 0.25, z0.975 = 1.96
a)
z 0.975 pˆ(1 − pˆ) / n ≤ 0.05
⇒n≥
b)
z 02.975
1.96 2
ˆ
ˆ
p
(
1
−
p
)
=
0.25(1 − 0.25) = 288.12
0.05 2
0.05 2
eli n
289
eli n
7203
z 0.975 pˆ(1 − pˆ) / n ≤ 0.01
⇒n≥
z 02.975
1.96 2
ˆ
ˆ
p
(
1
p
)
0.25(1 − 0.25) = 7203.0
−
=
0.012
0.012
5.2.5. MUIDEN PARAMETRIEN LUOTTAMUSVÄLIT
Muille parametreille muodostetaan luottamusvälit samaan tapaan kuin odotusarvolle ja suhteelliselle osuudelle, käyttäen sopivaa otossuuretta (jossa parametri esiintyy ja jonka jakauma
tunnetaan) ja sen jakauman fraktiileja.
Edellisissä tapauksissa otossuureena oli Z tai T joiden jakauma oli symmetrinen, ja alarajan
fraktiili oli ylärajan fraktiilin vastaluku. Kun jakauma on epäsymmetrinen, luottamusväli
muodostetaan seuraavaan tapaan:
VARIANSSIN LUOTTAMUSVÄLI
Oletetaan, että kyseessä oleva satunnaismuuttuja noudattaa normaalijakaumaa.
Varianssin 2 piste-estimaatti on otosvarianssi s2. Luottamusväli perustuu otossuureeseen
56
(n − 1)S 2
~
σ2
2
(n-1)
(Todistus vaatii jakaumateoriaa.)
(1 – )100 %:n todennäköisyydellä
χ
2
α/2
(n − 1)S 2
(n − 1) ≤
≤ χ12−α / 2 (n − 1)
2
σ
Muistutus: χ 2p (n − 1) on piste, jossa χ 2 (n − 1) -jakauman kertymäfunktio saa arvon p.
Ratkaisemalla kummastakin epäyhtälöstä erikseen raja varianssille
rianssi s2 saadaan varianssin (1 – )100 %:n luottamusväli
2
ja sijoittamalla otosva-
(n − 1)s 2
(n − 1)s 2
2
≤
σ
≤
χ12−α / 2 (n − 1)
χ α2 / 2 (n − 1)
VARIANSSIN TOISPUOLEINEN LUOTTAMUSVÄLI
Usein halutaan vaihtelua mittaavalle varianssille tai hajonnalle esim. yläraja (toispuoleinen
luottamusväli).
Esimerkki 5.5. Normaalijakautuneen satunnaismuuttujan 30 havainnon otoksesta on laskettu
otosvarianssi s2 = 4.63. Minkä arvon alapuolelle todellinen varianssi jää 95 %:n luottamuksella?
Johdetaan varianssin
2
yläraja 95 %:n luottamustasolla:
Koska satunnaismuuttuja
(n − 1)S 2
χ2 =
~ 2(n-1)
2
σ
noudattaa jakaumaa 2(n-1), niin 95 %:n todennäköisyydellä
(n − 1)S2
≥ χ 02.05 (n − 1)
σ2
josta
(n − 1)S2
σ ≤ 2
χ 0.05 (n − 1)
2
Numeerinen raja saadaan sijoittamalla S2:n paikalle laskettu otosvarianssi s2:
(n − 1)s 2
2
σ ≤ 2
χ 0.05 (n − 1)
Tämä on varianssin yläraja 95 %:n luottamuksella.
Esimerkin otos: n = 30, taulukkoarvo
29 ⋅ 4.63
σ2 ≤
17.71
eli 95 %:n luottamuksella 2 7.58
2
0.05(29)
= 17.71, joten arvot sijoittamalla saadaan raja
57
6. HYPOTEESIEN TESTAUS
6.1. JOHDANTO
Tilastollisessa hypoteesien testauksessa pyritään testaamaan jotain perusjoukkoa (tai useita
perusjoukkoja) tai jotain toistuvaa ilmiötä koskevia väittämiä otoksen perusteella. Jos väittämät koskevat jotain perusjoukon parametria, esim. odotusarvoa, varianssia, suhteellista osuutta jne., on kyseessä parametrinen testaus, muussa tapauksessa ei-parametrinen. Eiparametrisia ovat esim. jakaumia koskevat testit ja nominaaliasteikollisten muuttujien välistä
riippuvuutta koskevat testit.
Esimerkki 6.1. Elektronisten komponenttien valmistajan mukaan tuotantoprosessissa syntyy
6 % viallisia komponentteja. Vastaanotetussa 100 kappaleen erässä on viallisia löytynyt 15
kpl. Onko kyse huonosta tuurista vai voidaanko valmistajan väitettä pitää vääränä?
Kysymystä arvioidaan sen perusteella, miten todennäköistä on saada näin huono tulos JOS
valmistajan väite pitää paikkansa.
Olkoon satunnaismuuttuja X = viallisten määrä 100 kpl:een joukossa. X:n arvo vaihtelee
luonnollisesti otoksesta toiseen noudattaen jakaumaa X ~ Bin(100, p), missä p on viallisten
todellinen osuus. Jos valmistajan väite pitää paikkansa, p = 0.06 ja todennäköisyys saada vähintään 15 viallista on
14 100


0.06 k 0.94100 −k = 0.001
P(X ≥ 15) = 1 − ∑ 
k=0  k 
(voi laskea myös Poisson-approksimaatiolla).
Tätä lukua kutsutaan testisuureen P-arvoksi eli merkitsevyystasoksi. Mitä pienempi P-arvo
on, sitä epätodennäköisempi saatu otos on väitetyssä tilanteessa. Kyseinen tapaus sattuisi vain
kerran tuhannesta ja valmistajan väitettä voidaan hyvällä syyllä pitää epäuskottavana.
Otokseen perustuvalla tilastollisella testillä ei voida varmasti kumota tai todistaa tutkittavaa
hypoteesia, vaan johtopäätöksiin liittyy aina erehtymisriski.
Seuraavassa muita esimerkkejä tilastollisesti testattavista väittämistä. Mieti jokaisen kohdalla,
onko kyseessä jonkin parametrin testaaminen, mihin testaamisen pitäisi perustua ja kuinka
kokeet/mittaukset tulisi suorittaa:
- Onko tuotteen laatu standardien mukainen?
- Vähentääkö E-vitamiini sydäntautikuolleisuutta?
- Onko kahden samaa tehtävää suorittavan koneen nopeuksissa eroa?
- Onko ilman otsonipitoisuus kohonnut?
- Ovatko kaikki lottonumerot yhtä todennäköisiä?
- Onko koneellisesti valmistettu tuote tasalaatuisempaa kuin manuaalisesti valmistettu?
- Onko loisteputkien kestoikä eksponentiaalisesti jakautunut?
- Vaikuttaako vanhempien koulutustaso lasten koulumenestykseen?
- Onko bensiininkulutus suoraan verrannollinen ajonopeuteen?
58
6.2. TESTAUKSEN PERIAATTEET JA PERUSKÄSITTEET
Perinteinen testaus, jossa on tehtävä kyllä/ei-päätös jonkin hypoteesin suhteen, muodostuu
seuraavista päävaiheista (järjestys voi vaihdella tilanteen mukaan):
1. HYPOTEESIEN ASETTELU
2. TESTISUUREEN VALINTA
3. RISKITASON VALINTA JA HYLKÄYSEHDON MÄÄRITTÄMINEN
4. HAVAINTOAINEISTON KERÄÄMINEN JA TESTISUUREEN ARVON LASKENTA
5. JOHTOPÄÄTÖKSEN TEKEMINEN
Seuraavassa käsitellään näitä vaiheita yksityiskohtaisemmin esimerkin avulla.
1. HYPOTEESIEN ASETTELU
Tilastollisessa testauksessa asetetaan kaksi vaihtoehtoista hypoteesia:
H0
H1
nollahypoteesi
vastahypoteesi, vaihtoehtoinen hypoteesi
Parametrisessa testauksessa hypoteesit koskevat joitain tutkimuksen kohteena olevien satunnaismuuttujien jakauman parametreja, esim. odotusarvoa, varianssia, suhteellista osuutta. H0
ja H1 ovat toisensa poissulkevia ja kattavat testattavan parametrin kaikki mahdolliset tai uskottavat arvot.
Hypoteesien ero:
•Vastahypoteesi kuvaa yleensä poikkeamaa totutusta tilanteesta, vaikutusta, eroa, muutosta.
Usein se asia, jota tutkija yrittää todistaa.
•Nollahypoteesi kuvaa vallitsevaa tilannetta, tai väittää ettei todellista vaikutusta, eroa tai
muutosta ole. Nollahypoteesi pysyy voimassa, ellei sitä vastaan saada riittäviä todisteita.
Esimerkki 6.2. Odotusarvon testaus
Oletetaan, että sokerin pussituslaite (vrt. esim. 5.1.) on säädetty annostelemaan pussiin
keskimäärin 1001 g sokeria, mutta epäillään keskiarvon kasvaneen. Laite on siinä tapauksessa säädettävä uudelleen, jotta raaka-ainekulut pysyisivät minimaalisina.
Asetetaan hypoteeseiksi
H0: µ = 1001 g
H1: µ > 1001 g
(keskipaino ei ole muuttunut)
(keskipaino on kasvanut)
2. TESTISUUREEN VALINTA
Testisuure, merk. yleisesti T(X1,X2,...,Xn), on otossuure, jonka perusteella voidaan tehdä johtopäätös siitä, kumpi hypoteesi on uskottavampi. Testisuure perustuu yleensä testattavan parametrin harhattomaan estimaattoriin ja sen jakauma täytyy tuntea nollahypoteesin vallitessa.
Esim. testattaessa odotusarvoa µ on luonnollista, että johtopäätös perustuu otoskeskiarvoon.
59
Esimerkki 6.2. jatkuu:
Massa X ~ N(µ, 2), missä tunnetaan hajonta = 4 g. Koska X on odotusarvon harhaton estimaattori, perustuu testaus tähän otossuureeseen. Jos otoskeskiarvo x on hyvin
suuri, tämä viittaa siihen että pakkausten keskipaino on säädetty suuremmaksi kuin
1001 g.
Merkitään nollahypoteesin väittämää arvoa
Jos H0 on voimassa, Xi ~ N( 0, 2)
⇒
⇒
0
= 1001.
X ~ N(µ0, 2/n)
X − µ0
Z=
~ N(0,1)
σ/ n
3. RISKITASON VALINTA JA HYLKÄYSEHDON MÄÄRITTÄMINEN
Perinteisessä testauksessa johtopäätös, joka perustuu havaintoaineistoon, ilmoitetaan muodossa "H0 hylätään" tai "H0 jää voimaan". Testauksessa voidaan tehdä väärä johtopäätös kahdella
tavalla:
1.
2.
H0 hylätään, vaikka se on tosi (1. lajin virhe eli hylkäämisvirhe)
H0 hyväksytään, vaikka se ei ole tosi (2. lajin virhe eli hyväksymisvirhe).
H0 on tosi
H0 hyväksytään
Oikea johtopäätös
H0 hylätään
1. lajin virhe eli
hylkäämisvirhe
H0 on epätosi
2. lajin virhe eli
hyväksymisvirhe
Oikea johtopäätös
Testin taso tai riskitaso tai koko (myös merkitsevyystaso, level of significance)
misvirheen suurin sallittu todennäköisyys eli
on hylkää-
= todennäköisyys, että H0 hylätään, vaikka se on tosi.
Koska H0:n hylkäämisvirhettä pidetään vakavampana, valitaan riskitaso perinteisessä testauksessa etukäteen. Yleensä = 0.05, 0.01 tai 0.001. Hylkäysehto määräytyy riskitason ja testisuureen jakauman perusteella.
Merkitään 2. lajin virheen todennäköisyyttä :lla:
= todennäköisyys, että H0 hyväksytään, kun se on epätosi
Testin voimakkuus on luku
1 – = todennäköisyys, että H0 hylätään, kun se on epätosi
Testin voimakkuus kuvaa testin kykyä erottaa todellinen poikkeama satunnaisvaihtelusta.
Testin voimakkuus riippuu yleisesti testattavan parametrin todellisesta arvosta, ks. Esimerkki
6.3. tämän luvun lopussa.
60
Esimerkki 6.2. jatkuu:
Jos otoskeskiarvo on hyvin paljon suurempi kuin väitetty odotusarvo 0 = 1001, nollahypoteesia voidaan epäillä. Kun otoskeskiarvo x on hyvin suuri (jolloin myös z:n arvo on suuri), se puoltaa vastahypoteesia, että keskipaino on kasvanut.
Esimerkiksi
•Jos saadaan otoskeskiarvo x = 1002, voidaanko olettaa tämän olevan pussien massan normaalia satunnaisvaihtelua vai osoittaako se että pakkauskone on säädetty annostelemaan liikaa?
•Jos saadaan otoskeskiarvo x = 1020, voidaanko olettaa tämän olevan pussien massan normaalia satunnaisvaihtelua vai osoittaako se että pakkauskone on säädetty annostelemaan liikaa?
Mihin raja vedetään: miten suuri otoskeskiarvo x ja z-arvo oikeuttaa päättelemään, että ”nollahypoteesi on epätosi”? Tämä riippuu siitä miten suuri erehtymisriski sallitaan.
Riskitaso on todennäköisyys, että nollahypoteesi hylätään eli testisuure ylittää kriittisen rajan, vaikka odotusarvo on väitetty = 1001. Tällöin pussituslaite joutuu turhaan säädettäväksi.
Kuvassa X :n jakauma H0:n vallitessa. Jos riskitasoksi on valittu
raja on kohdassa jonka ylitystodennäköisyys on 0.05.
= 0.05, keskiarvon
Käytännössä tämä merkitsee, että vaikka odotusarvo olisi nollahypoteesin mukainen,
niin otoksista 5 % ylittää painorajan, jolloin tehdään väärä päätelmä ja laite joutuu turhaan säädettäväksi.
Hylkäysehto ilmoitetaan yleensä standardoidun testisuureen avulla.
YLEISESTI:
Testisuureen mahdolliset arvot jaetaan tietyin kriteerein kahteen toisensa poissulkevaan joukkoon: nollahypoteesin hyväksymisalueeseen (merk. S0) ja hylkäysalueseen (merk. S1).
•Jos testisuureen arvo kuuluu alueeseen S0, H0 jää voimaan
•Jos testisuureen arvo kuuluu alueeseen S1, H0 hylätään.
Määrätään hylkäysalueen raja tai rajat eli kriittinen arvo tai kriittiset arvot siten, että nollahypoteesin vallitessa testisuure kuuluu hylkäysalueelle (korkeintaan) todennäköisyydellä .
Esimerkki 6.2. jatkuu:
Kriittinen arvo tasolla = 0.05 saadaan N(0,1)-jakauman taulukosta standardoidulle
arvolle
61
z=
missä
0
x − µ0
σ/ n
= 1001 on H0-hypoteesin väittämä arvo
H0 hylätään, jos z > z0.95
Tästä voidaan tarvittaessa laskea kriittinen raja myös otoskeskiarvolle:
Hylkää H0, jos x > µ 0 + z 0.95 σ / n
Huomautuksia:
•Koska testisuure noudattaa normaalijakaumaa, niin hylkäämisvirheen todennäköisyys ei ole
koskaan 0. Vaikka keskipaino olisi säilynyt muuttumattomana, otoskeskiarvo voi (harvinaisissa poikkeustapauksissa) olla miten suuri tahansa.
•Miksi riskitasoa ei kannata valita "erittäin pieneksi", esim. 0.000001? Koska silloin nollahypoteesi jää voimaan hyvinkin suurilla otoskeskiarvoilla ja hyväksymisvirheen todennäköisyys
tulee suureksi.
4. HAVAINTOAINEISTON KERÄÄMINEN JA TESTISUUREEN ARVON
LASKENTA
Havaintoaineiston keräämiseen liittyvät otannan ja kokeiden suunnittelu, otoksen poiminta ja
mittausten suorittaminen. Näitä käsittelevät tilastotieteen erikoisalueet koesuunnittelu ja otantateoria. Eräs tärkeimpiä kysymyksiä on otoskoon valinta, joka vaikuttaa siihen, miten luotettavia johtopäätöksiä voidaan tehdä.
Havainnoista eli otoksesta lasketaan valitun testisuureen arvo.
Esimerkki 6.2. jatkuu:
Sokeripusseista punnittiin satunnaiset 12 pussia ja oletetaan, että havainnot olivat samat kuin esimerkissä 5.1. Massan keskiarvoksi saadaan 1002.5 g. Massan keskihajonnan tiedetään olevan 4 g.
Testisuureen arvoksi saadaan
z=
x − µ0
σ/ n
=
1002.5 − 1001
4 / 12
= 1.2990
62
5. JOHTOPÄÄTÖKSEN TEKEMINEN
Tarkistetaan hylkäysehto vertaamalla testisuureen laskettua arvoa kriittiseen arvoon (tai arvoihin). Tilastollisena johtopäätöksenä joko "H0 hylätään" tai "H0 jää voimaan" (eli "H0 hyväksytään") riskitasolla .
Esimerkki 6.2. jatkuu:
Kriittinen arvo tasolla = 0.05 on z0.95 = 1.6449.
Testisuureen laskettu arvo oli z = 1.2990
Johtopäätös: Koska z < z0.95, niin H0 jää voimaan.
Keskipainon ei siis voida katsoa kasvaneen tilastollisesti merkitsevästi, vaan havaittua
poikkeamaa voidaan pitää normaaliin satunnaisvaihteluun kuuluvana. Pussituslaitetta
ei siis tarvitse säätää.
Huom. Saatu tulos ei todista, että keskipaino olisi säilynyt samana! Vakuuttavaa näyttöä sen suurentumisesta ei vain saatu tästä otoksesta.
TESTISUUREEN P-ARVO ELI MERKITSEVYYSTASO
Edellä kuvatussa perinteisessä testauksessa ei erityisesti huomioida sitä, kuinka paljon testisuureen arvo ylittää tai alittaa kriittisen arvon. Tämän vuoksi on tapana ilmoittaa testisuureen P-arvo eli testisuureen merkitsevyystaso:
P-arvo on todennäköisyys saada lasketun testisuureen suuruinen tai sitä
suurempi poikkeama nollahypoteesin väittämästä arvosta, jos H0 on tosi.
P-arvo mittaa nollahypoteesin uskottavuutta: mitä pienempi testisuureen P-arvo, sitä vahvempi tuki vastahypoteesille!
Tilastolliset ohjelmistot ilmoittavat testisuureen P-arvon, mutta muuten se voidaan laskea vain
jos kertymäfunktio voidaan laskea tai katsoa taulukosta.
Jos tutkimuksen tekijä käyttää perinteistä testausta ja valitsee riskitason
tös tehdään seuraavasti. Tämä pätee kaikissa testeissä:
etukäteen, johtopää-
Jos P < , H0 hylätään.
Jos P
, H0 jää voimaan.
Tämä on yhtäpitävää kriittiseen arvoon vertaamisen kanssa. Jos P-arvo voidaan laskea, ei johtopäätöksen tekemiseen tarvita kriittisiä arvoja.
Vaihtoehtoinen määritelmä:
P-arvo on pienin riskitaso, jolla kyseinen otos johtaisi H0:n hylkäämiseen.
63
Esimerkki 6.2. jatkuu:
Testisuureen z = 1.299 P-arvo on
P = P(Z > 1.299) = 1 – (1.299) = 0.097.
Jos riskitasoksi on valittu
= 0.05, niin H0 jää voimaan.
Sokeripussien keskimääräinen massa ei siis ylitä säädettyä arvoa 1001 tilastollisesti
merkitsevästi.
Laajoissa monimuuttujaisissa tilastoaineistoissa, joissa lasketaan lukuisia testisuureen arvoja,
ei johtopäätöksiä yleensä tehdä kiinteää riskitasoa käyttävällä hyväksytään/hylätäänperiaatteella, vaan esitetään P-arvot ja huomioidaan näistä merkitsevimmät: esim. merkitään
***
**
*
kun P < 0.001
"Erittäin merkitsevä poikkeama nollahypoteesista"
kun 0.001 P < 0.01 "Merkitsevä poikkeama nollahypoteesista"
kun 0.01 P < 0.05 "Melkein merkitsevä poikkeama nollahypoteesista"
Kun P > 0.05, voidaan sanoa että poikkeama / ero (nollahypoteesin väitteestä) ”ei ole tilastollisesti merkitsevä”.
P-arvo kannattaa aina ilmoittaa, koska se on informatiivisempi kuin pelkän johtopäätöksen ja
riskitason ilmoittaminen. Perinteistä hyväksymis/hylkäämismenettelyä riskitasoineen tarvitaan silloin, kun testin tulos aiheuttaa konkreettisia toimenpiteitä.
TESTIN VOIMAKKUUDEN LASKEMINEN
Esimerkki 6.3. Lasketaan esimerkin 6.2. testin voimakkuus eli todennäköisyys H0:n hylkäämiselle tapauksessa, jossa todellinen keskipaino on µ = 1004 g.
Normeerauksessa on käytettävä oikeaa odotusarvoa µ = 1004.
Hylkäysehto:
x − 1001
⇔
σ/ n
> z 0.95
x > 1001 + z 0.95 σ / n = 1001 + 1.6449 ⋅ 4 / 12
⇔
⇔
x > 1002.8994
64
x − 1004
⇔
σ/ n
z>
⇔
>
1002.8994 − 1004
σ/ n
1002.8994 − 1004
4 / 12
z > -0.9532
Kun
= 1004, testin voimakkuus eli H0:n hylkäystodennäköisyys on
1 – = P(Z > -0.9532) = P(Z < 0.9532)
(0.95) = 0.8289
6.3. PARAMETRISIA TESTEJÄ
6.3.1. ODOTUSARVON TESTAUS
Hypoteesit voivat olla jotakin seuraavista muodoista.
Kaksisuuntainen testaus:
Tapaus 1:
H0:
H1:
=
0
0
Yksisuuntainen testaus:
Tapaus 2:
Tapaus 3:
H0:
H1:
=
>
H0:
H1:
=
<
0
tai
H0:
H1:
0
0
tai
H0:
H1:
0
0
>
0
0
<
0
Esimerkki 6.2. Vaihtoehtoisia tutkimusongelmia:
•Asiakkailta on tullut aikaisempaa enemmän valituksia, että sokeripussit ovat vajaita. Tämä
antaa aihetta epäillä, että massan odotusarvo on pienentynyt alle tavoitearvon 1001 g. Asetetaan hypoteesit
H0:
= 1001
H1:
< 1001
•Kahvipaketin tavoitepaino on 1001 g, tästä ei saisi poiketa kumpaankaan suuntaan. Pakkausprosessia kontrolloidaan säännöllisin välein keskipainon tarkistamiseksi. Tarkastus perustuu satunnaisotokseen, ja siinä testataan hypoteeseja
H0:
= 1001
H1:
1001.
YLEISIÄ HUOMAUTUKSIA (pätevät kaikkien parametrien testauksessa):
•Nollahypoteesissa on aina mukana yhtäsuuruus väitetyn lukuarvon 0 kanssa ja tätä arvoa
käytetään testisuureen laskemisessa. Yksisuuntaisissa tapauksissa 2 ja 3 H0-hypoteesi voi olla
myös muotoa µ µ0 tai
0, tämä ei vaikuta testin suorittamiseen.
•Testin kriittinen alue määräytyy vastahypoteesin mukaan.
65
•Kaksisuuntaista testiä käytetään, kun
- poikkeamat molempiin suuntiin mahdollisia tai merkitseviä päätöksenteon kannalta
- ei ennakkoepäilyjä poikkeaman suunnasta.
•Yksisuuntaista testiä käytetään, kun
- poikkeama vain toiseen suuntaan mahdollinen tai uskottava tai merkitsevä päätöksenteon
kannalta
- vastahypoteesina epäilys, jota uusi teoria tai kokemukset puoltavat.
Odotusarvon testauksessa testisuureen valinta riippuu siitä, tunnetaanko populaation / perusjoukon / jakauman todellinen hajonta vai joudutaanko se estimoimaan kyseisestä otoksesta.
Tilanteissa jossa hajonta on estimoitu jostakin hyvin suuresta, aiemmasta otoksesta, sitä merkitään :lla. Jos hajonta on laskettu samasta käsillä olevasta otoksesta kuin otoskeskiarvokin,
sitä merkitään s:llä.
a) Kun
tunnetaan:
Oletukset:
Xi ~ N( , 2), i=1,...,n, missä tunnettu TAI otoskoko n niin suuri, että
normaalijakauma-approksimaatiota voidaan käyttää.
Testisuure (sama kaikille hypoteesityypeille):
Z=
X − µ0
σ/ n
~ N(0,1)
kun
Olkoon testisuureen otoksesta laskettu arvo z =
=
0
x − µ0
σ/ n
Nollahypoteesin hylkäysehto eri tapauksissa
Tapaus 1:
H0:
H1:
=
0
0
Jos otoskeskiarvo x on suurempi kuin 0, z arvo on positiivinen. Jos otoskeskiarvo x on pienempi kuin 0, z arvo on negatiivinen. Suuri poikkeama kumpaan tahansa suuntaan puoltaa
vastahypoteesin hyväksymistä eli nollahypoteesin hylkäämistä.
H0 hylätään riskitasolla , jos |z| > z1-
Tapaus 2:
H0: =
H1: >
/2
eli
0
0
66
z > z1-
/2
tai z < –z1-
/2
H0 hylätään riskitasolla , jos z > z1-
Tapaus 3:
H0: =
H1: <
0
0
H0 hylätään riskitasolla , jos z < –z1–
Testisuureen lasketun arvon z merkitsevyystaso eli P-arvo (kuvissa viivoitettu pinta-ala):
•Kaksisuuntainen testi, tapaus 1:
P = P(Z > |z|) + P(Z < -|z|) = 2P(Z > |z|) = 2[1- (|z|)]
•Yksisuuntainen testi, tapaus 2:
P = P(Z > z) = 1- (z)
67
•Yksisuuntainen testi, tapaus 3:
P = P(Z < z) = (z)
Lasketaan siis todennäköisyys testisuureen arvosta vastahypoteesin suuntaan.
b) Kun
tuntematon:
Yleensä todellista hajontaa ei tunneta, vaan se estimoidaan käsillä olevasta otoksesta. Silloin on käytettävä t-jakautunutta testisuuretta (kuten luottamusvälin muodostamisen yhteydessä).
Oletukset:
Xi ~ N( ,
Testisuure:
T=
2
X − µ0
S/ n
), i=1,...,n ja
tuntematon.
~ t(n-1)
kun
=
0
S on otoshajonta (satunnaismuuttujana), sen laskettua arvoa merkittiin s:llä.
Koska t-jakauman kuvaaja on normaalijakauman kuvaajan kaltainen, hylkäysalueet vastaavat
edellisten kuvien hylkäysalueita, mutta z-arvon paikalla on vastaava t-jakauman piste.
Olkoon testisuureen otoksesta laskettu arvo t =
x − µ0
s/ n
.
H0 hylätään riskitasolla , jos
Kaksisuuntainen testi, tapaus 1:
|t| > t1– /2(n-1)
Yksisuuntainen testi, tapaus 2:
t > t1– (n-1)
Yksisuuntainen testi, tapaus 3:
t < –t1– (n-1)
Testisuureen lasketun arvon t merkitsevyystaso eli P-arvo on
•tapauksessa 1: P = P(T > |t|) + P(T < -|t|)
•tapauksessa 2: P = P(T > t)
•tapauksessa 3: P = P(T < t)
Tämä voidaan laskea tietokoneohjelmilla, joissa on t-jakauman kertymäfunktio, esim. Excelin
funktiolla TDIST.
68
Esimerkki 6.4. Moottoriöljyn viskositeetin tulisi olla keskimäärin 85. Halutaan tutkia poikkeaako keskimääräinen viskositeetti väitetystä arvosta suuntaan tai toiseen. Oletetaan, että
viskositeetti on normaalijakautunut. Testausta varten tehtiin 25 viskositeetin määritystä, joista
saatiin keskiarvoksi 88.3 ja hajonnaksi 7.49.
Hypoteesit:
H0: µ = 85
H1: µ 85
Koska otos on pieni eikä todellista varianssia/hajontaa tunneta, käytetään t-testiä.
X − µ0
Testisuure:
T=
~ t(n-1)
kun = 0
S/ n
Valitaan riskitasoksi
= 0.05
Otos: n = 25, x = 88.3, s = 7.49
0 = 85
x − µ0
88.3 − 85
=
Testisuureen arvo: t =
= 2.203
s/ n
7.49 / 25
H0 hylätään riskitasolla , jos |t| > t1– /2(n-1).
Kriittinen arvo tasolla = 0.05 on t0.975(24) = 2.064.
|t| > t0.975(24), joten H0 hylätään riskitasolla = 0.05 eli keskimääräisen viskositeetin poikkeama väitetystä arvosta on melko merkitsevä.
Huom. Tasolla
=0.01 kriittinen arvo on t0.995(24) = 2.797, joten H0 jäisi voimaan.
Kuinka merkitsevä poikkeama on?
P-arvo on P(T>2.203) + P(T<–2.203) = 2 P(T>2.203).
P-arvo voidaan laskea esim. Excelin funktiolla TDIST (TJAKAUMA), kirjoittamalla kaava
=TDIST(X;Df;Tails)
missä X = testisuureen itseisarvo
Df = vapausaste
Tails = 1, jos testi on yksisuuntainen ja 2 jos testi on kaksisuuntainen
Tässä kaava =tdist(2,203;24;2) antaa testisuureen arvon merkitsevyydeksi P = 0.0374.
6.3.2. SUHTEELLISEN OSUUDEN TESTAUS
Testattavana jonkin ominaisuuden tai tapahtuman suhteellinen osuus p perusjoukossa, esim.
viallisten osuus kappaletuotannossa, jonkin asian kannattajien osuus väestössä jne.
Hypoteesit:
Kaksisuuntainen testi, tapaus 1:
H0: p = p0
H1: p p0
69
Yksisuuntainen testi, tapaus 2:
H0: p = p0
H1: p > p0
Yksisuuntainen testi, tapaus 3:
H0: p = p0
H1: p < p0
missä p0 on väitetty lukuarvo.
a) Suuri otos
Oletukset: Kokoa n oleva otos (suuresta tai äärettömästä) perusjoukosta, jossa tutkittavan
ominaisuuden/tapahtuman suhteellinen osuus on p. Otoskoko n niin suuri että normaalijakauma-approksimaatiota voi käyttää.
Esiintymiskertojen määrä otoksessa X ~ Bin(n, p)
N(np, np(1-p))
Testisuure
Z=
P − p0
p 0 (1 − p 0 ) / n
=
X − np 0
np 0 (1 − p 0 )
~a N(0,1)
kun p = p0
missä satunnaismuuttuja P = X/n on tutkittavan tapahtuman suhteellinen osuus otoksessa. Sen
otoksesta laskettua arvoa merkittiin pˆ = x/n.
Olkoon testisuureen otoksesta laskettu arvo z =
Tapaus 1:
p 0 (1 − p 0 ) / n
=
x − np 0
np 0 (1 − p 0 )
H0: p = p0
H1: p p0
H0 hylätään riskitasolla , jos |z| > z1Tapaus 2:
pˆ− p 0
/2
H0: p = p0
H1: p > p0
H0 hylätään riskitasolla , jos z > z1Tapaus 3:
H0: p = p0
H1: p < p0
H0 hylätään riskitasolla , jos z < –z1–
Testisuureen lasketun arvon z merkitsevyystaso eli P-arvo lasketaan kuten :n testauksessa:
•tapauksessa 1: P = P(Z > |z|) + P(Z < -|z|) = 2P(Z > |z|) = 2[1- (|z|)]
•tapauksessa 2: P = P(Z > z) = 1- (z)
•tapauksessa 3: P = P(Z < z) = (z)
b) Pieni otos:
Hypoteesit kuten edellä, nyt testisuureena X ~ Bin(n, p0), jonka arvo otoksessa on x. Diskreetissä tapauksessa ei käytetä kriittisiä arvoja, koska P-arvo saadaan suoraan laskemalla.
70
Hylkäysehto:
Tapaus 1:
H0: p = p0
H1: p p0
H0 hylätään riskitasolla , jos
x
P(X
x) =
n
∑  k p
k =0
 
k
0
(1 − p 0 ) n − k < /2
tai
n
P(X
x) =
k =x
P-arvo:
n
∑  k p
 
P = 2 min{P(X
k
0
(1 − p 0 ) n − k < /2
x), P(X
x)}
eli lasketaan lähempänä olevan reunan todennäköisyys ja kerrotaan se kahdella.
Tapaus 2:
H0: p = p0
H1: p > p0
H0 hylätään riskitasolla , jos
n
P = P(X
Tapaus 3:
x) =
n
∑  k p
k =x
 
x
n
k
(1 − p 0 ) n − k <
k
(1 − p 0 ) n − k <
0
H0: p = p0
H1: p < p0
H0 hylätään riskitasolla , jos
P = P(X
x) =
∑  k p
k =0
 
0
Esimerkki 6.5. Uutta nenän tukkoisuuteen tarkoitettua nenäsumutetta testattiin koehenkilöillä. Lääkkeen valmistaja väitti, että nenä aukeaa 90 %:ssa tapauksista.
a) Tuotetta testattiin ensin 10 potilaaseen, joista lääke tehosi 8 tapaukseen. Voidaanko valmistajan väite kumota riskitasolla = 0.05?
Olkoon X parantuneiden määrä n:n potilaan joukossa: X ~ Bin(n, p).
Hypoteesit:
H0: p = 0.9
H1: p < 0.9
(tai p
0.9)
Koska otos on erittäin pieni, käytetään testisuuretta X ~ Bin(10, p).
Otoksessa x = 8. Kun p=0.9,
P = P(X
8) = 0.2639
(Bin(10, 0.9)-jakauman kertymäfunktion taulukosta)
Koska P > 0.05, H0 jää voimaan. Tulos ei osoita merkitsevää poikkeamaa väitetystä tehosta.
71
b) Testaamista laajennettiin 200 henkilön otokseen ja näistä lääke tehosi 170 tapaukseen.
Voidaanko valmistajan väite nyt kumota?
Hypoteesit kuten edellisessä kohdassa. Nyt otos on suuri, joten käytetään testisuuretta
Z=
X − np 0
np 0 (1 − p 0 )
~a N(0,1), kun p = p0
H0 hylätään, jos z < -z1- (eli jos P-arvo < )
Sijoitetaan x = 170, n = 200, p0 = 0.9:
z=
Kun
170 − 200 ⋅ 0.9
200 ⋅ 0.9 ⋅ 0.1
= -2.357
= 0.05, kriittinen arvo on –z0.95 = –1.6449 > –2.357, joten H0 hylätään.
Vaihtoehtoisesti voidaan laskea P-arvo
P = P(Z < -2.357) = 1 – (2.36) = 1 –0.9909 = 0.0091 < , joten H0 hylätään.
Parantuneiden osuus on siis merkitsevästi pienempi kuin valmistaja väittää, P-arvon ollessa
0.0091.
Huom. Vaikka jälkimmäisessä testissä parantuneiden suhteellinen osuus pˆ = x/n = 170/200 =
0.85 oli suurempi kuin edellisessä, johtopäätös oli hylkäävä. Tämä ei johdu käytetystä testisuureesta vaan siitä, että suurempi otos tekee testistä voimakkaamman: suuremmassa otoksessa sattuman vaikutus on pienempi ja "todistusaineisto" nollahypoteesia vastaan on vakuuttavampi.
Esimerkki 6.6.: Kertaustehtävä
Valmistetaan laakerikuulia, joiden halkaisijan tulisi olla mahdollisimman tarkkaan 5 mm.
Halkaisija X on normaalijakautunut odotusarvona säätöarvo ja keskihajontana = 0.2 mm.
a) Säätöarvo tarkastetaan mittaamalla n = 20 satunnaisesti valitun laakerikuulan halkaisija ja
testaamalla riskitasolla = 0.01 hypoteeseja
H0:
H1:
=5
5.
Jos H0 hylätään, valmistusprosessia on säädettävä.
•Suorita testaus sekä kriittiseen arvoon vertaamalla että P-arvoa käyttäen, kun tarkastetun
otoksen keskiarvoksi saatiin x = 4.87 mm.
•Onko tässä tilanteessa perusteltua käyttää kiinteää riskitasoa?
•Kuinka kerrot testin tuloksen jos kiinteää riskitasoa ei ole annettu?
72
Ratkaisu:
Halkaisija X ~ N( , 0.22)
Testisuure Z =
0=
5
n = 20
= 0.2
x = 4.87
X − µ0
σ/ n
~ N(0,1),
kun
=
0.
(nollahypoteesin väittämä arvo)
(otoskeskiarvo)
Testisuureen arvo z =
Annettu riskitaso
4.87 − 5
0.2 / 20
= -2.91
= 0.01
TAPA 1: Testaus kriittiseen arvoon vertaamalla
H0 hylätään riskitasolla , jos |z| > z1Tasolla
(kaksisuuntainen testaus).
/2
= 0.01 kriittinen arvo on z0.995 = 2.575.
Nyt |z| = 2.91 > z0.995, joten H0 hylätään:
Säätöarvo poikkeaa merkitsevästi 5 mm:stä, riskitasolla
= 0.01.
TAPA 2: Testaus P-arvoa käyttäen
H0 hylätään, jos P < .
Testisuureen P-arvo eli merkitsevyystaso on
(piirrä kuva!)
P(Z > |z|) + P(Z < -|z|) = P(Z > 2.92) + P(Z<-2.91) = 2 P(Z>2.91) = 2 [1 - P(Z 2.91)]
= 2 [1 – (2.91)] = 2 [1-0.9982] = 0.0036
Riskitaso
= 0.01.
Koska P < , H0 hylätään riskitasolla
= 0.01.
Säätöarvo poikkeaa merkitsevästi 5 mm:stä, riskitasolla
= 0.01.
•Tässä kiinteä riskitaso on perusteltu, koska testin tuloksen perustella päätetään, säädetäänkö
valmistusprosessia vai ei. Raja määräytyy riskitason perusteella ja tämän tason määrää päätöksentekijä.
•Jos riskitasoa ei ole annettu, P-arvo on laskettava ja johtopäätös ilmaistaan esim. näin:
Säätöarvo poikkeaa 5 mm:stä merkitsevyystasolla P = 0.0036.
73
Mitä riskitaso merkitsee käytännössä?
Riskitaso 0.01 tarkoittaa, että silloin kun odotusarvo on toivottu 5 mm, 1 % otoksista aiheuttaa satunnaisvaihtelun takia (turhan) säätämisen.
•Mitä pienempi riskitaso, sitä suurempi otoskeskiarvon poikkeama hyväksytään ennen kuin
prosessia lähdetään säätämään.
•Mitä suurempi riskitaso, sitä herkemmin reagoidaan poikkeamiin eli sitä pienemmät poikkeamat johtavat säätämiseen.
b) Säätöarvo tarkastetaan mittaamalla n = 20 satunnaisesti valitun laakerikuulan halkaisija. On
määrätty, että jos otoskeskiarvo x poikkeaa 5 mm:stä yli 0.10 mm, prosessia täytyy säätää.
Tilanne vastaa hypoteesien
H0:
H1:
=5
5
testaamista, missä ”H0 hylätään”, kun keskiarvo poikkeaa halutusta arvosta yli 0.10 mm.
Kuinka suuri on tämän testin riskitaso?
Ratkaisu:
Esitetään hylkäysehto standardiarvon z avulla.
H0 hylätään, kun
| x − µ 0 | > 0.1
⇔
| x − µ0 |
σ/ n
>
0.1
σ/ n
0.1
⇔
|z|>
⇔
| z | > 2.236
0.2 / 20
Riskitaso on tämän hylkäämisen todennäköisyys satunnaismuuttujalle Z:
= P( | Z | > 2.236)
2 [ 1 – (2.24) ] = 2 [ 1 –0.9875 ] = 0.025.
6.3.3. MUIDEN PARAMETRIEN TESTAUS
Muiden parametrien testaus suoritetaan samaan tapaan kuin odotusarvon ja suhteellisen osuuden käyttäen sopivaa testisuuretta, jonka jakauma tunnetaan. Kun testisuureen jakauma ei ole
symmetrinen, on kaksisuuntaisessa testissä huomioitava, että ylä- ja alarajan kriittiset pisteet
eivät ole toistensa vastalukuja.
74
6.4.
2
- RIIPPUMATTOMUUSTESTI
Tutkitaan ovatko kaksi luokittelutasoista satunnaismuuttujaa X ja Y keskenään riippumattomia vai onko niiden välillä riippuvuutta. Tämä on esimerkki ei-parametrisesta testistä. Riippuvuus käsitetään tässä mahdollisimman yleisesti: se voi merkitä mitä tahansa yhteyttä ominaisuuksien X ja Y välillä, ei välttämättä suoraa vuorovaikutusta tai syy-seuraussuhdetta.
Otokseen valitut tilastoyksiköt luokitellaan kahden muuttujan suhteen. Havaintoaineisto annetaan kontingenssitaulukkona, joka saadaan ristiintaulukoimalla kaksi muuttujaa X ja Y.
Olkoot E1, … ,Ek muuttuja X luokat ja F1, … , Fm muuttujan Y luokat. Kukin tilastoyksikkö kuuluu yhteen alla olevan kontingenssitaulukon ruuduista. Taulukon alkiot ovat havaintojen lukumääriä.
X\Y
E1
E2
M
Ek
F1
n11
n21
M
nk1
c1
F2
n12
n22
M
nk2
c2
…
…
…
…
…
…
Fm
n1m
n2m
M
nkm
cm
r1
r2
M
rk
missä
nij = niiden havaintojen (x,y) lukumäärä, joilla x ∈ Ei, y∈ Fj
m
ri =
∑n
j=1
ij
i = 1,...,k
k
cj =
∑n
i =1
ij
j = 1,...,m
Lukuja nij kutsutaan solufrekvensseiksi, rivisummia ri ja sarakesummia cj reunafrekvensseiksi.
Hypoteesit:
Riippumattomuustesti
H0: X ja Y riippumattomat
H1: X:n ja Y:n välillä on riippuvuutta
Homogeenisuustesti
H0: Y:n vaakarivijakaumat samanlaisia X:n eri luokissa
H1: Y:n vaakarivijakaumissa eroa
tai
H0: X:n pystyrivijakaumat samanlaisia Y:n eri luokissa
H1: X:n pystyrivijakaumissa eroa.
Hypoteesien muotoilu riippuu tutkimusongelman asettelusta. Testi suoritetaan kaikissa tapauksissa samalla tavalla, vain johtopäätöksen tulkinta on hieman erilainen.
75
Esimerkki 6.7. Vertailtiin tupakoinnin harrastamista ammattikoulua käyvien tyttöjen ja poikien keskuudessa. Haastatteluun valittiin satunnaisotannalla 40 tyttöä ja 60 poikaa. Tulokset
jakautuivat seuraavasti:
Kyllä
5
20
25
Tytöt
Pojat
Ei
35
40
75
40
60
100
Nollahypoteesi voidaan lausua muodossa
H0: tupakointi ei riipu sukupuolesta
tai
H0: tupakoivien ja tupakoimattomien osuudet samanlaiset tyttöjen ja poikien
keskuudessa.
Testi perustuu siihen, että verrataan sopivan testisuureen avulla havaittuja frekvenssejä nij
odotettuihin frekvensseihin riippumattomuuden vallitessa. Jos tupakointi ei riippuisi sukupuolesta eli osuudet olisivat samanlaiset tyttöjen ja poikien keskuudessa, noin 25 % tupakoisi ja
75 % ei (osuudet koko otoksessa).
Riippumattomuuden vallitessa solutodennäköisyydet pij = P(X∈ Ei ja Y ∈ Fj) saadaan tulona
pij = P(X∈ Ei ja Y∈ Fj) = P(X ∈ Ei) P(Y∈ Fj)
Koska X:n ja Y:n jakaumia ei tunneta, estimoidaan reunatodennäköisyydet suhteellisina reunafrekvensseinä:
P(X ∈ Ei)
ri/n
P(Y ∈ Fj)
cj/n
Luokkaan (i, j) kuuluu keskimäärin osuus pij kaikista havainnoista, eli npij yksilöä.
Kun riippumattomuus on voimassa, odotetut frekvenssit ovat
r c j ri c j
.
eij = npij = n P(X ∈ Ei) P(Y∈ Fj) n ⋅ i ⋅ =
n n
n
2
-riippumattomuustesti
Testisuure
2
k
=
m
∑∑
i =1 j=1
missä eij =
ri c j
n
(n ij − e ij ) 2
e ij
on luokan (i, j) odotettu frekvenssi, nij havaittu frekvenssi
Jos havaitut ja odotetut frekvenssit poikkeavat paljon toisistaan, se puoltaa riippumattomuushypoteesin hylkäämistä. Siis suuret testisuureen arvot johtavat H0:n hylkäämiseen.
76
Testisuureen jakauma: Voidaan osoittaa, että
2
~a
2
((k-1)(m-1))
kun riippumattomuus voimassa
Testin käytön edellytykset:
1) havainnot riippumattomat
2) n 50
3) kaikki odotetut frekvenssit eij 2
4) korkeintaan 20 % odotetuista frekvensseistä < 5.
Olkoon testin riskitasoksi valittu .
2
>
2
Hylkäysehto:
H0 hylätään, jos
P-arvoa käyttäen:
H0 hylätään, jos (tietokoneella laskettu) P-arvo < .
1-
((k-1)(m-1))
Esimerkki 6.7. (jatkoa) Tyttöjen ja poikien tupakointi:
Havaitut frekvenssit nij:
Tytöt
Pojat
Kyllä
5
20
25
Ei
35
40
75
40
60
100
Odotetut frekvenssit eij = ri cj / n
Tytöt
Pojat
Kyllä
10
15
Ei
30
45
Testisuureen arvon laskenta:
2
(5 − 10) 2 (35 − 30) 2 (20 − 15) 2 (40 − 45) 2
=
+
+
+
= 5.56
10
30
15
45
Luokkien lukumäärät k = 2, m = 2, joten vapausaste (k-1)(m-1) = 1.
Valitaan riskitaso
= 0.05. H0 hylätään, jos
2
>
77
2
1-
((k-1)(m-1))
2
Kriittinen arvo
0.95(1)
= 3.841
Koska laskettu arvo 5.56 > 20.95(1), niin H0 hylätään: Ammattikoulua käyvien tyttöjen ja poikien tupakoinnin yleisyydessä on merkitsevä ero tasolla = 0.05.
Mikä on tuloksen merkitsevyys (= pienin riskitaso, jolla H 0 vielä hylätään)?
Haetaan taulukosta kriittisiä arvoja pienemmillä -tasoilla:
Jos
Jos
= 0.025, kriittinen arvo
= 0.01, kriittinen arvo
2
0.975(1) = 5.024 < 5.56
2
0.99(1) = 6.635 > 5.56
H0 hylätään
H0 jää voimaan.
Tyttöjen ja poikien tupakoinnin yleisyydessä on merkitsevä ero P-arvolla
0.02.
Taulukon perusteella saadaan vain karkea arvio. P-arvo
P = P(
2
> 5.56)
voidaan laskea Excel-funktiolla CHIDIST(X; DF), suom. CHIJAKAUMA(X;DF).
Tässä tapauksessa kaava =chidist(5,56;1) antaa arvon P=0.0184.
Esimerkki 6.8. Satunnaisesti valittuja henkilöitä pyydettiin maistamaan kolmea voileipämargariinia A, B ja C ja kertomaan mitä he pitivät parhaana. Kolmessa eri ikäryhmässä valinnat
jakautuivat seuraavasti:
alle 25 v
25 –50 v
yli 50 v
A
15
17
9
B
13
37
11
C
8
25
15
Testaa tilastollisesti, poikkeavatko eri ikäryhmien mieltymykset toisistaan.
78
7. RIIPPUVUUSANALYYSIA
Seuraavassa tutkitaan välimatka-asteikollisten satunnaismuuttujien riippuvuutta: aluksi esitetään yksinkertainen riippuvuusmitta, korrelaatiokerroin, ja sen jälkeen regressioanalyysin perusteet riippuvuuden tarkempaan analysointiin ja ennusteiden tekemiseen.
7.1. KORRELAATIO
7.1.1. KORRELAATIOKERTOIMEN MÄÄRITTELY
Olkoot X ja Y välimatka- tai suhdeasteikollisia satunnaismuuttujia.
Havaintoaineistona on n:n suuruisesta otoksesta mitatut muuttuja-arvoparit
(x1,y1), (x2,y2), ... , (xn,yn).
Esimerkki 7.1. Opiskelijat tutkivat tenttiarvosanan (Y) riippuvuutta valmistautumiseen käytetystä ajasta (X). Viisi satunnaisesti valittua opiskelijaa ilmoitti seuraavat tiedot:
Aika x
10
8
6
12
9
Arvosana y
4
2
0
4
1
Muuttujien riippuvuutta voidaan tarkastella pisteiden sirontakuvion (scatter plot) avulla, joka
saadaan plottaamalla pisteet xy-koordinaatistoon:
Plot of y vs x
5
4
y
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10
11
12
x
Kuvasta voidaan havaita muuttujien välillä jonkin asteinen positiivinen riippuvuus.
Muuttujien X ja Y lineaarista riippuvuutta mittaa korrelaatiokerroin
r=
∑ xy − (∑ x)(∑ y) / n
(∑ x − (∑ x ) / n )(∑ y − (∑ y)
2
2
2
2
/ n)
jossa on selkeyden vuoksi jätetty pois havaintojen alaindeksit. Tätä kutsutaan myös Pearsonin
tulomomenttikorrelaatiokertoimeksi erotukseksi muista korrelaatiokertoimista.
Jos merkitään
79
n
SSxy =
∑ (x
i =1
i
n
SSxx =
∑ (x
i =1
n
SSyy =
∑ (y
i =1
i
i
− x )( y i − y) =
n
∑x
− x) 2 =
i =1
n
n
∑x y
i
i =1
i
n
n
1=1
i =1
− (∑ x i )(∑ y i ) / n
n
2
i
− (∑ x i ) 2 / n
1=1
n
− y) 2 = ∑ y i2 − (∑ y i ) 2 / n
i =1
1=1
on
r=
SS xy
SS xx SS yy
SS-summalausekkeissa jälkimmäinen kaava on käsin laskettaessa suositeltavampi.
Huom. Kun SSxx ja SSyy jaetaan (n-1):llä, saadaan X:n ja Y:n otosvarianssit.
Esimerkki 7.1. jatkuu
Lasketaan tenttiin valmistautumiseen käytetyn ajan (X) ja tenttiarvosanan (Y) välinen
korrelaatiokerroin:
x
10
8
6
12
9
45
y
4
2
0
4
1
11
xy
40
16
0
48
9
113
x2
100
64
36
144
81
425
y2
16
4
0
16
1
37
Alimmalla rivillä ovat sarakkeiden summat.
SSxy = 113 –45 ·11/5 = 14
SSxx = 425 –452/5 = 20
SSyy = 37 –112/5 = 12.8
14
r=
20 ⋅ 12.8
= 0.875
KORRELAATIOKERTOIMEN OMINAISUUKSIA:
1) -1
r
1
2) Korrelaatiokerroin r mittaa muuttujien välistä lineaarista riippuvuutta.
•Jos r < 0, muuttujien välillä on negatiivista riippuvuutta: suuriin x-arvoihin liittyy yleensä
pieni y-arvo ja pieniin x-arvoihin suuri y-arvo.
•Jos r > 0, muuttujienvälillä on positiivista riippuvuutta: suuriin x-arvoihin liittyy yleensä
suuri y-arvo ja pieniin x-arvoihin pieni y-arvo.
•Jos r 0, muuttujien välillä ei ole lineaarista riippuvuutta.
Ääritapaukset:
•Jos r = 1, havaintopisteet ovat samalla suoralla, jonka kulmakerroin on positiivinen.
•Jos r = -1, havaintopisteet ovat samalla suoralla, jonka kulmakerroin on negatiivinen.
80
3) Korrelaatiokertoimen arvo on riippumaton käytetystä mitta-asteikosta, ts. se ei muutu,
vaikka muuttuja-arvoille tehdään lineaarinen muunnos.
Esimerkkejä:
a) positiivinen korrelaatio
b) negatiivinen korrelaatio
c) ei korrelaatiota
7.1.2. KORRELAATION MERKITSEVYYS
Koska r on otossuure, sen arvosta ei voida suoraan päätellä, onko muuttujien välillä todellista
riippuvuutta vai ei. Jos otos on pieni, korrelaatiokerroin voi sattuman vaikutuksesta näyttää
suurelta, vaikka muuttujilla ei olisi mitään tekemistä toistensa kanssa. Seuraavassa esitetään
testi, joka ottaa tämän huomioon.
Satunnaismuuttujien X ja Y yhteisjakaumaan perustuva lineaarisen korrelaation kerroin on
ρ=
σ xy
σxσy
(symboli: rhoo)
missä xy = E((X-µx)(Y-µy)) = E(XY) – µxµy on muuttujien X ja Y kovarianssi. Jos X ja Y
ovat riippumattomat, niin xy = 0. Sen laskemiseen tarvitaan muuttujien yhteisjakaumaa, jota
harvoin tunnetaan. Teoreettinen korrelaatiokerroin on koko populaatiota koskeva, yleensä
tuntematon parametri, jonka estimaattori on otoskorrelaatiokerroin r. Korrelaation testaus
koskee parametria ja testisuure perustuu otossuureeseen r.
81
Hypoteesit:
H0:
H1:
=0
0
(ei lineaarista riippuvuutta)
(on lineaarinen riippuvuus)
Testisuure:
T=
n−2
R
1− R 2
~ t(n-2)
kun H0 on voimassa.
Tässä R on satunnaismuuttuja, ja sen otoksesta laskettu arvo on r.
Testisuureen laskettu arvo:
n−2
t=
r
1− r2
Hylkäysehto: Hypoteesi H0 hylätään riskitasolla , jos | t | > t1– /2(n-2).
Sama P-arvon avulla:
P = P(T > | t |) + P(T < -| t |)
(esim. Excelillä)
Hypoteesi H0 hylätään riskitasolla , jos P < .
Jos H0 hylätään, tämä voidaan ilmaista sanallisesti esim. muodossa "korrelaatio on merkitsevä
tasolla " tai "muuttujien … ja … välillä on merkitsevä lineaarinen riippuvuus tasolla ".
Jos riskitasoa ei ole annettu ja P-arvo on pieni (< 0.05), ilmoitetaan tulos: "korrelaatio on
merkitsevä tasolla P = ..."
Korrelaation testaus tehdään yleensä kaksisuuntaisena. Jos riippuvuus voi periaatteessa olla
vain yhdensuuntaista (joko positiivista tai negatiivista), tehdään yksisuuntainen testaus, jolloin hypoteesit ovat
H0:
H1:
=0
>0
(ei lin. riippuvuutta)
(positiivinen lin. riippuvuus)
Hylkäysehto: t > t 1 - (n-2)
H0:
H1:
=0
<0
(ei lin. riippuvuutta)
(negatiivinen lin. riippuvuus)
Hylkäysehto: t < –t1– (n-2)
tai
Esimerkki 7.1. jatkuu
Testataan, onko tenttiin valmistautumiseen käytetyn ajan ja tenttiarvosanan välillä merkitsevää lineaarista riippuvuutta:
H0:
H1:
=0
0
(ei lineaarista riippuvuutta)
(on lineaarinen riippuvuus)
Käytetään riskitasoa
t=
5− 2
= 0.05. Lasketaan testisuureen arvo, kun n=5, r = 0.875.
0.875
1 − 0.875 2
Kriittinen arvo tasolla
= 3.1305.
= 0.05 on t1– /2(n-2) = t0.975(3) = 3.182.
82
Koska | t | < t0.975(3), H0 jää voimaan. Muuttujien välillä ei ole tilastollisesti merkitsevää
riippuvuutta tämän pienen otoksen perusteella.
Huomautus: Näin pientä otosta ei tilastollisessa päättelyssä pitäisi käyttää! Sattuman vaikutus
on liian suuri eikä riippuvuus tule helposti esiin.
Esimerkki 7.2. Öljyteollisuudessa on tärkeää pystyä arvioimaan öljylähteen porauskustannuksia. Tutkitaan kustannusten Y (1000 $) riippuvuutta poraussyvyydestä X (m). Käytettävissä on 16 öljylähteen tiedot:
Syvyys x
1527
1829
1993
2117
2303
2440
2501
2502
2751
2803
3025
3296
3482
3742
4033
4119
Kustannukset y
2596.8
3381.9
3198.4
4779.9
5905.1
5769.2
8089.5
4813.1
7980.0
6788.3
7840.8
8882.5
7530.0
10531.2
9373.3
11387.0
Plot of Y vs X
(X 1000)
12
10
Y
8
6
4
2
0
0
0,5
1
1,5
2
2,5
X
3
3,5
4
4,5
(X 1000)
Kuvan perusteella muuttujien välillä näyttää olevan selvä positiivinen riippuvuus. Lasketaan
apusummat ja korrelaatiokerroin:
x = 44 463
y = 108 847
xy =330 903 284.40
x2 = 132 700 311
y2 = 843 285 604.04
n = 16
SSxy = 330 903 284.4 –44 463·108 847/16 = 28 424 274.34
SSxx = 132 700 311 –44 4632/16 = 9 140 412.94
SSyy = 843 285 604.04 –108 8472/16 = 102 806 265.98
r=
28424274.34
9140412.94 ⋅ 102806265.98
= 0.9272
83
Kasvavatko kustannukset poraussyvyyden myötä eli onko muuttujien välillä merkitsevä positiivinen korrelaatio?
H0:
H1:
=0
>0
Korrelaatiokertoimen arvo r = 0.9272, otoskoko n = 16.
Testisuureen arvo:
t = 16 − 2
0.9272
1 − 0.9272
2
= 9.266
Tässä ei ole annettu riskitasoa eikä testin johtopäätös aiheuta toimenpiteitä. Arvioidaan tuloksen merkitsevyyttä.
Jos riskitaso on
Jos riskitaso on
= 0.05, kriittinen arvo on t1– (n-2) = t0.95(14) = 1.761
= 0.0005, kriittinen arvo on t1– (n-2) = t0.9995(14) = 4.140
Koska t > t0.9995(14), niin H0 hylätään vielä arvoa 0.0005 pienemmilläkin riskitasoilla.
P << 0.0005, joten muuttujien välillä on erittäin merkitsevä positiivinen korrelaatio.
OTOSKOON MERKITYS:
Kuten esimerkin 7.1. yhteydessä mainittiin, otoskoko vaikuttaa olennaisesti testin tulokseen.
Minkä suuruinen korrelaatio on merkitsevä kaksisuuntaisessa testissä esim. tasolla = 0.05
eri n:n arvoilla?
n
10
20
100
|r| vähintään
0.632
0.444
0.196
KORRELAATION VOIMAKKUUS VS. MERKITSEVYYS
Merkitsevyys tarkoittaa eri asiaa kuin korrelaatiokertoimen "voimakkuus", jota joissakin kirjoissa käytetään. Esim. puhutaan että korrelaatio on voimakas, jos r > 0.8, mutta tällöin ei
huomioida otoskoon merkitystä.
VAROITUS: Havaittu tilastollinen riippuvuus ei välttämättä merkitse suoraa syy-seuraussuhdetta muuttujien välillä!
Kyseessä voi olla molempiin muuttujiin yhdessä vaikuttava kolmas tekijä tai useampia tekijöitä. Jos vaikuttavat tekijät voidaan tunnistaa, voidaan muuttujien välisiä vuorovaikutuksia
analysoida verkkorakenteena, esim. ns. Bayes-verkkojen avulla.
Em. varoitus koskee myös
2
-riippumattomuustestiä ja regressioanalyysia.
84
7.2. REGRESSIOANALYYSIN PERIAATTEET
Regressioanalyysin tavoitteena on kuvata ja analysoida selitettävän eli riippuvan muuttujan Y
riippuvuutta selittävistä eli riippumattomista muuttujista X1, X2, ... , Xk.
Lineaarinen regressiomalli:
Y = β 0 + β1 X1 + ... + β k X k +
144424443
determinis tinen osa
ε
{
satunnaiso sa
•parametrit 0, 1, ... , k ovat tuntemattomia vakioita
•jäännöstermi eli residuaali on satunnaismuuttuja
•selittävät muuttujat Xj voivat olla satunnaismuuttujia tai niiden arvot voidaan määrätä
kontrolloidusti, jolloin niitä merkitään x1, x2,… , xk.
REGRESSIOANALYYSIN VAIHEET:
1. Mallin muodostaminen: selittävien muuttujien valinta ja riippuvuutta kuvaavan funktion
valinta.
2. Mallin parametrien estimointi.
3. Satunnaisvaihtelun estimointi (satunnaistermin jakauma ja parametrit).
4. Mallin parametrien ja/tai yhteensopivuuden testaus.
5. Mallilla ennustaminen.
Havaintoaineistona (joka kerätään alussa tai viimeistään ennen vaihetta 2) on n:n yksikön
otos, joista mitataan ominaisuudet Y, X1,...,Xk.
7.3. YHDEN SELITTÄVÄN MUUTTUJAN LINEAARINEN REGRESSIOANALYYSI
Tutkitaan muuttujan Y lineaarista riippuvuutta yhdestä selittävästä muuttujasta x.
Havaintoaineisto: n:n otoksesta mitatut muuttuja-arvoparit (x1,y1), (x2,y2), ... , (xn,yn).
7.3.1. MALLIN OLETUKSET
Malli: Y =
0
+
1x
+
missä
on vakiotermi
1 on regressiokerroin (regressiosuoran kulmakerroin).
0
Oletuksia:
•Jäännöstermit
kaikilla i.
i
ovat samoin jakautuneita ja riippumattomia ja E( i) = 0, D2 i) =
85
2
Jäännöstermit kuvaavat ihannetapauksessa (kun Y riippuu suoraan ainoastaan x:stä) aitoa satunnaisuutta, esim. mittausvirhettä: ne eivät sisällä mitään vaikuttavia tekijöitä.
•Jos mallia käytetään tilastolliseen päättelyyn, esim. testaukseen, oletetaan, että
i
~ N(0, 2).
Oletuksista seuraa, että Y:n arvo i:nnessä havaintoyksikössä määräytyy mallista
Yi =
0
+
1xi
+
i
Yi:t ovat silloin riippumattomia satunnaismuuttujia, odotusarvona
EYi =
+
0
1xi
ja varianssina
D2Yi =
2
.
Jos jäännökset ovat normaalijakautuneita, niin
Yi ~N(
0
+
1xi,
2
).
7.3.2. MALLIN PARAMETRIEN ESTIMOINTI: PIENIMMÄN NELIÖSUMMAN
MENETELMÄ
Mikä malli sopii parhaiten yhteen havaintoarvojen kanssa?
Määrättävä havaintoaineiston perusteella "parhaat" estimaattorit βˆ0 = b0 ja βˆ1 = b1.
Merkitään yˆi = b0 +b1 xi
Minimoidaan jäännösneliösummaa
n
SSE =
∑ ( y - yˆ)
i
i =1
i
n
2
=
∑ (y - b
i
0
- b1 xi )2
i =1
parametrien b0 ja b1 funktiona.
Minimissä osittaisderivaatat ovat 0:
n
∂SSE
= - 2 ∑ ( yi - b0 - b1 x i ) = 0
∂ b0
i =1
n
∂SSE
= - 2 ∑ ( yi - b0 - b1 x i )x i = 0
∂ b1
i =1
josta saadaan ns. normaaliyhtälöt
nb0 + (Σ xi)b1 = Σyi
(Σxi)b0 + (Σxi2)b1 = Σxiyi
86
Normaaliyhtälöiden ratkaisu (esim. Gaussin eliminoinnilla):
kertoimien pienimmän neliösumman estimaatit eli pns-estimaatit
∑ x i yi - (∑ x i )(∑ yi)/n SSxy
βˆ1 = b1 =
=
∑ x i2 - (∑ x i )2 /n
SSxx
1
βˆ0 = b0 = (∑ yi - b1 ∑ x i ) = y - b1 x
n
Sovitettu regressiosuora: yˆ= b0 +b1x antaa ennusteet Y:lle x:n funktiona.
Havaintopisteittäin lasketut sovitteet ovat yˆi = b0 +b1xi ja havaitut poikkeamat eli jäännökset
(residuals) ei = yi - yˆi.
7.3.3. VAIHTELUN TUTKIMINEN
Regressioanalyysin tavoitteena on Y:n vaihtelun syiden tutkiminen.
Poikkeamien yi- y neliösumma Σ(yi- y )2 kuvaa Y:n kokonaisvaihtelua:
Σ(yi- y )2 = Σ[(yi- yˆi) + ( yˆi- y )]2 = Σ(yi- yˆi)2 + Σ( yˆi- y )2 + 2Σ(yi- yˆi)( yˆi- y )
Sijoittamalla viimeiseen summaan yˆi = y + b1(xi- x ) ja b1=SSxy/SSxx seuraa
2Σ(yi- yˆi)( yˆi- y )=0
joten
Σ(yi - y )2 = Σ( yˆi - y )2 + Σ(yi - yˆi)2
eli
SST = SSD + SSE
missä
SST
= Σ(yi- y )2 = Σyi2 - (Σyi)2/n = SSyy
on selitettävän kokonaisneliösumma (total sum of squares)
SSD
= Σ( yˆi- y )2
= b1Σ(yi- y )(xi- x ) = b1SSxy
= b12Σ(xi - x )2 = b12SSxx
= SSxy2/SSxx
on selitetty neliösumma (model sum of squares, regression sum of squares, determined sum of
squares)
87
= Σ(yi- yˆi)2 = Σ(yi-b0-b1 xi)2 = SST - SSD
SSE
on jäännösneliösumma, virheneliösumma (residual sum of squares, error sum of squares)
Regressiomallin sopivuutta havaintoaineistoon kuvaa mallin selitysaste
2
R =
SSD
SST
joka on mallin selittämä osuus y-arvojen vaihtelusta ja ilmoitetaan yleensä prosentteina.
Yhteiskorrelaatiokerroin
SSD
SST
R=
on yi-arvojen ja yˆi-arvojen välinen korrelaatiokerroin. Yhden selittävän muuttujan tapauksessa R = |rxy|
Selitysaste on välillä 0 ≤ R2 ≤ 1.
Jos lineaarinen malli sopii hyvin aineistoon (havaintopisteet lähellä regressiosuoraa), SSE ≈ 0
ja
SSD SST - SSE
SSE
2
≈ 1.
=
=1R =
SST
SST
SST
Satunnaisvirheen varianssin eli jäännösvarianssin
laskettu jäännösvarianssi
2
s =
2
= D2 ) harhaton estimaatti on otoksesta
SSE
n-2
s = jäännöshajonta, standard error of the estimate
7.3.4. MALLIN PARAMETRIEN LUOTTAMUSVÄLIT JA TESTAUS
Kertoimien 0 ja 1 estimaattorit βˆ0 = b0 ja βˆ1 = b1 ovat satunnaismuuttujia, joiden voidaan
osoittaa noudattavan jakaumia
b1 ~ N( 1,
2
/SSxx)
b0 ~ N( 0,
2
Σxi2/(nSSxx))
Korvaamalla
s(b1) =
2
estimaatillaan s2 = SSE/(n-2) saadaan hajontaestimaatit
s
SSxx
∑ x i2
1 x2
s(b0) = s
=s
+
n SSxx
n SSxx
88
Voidaan osoittaa, että
bj - βj
T=
~ t(n-2)
j=0,1
s(b j)
Tätä satunnaismuuttujaa käytetään -kertoimien luottamusvälien muodostamiseen ja testaamiseen.
LUOTTAMUSVÄLIT:
Parametrien (1- )100%:n luottamusvälit:
j
= bj ± t1- /2(n-2)s(bj)
j=0 tai 1.
HYPOTEESIEN TESTAUS:
H0:
H1:
=b
b
j
j
missä j = 0 tai 1 ja b testattava lukuarvo, yleensä 0.
Testisuure:
T=
bj - b
~ t(n-2)
s(b j)
kun H0 on tosi.
H0 hylätään riskitasolla , jos
| t | > t1- /2(n-2)
(eli jos P < )
Yksisuuntaiset hypoteesit vastaavasti.
Regressiokertoimen testi
H0:
H1:
=0
0
1
1
testaa myös koko lineaarisen mallin mielekkyyttä:
Jos
1
= 0, Y ei riipu X:stä lineaarisesti eli malli ei selitä Y:n vaihtelua
Jos
1
0, Y riippuu X:stä lineaarisesti eli malli selittää Y:n vaihtelua.
Testi on yhtäpitävä korrelaatiokertoimen testin kanssa, jossa hypoteesit ovat
H0:
H1:
=0
0
Testisuure voidaan siis laskea kummalla kaavalla hyvänsä (vain kun H0-arvo 0!)
89
Esimerkki 7.2. jatkuu
Öljyteollisuudessa halutaan arvioida öljylähteen porauskustannuksia. Porattavan kohteen syvyyden X (m) ja porauskustannusten Y (1000 $) välinen korrelaatio on erittäin merkitsevä.
Lasketut summat:
Σx = 44463
Σx2 = 132700311
Σy = 108847
Σy2 = 843285604.04
Σxy =330903284.40 n = 16
SSxy
SSxx
SSyy
= 330903284.4 –44463⋅108847/16 = 28424274.34
= 132700311 –444632/16 = 9140412.94
= 843285604.04 –1088472/16 = 102806265.98
Kertoimien pns-estimaatit:
b1 = SSxy /SSxx = 28424274.34 / 9140412.94 ≈ 3.10973647 ≈ 3.1097
b0 = y –b1 x = (108847 –b1 44463)/16 ≈ -1838.82545 ≈ -1838.8
Riippuvuutta kuvaava pienimmän neliösumman suora:
yˆ= - 1838.8 + 3.1097x
SST = SSyy
SSD = SSxy2/SSxx
SSE = SST –SSD
= 102 806 265.9775
= 88 391 999.04
= 14 414 266.9357
Selitysaste: R2 = SSD/SST ≈ 0.86
Poraussyvyys selittää noin 86 % kustannusten vaihtelusta.
Jäännösvarianssi: s2 = SSE/(n-2) = 1029590.4954
Jäännöshajonta: s = 1014.6874
Hajontaestimaatit:
2
s(b1) =
s(b0) =
s = 0.335621
SSxx
2
2
s ∑ x = 966.5522
n SSxx
Testataan riskitasolla
1)
H0:
H1:
= 0.05 hypoteeseja
=0
0≠ 0
0
Testisuureen arvo
Kriittinen arvo:
t =b0 / s(b0) = -1.902
t0.975(14 ) = 2.145
Koska | t | < t0.975(14), niin H0 jää voimaan.
Kustannuksiin ei sisälly merkittävää vakiotermiä poraussyvyydestä riippuvan osan lisäksi.
90
2)
H0:
H1:
=0
1 >0
1
Testisuureen arvo
Kriittinen arvo:
t = b1 / s(b1) = 9.266 (Sama kuin korrelaation testi!)
t0.95(14 )= 1.761
Koska t > t0.95(14), niin H0 hylätään riskitasolla =0.05.
Kuten korrelaation testissä, H0 hylätään vielä paljon pienemmillä riskitasoilla ja merkitsevyys
P < 0.0005.
Poraussyvyyden ja kustannusten välillä on siis erittäin merkitsevä positiivinen lineaarinen
riippuvuus.
7.3.5. ENNUSTEET JA NIIDEN LUOTTAMUSRAJAT
Mallin Y =
0
+
1x
+ antama ennuste, kun x:llä on kiinteä arvo a, on
yˆ= b0 + b1a
1) Y:N ODOTUSARVON ELI REGRESSIOSUORAN LUOTTAMUSRAJAT
Y:n odotusarvo, kun x = a, on
= EY =
0
+
1a
Piste-estimaatti
µˆ = yˆ = b0 + b1a = y - b1(a – x )
Voidaan osoittaa, että
2
1 (a - x )
D2( yˆ) = D2( y ) + (a- x )2 D2(b1) = σ2 [ +
]
n
SSxx
Ennusteen hajontaestimaatti:
s( yˆ) = s
2
1 (a - x )
+
n
SSxx
Satunnaismuuttuja
yˆ- µ
~ t(n-2),
s(yˆ)
josta saadaan (1- ) 100%:n luottamusväli Y:n odotusarvolle
regressiosuoran luottamusrajat pisteessä x = a:
=
0
+
1a
eli
2
2
1 (a - x )
1 (a - x )
= b0 + b1a ± t1- /2(n-2) s
= yˆ ± t1- /2(n-2) s
+
+
n
n
SSxx
SSxx
91
2) Y:N ARVON ELI YKSITTÄISEN ENNUSTEEN LUOTTAMUSRAJAT
Y:n arvon luottamusväli mallin Y =
Y –yˆ=
missä
=
0
+
0
+
1x
+ puitteissa perustuu satunnaismuuttujaan
– yˆ +
1a.
E(Y –yˆ) = 0
D2(Y –yˆ) =
2
 1 (a - x )2 
+ D2( yˆ) = σ2 1 + +

SSxx 
 n
Hajontaestimaatti:
s(Y- yˆ) = s 1 +
Satunnaismuuttuja
1 (a - x )
+
n
SSxx
2
Y - yˆ
~ t(n-2)
s(Y - yˆ)
josta saadaan (1- )100 %:n luottamusväli Y:lle eli yksittäisen ennusteen luottamusrajat pisteessä x = a:
Y = yˆ ± t1- /2(n-2) s 1 +
2
1 (a - x )
.
+
n
SSxx
Esimerkki 7.2. jatkuu
Öljy-yhtiö haluaa arvioida 3000 m syvän öljylähteen porauskustannuksia. Ennuste:
yˆ= - 1838.8 + 3.1097 ⋅ 3000 = 7490.4
Millä välillä kustannukset vaihtelevat 95%:n varmuudella ( =0.05)?
Sijoitetaan luottamusvälin kaavaan
s = 1014.6874
n = 16
t1- /2(n-2) = t0.975(14) = 2.145
a = 3000
x = 44463/16 = 2778.9375
SSxx = 9140412.9375
jolloin saadaan
Y = 7490.4 ± 2248.9
eli
5241.5 ≤ Y ≤ 9739.3
(1000$)
92
REGRESSIOANALYYSI STATGRAPHICS-OHJELMALLA:
Simple Regression - Y vs. X
Regression Analysis - Linear model: Y = a + b*X
-------------------------------------------------------------Dependent variable: Y
Independent variable: X
-------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
-------------------------------------------------------------Intercept
-1838,83
966,552
-1,90246
0,0779
Slope
3,10974
0,335621
9,26561
0,0000
-------------------------------------------------------------Analysis of Variance
-------------------------------------------------------------Source
Sum of Squares Df Mean Square F-Ratio P-Value
-------------------------------------------------------------Model
8,8392E7
1
8,8392E7
85,85
0,0000
Residual
1,44143E7
14
1,02959E6
-------------------------------------------------------------Total (Corr.) 1,02806E8
15
Correlation Coefficient = 0,92725
R-squared = 85,9792 percent
Standard Error of Est. = 1014,69
SELITYKSIÄ
Ylempi taulukko:
•Intercept = vakiotermi 0
•Slope = regressiosuoran kulmakerroin 1
•Estimate: b0, b1
•Standard Error: s(b0), s(b1)
•T Statistic: bi/s(bi) on t-testisuureen arvo, joka testaa hypoteeseja H0:
•P-Value: P-arvo eli merkitsevyystaso ed. testissä
Analysis of Variance-taulukko (ANOVA):
•Source = vaihtelun lähde, Model = malli, Residual = jäännös
•Model Sum of Squares = SSD
•Residual Sum of Squares = SSE
•Total Sum of Squares = SST
•Df = vapausaste
•Mean square = SS / Df
•Correlation = yhteiskorrelaatiokerroin R = | r |
•R-squared = selitysaste R2 (%)
•Standard Error of Est. = jäännöshajonta s
93
i
= 0, H1:
i
≠ 0.
•F-ratio = MSD / MSE =
SSD/1
SSE/(n - 2)
on testisuure, joka testaa koko mallin yhteensopivuutta. Tarpeellinen lähinnä usean selittäjän
malleissa. Yhden selittäjän mallissa F-testi on yhtäpitävä edellä mainitun 1-kertoimen kaksisuuntaisen t-testin kanssa.
Plot of Fitted Model
(X 1000)
12
10
Y
8
6
4
2
0
0
0,5
1
1,5
2
2,5
3
3,5
4
X
4,5
(X 1000)
Kuvassa keskellä pns-suora
yˆ= - 1838.8 + 3.1097x
ja sen molemmin puolin regressiosuoran eli kustannusten odotusarvon 95 %:n luottamusrajat
(sisemmät käyrät) sekä kustannusten Y 95 %:n luottamusrajat (ulommat käyrät).
Luottamusrajat ovat kapeimmillaan pisteessä x . Epätarkkuus/epävarmuus lisääntyy (väli laajenee) kun ekstrapoloidaan havaittujen x-arvojen ulkopuolelle.
94
Käytetyt symbolit:
∪
∩
∈
⊂
~
~a
, alfa
, beeta
ei, eij
f
fi
F
, fii
, khii
2
p(v)
, lambda
Md
Mo
, myy
nij
P
p
r
R2, r2
, rhoo
s
s2
, sigma
2
SSD
SSE
SST
t
tp(v)
T
x
z
zp
Z
joukkojen yhdiste
joukkojen leikkaus
(alkio) kuuluu joukkoon ...
(joukko) sisältyy joukkoon ... (osajoukko)
... noudattaa jakaumaa ...
... noudattaa asymptoottisesti jakaumaa ...
testin riskitaso, testin koko
II lajin virheen (hyväksymisvirheen) todennäköisyys testauksessa;
i:llä merkitään lineaarisen regressiomallin kertoimia
odotetut frekvenssit
regressiomallin satunnaistermi eli jäännöstermi
jatkuvan jakauman tiheysfunktio
luokkafrekvenssi
kertymäfunktio, F(x) = P(X x)
(myös F-jakauman nimi tai tätä jakaumaa noudattava otossuure tai testisuure)
standardoidun normaalijakauman N(0,1) kertymäfunktio
2
on erään jakauman symboli tai tätä jakaumaa noudattava otossuure tai
testisuure, 2(v) on 2-jakauma vapaustein v
2
(v)-jakauman p-fraktiili eli piste jossa kertymäfunktion arvo on p.
Poisson- ja Exp-jakauman parametri
(empiirisen) jakauman mediaani
(empiirisen) jakauman moodi
satunnaismuuttujan jakauman odotusarvo, jakauman/populaation/perusjoukon
keskiarvo, merkitään myös E(X)
solufrekvenssi
todennäköisyys; suhteellinen osuus (satunnaismuuttujana);
testauksessa testisuureen merkitsevyystaso eli P-arvo
suhteellinen osuus, todennäköisyys, pistetodennäköisyysfunktio
otoksesta laskettu korrelaatiokerroin
regressiomallin selitysaste
satunnaismuuttujien yhteisjakauman korrelaatiokerroin
otoshajonta eli otoksesta laskettu (keski)hajonta
otosvarianssi eli otoksesta laskettu varianssi
satunnaismuuttujan jakauman (keski)hajonta, merkitään myös D(X)
satunnaismuuttujan jakauman varianssi, merkitään myös D2(X)
regressiomallin selitetty neliösumma
regressiomallin jäännösneliösumma
regressiomallin kokonaisneliösumma = SSyy
t-jakauman eli Studentin jakauman symboli, t(v) on t-jakauma vapausastein v
t(v)-jakauman p-fraktiili eli piste jossa kertymäfunktion arvo on p
t-jakaumaa noudattavan satunnaismuuttujan nimi, Betassa yl. testisuureen nimi
otoskeskiarvo, otoksesta laskettu aritmeettinen keskiarvo
normaalijakaumaa noudattavan muuttujan standardoitu arvo z = (x- )/
standardoidun normaalijakauman N(0,1) p-fraktiili eli piste jossa
kertymäfunktion arvo on p.
standardoitua normaalijakaumaa noudattava satunnaismuuttuja, Z ~ N(0,1)
95