VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN

VAASAN YLIOPISTO/KESÄYLIOPISTO
TILASTOTIETEEN PERUSTEET
Harjoituksia A
Pa
kk
o
ve
si
ja
a
Tu
ul
i-
Yd
in
vo
im
at
em
M
Ke
nk
ä
tu
us
Pi
Ik
ä
Vu
os
i
t
Tu
nn
i
Ty
ö
Va
rs
i
As
uu
Nr
o
Su
ku
pu
ol
i
na
in
en
KURSSIKYSELYAINEISTO:
HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta
Harjoitteluun se kelpaa kyllä!
1
1
1
1
1
90
2014
24
180
42,0
4
4
2
2
2
2
1
2
1
130
1999
38
183
40,0
1
2
4
5
3
2
2
1
2
130
2015
46
175
39,0
3
4
4
2
4
2
1
1
2
35
2014
28
170
38,5
3
1
4
4
5
2
1
1
2
35
2015
24
165
38,0
3
2
4
5
6
1
2
1
2
80
2014
27
174
42,0
3
4
4
4
7
2
1
1
2
135
2015
25
175
40,0
3
3
4
4
8
2
1
1
1
60
2015
24
168
37,0
3
3
4
5
9
2
1
1
1
80
2015
21
169
38,0
5
4
2
5
10
2
2
1
2
60
2015
38
158
38,0
3
1
4
5
11
2
1
1
1
100
2013
38
170
39,0
4
5
3
5
1.
Kurssikyselyaineistossa on 11 tilastoyksikköä.
a) Montako muuttujaa on?
b) Mitkä muuttujat ovat kvalitatiivisia eli laadullisia? Mitkä muuttujat ovat kvantitatiivisia eli
määrällisiä?
c) Mitä merkitsee aineiston käsittelyn kannalta se, että havaintomatriisissa kaksi saraketta vaihtaa
paikkaa keskenään?
d) Entä, jos kaksi vaakariviä vaihtaa paikkaa keskenään?
e) Mitä merkitsee aineiston käsittelyn kannalta se, jos puuttuvan tiedon merkkinä on luku 0?
f) Entä, jos puuttuvan tiedon paikalle ei laiteta mitään?
2.
Mitkä ovat kurssikyselyaineiston muuttujien tilastolliset mitta-asteikot? Mitkä muuttujat
jatkuvia? Mitkä muuttujat ovat diskreettejä eli epäjatkuvia? Perustele vastauksesi.
3.
Eräällä kurssilla opetus tapahtui toiselle ryhmälle perinteisenä luento-opetuksena ja toiselle
ryhmälle verkko-opetuksena. Osallistujille tehtiin osaamista mittaava testi sekä ennen että jälkeen
kurssin. Näiden testien pistemäärien erotukset (jälkeen–ennen) olivat:
Naiset: verkko-opetus
luento-opetus
Miehet: verkko-opetus
luento-opetus
20.3
6.2
12.5
28.1
23.5
15.6
7.8
-6.2
4.7
25.0
21.9
14.1
21.9
4.7
-3.1
18.8
15.6
28.1
3.1
1.5
20.3
17.2
45.4
15.6
26.6
14.1
9.4
26.7
ovat
-9.4
23.4
4.7
23.3
33.2
Mikä on tilastoyksikkö? Montako tilastoyksikköä on? Mitkä ovat muuttujat? Montako muuttujaa
on? Miten tilastoyksikkö- ja muuttujamäärä näkyy havaintomatriisissa? Hahmottele aineiston
avulla havaintomatriisi. Mitä aineistosta avulla voidaan tutkia?
4.
Esitä kurssikyselyaineiston Ydinvoima-muuttujan frekvenssijakauma taulukkona. Esitä taulukossa
myös suhteelliset ja prosentuaaliset frekvenssit absoluuttisten frekvenssien lisäksi.
5.
Tarkastellaan kurssikyselyaineistosta Pituus-muuttujaa.
a) Määritä aineistosta pituuden vaihteluväli ja pituuden vaihteluvälin pituus.
b) Mikä olisi pituuden luokitteluun sopiva luokkien lukumäärä?
c) Jos pituus luokitellaan neljään tasaväliseen luokkaan, mikä on pienin mahdollinen luokkavälin
pituus?
d) Luokittele pituusarvot neljään tasaväliseen luokkaan siten, että luokkavälin pituus on 7 cm ja
ensimmäisen luokan alaraja on 158 cm.
e) Määritä pituusluokkien frekvenssit, prosentuaaliset frekvenssit, summafrekvenssit ja
prosentuaaliset summafrekvenssit.
6.
Tarkastellaan tehtävän 3 aineistoa. Luokittele testipisteiden erotuksien arvot järkevästi luokkiin ja
esitä testipisteiden erotuksen jakauma frekvenssijakaumataulukkona.
7.
Piirrä tehtävän 5 perusteella Pituus-muuttujasta
a) frekvenssihistogrammi
b) frekvenssimonikulmio
c) prosentuaalinen summakäyrä.
8.
Muodosta kurssikyselyaineistosta Ikä-muuttujan runko-lehti -kuvio.
9.
Laske kurssikyselyaineiston neljän ensimmäisen tilastoyksikön ikäkeskiarvo ja -keskihajonta.
10.
Laske ja/tai määritä kurssikyselyaineiston pituuden keskiarvo, moodi, mediaani, keskihajonta,
variaatiokerroin, vaihteluväli ja kvartiiliväli käyttäen alkuperäisiä havaintoja (ei siis tehtävän 5
frekvenssijakaumaa) (avuksi:  x i = 1887 ja  x i 2 = 324189). Kuvaile em. tunnuslukujen
avulla pituuden jakaumaa. Muodosta myös laatikko-viikset –kuvio.
11.
Tämän vuoden kesäkurssilaisten iän keskiarvo on 30.27 vuotta ja keskihajonta on 8.211 vuotta.
a) Onko kesäopiskelijoiden pituuden vaihtelu suhteellisesti pienempää kuin iän vaihtelu?
b) Kumman muuttujan osalta muistutat suhteellisesti enemmän ”keskiarvo-opiskelijaa”
(keskiarvo-opiskelija olkoon sellainen opiskelija, jonka pituus ja ikä vastaavat ko. muuttujien
keskiarvoja).
12.
Laske/määritä Ydinvoima -muuttujan mediaani, alakvartiili, yläkvartiili, suurin arvo ja pienin
arvo.
13.
Laske seuraavasta frekvenssijakaumasta hinnan keskiarvo, varianssi ja mediaani. Mieti myös
(laskea ei tarvitse), mitä muita keskilukuja ja hajontalukuja voisit hinnasta esittää.
Hinta €
40 – 49
50 – 59
60 – 69
70 – 79
80 – 89
lukumäärä
5
3
11
15
13
14.
Seuraavassa taulukossa on tilastoanalyysituloksia Kuntafakta-aineistosta, jossa tilastoyksikköinä
ovat Suomen kunnat v. 2003. (HUOM. Tulostuksessa desimaalimerkkinä on pilkku, ja esim.
merkintä ,65189 tarkoittaa lukua 0,65189.)
a) Millä keskiluvulla olisi järkevä kuvata muuttujan ”Verotettavat tulot €/asukas” keskikohtaa?
b) Millä muuttujalla on pienin suhteellinen vaihtelu?
c) Minkä muuttujan jakauma on selvästi huipukkaampi kuin normaalijakauma?
d) Minkä muuttujan jakauma on selvästi oikealle loiveneva?
e) Minkä muuttujan jakauma muistuttaa eniten normaalijakaumaa?
f) Vaasassa ko. muuttujien arvot olivat tuolloin 15.3, 19.00 ja 12469. Minkä muuttujan osalta
Vaasa eroaa suhteellisesti ottaen vähiten ”keskimääräisestä Suomen kunnasta”?
15.
Muodosta kurssikyselyaineistosta ristiintaulukko muuttujista Asuu ja Työ. Tutki muuttujien välistä
riippuvuutta kontingenssikertoimen avulla.
16.
Tutkimuslaitos tutki 75 erilaisen taloustavaran hinta-laatu-suhdetta. Tavarat luokiteltiin hinnan
mukaan kolmeen ryhmään ja laadun perusteella kahteen ryhmään. Saatiin ristiintaulukko
Laatu
Huono
Hyvä
Hinta
Yhteensä
Edullinen
15
7
22
Keskihintainen
10
14
24
Kallis
5
24
29
Yhteensä
30
45
75
Tutki muuttujien välistä riippuvuutta kontingenssikertoimen avulla. Tulkitse tuloksesi.
17.
Laske kurssikyselyaineiston neljälle ensimmäiselle tilastoyksikölle pituuden ja kengännumeron
välinen Pearsonin korrelaatiokerroin. Tulkitse tulos.
18.
Laske kurssikyselyaineistosta Spearmanin järjestyskorrelaatio muuttujista Ikä ja Matem. Tulkitse
tulos.
19.
Sähkölämmitteisen loma-asunnon sähkön kulutusta ja ulkoilman lämpötilaa seurattiin viikon
ajan. Piirrä aineistosta pisteparvi ja laske tunnusluku, jolla mitataan lineaarisen riippuvuuden
voimakkuutta.
Ulkoilman lämpötila (ºC)
Sähkön kulutus (kWh)
20.
5
32
8
28
12
24
10
19
-1
30
3
26
7
20
Yritys haluaa testata työnhakijansa soveltuvuustestillä. Tarjolla on kaksi eri testiä, joita kumpaakin
halutaan kokeilla. Seitsemän työnhakijaa testattiin ja saatiin tulokset:
testi 1
testi 2
14
162
6
65
17
81
17
159
2
90
8
44
10
123
Tutki sopivan tilastollisen tunnusluvun avulla, onko työnhakijoiden järjestyksillä yhteyttä eri
testeissä. Mitä tulos tarkoittaa?
21.
Suuren kauppaketjun johto suunnittelee laajentamista uusia myymälöitä avaamalla. Tätä varten
se tarvitsee arvion myymälän pinta-alan (1000 m2) ja myynnin (milj. €) välisestä yhteydestä.
Yhdentoista jo toimivan myymälän satunnaisotos tuotti seuraavan aineiston asian selvittämiseksi.
Pinta-ala
Myynti
1.7
3.7
1.6
3.9
2.8
6.7
5.6
9.5
1.3
3.4
2.2
5.6
1.3
3.7
1.1
2.7
3.2
5.5
1.5
2.9
5.2
10.7
a) Esitä aineisto tilastokuviona siten. että siitä selviää myynnin riippuvuus pinta-alasta. Kuvaa
riippuvuus sanallisesti.
b) Sovita aineistoon lineaarinen regressiomalli, jossa pinta-ala on selittävä muuttuja ja tulkitse
malli. (Voit käyttää hyväksesi seuraavia tunnuslukuja: pinta-alan keskiarvo on 2.5 ja
keskihajonta 1.58, myynnin keskiarvo on 5.3 ja keskihajonta 2.69,
sekä pinta-alan ja
myynnin välinen kovarianssi 4.085.)
22.
Kurssikyselyaineistossa kengännumeron ja pituuden välinen (Pearsonin) korrelaatiokerroin on
arvoltaan 0.688. Pituuden keskiarvo on 171.55 cm ja keskihajonta on 6.948 cm. Vastaavat luvut
kengännumerolle ovat 39.227 ja 1.6335.
a) Muodosta lineaarinen regressiomalli, jossa kengännumeron vaihtelua selitetään pituudella.
b) Laske mallin selitysaste.
c) Arvioi mallin avulla, minkä kokoinen kenkä pitäisi jalassasi olla.