TTK HARJOITUS 1/VKO 38

Tilastollinen tietojenkäsittely / SPSS
Harjoitus 4
Tarkastellaan ensin aineistoa KUNNAT. Koska kyseessä on kokonaistutkimus, riittää, että
tutkit tunnuslukujen arvoja ja teet niiden perusteella päätelmiä.
41.
Etsi (esim. Analyze–Descriptive Statistics–Explore) aineistosta yksi jakaumaltaan
a) symmetrinen
b) oikealle loiveneva eli positiivisesti vino
määrällinen muuttuja ja raportoi siitä sopivasti keskimääräisyyttä ja hajaantumista
osoittavia tunnuslukuja.
42.
Etsi aineistosta korrelaatiokertoimien (Analyze–Correlate–Bivariate) avulla
määrällinen muuttujapari, joiden välillä
a) ei ole lineaarista riippuvuutta tai on vain heikkoa lineaarista riippuvuutta
b) on negatiivista lineaarista riippuvuutta.
Tee myös pisteparvikuviot em. muuttujapareista.
43.
Tehdään ristiintaulukko kahdesta laadullisesta muuttujasta ja lasketaan myös
RIIPPUVUUSUNNUSLUKUJEN arvoja, koska halutaan selvittää: ”Kuinka voimasta
riippuvuus on?”:
yksi
Muodosta muuttujien lääni ja kuntamuoto välinen ristiintaulukko (Analyze-Descriptive
Statistics-Crosstabs, esim laani kohtaan Columns ja kuntamuoto kohtaan Rows) ja tulosta
näkyviin myös sopiva riippuvuustunnusluku (Statistics—lisävalinta: Contingency
coefficient ja/tai Phi and Cramer’s V). Tulosta näkyviin myös prosentuaaliset ehdolliset
jakaumat sopivassa suunnassa (Cells-lisävalinta, kohta Percentages, joko Row tai
Column). Voit myös tulostaa näkyviin pylväsryhmäkuvion valinnalla Display clustered
bar charts.
Tulkitse tulokset. Onko muuttujien välillä riippuvuutta? Jos riippuvuutta on, niin
millaista se on?
(Kontingenssikertoimella C (= contingency coefficient) tai Cramerin V:llä voidaan kuvata
riippuvuuden voimakkuutta mm. silloin, kun molemmat ristiintaulukoitavista
muuttujista ovat nominaaliasteikollisia. Kontingenssikertoimen (ja myös Cramerin V:n)
arvo 0 tarkoittaa riippumattomuutta. Riippuvuus on sitä voimakkaampaa, mitä
lähempänä kontingenssikerroin on maksimiarvoaan C max 
k 1
k
, missä k on pienempi
luku rivien ja sarakkeiden lukumääristä tai mitä lähempänä Cramerin V on lukua 1.)
44.
Tutki, onko muuttujien kuntamuoto ja asunnot välillä riippuvuutta.
Voit käyttää sopivaa kuviota tai vaikkapa tehtävässä 43 esillä ollutta menetelmää. Jos
käytät tehtävässä 43 esillä ollutta menetelmää, asunnot-muuttujan arvot on luokiteltava
ensin vaikkapa seuraavasti:
Alle 800
800-949
950-1099
1100-1499
1500 tai yli
1
2
3
4
5
Sitten tarkastellaan aineistoa kyselyB. Nyt oletetaan, että tutkimuksen eri vuosina kyselyyn
vastanneet opiskelijat ovat otos kaikista Vaasan yliopiston silloisista opiskelijoista.
Kyseessä on siis otantatutkimus, joten tilastollisen päättelyn menetelmät (tilastolliset
merkitsevyystarkastelut ja testit) voidaan ottaa käyttöön tarpeen tullen.
HUOM. Testin havaittu merkitsevyystaso eli p-arvo (Significance tai Asymp. Sig.) on pienin
merkitsevyystaso, jolla testin nollahypoteesi H0 voidaan hylätä.
Havaittua merkitsevyystasoa verrataan itse valittuun testin merkitsevyystasoon  (usein 0.05,
0.01, …).
PÄÄTÖSSÄÄNTÖ:
Jos p ≥ , niin hyväksy nollahypoteesi H0 merkitsevyystasolla .
Jos p < , niin hyväksy vastahypoteesi H1 merkitsevyystasolla .
Usein p-arvoa tulkitaan seuraavasti:
- jos p ≥ 0.05, sanotaan, että saatu tulos ei ole tilastollisesti merkitsevä. Tällöin nollahypoteesi
hyväksytään (5 %:n merkitsevyystasolla)
- jos 0.01 ≤ p < 0.05, sanotaan tuloksen olevan tilastollisesti melkein merkitsevä. Nyt nollahypoteesi
hylätään 5 %:n merkitsevyystasolla, muttei enää 1 %:n merkitsevyystasolla. (Raporteissa
testisuureen tai tunnusluvun arvon perään merkitään usein tässä tilanteessa yksi tähti.)
- jos 0.001 ≤ p < 0.01, sanotaan tuloksen olevan tilastollisesti merkitsevä. Nyt nollahypoteesi
hylätään 1 %:n merkitsevyystasolla, muttei enää 0.1 %:n merkitsevyystasolla.
(Testisuureen tai tunnusluvun arvon perään merkitään usein tässä tilanteessa kaksi
tähteä.)
- jos p < 0.001, sanotaan, että saatu tulos on tilastollisesti erittäin merkitsevä. Tällöin nollahypoteesi
hylätään 0.1 %:n merkitsevyystasolla. (Testisuureen tai tunnusluvun arvon perään
merkitään usein tässä tilanteessa kolme tähteä.)
45.
Kuvaile sopivaa tilastollista menetelmää käyttäen feministiliike-muuttujan jakaumaa.
_____________________________________________________________________________
46.
Ristiintaulukoinnin lisäksi halutaan selvittää TILASTOLLISEN PÄÄTTELYN avulla
riippuvuustilanne populaatiossa kahdesta laadullisesta muuttujasta:
Tee ristiintaulukko muuttujista kotipaikka (nominaaliasteikko) ja feministiliike
(järjestysasteikko). Olet tutkimassa siis, suhtautuvatko eri kotipaikkojen opiskelijat
samalla tavoin feministiliikkeeseen. Havainnollista tilannetta sopivalla tilastokuviolla.
Nyt tehdään päätelmiä mahdollisesti riippuvuudesta otoksen lisäksi myös populaatiossa,
joten tee Statistics-lisävalinta: Chi-Square.
Nollahypoteesi H0: muuttujat ovat riippumattomia populaatiossa, joka tarkoittaa nyt:
________________________________________________________________________________
Vastahypoteesi H1: muuttujien välillä on riippuvuutta populaatiossa, joka tarkoittaa nyt:
________________________________________________________________________________
(Pearsonin)
2
=
_____________
ja
p-arvo
=
_______________,
joten
H0
hyväksytään/hylätään ____:n merkitsevyystasolla, eli _______________________________
________________________________________________________________________________
47.
Tutki sopivalla tilastollisella testillä, onko sukupuolen ja vihreä liike-asennemuuttujan (eli
harjoituksissa 2 tehtävässä 15 muodostettu 3-arvoinen vihreä liike –muuttuja) välillä
riippuvuutta eri vuosien (Layer-kohtaan tai ennen analyysiä Data-Split File)
opiskelijapopulaatioissa. Jos on, niin millaista? Tulkitse tuloksesi.
Testihypoteesini ovat
H0:_________________________________________________________________________
H1:_________________________________________________________________________
Vuosi 1984: 2-arvo on ________________ ja sen p-arvo on ____________, joten H0
hyväksytään/hylätään ____:n merkitsevyystasolla.
Vuosi 1985: 2-arvo on ________________ ja sen p-arvo on ____________, joten H0
hyväksytään/hylätään ____:n merkitsevyystasolla.
Vuosi 1993: 2-arvo on ________________ ja sen p-arvo on ____________, joten H0
hyväksytään/hylätään ____:n merkitsevyystasolla.
Vuosi 1994: 2-arvo on ________________ ja sen p-arvo on ____________, joten H0
hyväksytään/hylätään ____:n merkitsevyystasolla.
Vuosi 1995: 2-arvo on ________________ ja sen p-arvo on ____________, joten H0
hyväksytään/hylätään ____:n merkitsevyystasolla.
Vuosi 2009: 2-arvo on ________________ ja sen p-arvo on ____________, joten H0
hyväksytään/hylätään ____:n merkitsevyystasolla.
Ja tulosten yhteenveto tähän: _____________________________________________________
_______________________________________________________________________________
48.
Lasketaan
järjestyskorrelaatioita,
jotta
voidaan
selvittää,
onko
kahden
järjestysasteikollisen muuttujan välillä monotonista riippuvuutta otoksessa ja tehdään
tilastollista päättelyä populaatiosta
Tutki sopivalla järjestyskorrelaatiokertoimella (joko Spearmanin järjestyskorrelaatio tai
Kendallin tau-b) mielipidemuuttujien (ei asennemuuttujien) välisiä riippuvuuksia
populaatiossa. Havainnollista jonkin muuttujaparin riippuvuutta sopivalla tilastokuviolla.
Tulkitse tuloksesi.
(Spearmanin järjestyskorrelaatiokerroin (ja Kendallin tau-b) mittaa monotonisen
riippuvuuden voimakkuutta, eli sitä, onko tilastoyksiköiden järjestyksillä yhteyttä
kahdella eri muuttujalla. Järjestyskorrelaation arvot ovat välillä (-1, +1). Arvo -1 tarkoittaa
täydellistä negatiivista monotonista riippuvuutta, jolloin tilastoyksiköiden järjestykset
ovat päinvastaiset. Arvo +1 tarkoittaa täydellistä positiivista monotonista riippuvuutta,
jolloin tilastoyksiköiden järjestykset ovat täysin samanlaiset. Arvo 0 tarkoittaa
monotonista riippumattomuutta, jolloin tilastoyksiköiden järjestykset ovat aivan
satunnaiset. Järjestyskorrelaation positiivinen arvo kuvastaa sitä, että x-muuttujan
arvojen kasvaessa y-muuttujan arvotkin kasvavat; negatiivinen arvo kuvastaa sitä, että xmuuttujan arvojen kasvaessa y-muuttujan arvot pienevät. Järjestyskorrelaatiokerroin sopii
käyttöön, kun tilastollinen mitta-asteikko on ainakin järjestysasteikko.)
Hypoteesit järjestyskorrelaatiotestauksessa ovat
H0: muuttujat ovat monotonisesti riippumattomia
H1: muuttujien välillä on monotonista riippuvuutta
korrelaatio
testin p-arvo
johtopäätös
riippuvuudesta
lisäydinvoima – toimiluparajoitus
_________
_________
___________
lisäydinvoima – vihreäliike
_________
_________
___________
lisäydinvoima – feministiliike
_________
_________
___________
toimiluparajoitus – vihreäliike
_________
_________
___________
toimiluparajoitus – feministiliike
_________
_________
___________
vihreäliike – feministiliike
_________
_________
___________
49.
Tutki em. korrelaatioita erikseen miesten ryhmässä ja naisten ryhmässä. Tulkitse tulokset.
korrelaatio
miesten
ryhmässä
korrelaatio
naisten
ryhmässä
p-arvo
(miehet)
p-arvo
(naiset)
lisäydinvoima – toimiluparajoitus
________
________
_______
______
lisäydinvoima – vihreäliike
________
________
_______
______
lisäydinvoima – feministiliike
________
________
_______
______
toimiluparajoitus – vihreäliike
________
________
_______
______
toimiluparajoitus – feministiliike
________
________
_______
______
vihreäliike – feministiliike
________
________
_______
______
Tarkastellaan viimeiseksi aineistoa kyselyA. Myös tässä on kyseessä otanta-aineisto.
50.
Testataan, ovatko määrälliset muuttajat normaalijakautuneita:
Testaa sopivalla testillä, ovatko muuttujat pituus, paino, kengännumero ja vaaksa
normaalijakautuneita. Tulkitse tuloksesi.
(Analyze-Descriptive Statistics-Explore (Plots-lisävalinta, valinta: Normality Plots with Tests,
käytä myös Options-lisävalintaa Exclude cases pairwise.)
(Normaalijakaumatesteissä:
H0: Muuttujan jakauma on normaalijakauma
H1: Muuttujan jakauma ei ole normaalijakauma)
Pituuden jakauma on/ei ole normaalijakauma, koska testin p-arvo on _____.
Painon jakauma on/ei ole normaalijakauma, koska testin p-arvo on _____.
Kengännumero on/ei ole normaalijakautunut, koska p-arvo on _____.
Vaaksan jakauma on/ei ole normaalijakauma, testin p-arvo on _____.
51.
Selvitetään, miten määrällisen muuttujan jakauma eroaa normaalijakaumasta. (HUOM.
Normaalijakauma on mm. yksihuippuinen, mesokurtinen ja symmetrinen.)
Tutki sopivien tilastollisten tunnuslukujen avulla, millä tavalla muuttujat pituus, paino,
kengännumero ja vaaksa poikkeavat normaalijakaumasta.
Voit hyödyntää tehtävän 32 tuloksiasi. Jos sinulla ei ole niitä tallella, niin tutki esim.
vinoutta ja huipukkuutta ja huippujen lukumäärää.
Pituuden jakauma ___________________________________________________________
______________________________________________________________________________
Painon jakauma _____________________________________________________________
______________________________________________________________________________
Kengännumeron jakauma ____________________________________________________
______________________________________________________________________________
Vaaksan jakauma __________________________________________________________
______________________________________________________________________________
52.
Selvitetään tilastollisen päättelyn avulla, onko määrällisten muuttujien välillä lineaarista
riippuvuutta populaatiossakin:
Tehtävässä 36 käytit korrelaatiokertoimia selvittääksesi, onko määrällisten muuttujien
välillä lineaarista riippuvuutta otoksessa.
Tutki nyt korrelaatioiden tilastollinen merkitsevyys ensin koko opiskelijapopulaatiossa.
(Korrelaatiomerkitsevyystestauksessa pitäisi kahden muuttujan yhteisjakauman olla
kaksiulotteinen normaalijakauma. Tätä voi tutkia esim. tarkastelemalla, onko muuttujien
välinen pisteparvi ellipsinmuotoinen.)
Tutki eo. korrelaatioita vielä erikseen vuoden 2009 opiskelijapopulaatiossa (ensin DataSelect Cases). Eroavatko tulokset koko joukon tuloksista?
Pearsonin korrelaation testauksessa
H0: Muuttujat ovat lineaarisesti riippumattomia (Jos H0 hyväksytään, niin selvitä vielä,
onko muunlaista riippuvuutta käyttäen vaikkapa pisteparvikuviota)
H1: Muuttujien välillä on lineaarista riippuvuutta (Jos H1 hyväksytään, niin kuvailepa
vielä riippuvuuden voimakkuus ja suunta käyttäen vaikkapa korrelaation arvoa)
korrelaatio
p-arvo
korrelaatio
v. 2009
p-arvo
v. 2009
pituus – paino
_________
_________
_________
_________
pituus – kengännumero
_________
_________
_________
_________
pituus – vaaksa
_________
_________
_________
_________
53.
paino – kengännumero
_________
_________
_________
_________
paino – vaaksa
_________
_________
_________
_________
kengännumero – vaaksa
_________
_________
_________
_________
Tehdään selvitys siitä, onko yhden otoksen keskiarvotestin oletukset kunnossa. Tehdään
yhden otoksen keskiarvotesti.
Suomalaisten akateemisten miesten keskipituuden on arvioitu olevan 180 cm. Tarkoitus
olisi testata, tukeeko tämän havaintoaineiston miesopiskelijoiden (=otos akateemisesta
miehistä) keskipituus esitettyä arviota.
1) Valitse tarkasteltavaksi osajoukoksi aineiston miesopiskelijat.
2) Testaa, onko miesten joukossa pituuden jakauma normaalijakauma. Jos ei ole, tutki
miten jakauma eroaa normaalijakaumasta.
_____________________________________________________________________________
________________________________________________________________________________
3) Ja koska yhden otoksen keskiarvotestin oletukset ovat kunnossa, niin testaa sitten,
tukeeko tämän havaintoaineiston miesopiskelijoiden keskipituus esitettyä arviota.
(Analyze-Compare Means-One Sample T Test)
Otoksen keskiarvo on ________ , tilastoyksiköitä on ____ kpl, ja keskihajonta on ________.
Testin nollahypoteesi H0: µ = 180 ja vastahypoteesi H1:____________________.
Testisuureen arvo t = _____________ ja sen p-arvo on _________________, joten H0
hyväksytään/hylätään ____:n merkitsevyystasolla, ja siten keskipituudesta esitetty arvio
pitää/ei pidä paikkansa.