Professional Statistics

2013-11-29
Webropol Oy
Professional Statistics
Pikaopas
SISÄLTÖ
1.
Miten pääset alkuun .................................................................................................................... 2
1.1.
Systeemivaatimukset.......................................................................................................... 2
1.2.
Professional Statistics avaaminen...................................................................................... 2
2.
Perustoiminnot ............................................................................................................................ 4
3.
Mitä pitäisi ottaa huomioon ennen analyysejä ............................................................................ 9
3.1.
Pitkien muuttujanimien lyhentäminen ................................................................................. 9
3.2.
Erilaisten Webropol kysymystyyppien muuttujatyypit ....................................................... 10
3.3.
Uusien muuttujien laskeminen ......................................................................................... 11
3.4.
Uudelleenluokittelu, vastausvaihtoehtojen muokkaaminen ja ’En osaa sanoa’ vastausten
poistaminen................................................................................................................................... 13
4.
3.5.
Aineiston filterointi / ehtojen tekeminen ............................................................................ 13
3.6.
Jakauman normaalisuuden tutkiminen ............................................................................. 14
Mikä analyysi pitäisi valita? ....................................................................................................... 16
4.1.
Varianssien yhtäsuuruusoletuksen testaaminen .............................................................. 17
4.2.
Kaksi jatkuvaluonteista muuttujaa .................................................................................... 18
4.3.
Kaksi luokiteltua muuttujaa ............................................................................................... 19
4.4.
Yksi jatkuva tai järjestysasteikollinen muuttuja ja yksi ryhmämuuttuja ............................ 21
4.4.1.
Kaksi ryhmää ja yksi jatkuva muuttuja ..................................................................... 21
4.4.2.
Kolme tai useampi ryhmää ja yksi jatkuva muuttuja ................................................ 23
4.5.
Korrelaatio jatkuvien tai järjestysasteikollisten muuttujien välillä ..................................... 24
4.6.
Reliabiliteetin laskeminen eli Cronbachin alpha ............................................................... 25
4.7.
Faktorianalyysi.................................................................................................................. 26
4.8.
Regressio ......................................................................................................................... 28
4.9.
Klusterointi ........................................................................................................................ 29
4.9.1.
Manuaalinen klusterointi ........................................................................................... 29
4.9.2.
Hierarkkinen klusterianalyysi .................................................................................... 30
1
1. MITEN PÄÄSET ALKUUN
1.1.
Systeemivaatimukset
Professional Statistics (PS) on Java-pohjainen kuten monet muutkin Internet sovellukset. Tämä
tarkoittaa sitä, että PS käyttää tietokoneen omaa laskentatehoa suorittaakseen analyysit. Jotkut
analyysit ovat hieman raskaampia ja tulosten laskenta saattaa viedä enemmän aikaa. Joka
tapauksessa suorituskyky on riippuvainen tietokoneen omasta suorituskyvystä. Myös Internetyhteyden nopeus vaikuttaa. Professional Statisticsin lataaminen kestää jonkin aikaa, joten olethan
kärsivällinen.
Professional Statisticsiä voidaan käyttää eri Javaa tukevissa ympäristöissä. Ainoa vaatimus on että
Java Run Time Environment tai vastaava on asennettuna. Voit ladata viimeisimmän Javan
ilmaiseksi osoitteesta: http://www.java.com/en/download/index.jsp
1.2.
Professional Statistics avaaminen
Voit avata Professional Statisticsin suoraan kyselykansioista osoittamalla haluamaasi kyselyä
listassa, kyselyn nimen oikealle puolelle ilmestyy ratas, ja sitä klikkaamalla saat valikon auki.
Valikosta valitsemalla Professional Statistics aukeaa kuvan 3 näkymä, josta voit ladata
Professional Statisticsin auki.
K UVA 1: P ROFESSIONAL S TATISTICSIN
AVAAMINEN KYSELYKANSIOSTA
2
Toinen tapa on avata PS raportoinnin puolella klikkaamalla ikkunan oikeassa ylänurkassa olevaa
Professional Statistics tekstipainiketta.
K UVA 2: P ROFESSIONAL S TATISTICSIN
AVAAMINEN RAPORTOINTINÄKYMÄSSÄ
Kumpikin tapaa avaavat alla olevan näkymän, josta valitsemalla Analyze (Statistics) ohjelma lähtee
latautumaan.
PS napin tai Professional Statistics tekstinapin
painaminen ohjaa sinut tälle sivulle. Avataksesi
Professional Statisticsin klikkaa Analyze kohtaa. Jos haluat ottaa aineistostasi otoksen
tai muuten lisäkäsitellä aineistoasi klikkaa
Customize. Lisäinformaatiota datan käsittelyyn
Data Minerissa löytyy Data Minerin Helpistä.
K UVA 3: P ROFESSIONAL S TATISTICS -
JA
D ATA M INER
LATAUSIKKUNA
3
2. PERUSTOIMINNOT
Professional Statistics avaa automaattisesti sen aineiston (kysely), jonka raportilta Professional
Statistics käynnistetään. Jos haluat ladata toisen aineiston valitse Load data Professional
Statisticsin File-menusta. Aineiston on oltava Excel-muotoa. Huomaa, että .xlsx tiedoston pitää olla
tiettyä muotoa, jotta se toimisi oikein Professional Statisticsissa.
K UVA 4: E XCEL - DATAN
MUOTO
Seuraavassa kuvassa on Professional Statisticsin (PS) näkymä ohjelman avauduttua. PS on jaettu
neljään osaan. Ylemmässä osassa (1) valitaan analyysit ja perustoiminnot, vasemmanpuoleisessa
osassa (2) näkyy muuttujalista (kysymykset), keskimmäisessä osassa (3) näkyvät tulostaulukot ja
oikeassa osassa (4) grafiikka.
Ylhäällä vasemmassa nurkassa näet Report valikon, missä voit kopioida ja tallentaa kuvia, sekä
File valikon missä voit joko ladata tai tallentaa aineiston. Näiden valikoiden alapuolella kohdassa
Analysis types voit valita tarvittavan analyysityypin. Analysis types – kohdan oikealla puolella
Algorithms – kohdassa näkyvät analyysit ja funktiot valitusta analyysityypistä riippuen (kuvassa
Overview – kohdan perusanalyysit). Ylhäällä oikeassa kulmassa voit antaa palautetta,
napauttamalla Give Feedback painiketta avautuu Feedback nettilomake, jonka voit lähettää netin
kautta ohjelmatoimittajalle. Napauttamalla Show help avautuu valitun toiminnon Help-ikkuna.
Samasta kohtaa saat Help-ikkunan suljettua. Oranssi kysymysmerkki avaa yleisnäkymä helpikkunan PS:n päälle erilliseen ikkunaan.
4
K UVA 5: P ROFESSIONAL S TATISTICSIN
PERUSNÄK YMÄ
Tässä näkymässä näet PS:n muuttujalistan ja
tulostaulukon. Valitse muuttuja ruksaamalla
haluamasi muuttujan edessä olevaa
valintaruutua. Valitse useampia muuttujia
kerralla painamalla Ctrl alas ja valitsemalla
hiirellä muuttujat. Kun muuttujat ovat valittuna,
paina välilyöntinäppäintä. Tällöin valitut
muuttujat tulevat ruksatuiksi ja PS tuottaa
analyysin. Voit käyttää myös Shift ja Up/Down
nuolia valitaksesi muuttujat.
K UVA 6: V ASEMMANPUOLEINEN -
JA KESKIOSA :
M UUTTUJALISTA
JA TULOSTAULUKKO
5
Tässä näkyy PS:n tulostaulu. Järjestääksesi
tulokset suuruusjärjestykseen klikkaa sarakkeen
otsikkoa (kuvassa average) hiiren oikealla.
Valitaksesi kaikki muuttujat kuvaan klikkaa hiiren
vasemmalla sarakkeen otsikon päällä.
Valitaksesi tietyt muuttujat kuvaan paina Ctrl
alas ja klikkaa hiiren vasemmalla vain haluttujen
muuttujien kohdalla sarakkeessa. Voit myös
maalata halutut rivit mukaan.
K UVA 7: K ESKIMMÄINEN
OSA :
T ULOSTAULU
Voit viedä tulostaulukon Exceliin (Create xls-sheet), tai kopioida leikepöydälle (Data to clipboard)
valitsemalla halutun formaatin Report-valikon alta. Ristiintaulukoinnissa (Crosstabs) voit viedä
taulukon Exceliin klikkaamalla Export to Excel – nappia taulukon yläpuolella.
K UVA 8: T ULOSTAULUKON
VIENTI MUIHIN FORMAATTEIHIN
6
Tässä näet PS:n grafiikkaalueen. Valitse kuvatyyppi
Chart type - kohdasta.
Nähdäksesi kuvasta vain osan
asteikkoa maalaa hiirellä
asteikon kohdalla haluttu väli
vasemmalta oikealle. Koko
asteikon takaisin saat
pyyhkäisemällä hiiren vasen
näppäin alhaalla asteikon yli
oikealta vasemmalle.
Tutkiaksesi kuvaa ryhmittäin
valitse Split by-kohdasta
ryhmämuuttuja.
K UVA 9: O IKEANPUOLEINEN
OSA :
G RAFIIKKA
Voit viedä kuvan PowerPointiin (Create ppt-slide (objekti) / Create PPT Chart (muokattava muoto)),
Exceliin (Create xls-chart (muokattava muoto)), Wordiin (Create doc image (objekti)) tai
leikepöydälle (Image to clipboard (objekti)) klikkaamalla hiiren oikealla kuvan päällä ja valitsemalla
halutun formaatin. (kts kuva 11). Valittuasi Excel-, Word- tai Powerpoint -muodon muuttujalistan
alle vasempaan laitaan ilmestyy halutun formaatin mukainen ikoni ja tallenna painike. Jokaisesta
siirrettävästä kuvasta tulee oma ikoninsa. Kuvassa 10 on kolme PowerPoint diaa ja kaksi Excel
taulukkoa odottamassa tallennusta. Näin voit tallentaa kerralla useamman kuvan yhteen
tiedostoon. Poistaaksesi turhat ikonit, valitse ne ja paina delete.
Kun olet tehnyt kaikista halutuista kuvista ikonin, klikkaa tallenna – nappia (disketin kuva
kuvaikonien oikealla puolella). Huomaa, että jokainen PowerPoint-kuva tulee omalle dialleen ja
jokainen Excel-taulukko/kuva omalle välilehdelleen.
Hiiren oikean näppäimen alta näkyvä Chart Colors – alla voit vaihtaa kuvan värejä. Enlarge avaa
kuvan omaan ikkunaansa, jossa voit vaihtaa akseleiden paikkaa, muokata kuvan otsikkoa, väritystä
ja fontteja, sekä tallentaa /kopioida muokatun kuvan.
7
K UVA 10: S IIRRETTÄVÄT
K UVA 11: K UVIEN
KUVAIKON IT JA
T ALLENNA -
PAINIKE
VIENTI
8
3. MITÄ PITÄISI OTTAA HUOMIOON ENNEN ANALYYSEJÄ
Professional Statistics sisältää monia tapoja muokata dataa ennen analyysejä.
Alla olevassa
Pretreatment
taulukossa näet Pretreatment – osion eri toiminnot.
Variable
Name
Editor
Variable
Types
Variable
Math
Recode
Variable
Group and
Filter
Jos kysymyksen seliteteksti on liian pitkä tai haluat muuttaa nimen
kuvaavammaksi, voit muokata tekstejä Variable Name Editorin alla.
Voit määritellä muuttujien muuttujatyypit. Muuttujatyyppi kertoo mitä
analyysejä voit käyttää. Muuttujatyyppien määrittely on vapaaehtoinen
toiminto eikä se vaikuta suurimpaan osaan analyyseistä.
Voit luoda uusia muuttujia olemassa olevien muuttujien avulla.
Muuttujien luokkien yhdistäminen ja uudelleen luokittelu. Tyypillisesti
käytetään asteikon kääntämiseen ja ryhmien määrän pienentämiseen.
Group – funktiolla voit luoda vastaajaryhmiä, jotka perustuvat yhden tai
kahden muuttujan arvoihin. Filter-funktiolla luot ehtoja dataan, poimit esim.
mukaan analyyseihin vain yli 40-vuotiaat naiset.
Seuraavassa esimerkkejä edellä mainituista toiminnoista.
3.1.
Pitkien muuttujanimien lyhentäminen
Tehdäksesi analysoinnin ja
tulosten tulkinnan helpommaksi
voit muokata muuttujanimiä
Variable Name Editor – kohdassa.
Voit muokata suoraan nimeä
halutuksi New – kohdassa.
Useampia nimiä kerralla
muokatessa kirjoita muokattava
nimi/nimen osa Replace-kohtaan
ja uusi korvaava nimi Withkohtaan. Klikkaa sitten Replace –
painiketta.
K UVA 12: V ARIABLE N AME E DITOR -
NÄKYMÄ
HUOM! Nimimuutokset eivät muuta mitään itse kyselyaineistoon, muutokset ovat voimassa vain
Professional Statisticsissa. Voit kuitenkin tallentaa muokatut nimet myöhempää käyttöä varten
Save - painikkeella ja kun avaat seuraavan kerran saman aineiston Professional Statisticsiin voit
hakea muokatut nimet Load - painikkeella.
9
3.2.
Erilaisten Webropol kysymystyyppien muuttujatyypit
Alhaalla taulukossa näet Professional Statisticsin muuttujatyypit. Voit määritellä ne Pretreatment –
osiossa Variable Typesin alla.
Nominal
Variable Types
Ordinal
Interval
Ratio
Multi
choice
Luokiteltu muuttuja, jonka luokkia ei voida laittaa kiistattomaan
järjestykseen.
Esimerkiksi ‘Sukupuoli: Mies, Nainen’
Luokiteltu muuttuja, jonka luokat voidaan laittaa järjestykseen.
Esimerkiksi ‘Luokiteltu ikä: Vähemmän kuin 30 v, 31-65 vuotta, yli 65
vuotta’
Numeerinen muuttuja, jolla ei ole ns. absoluuttista nollapistettä, jossa
ominaisuus loppuu
Esimerkiksi ‘Lämpötila mitattuna Celsiusasteilla’ tai ‘Bruttokansantuote’,
Näissä molemmissa voi olla sekä negatiivisia että positiivia arvoja, eikä ole
mitään arvoa missä ominaisuus loppuisi.
Numeerinen muuttuja, jolla on ns. absoluuttinen nollapiste, jossa
ominaisuus loppuu
Esimerkiksi paino, pituus tai palkka. Ne eivät voi saada negatiivisia arvoja.
Muuttuja, jossa voi olla valittuina useampi vastausvaihtoehto.
Esimerkiksi ‘Valitse kolme tärkeintä ominaisuutta listasta, mitä haluat
uuden tuotteen pitävän sisällään.’
K UVA 13: V ARIABLE T YPE
NÄKYMÄ
10
3.3.
Uusien muuttujien laskeminen
Voit laskea uusia muuttujia Variable
Math - funktiolla. Paina Add equation
nappia, uusi muuttuja ilmestyy
muuttujalistan loppuun nimellä
‘equation…’. Nimeä uusi muuttuja
haluamaksesi ja kirjoita ‘equation’
sarakkeeseen lauseke. Käytä x-alkuisia
muuttujanimiä lausekkeessa laskiessasi
jo olemassa olevilla muuttujilla. Remove
selected rows poistaa ylimääräisiä
muuttujia, joita et tarvitse.
K UVA 14: V ARIABLE M ATH –
NÄKYMÄ
Perinteinen aritmeettinen keskiarvo (esimerkki kuvassa Satisfaction with Staff) laskee keskiarvon
niille vastaajille, jotka ovat vastanneet jokaiseen summattavaan muuttujaan. Eli jos joku vastaaja
esimerkin tapauksessa olisi jättänyt vastaamatta x4:sta vastaavaan kysymykseen, ei keskiarvoa
voida laskea hänelle. Eli aineistossa, jossa on paljon puuttuvia vastauksia, ei kokonaiskeskiarvon
laskeminen välttämättä ole kovin kuvaava suure ja voi vähentää kokonaiskeskiarvon n-arvoa
ratkaisevasti. Tällaisissa tilanteissa voit myös käyttää tilastollisia funktioita kokonaiskeskiarvon
laskemiseen. average-funktio laskee keskiarvon niillä arvoilla mitä aineistosta löytyy, ja näin ollen
ei vähennä n-lukua suhteettomasti vaikka aineistossa olisi tyhjiäkin vastauksia. Esim. jos vastaaja
on jättänyt vastaamatta x4:sta ja x8:a vastaaviin kysymyksiin, niin keskiarvo lasketaan niistä
kysymyksistä, joissa vastaus on, eli lopuista kahdeksasta esimerkin tapauksessa.
Käytettävät funktiot: average, min, max, sum ja stdev. Funktion sisällä laskettavat muuttujat
erotetaan pilkulla toistaan.
11
Seuraavassa kuvassa esimerkki funktion käytöstä laskettaessa esimerkin ’Satisfaction with Staff’
käyttäen average-funktiota. Huom! käytä vain pieniä kirjaimia funktiossa sekä käytettävissä xmuuttujissa lausekkeessa.
K UVA 15: K OKONAISKESKIARVON
LASKEMINEN KÄYTTÄEN AV ERAGE - FUNKTIOTA
12
3.4.
Uudelleenluokittelu, vastausvaihtoehtojen muokkaaminen ja ’En
osaa sanoa’ vastausten poistaminen
Voit muokata vastausvaihtoehtoja Recode
variable - funktiolla. Valitse muokattavat
muuttujat Variables-listalta. Jos haluat
yhdistää vastausvaihtoehtoja yhdeksi
luokaksi, anna niille sama arvo New Value
kohtaan ja selite ylimmälle arvolle New
Name kohtaan . Muokataksesi vastausvaihtoehtojen selitteitä klikkaa selitteen
kohdalla (New Name) ja nimeä se
uudestaan. Poistaaksesi vaihtoehdon
poista arvo New Value kohdasta ja New
Name kohdasta. Tallenna muutokset
K UVA 16: R ECODE V ARIABLE -
NÄKYMÄ
antamalla uuden muuttujan nimi Name of
new variable - kohtaan ja paina Enter.
Voit muokata vastausvaihtoehtojen selitteitä ja poistaa ‘En osaa sanoa’ – vastauksia myös
raportoinnin sisällä ennen kuin avaat Professional Statisticsin. Tarkemmat ohjeet tästä löydät
Webropol 2.0 Raportointioppaasta.
3.5.
Aineiston filterointi / ehtojen tekeminen
Tarkastellaksesi vain osaa aineistoa voit käyttää Group and Filter – toimintoa Pretreatment osiossa. Group tuottaa uuden muuttujan, jossa yhtenä ryhmänä on valitut ja toisena muut. Filter –
muuttaa ei-valitut havainnot passiiviseksi eli vain valitut tulevat mukaan analyyseihin.
Valitse muuttuja(t) Y-variables listalta ja X-variables listalta. Huomaa, että jos haluat tehdä ehdon
vain yhden muuttujan arvoilla, niin sinun pitää valita sama muuttuja molemmista, niin Y-variables
kuin X-variables listalta.
Esimerkiksi haluamme valita vain naiset mukaan. Valitse ‘Gender’ Y-variables listalta ja myös Xvariables listalta.
13
Ruksaa ‘Female’ kuten seuraavassa kuvassa ja paina Filter Rows nappia. Ohjelma ilmoittaa ’You
have now filtered the data…’. Ikkunan ylälaidassa näet että filterointi on päällä. (Data filtered, using
… rows).
K UVA 17: G ROUP
AND
F ILTER
NÄKYMÄ
Kun haluat tarkastella koko aineistoa jälleen, klikkaa ’Data filtered, using … rows’, Disable filtering
– komento tulee näkyviin. Kun valitset sen, filtteri on pois päältä ja koko aineisto jälleen
käytettävissä.
3.6.
Jakauman normaalisuuden tutkiminen
Joidenkin analyysien oletuksena on jakauman normaalisuus, minkä on oltava voimassa, jotta
tuloksiin voitaisiin luottaa. Voit tarkastella jakauman vinoutta ja huipukkuutta Normality
Assessmentin alla. Koko jakauman normaalisuutta voit tarkistella myös jakaumakuvien avulla, esim
Overview:n alta klikkaamalla tunnuslukua ja valitsemalla kuvatyypiksi Histogram tai Normal
propability plot. Lisäksi voit testata jakauman normaalisuutta Shapiro-Wilkin tai Lillieforsin testillä
niin ryhmittäin kuin koko aineistollekin. Lisäinformaatiota normaalisuuden tutkimisesta saat myös
14
klikkaamalla oikeasta yläkulmasta Show help – nappia. Se avaa kunkin toiminnon kohdan oman
Help-ikkunan.
Basic
Normality
Assessment
Overview
Percentiles
Shapiro-Wilk
Lilliefors
Perustunnusluvut muuttujille.
Vinous- ja huipukkuusluvut jatkuvaluonteisen muuttujan normaalisuuden
tarkasteluun. Riippuen siitä ovatko jakaumat normaalisia vai eivät
käytetään parametrisia (normaaliset jakaumat) tai ei-parametrisia (einormaaliset jakaumat) testejä.
Fraktiilit (Percentiles) kertovat jakaumasta enemmän kuin keskiarvot yksin.
Ne ovat järjestetyn aineiston se piste, jota vähemmän on ‘k’ prosenttia
havainnoista. Esimerkiksi 25% fraktiili eli alakvartiili antaa luvun, jota
pienempia havinnoista on 25 %. Yleisimmin käytetyt fraktiilit tieteellisissä
raporteissa ovat alakvartiili, mediaani ja yläkvartiili, eli 25%, 50% ja 75%
fraktiilit.
Shapiro-Wilkin testiä käytetään vähintään välimatka-asteikollisen
muuttujan jakauman normaalisuuden testaamiseen. Tämä testi on
parhaimmillaan pienempien aineistojen testauksessa.
Lillieforsin testiä käytetään vähintään välimatka-asteikollisen muuttujan
jakauman normaalisuuden testaamiseen. Lillieforsin testiä suositellaan
nimenomaan isompien aineistojen testauksessa.
Jakauman normaalisuuden tarkasteluun ja testaamiseen on monta tapaa: Shapiro-Wilk - tai
Lilliefors – testi, Normal probability plot, Histogrammi tai vinous- ja huipukkuuslukujen tarkastelu
niiden keskivirheiden kanssa. Shapiro-Wilk – and Lilliefors testeissä saat tulokset myös ryhmittäin,
ruksaa ‘Test each Y group’ ja valitse ryhmittelevä muuttuja Y-variables listalta.
Jos testin p-arvo on suurempi kuin
0.05, voidaan jakaumaa pitää
normaalisesti jakautuneena.
Normal probability plotissa
normaalisesti jakautuneen
aineiston pisteiden pitäisi kulkea
jakaumaviivan päällä lineaarisesti.
K UVA 18: S HAPIRO -W ILKIN
TESTI JA
N ORMAL
PROPABILITY PLOT
15
Esimerkkiaineistossa Shapiro Wilkin testi hylkää jakauman normaalisuuden, p-arvo ≤ 0.05.
Jakaumakuva oikealla vahvistaa tuloksen.
4. MIKÄ ANALYYSI PITÄISI VALITA?
Saadaksesi luotettavia tuloksia on tärkeää valita oikea analyysi erilaisille muuttujille. Alhaalla
taulukossa on käyty lyhyesti läpi eri testien tarkoitus ja käytettävät muuttujatyypit.
Variables
t-test (paired)
Wilcoxon
Crosstabs
Crosstabs for
Means
Chi²
Compare groups
Levene
t-test
(independent
samples)
MannWhitney
ANOVA
Riippuvien otosten t-testiä (t-test (paired)) käytetään testaamaan kahden
jatkuvaluonteisen muuttujan keskiarvoeroja. Testattavan muuttujan pitää
olla vähintään välimatka-asteikollinen ja noudattaa normaalijakaumaa.
Testattavat muuttujat pitää olla mitattu samalla skaalalla, sillä testi perustuu
muuttujien keskiarvojen vertaamiseen. Jos normaalisuus ei ole voimassa
toisella tai molemmilla muuttujilla, pitää käyttää ei-parametrista Wilcoxonin
testiä.
Wilcoxon signed rank testiä käytetään testaamaan kahden vähintään
järjestysasteikollisen muuttujan välisiä eroja (eroaako muuttuja 1
muuttujasta 2). Jos kahden jatkuvaluonteisen muuttujan jakaumat eivät
noudata normaalijakaumaa voidaan Wilcoxonin testiä käyttää parametrisen
t-testin sijaan. Testattavilla muuttujilla pitää olla sama mittaskaala. Esim.
kaksi Likert-asteikollista muuttujaa - molemmat mitattu 1-5 asteikolla.
Ristiintaulukointia (Crosstabs) käytetään eri ryhmien välisten jakaumien
vertaamiseen. Tulostaulukossa näkyvät prosentit sekä numeerisilla
muuttujilla keskiarvot ryhmittäin. Tulokset voidaan esittää graafisesti
nopeasti valitsemalla hiirellä tulosarvot. Sarakeprosentti- ja
sarakekeskiarvotestit tulostuvat automaattisesti ja ovat luettavissa
värikoodein (punainen kertoo tilastolliset erot).
Ristiintaulukointi pelkillä keskiarvoilla on usein skaalallisilla muuttujilla se
halutuin tapa esittää asiat taulukkomuodossa. Sarakekeskiarvotestit
tulostuvat automaattisesti ja ovat luettavissa värikoodein (punainen kertoo
tilastolliset erot).
Khii-toiseen riippumattomuustestiä (Chi²) käytetään testaamaan testattavien
luokkamuuttujien (nominaali – ja/tai järjestysasteikolliset muuttujat)
riippumattomuutta, eli käytännössä, onko muuttujaryhmien välillä eroja vai
ei. Esimerkiksi jos halutaan tutkia sukupuolten välisiä eroja suosikkivuodenajan tai työn vastuualueen suhteen.
Levenen testiä käytetään varianssien yhtäsuuruuden testaamiseen ryhmien
välillä. Varianssien yhtäsuuruus on yksi parametristen testien oletuksista.
Jos varianssien yhtäsuuruusoletus ei ole voimassa, pitää käyttää eiparametrisia testejä (Mann-Whitney riippumattomien otosten t-testin sijaan,
Kruskal-Wallis ANOVAn sijaan).
Riippumattomien otosten t-testiä (t-test (independent samples)) käytetään
jatkuvan muuttujan keskiarvoerojen testaamiseen kahden ryhmän välillä. X
variables – listalta valitun muuttujan tulee olla normaalisesti jakautunut
molemmissa luokitellun muuttujan ryhmissä (Y-variables), ja sen
varianssien tulee olla yhtä suuret molemmissa ryhmissä. Jos oletukset eivät
ole voimassa tulee käyttää ei-parametrista Mann-Whitneyn testiä.
Mann-Whitney (tunnettu myös Wilcoxon signed-rank testinä tai MannWhitney-Wilcoxon testinä) on ei-parametrinen testi, joka testaa
järjestysasteikollisen tai jatkuvan muuttujan, jonka oletukset eivät ole
voimassa, jakauman eroja kahden ryhmän välillä.
ANOVAa (Analysis of Variance) eli varianssianalyysiä käytetään jatkuvan
muuttujan keskiarvoerojen testaamiseen kolmen tai useamman ryhmän
16
Correlations
Kruskal-Wallis
R (Pearson)
Rho
(Spearman)
Spearmanin järjestyskorrelaatiokerrointa (tai Spearmanin rhota) käytetään
testaamaan vähintään järjestysasteikollisten tai vinosti jakautuneiden
jatkuvaluonteisten muuttujien välistä lineaarista riippuvuutta.
Cronbachin alphaa käytetään mittaamaan muuttujien reliabiliteettia (internal
consistency), esim. kuinka hyvin summattavat muuttujat mittaavat samaa
asiaa tai kuinka hyvin ne mittaavat yhdessä ryhmänä jotain asiaa.
PCA
Pääkomponenttianalyysiä (Principal Component Analysis (PCA)) käytetään
luomaan lineaarikombinaatioita muuttujista perustuen muuttujien
variansseihin ja niiden välisiin riippuvuuksiin. Käytettävien muuttujien tulee
olla jatkuvia. Aineiston koko tulisi olla vähintään 300 havaintoa. PCA
olettaa muuttujaparien välisen riippuvuuden olevan lineaarista. Mahdolliset
outlierit eli poikkeavat havainnot voidaan poistaa analyysistä.
Exploratorinen faktorianalyysi on keino löytää muuttujien takaa ilmiö, joka
selittää muuttujien vaihtelua (keino nähdä metsä puilta). Tekniikka perustuu
muuttujien välisiin lineaarisiin riippuvuuksiin. Muuttujien tulee olla
skaalallisia ja mielellään normaalisesti jakautuneita. Aineiston koon tulisi
olla vähintään 100 havaintoa ja havaintoja (täydellinen aineisto) tulisi olla
enemmän kuin mukaan tulevia muuttujia.
Self-Organizing Map (SOM) – kuvia käytetään muuttujien visuaaliseen
tarkasteluun tarkoituksena löytää muuttujien jakaumista klustereita.
Käytettävien muuttujien tulee olla numeerisia.
Partial Least Squares (PLS) Regressiota käytetään selittämään yhden
jatkuvan muuttujan vaihtelua kahdella tai useammalla jatkuvalla muuttujalla.
Varsinkin pienillä aineistoilla jakaumien tulisi olla vähintään likimain
normaalisia. Mahdolliset outlierit eli poikkeavat havainnot voidaan poistaa
analyysistä.
Askeltavalla regressiolla (Stepwise Regression) voidaan arvioida mitkä
tekijät selittävät parhaiten selitettävän muuttujan vaihtelua. Testattavien
muuttujien tulisi olla jatkuvaluonteisia ja vähintään likimain normaalisia.
Riippuvuuksien oletetaan olevan lineaarisia.
Hierarkkista klusterianalyysiä käytetään luomaan homogeenisia ryhmiä
valittujen muuttujien (ominaisuuksien) suhteen. Käytettävien muuttujien
tulee olla jatkuvaluonteisia. Otoskoon tulisi olla vähintään 2k, kun k on
analyysissä olevien muuttujien määrä.
SOM
Regression
(PLS)
Multivariate
Pearsonin tulomomenttikorrelaatiokerrointa (r) käytetään testaamaan
jatkuvaluonteisten, mielellään normaalisesti jakautuneiden muuttujien
välistä lineaarista riippuvuutta. Testattavien muuttujien pitää olla vähintään
välimatka-asteikollisia. Jos data eroaa merkittävästi normaalijakaumasta tai
muuttujat ovat järjestysasteikollisia, tulee käyttää Spearmanin
järjestyskorrelaatiokerrointa (Rho).
Cronbach’s
Alpha
Factor
analysis
4.1.
välillä. X-variables listan muuttujan tulee olla normaalisesti jakautunut
kussakin Y-variables listan luokitellun muuttujan ryhmässä. Myös
varianssien tulee olla yhtä suuret kussakin ryhmässä. Jos oletukset eivät
ole voimassa, tulee käyttää ei-parametrista Kruskal-Wallisin testiä.
Kruskal-Wallis on ei-parametrinen testi, joka testaa järjestysasteikollisen tai
jatkuvan muuttujan, jonka oletukset eivät ole voimassa, jakauman eroja
kolmen tai useamman ryhmän välillä.
Stepwise
Regression
Clustering
Varianssien yhtäsuuruusoletuksen testaaminen
Parametristen testien (riippumattomien otosten t-testi ja ANOVA) oletuksena on, jakauman
normaalisuusoletuksen lisäksi, myös varianssien yhtäsuuruus testattavassa kussakin ryhmässä.
17
Varianssien yhtäsuuruuden testaamiseen käytetään Levenen testiä. Se löytyy Compare Groups
osion alta.
Valitse luokkamuuttuja Y-variables listalta (esimerkiksi sukupuoli ) ja jatkuva muuttuja X-variables
listalta (esimerkiksi paino, pituus, tyytyväisyyden summamuuttuja) ja Algorithms – kohdasta
Levene.
Jos p-arvo on pienempi tai
yhtä suuri kuin 0.05, tarkoittaa
se, että varianssit eivät ole
yhtä suuria, eli varianssien
yhtäsuuruusoletus ei ole
voimassa.
K UVA 19: L EVENEN
VARIANSSIEN YHTÄSUURUUSTESTI JA
B OX P LOT
KUVA
Esimerkkiaineistossa nähdään, että varianssien yhtäsuuruusoletus on voimassa, eli varianssit ovat
samat sukupuolten (Gender) kesken (p=1.000 > 0.05). Tämä tarkoittaa, että jos testattava muuttuja
noudattaa normaalijakaumaa molemmissa ryhmissä, parametrista testiä voidaan käyttää. (kahden
ryhmän tapauksessa t-test (independent samples) ja useamman ryhmän tapauksessa ANOVA).
4.2.
Kaksi jatkuvaluonteista muuttujaa
Kun haluat vertailla kahta jatkuvaluonteista muuttujaa voit käyttää riippuvien otosten t-testiä (t-test
(paired)), jos molemmat muuttujat noudattavat normaalijakaumaa. Jos toisen tai molempien
jakauma on ei-normaalinen tai muuttujat ovat järjestysasteikollisia, tulee käyttää ei-parametrista
Wilcoxonin testiä. t-test(paired) ja Wilcoxon löytyvät Variables-osion alta.
18
Valitse toinen muuttuja Y-variables listalta ja toinen X-variables listalta. Algorithms – kohdasta
valitse oletusten voimassaolon perusteella joko t-test (paired) tai Wilcoxon.
Jos p-arvo on pienempi tai
yhtä suuri kuin 0.05,
merkitsee se että muuttujien
välillä on eroja. Means
kuvasta voi tarkistaa erojen
suunnan.
K UVA 20: T - TEST ( PAIRED )
JA
M EANS
KUVA
Esimerkkidatassa on tilastollisia eroja Tyytyväisyydessä CRM systeemiin (Satisfaction with CRMsystem) ja Tyytyväisyydessä palveluntarjoajan henkilökuntaan (Satisfaction with Staff) välillä (p =
0.000). Means-kuvasta voimme nähdä, että vastaajat olivat tyytyväisempiä palveluntarjoajan
henkilökuntaan kuin CRM systeemiin.
4.3.
Kaksi luokiteltua muuttujaa
Jos haluat vertailla kahta muuttujaa keskenään, joista vähintään toinen on nominaaliasteikollinen ja
toinen joko nominaaliasteikollinen tai järjestysasteikollinen, voit käyttää ristiintaulukointia
2
(Crosstabs) erojen etsimiseen ja Khii toiseen testiä (Chi ) muuttujien riippumattomuuden
2
testaamiseen. Crosstabs ja Chi löytyvät Compare groups - osiosta.
2
2
Kun käytät Chi testiä pidä huoli, että vastaajia on tarpeeksi. Chi testin oletukset ovat: enintään
20% odotetuista frekvensseistä saa olla pienempiä kuin 5 ja pienin odotettu frekvenssi ei saa olla
2
pienempi kuin 1. Jos nämä oletukset eivät toteudu, ei Chi testin tuloksiin voi luottaa. Tällöin käytä
Pretreatment osion Recode Variable – toimintoa yhdistääksesi luokkien määrää pienempään.
19
Valitse sarakemuuttuja Y-variables listalta ja rivimuuttuja X-variables listalta.
K UVA 21: C ROSSTABS
TULOSTUS JA TAULUKKO KUVANA
Kuvassa edellä näet valinnat kun haluat tehdä ristiintaulukoinnin. Esimerkkiaineistossa Ikä (Age) –
muuttujan luokat ovat sarakkeella (Younger than 35 years, 35-44 years, 45-54 years ja 55 years or
older), selitteiden alla näkyvät sarakkeiden havaintojen lukumäärät (N=...) ja rivimuuttujan
Familiarity with the CRM system luokat (Not so good, Moderate ja Good) sarakeprosentteineen.
Kuvassa voidaan vertailla visuaalisesti prosentteja ryhmittäin ja taulukossa numeroina. Punainen
väri taulukossa kertoo, että kyseisen ryhmän prosenttijakauma (tai keskiarvo numeerisilla
muuttujilla) eroaa tilastollisesti loppuaineistosta. Esimerkkiaineistossa nähdään että alle 35
vuotiaat kokevat CRM systeemin tutummaksi (Good) kuin vanhemmat. Vastaavasti vanhempien
prosentuaalinen osuus on tilastollisesti suurempi niiden joukossa, jotka eivät koe CRM-systeemiä
tutuksi (Not so good). Vastaava informaatio on luettavissa kuvasta oikealla.
2
Chi testi seuraavassa kuvassa näyttää että CRM systeemin tuttuus (Familiarity with the CRM
system) ja ikä(Age) riippuvat toisistaan (p=0.018), eli käytännössä se, miten tuttuna kokee CRMsysteemin eroaa ikäryhmittäin. Nähdään että oletukset ovat voimassa: minimi odotettu frekvenssi
on 13.55 ja ei yhtään (0 %) odotettua frekvenssiä ole pienempiä kuin viisi. Näin ollen voimme
luottaa tulokseen.
20
2
Chi testillä voit testata luokkamuuttujien riippumattomuutta
tilastollisesti. Jos p-arvo on pienempi tai yhtä suuri kuin 0.05,
tarkoittaa se, että muuttujat riippuvat toisistaan. Min Expected
kertoo pienimmän odotetun frekvenssin ja Fraction < 5 kertoo
kuinka monta prosenttia odotetuista frekvensseistä on
pienempiä kuin 5.
K UVA 22: C HI
4.4.
2
TESTI
Yksi jatkuva tai järjestysasteikollinen muuttuja ja yksi
ryhmämuuttuja
4.4.1. Kaksi ryhmää ja yksi jatkuva muuttuja
Jos haluat tutkia yhden jatkuvan muuttujan eroja kahdessa ryhmässä käytä riippumattomien
otosten t-testiä (independent samples) tai Mann-Whitneyn testiä riippuen siitä ovatko oletukset
voimassa. t-testin oletukset ovat varianssien yhtäsuuruus (kts kappale 4.1) ja jakaumien
normaalisuus kussakin ryhmässä. (kts kappale 3.6). Voit käyttää t-testiä vaikka jakauma olisi vain
likimain normaalinen. Jos jakauma ei ole lainkaan normaalinen tai varianssit eivät ole yhtä suuret
tai testattava muuttuja on järjestysasteikollinen, tulisi käyttää Mann-Whitneyn testiä. Molemmat
testit löytyvät Compare groups - osiosta.
Valitse luokkamuuttuja Y-variables listalta (esimerkiksi sukupuoli) ja jatkuva, normaalisesti
jakautunut (tai vähintään likimain normaalinen) muuttuja X-variables listalta, ja t-test (independent
samples) Algorithms - kohdasta.
21
Riippumattomien otosten t-testillä
(independent samples) voit
testata eroja kahden ryhmän
välillä. Jos p-arvo on pienempi tai
yhtä suuri kuin 0.05 tarkoittaa se,
että ryhmien välillä on eroja.
K UVA 23: T - TEST ( INDEPENDENT
SAMPLES )
Mann-Whitneyn testillä voit testata
eroja kahden ryhmän välillä vaikka
jakauma ei olisikaan normaalinen
tai testattava muuttuja olisi
järjestysasteikollinen. Jos p-arvo
on pienempi tai yhtäsuuri kuin 0.05,
on ryhmien välillä eroja.
K UVA 24: M ANN -W HITNEYN
TESTI JA
B OX P LOT
KUVA
t-testin tuloksista näemme, että sukupuolten välillä on nähtävissä tilastollisia eroja (p=0.040 < 0.05)
tyytyväisyydessä palveluntarjoajan henkilökuntaan (Satisfaction with Staff), kuvan mukaan
näemme, että naiset ovat tyytyväisempiä kuin miehet. Seuraavassa kuvassa sama testitilanne
käyttäen Mann-Whitneyn testiä. Mann-Whitney antaa saman tuloksen (p=0.015)
22
4.4.2. Kolme tai useampi ryhmää ja yksi jatkuva muuttuja
Jos haluat tutkia yhden jatkuvan muuttujan eroja kolmen tai useamman ryhmän välillä, käytä
varianssianalyysiä (ANOVA). Muuttujan tulee noudattaa normaalijakaumaa (kts kappale 3.6) ja
varianssien tulee olla yhtäsuuret (kts kappale 4.1). Jos normaalisuusoletus ja/tai varianssien
yhtäsuuruusoletus ei ole voimassa tai testattava muuttuja on järjestysasteikollinen, tulee käyttää eiparametrista Kruskal-Wallisin testiä. Nämä testit löytyvät Compare groups osion alta.
Valitse yli kaksiluokkainen kategorinen muuttuja Y-variables listalta (esimerkiksi ikäluokat ( Age)) ja
jatkuva normaalisti jakautunut muuttuja X-variables listalta (esimerkiksi Satisfaction with CRM
system), ja ANOVA Algorithms osiosta.
ANOVA testillä voit testata eroja
kolmen tai useamman ryhmän välillä.
Jos p-arvo on pienempi tai yhtä suuri
kuin 0.05, eroaa ainakin yksi ryhmistä
tilastollisesti muista.
K UVA 25: ANOVA
TESTI JA
M EANS
KUVA RYHMIEN KESKIARVOISTA
Esimerkkiaineistossa ei ole tilastollisia eroja ikäryhmien välillä tyytyväisyydessä CRM-systeemiin
(Satisfaction with CRM ) (p=0.149 > 0.05).
23
4.5.
Korrelaatio jatkuvien tai järjestysasteikollisten muuttujien välillä
Jos haluat tutkia mitkä jatkuvat tai järjestysasteikolliset muuttujat riippuvat toisistaan, käytä
korrelaatioita eli Correlations. Tarjolla on kaksi korrelaatiota: Pearsonin tulomomenttikorrelaatiokerroin jatkuville normaalisesti jakautuneille muuttujille ja Spearmanin järjestyskorrelaatiokerroin
järjestysasteikollisille tai ei-normaalisesti jakautuneille muuttujille.
Valitse muuttujat, joiden korrelaatioita haluat tarkistella Y-variables - ja X-variables listoilta.
Korrelaatiokertoimet vaihtelevat
-1 ja 1 välillä. Tulkintaohjeena:
älä raportoi korrelaatiota, jos se
on itseisarvoltaan alle 0.3.
Kuvassa oikealla on XY-plot,
jonka avulla kahden muuttujan
välistä riippuvuutta voidaan
tarkastella.
K UVA 26: C ORRELATION
JA
XY- PLOT
KUVA
Esimerkkidatassa Tyytyväisyys CRM-systeemiin (Satisfaction with CRM system) ja Tyytyväisyys
palveluntuottajan (Satisfaction with Staff) henkilökuntaan välinen korrelaatio on voimakas ja
positiivinen. Se merkitsee, että jos vastaaja on tyytyväinen henkilökuntaan hän on myös
todennäköisesti tyytyväinen tarjottuun CRM-järjestelmään. Sama on nähtävissä myös oikealla XYplotissa. Kun pistejoukko on vasemmalta oikealle nouseva on kyseessä positiivinen korrelaatio ja
kun pistejoukko on vasemmalta oikealle laskeva on kyseessä negatiivinen korrelaatio.
24
4.6.
Reliabiliteetin laskeminen eli Cronbachin alpha
Jos haluat tehdä useammasta muuttujasta yhden summamuuttujan (käyttäen joko summaa tai
aritmeettista keskiarvoa), sinun tulisi tarkistaa summattavien reliabiliteetti. Se tarkoittaa, että
mittaavatko muuttujat samaa asiaa. Tämän voit tehdä käyttäen Cronbachin alphaa. Se löytyy
Multivariate osiosta.
Cronbachin alpha vaihtelee 0 ja
1 välillä – mitä korkeampi arvo,
sitä parempi reliabiliteetti.
Tulkintaohjeena Cronbachin
alphan pitäisi olla suurempi tai
yhtä suuri kuin 0.7, jotta
reliabiliteetti katsotaan hyväksi.
Alpha if item deleted – kohdassa
näet mikä muuttuja mahdollisesti
huonontaa mittarin reliabiliteettia.
Jos yksittäisen muuttujan
perässä oleva alpha on suurempi
kuin koko mittarin alpha, kertoo
se, että kyseinen muuttuja
huonontaa reliabiliteettia ja mikä
alphan arvo olisi ilman kyseistä
muuttujaa summamuuttujassa.
K UVA 27: C RONBACHIN
ALPHA NÄKYMÄ
Esimerkkidatassa Cronbachin Alpha on 0.9619, mikä tarkoittaa erittäin hyvää reliabiliteettia.
25
4.7.
Faktorianalyysi
Faktorianalyysi on tilastollinen tekniikka, jota käytetään tiivistämään tutkittavien muuttujien määrää
luomalla summamuuttujia ja löytämään muuttujien taustalla ilmeneviä ilmiöitä. Professional
Statisticsin faktorianalyysi on luonteeltaan eksploratiivinen ja se löytyy Multivariate osiosta.
Käytettävien muuttujien tulee olla numeerisia ja skaalallisia (mielellään myös normaalisesti
jakautuneita, mutta jos tätä ei saavuteta, se ei ole kriittistä analyysin kannalta).
Valitse muuttujat X-variables listalta, määrittele haluamasi määrä faktoreita (voit muuttaa määrän
myöhemmin toiseksi, jos huomaat että faktoreita olisikin eri määrä), valitse metodi Analysis
Method-kohdasta (oletuksena pääakselifaktorointi eli Principal Axis) ja rotatointimetodi Rotation
method-kohdasta (oletuksena Varimax) ja sen jälkeen toteuta painamalla Compute-nappia.
Huomaa että faktorianalyysi on Professional Statisticsissa ainoa menetelmä, joka käyttää verkkoa,
joten siinä tarvitset internetyhteyttä.
Faktorien määrä
Analyysimetodi
Rotatointimetodi
Show partial correlations
K UVA 28: F AKTORIANALYYSIN
MÄÄR ITTELYT
‘Show partial correlations’ tuottaa osittaiskorrelaatiomatriisin, jos haluat tarkastella faktorirakennetta
ja löytää mahdolliset muuttujat, joita rakenne ei kykene selittämään. Helpompi tapa tähän on
tarkastella kommunaliteetteja (communalities) latausmatriisissa. ‘Show simplified Factor loading
matrix’ piilottaa pienimmät lataukset latausmatriisista helpottamaan latausmatriisien tulkintaa (ne
ovat edelleen mukana analyysissä, mutta eivät näy). Voit tallentaa saadut faktorit painamalla Save
factors – painiketta. Factor scoring – kohdasta voit valita tallennusmetodin (oletuksena on
regressiomenetelmä).
26
K UVA 29: F AKTORIANALYYSIN
TULOKSET JA
S CREE P LOT -
KUVA
Rotatoitujen faktorilatausten matriisi (Rotated factor loadings) näkyy keskellä . Näet muuttujat
vasemmalla, Rotatoidut lataukset Factor-sarakkeissa ja kommunaliteetit (Communalities).
Kommunaliteetit kertovat kuinka hyvin luotu faktorirakenne selittää yksittäisen muuttujan vaihtelua.
Mitä suurempi kommunaliteetti sitä paremmin kyseisen muuttujan vaihtelua on kyetty selittämään.
Ensimmäinen faktori, Factor 1, selittää 34.1 % kokonaisvaihtelusta, ja nähdään että kaikki SPmuuttujat (Service provider) ovat vahvasti latautuneita sille. Myös jotkut CRM-muuttujat ovat
latautuneet sille suhteellisen vahvasti, mutta vastaavasti ne ovat latautuneet kuitenkin paremmin
toiselle faktorille, joten emme ota niitä mukaan ensimmäiseen faktoriin. Ensimmäisen faktorin nimi
voisi olla Tyytyväisyys palvelun tuottajan henkilökuntaan ’Satisfaction with service provider’s staff’.
Toisessa faktorissa Factor2:ssa CRM-muuttujat saavat suurimmat lataukset, ja kolmannessa eli
Factor 3:ssa Commitment-muuttujat latautuvat parhaiten. Joten toinen faktori voisi olla
Tyytyväisyys CRM-systeemiin eli ’Satisfaction with CRM-system’ ja kolmas faktori Sitoutuneisuus
eli ’Commitment’. Voit tallentaa faktorit painamalla Save Factors – painiketta, mikä antaa sinulle
kolme standardoitua faktoria. (Standardointi tarkoittaa normaalijakaumaa, jonka keskiarvo on nolla
ja varianssi 1). Standardoidut faktorit voivat olla vaikeita tulkita, joten toinen tulkinnallisesti
helpompi tapa on käyttää Variable Math – funktiota Pretreatment – osiossa, ja tuottaa kunkin
funktion kärkimuuttujista summamuuttujat. Esimerkiksi ’Satisfaction with service provider’s staff ’
olisi SP-muuttujien keskiarvo (SP-muuttujien summa/10 tai average-funktiolla vastaava). Kts
tarkemmat ohjeet kappale 3.3.
Kuva oikealla näyttää ominaisarvot (osoittamalla hiirellä taitekohtaa viivakuviossa näet kunkin
faktorin ominaisarvon). Tyypillisesti analyysiin otetaan mukaan ne faktorit, joiden ominaisarvo yli 1,
joten tämän avulla voit tarkistaa luotavien faktoreiden määrän.
27
4.8.
Regressio
Nähdäksesi kuinka hyvin kaksi tai useampi jatkuvaa muuttujaa selittää yhden jatkuvan muuttujan
vaihtelua, käytä Regression (PLS) – analyysiä. Jos sinulla ei ole selkeää kuvaa siitä, mitkä
muuttujat selittävät kyseisen muuttujan vaihtelua, voit käyttää askeltavaa analyysiä (Stepwise
regression) apuvälineenä löytääksesi ne. Se ottaa selittäjän yksi kerrallaan mukaan malliin.
Huomaa kuitenkin, että aina lopullinen malli on tehtävä ilman askellus-menetelmää eli ns.
pakotettuna mallina, ja että askeltavan menetelmän antama malli voi erota pakotetusta mallista.
Regressiomenetelmät löytyvät Multivariate-osiosta.
Valitse selitettävä muuttuja Y-variable listalta ja selittävät muuttujat X-variables – listalta.
K UVA 30: R EGRESSION (PLS)
TULOKSET JA
S AMMON
MAP
-
KUVA
Taulukossa näet lasketun mallin, b on regressionkerroin, beta standardoitu regressionkerroin, r
korrelaatiokerroin, t on testisuure (mittaa kykeneekö kyseinen muuttuja selittämään selitettävää
muuttujaa (Y-variable listan muuttuja) ja p merkitsevyys. Kuvassa oikealla näet Sammon map kuvan. Kun valitset vain merkitsevät p-arvot (p≤0.05), saat vain ne näkyviin kuvaan. Muuttujien
välinen viiva kertoo näiden välisen korrelaation.
Esimerkkiaineistossa selitettävä muuttuja on suositteluhalukkuus eli ’Commitment: Willingness to
recommend’, ja selittäjinä ovat SP-muuttujat ja CRM-muuttujat. Taulukosta nähdään, että parhaat
selittäjät ovat ’CRM: Overall visually appealing’, ’CRM: Modern’, ’CRM: Practical reporting
functions’, ’SP: High overall quality’, ’CRM: Produces visually appealing materials’, ’CRM: Versatile
reporting functions’ ja ’SP: Listens to customers’. Muut muuttujat eivät kyenneet selittämään
suositteluhakukkuutta (p-arvot > 0.05).
28
4.9.
Klusterointi
Voit klusteroida aineistoasi manuaalisesti tai käyttäen hierarkkista klusterianalyysiä Professional
Statisticsissa.
4.9.1. Manuaalinen klusterointi
Jos haluat käyttää manuaalista klusterointia tuota aluksi XY-plot ja sitten rajaa kuvasta alue hiiren
vasemmalla, klikkaa hiiren oikealla ja valitse aukeavasta valikosta ‘To cluster’. Input valikkoikkuna
aukeaa, anna klusterille nimi ja paina OK.
K UVA 31: M IELENKIINTOISEN
K UVA 32: J ÄÄNNÖSTEN
ALUEEN VALITSEMINEN JA N IMEÄMINEN
NIMEÄMINEN
29
Vastaavasti jatka rajaamalla muut klusterit. Viimeisen klusterin nimeäminen käy klikkaamalla hiiren
oikealla vielä valitsemattomien havaintojen kohdalla ja valitsemalla Rename a cluster. Rename a
cluster - ikkuna avautuu, kirjoita Old name – kohtaan: 1 ja sitten nimeä loput New name - kohtaan .
Esimerkin kuvista tulee kaksi klusteria: Not satisfied ja Others.
Huomaa, että jos haluat tallentaa klusterit myöhempää käyttöä varten, tallenna ’Clusters’ –
systeemimuuttuja uudella nimellä Pretreatment – osiossa Recode Variable funktiolle.
4.9.2. Hierarkkinen klusterianalyysi
Jos haluat klusteroida aineistosi käyttäen hierarkkista klusterianalyysiä, valitse Multivariate ja
Algorithms osiosta Clustering. Valitse muuttujat X-variables listalta. Huomaa että muuttujien tulee
olla jatkuvia tai dikotomisia (mikä tarkoittaa muuttujaa joka saa arvoja 0 ja 1).
K UVA 33: K LUSTERIANALYYSIN
TUL OKSET
Esimerkkiaineistossa näet Anova testin, joka testaa onko luotujen klustereiden välillä tilastollisia
eroja mukana olevien muuttujien suhteen. Clu 1 mean-, Clu 2 mean- ja Clu 3 mean- sarakkeissa
näet muuttujien keskiarvot kussakin klusterissa. Näiden avulla klustereiden nimeäminen on
helpompaa.
Huomaa, että jos loit vain kaksi klusteria, täytyy klusterien välisiä eroja testata riippumattomien
otosten t-testillä tai Mann-Whitneyn testillä. Anova ei ole silloin oikea testi vaikka se taulukkoon
ilmestyykin.
Huomaa, että jos haluat tallentaa klusterit myöhempää käyttöä varten, tallenna ’Clusters’ –
systeemimuuttuja uudella nimellä Pretreatment – osiossa Recode Variable funktiolle.
30