Big datan mahdollisuudet media-alalla

VTT-R-04362-15
TUTKIMUSRAPORTTI
Big Datan mahdollisuudet mediaalalla
Kirjoittajat:
Asta Bäck, Ville Ollikainen, Caj Södergård, Sari Vainikainen
Luottamuksellisuus:
Julkinen
TUTKIMUSRAPORTTI VTT-R-04362-15
2 (23)
Raportin nimi
Big Datan mahdollisuudet media-alalla
Asiakkaan nimi, yhteyshenkilö ja yhteystiedot
Asiakkaan viite
Viestintäalan tutkimussäätiö
Helene Juhola
Projektin nimi
Projektin numero/lyhytnimi
Big Datan mahdollisuudet media-alalla
102125 /BIGDAME
Raportin laatija(t)
Sivujen/liitesivujen lukumäärä
Asta Bäck, Ville Ollikainen, Caj Södergård, Sari Vainikainen
24/6
Avainsanat
Raportin numero
media, data-analyysi, suositukset, klikkausdata
VTT-R-04362-15
Tiivistelmä
Hankkeen tavoitteena oli edistää mediatalojen mahdollisuuksia palvelujensa kehittämiseen
erityyppisten suositus-, segmentointi- ja ennustusmenetelmien avulla. Konkreettisella tasolla
tavoitteena oli edistää näitä mahdollisuuksia määrittelemällä käyttöön soveltuva
testiympäristö ja tekemällä käytännön kokeiluja esimerkkiaineistoilla.
Hankkeen alussa tehtiin mediatalojen haastatteluja, joissa lupaavina sovelluskohteina esiin
nousivat tilaajien/käyttäjien käyttäytymisen parempi ymmärtäminen eli sisältöjen lukeminen ja
tilaajakäyttäytyminen, suositusten parantaminen, artikkelien metadatoitus, mainosten
kohdistaminen, ja mainosten näyttömäärien ennustaminen.
Hankkeen käytännön työn kohteeksi valittiin klikkausdata ja sen hyödyntäminen palvelujen
käyttötapojen analysoinnissa ja suosituksissa. Suositusten osalta päätettiin rajautua UPCVmenetelmän käyttöön.
Tilastollisten ja koneoppimisen menetelmien soveltamiseen hankkeessa käytettiin avoimen
lähdekoodin R- ja Weka -ohjelmistoja sekä pienessä määrin Microsoftin Azure Machine
Learning -ympäristöä. Näistä viimeksi mainittu tukee mallien kehittämisen ohella myös
kehitettyjen mallien käyttöönottoa REST API -rajapinnan kautta.
Hankkeen aikana analysoitiin kahden mediatalon toimittamaa klikkausdataa. Niistä toinen
perustui evästeisiin, ja toinen kirjautuneiden käyttäjien anonymisoituun käyttödataan.
Aineistoille tehtiin ensin kuvaileva tarkastelu, joka toi esiin mm. evästeiden ikäjakauman ja
eväste/käyttäjätilikohtaiset klikkausmäärät. Assosiaatiosääntöjä käytettiin palveluyhdistelmien
tunnistamiseen. Klusterointia käytettiin luokittelemaan evästeet/käyttäjätilit erilaisten
käyttötapojen mukaisiin ryhmiin. Viikoittaista klikkausmäärää ennustettiin multiclass decision
jungle -menetelmällä. Datan perustella käyttäjistä erottui selviä ryhmiä sekä
palveluyhdistelmien että käyttöaikojen suhteen. Palvelujen käytön toistuvuus tuli aineistossa
hyvin esiin, mikä tarjoaa mahdollisuuksia aikaisten signaalien löytämiseen muuttumassa
olevista käyttötavoista.
UPCV-menetelmää kokeiltiin evästeaineistolla ja menetelmän oletusasetuksilla. Saatuja
suositustuloksia tarkasteltiin laadullisesti aineistosta tasavälein poimitussa otoksessa.
Havaintona oli, että jos käyttäjällä on klikkauksia vain osastotasolle tai vain hyvin suosittuihin
artikkeleihin, suositukset eivät vaikuttaneet merkityksellisiltä; relevantilta vaikuttavien
suositusten tuottamiseksi käyttäjällä tulisi olla klikkauksia myös vähemmän suosittuihin
artikkeleihin.
Hankkeen loppuraportti kertoo tarkemmin klikkausaineiston analysoinnista ja UPCVsuositusmenetelmästä.
TUTKIMUSRAPORTTI VTT-R-04362-15
3 (23)
Summary
This report describes a project which aimed at helping media houses to develop their abilities
in using data for content recommendation, client segmentation and predicting user behaviour.
At concrete level, the purpose was to define a testing environment and run trials on case data
sets.
The first step was to interview media houses to get better understanding of their current
needs and interests. According to these interviews, important focus areas for the companies
were getting better understanding of user behaviour both regarding subscription and reading
patterns. Other important areas were ad targeting and predicting ad views, as well as creating
article metadata and content recommendations.
We analysed two data sets, each of them provided by a Finnish media house. The other
dataset contained cookie based data, and the other click data by anonymised registered
users. We studied life spans and click rates of the cookies and applied association rules to
cluster groups of services that were commonly visited by the same users. We clustered the
cookies and user clicks to match typical user behaviours. Weekly numbers of clicks were
predicted with a Multiclass Decision Jungle method. The data revealed clear clusters of users
based on their use of service combinations, or usage patterns. Repetitive patterns were clear
implying that early signals of user habit changes can indeed be detected.
We applied our own collaborative recommendation method, UPCV, on the cookie data set.
We observed that when the user had accessed only section main pages or the most popular
articles, the recommendations were rather insignificant, whereas few clicks on the less
popular articles made the recommendations seem more relevant.
In the statistical analysis, we applied the open source programs R and Weka as well as the
Microsoft Azure Machine Learning environment.
Luottamuksellisuus
Julkinen
VTT:n yhteystiedot
Asta Bäck, [email protected] Postiosoite: VTT, PL 1000, 02044 VTT
Jakelu
VTT:n nimen käyttäminen mainonnassa tai tämän raportin osittainen julkaiseminen on sallittu vain
Teknologian tutkimuskeskus VTT Oy:ltä saadun kirjallisen luvan perusteella.
TUTKIMUSRAPORTTI VTT-R-04362-15
4 (23)
Sisällysluettelo
Sisällysluettelo........................................................................................................................ 4
1. Johdanto ja tavoite ............................................................................................................ 5
2. Datan hyödyntämisen haasteet ja mahdollisuudet ............................................................ 5
3. Rajaukset .......................................................................................................................... 7
4. Käytön analyysi................................................................................................................. 8
4.1 Evästepohjaisen käyttödatan analysointi................................................................... 8
4.1.1 Esikäsittely ja aineiston kuvaileva tarkastelu ................................................. 8
4.1.2 Assosiaatiosäännöt ja klusterointi ............................................................... 10
4.2 Käyttölokin analysointi ............................................................................................ 12
4.2.1 Esikäsittely ja aineiston kuvaileva tarkastelu ............................................... 12
4.2.2 Klusterointi .................................................................................................. 13
4.2.3 Ennustaminen ............................................................................................. 13
4.3 Tulosten tarkastelu ................................................................................................. 14
5. UPCV-suositusmenetelmän kokeilu ................................................................................ 15
5.1 UPCV menetelmänä ............................................................................................... 15
5.2 Esikäsittely.............................................................................................................. 15
5.2.1 UPCV:n vaatimukset aineistolle .................................................................. 15
5.2.2 Artikkelien suodatus .................................................................................... 16
5.2.3 Käyttäjien suodatus..................................................................................... 16
5.3 Suositusten tuottaminen ......................................................................................... 16
5.4 Analyysi .................................................................................................................. 17
5.5 Tulokset .................................................................................................................. 17
6. Johtopäätökset ja suositukset ......................................................................................... 18
Liite 1. Esimerkkejä suosituksista ......................................................................................... 19
TUTKIMUSRAPORTTI VTT-R-04362-15
5 (23)
1. Johdanto ja tavoite
Sähköistyvä mediakäyttö tuottaa paljon dataa, jonka avulla mediatalot voivat kehittää
tuotteitaan ja palveluitaan vastaamaan entistä paremmin käyttäjien tarpeisiin ja odotuksiin.
Mediatalojen keskeisimpiä omia datalähteitä ovat palvelujen käytöstä syntyvät datavirrat,
asiakassuhteeseen liittyvät tiedot, sekä julkaistavaan sisältöön liittyvä tieto. Datan
hyödyntämiseen liittyy monia kysymyksiä tiedon keräämisestä ja tallentamisesta aina
hyötyjen konkretisoitumiseen asti. Datan keruu ja hyödyntäminen vaatii panostuksia, ja
panostusten perustelemiseksi hyötyjen pitäisi olla selvästi osoitettavissa.
Tässä raportoitavan hankkeen ja tämän raportin tavoitteena on edistää mediatalojen
mahdollisuuksia tarttua datan hyödyntämismahdollisuuksiin. Raportissa annetaan käytännön
esimerkkejä siitä, mitä klikkausdata mahdollistaa. Raportin toivotaan innostavan mediataloja
käytännön toimiin potentiaalisten hyötyjen konkretisoimiseksi.
Hanke toteutettiin VTT:n Intelligent data -tutkimusryhmässä Viestintäalan tutkimussäätiön
rahoituksella. Hankkeessa oli mukana kaksi mediataloa, joiden kanssa käytiin läpi datan
hyödyntämiseen liittyviä tarpeita. Mediatalot myös antoivat dataa käytettäväksi
esimerkkiaineistona.
Hankkeen painopisteet valittiin ohjausryhmässä yhdessä esimerkkiyritysten kanssa.
2. Datan hyödyntämisen haasteet ja mahdollisuudet
Hankkeen puitteissa haastateltiin ohjausryhmässä mukana olleiden mediatalojen edustajia.
Tämän lisäksi osallistuttiin Trondheimin teknisen yliopiston (NTNU) 15.1.2015 Oslossa
järjestämään seminaariin. Norjalaisten alan tutkijoiden kanssa järjestettiin myös onlinekokous.
Suomalaisten mediatalojen kanssa käydyissä keskusteluissa ilmeni seuraavia käytännön
tarpeita ja haasteista:
Lokitietoa ei kerätä systemaattisesti
Käyttötietoja ei välttämättä saa yhdistää käyttäjätietoihin, jolloin ei esimerkiksi pystytä
hyödyntämään mahdollisesti olemassa olevia demograafisia tietoja.
Käytöstä kertyvässä tiedossa evästeiden (cookie) merkitys on suuri, mutta niiden
käyttöön liittyy monia heikkouksia (lyhytikäisyys; yhden evästeen takana voi olla
useampi ihminen; saman ihmisen eri selainten kautta tapahtuva käyttö ei yhdisty)
Eri palveluista (esim. mobiili, näköislehti, verkko) saadaan tietoa eri tarkkuudella eikä
yhden henkilön käyttötavoista saada kokonaiskuvaa.
Juttuja ei ole systemaattisesti ja laajasti metadatoitettu yhtenäisellä tavalla
semanttisten suositusmenetelmin hyödyntämiseksi.
Lupaavina sovelluskohteina nähtiin:
Tilaajakäyttäytymisen parempi ymmärtäminen
o
Sisältöjen lukeminen
o
Tilaajakäyttäytyminen
Suositusten parantaminen
TUTKIMUSRAPORTTI VTT-R-04362-15
6 (23)
Metadatoitus
Mainosten kohdistaminen
Mainosten näyttömäärien ennustaminen
Norjan seminaarissa esiteltiin syksyllä 2014 käynnissä olleen hankkeen tuloksia.
Hankkeessa keskeisessä roolissa olivat olleet suositusmenetelmät ja datan analysointi
lukijaymmärryksen parantamiseksi. Suositukset nähtiin tärkeänä keinona lukijoiden
kiinnostuksen herättämisessä ja ylläpitämisessä. Tulevaisuuden suositusmenetelmistä
puhunut NTNU:n professori, Jon Atle Gulla, esitti seuraavia tulevaisuuden näkemyksiä ja
painopistealueita:
Laaja kontekstin huomioon ottaminen, eli suositusten tulisi ottaa huomioon paikka,
aika, tehtävä ja intentio, mihin mobiilikäyttö antaa aiempaa paremmat mahdollisuudet.
Semantiikan tarjoamien mahdollisuuksien hyödyntäminen eli semantiikan käyttö
entiteettien tunnistamisessa, disambiguoinnissa, ontologisessa rikastamisessa ja
semanttisten suhteiden hyödyntäminen suosituksissa.
Sosiaalisen verkostoanalyysin hyödyntäminen.
Suositusten monipuolisuus, eli suosituksissa on oltava myös yllättävyyttä ja
monipuolisuutta.
Yksityisyyden hallinta on otettava huomioon ja annettava käyttäjille mahdollisuuksia
sen hallitsemiseen.
Seminaarin yrityspuheenvuoroissa ilmeni seuraavanlaisia näkökulmia ja kokemuksia
A/B-testaus, jossa puolet käyttäjistä saa toisen version ja puolet toisen version,
auttaa verkkopalveluun tehtyjen muutosten hyödyllisyyden arvioinnissa todellisten
käyttäjäreaktioiden pohjalta.
A/B-testaus oli osoittanut, että layout-muutoksilla oli saatu kokonaiskäyttömääriin vain
pientä parannusta.
Pääosa yksittäisten uutisartikkelien klikkauksista tulee ensimmäisten 48 tunnin
aikana.
Vain osa artikkeleista on sellaisia, että niitä on perusteltua suositella ensimmäisten
julkaisupäivien jälkeen.
Datan laatu on perusvaatimus, ja vasta kun se on kunnossa, datan hyödyntämisen
voi aloittaa.
Toimituksen ja mainosmyynnin yhteistyötä voidaan helpottaa antamalla toimitukselle
reaaliaikaista tietoa siitä, miten sivunäyttöjen määrä on toteutumassa tärkeille
kohderyhmille (alueilla). Näin juttutuotantoa voidaan suunnata varmistamaan
näyttöjen toteutuminen.
Seuraamalla artikkelilinkkien jakamista esim. Facebookiin voidaan ennakoida tulossa
olevia sivuklikkauksia.
Big Data kiinnostaa paremman asiakasymmärryksen saamiseksi.
Data voi auttaa ymmärtämään ja ennakoimaan myös sitä, miksi tietyt artikkelit
kiinnostavat muita artikkeleita enemmän.
TUTKIMUSRAPORTTI VTT-R-04362-15
7 (23)
3. Rajaukset
Suomalaisia mediataloja kiinnostaneista aiheista tilaajakäyttäytymisen ymmärtäminen,
suositukset ja sisältöjen metadatoitus hankkeen kohteeksi valittiin kaksi ensin mainittua, eli
tilaajakäyttäytymisen ymmärtäminen ja suositukset. Data-aineistoksi valittiin klikkausdata,
jota saatiin kahdesta mediataloista. Tämä aineisto soveltui käyttötapojen analysointiin ja
kollaboratiivisten suosittelumenetelmien hyödyntämiseen. Suositusmenetelmistä kokeiltiin
VTT:llä kehitettyä UPCV-menetelmää.
Aineistoista toinen sisälsi evästepohjaista käyttödataa runsaan kuukauden ajalta sisältäen
tiedot usean eri palvelun käytöstä. Toinen aineisto sisälsi kahden palvelun käyttölokit neljän
viikon ajalta.
Molemmat aineistot koostuivat seuraavista tiedoista:
anonyymi/anonymisoitu käyttäjätunnus,
klikatun sivun osoite ja
klikkausajankohta.
Evästepohjaisessa aineistossa klikkausajankohta oli tunnin tarkkuudella, käyttölokiaineistossa sekunnin tarkkuudella.
Kumpaakin aineistoa analysoitiin käyttötapojen ymmärtämiseksi. Tämä analyysi tehtiin R- ja
pienessä määrin Weka -ohjelmistoilla sekä hyödyntäen Microsoftin Azure Machine
Learning -ympäristöä.
R-ohjelmointikieli on avoimen lähdekoodin ohjelma, joka on alun perin kehitetty
tilastotieteellistä ohjelmointia varten, ja siitä on kehittynyt keskeinen data-analyysin työkalu.
R-kehittäjäyhteisö on aktiivinen ja toiminut pitkään, mikä tarkoittaa, että erilaisten analyysien
ja visualisointien tekemiseen on saatavissa tuhansia kirjastoja. R sopii hyvin niin datan
tarkastelemiseen ja tilastollisiin analyyseihin kuin myös koneoppimisen menetelmien
käyttöön.
Myös Weka on avoimen lähdekoodin ohjelmisto. Siihen on implementoitu useita
koneoppimisen menetelmiä. Menetelmiä löytyy luokittelemiseen, regressiomallien
rakentamiseen, klusterointiin ja assosiaatiosääntöjen soveltamiseen sekä eri menetelmien
tuottamien tulosten visualisointiin.
Microsoftin Azure Machine Learning -palvelu kokoaa monia koneoppimisen menetelmiä
helppokäyttöiseen ympäristöön. Valmiiden komponenttien hyödyntämisen lisäksi
ympäristössä voi hyödyntää itse kehitettyjä R- ja Python -koodeja. Ympäristö tarjoaa myös
mahdollisuuden tarjota kehitettyjä menetelmiä helposti käyttöön REST API -rajapinnan
kautta.
UPCV-menetelmää kokeiltiin evästepohjaisella aineistolla.
TUTKIMUSRAPORTTI VTT-R-04362-15
8 (23)
4. Käytön analyysi
4.1
Evästepohjaisen käyttödatan analysointi
4.1.1
Esikäsittely ja aineiston kuvaileva tarkastelu
Aineisto vietiin tietokantaan, minkä jälkeen pystyttiin tarkastelemaan aineiston sisältöä,
evästeiden ominaisuuksia ja rajaamaan sitä. Datan esikäsittely on tärkeä, varsinaista dataanalyysia edeltävä vaihe, jossa pyritään paikallistamaan aineiston mahdolliset virheet ja
päätetään, mitä virheellisen aineiston suhteen kannattaa tehdä. Tästä tapauksessa
aineistosta löytynyt puutteellinen tai ilmeisen virheellinen aineisto jätettiin tarkastelun
ulkopuolelle.
Tarkastelusta päätettiin jättää pois myös evästeet, joihin liittyvää käyttötietoa oli olemassa
vain yhdeltä päivältä, koska ne eivät pystyneet tuottamaan paljoakaan tietoa
käyttäytymisestä. Data-aineistoa oli myös niin paljon, että analyysi kohdistettiin joka
tapauksessa vain otokseen koko aineistosta.
Toinen datan esikäsittelyvaiheen kysymys oli arvio siitä, miten suuret klikkausmäärät ovat
vielä mahdollisia ihmiselle, ja mitkä ovat syntyneet automaattisen käytön tuloksena. Tästä
tarkastelusta kerrotaan tarkemmin luvussa 5.
Evästeiden elinikä vaihteli paljon (Kuva 1). Aineistossa oli paljon hyvin lyhytkestoisia
evästeitä, vaikka vain yhtenä päivän käytössä olleet evästeet oli poistettu. Pitkäkestoiset
evästeet ovat käyttäytymisanalyysin kannalta kaikkein kiinnostavimmat, ja niiden osalta esiin
tulee parhaiten esiin myös harvemmin toistuvat tapahtumat, kuten monen palvelun käyttö.
Kuva 1. Histogrammi evästeiden eliniästä tutkitussa aineistossa, josta on poissa vain yhtenä
päivänä aktiivisena olleet evästeet; eliniän maksimiarvo oli aineistossa 37 päivää.
TUTKIMUSRAPORTTI VTT-R-04362-15
9 (23)
Kuva 2 esittää evästekohtaisten klikkausmäärien jakauman, joka on hyvin vahvasti oikealle
vino. On siis iso määrä evästeitä, joihin liittyy vain pieni klikkausmäärä. Tästä kertoo se, että
sekä mediaani että yläkvartaalin raja ovat hyvin pienen klikkausmäärän kohdalla. Aineistossa
on kuitenkin myös havaintoja hyvin suurista klikkausmääristä, mitkä nostavat keskiarvon
suhteellisen korkealle.
Kuva 2. Esimerkki klikkausten määrän, oikealle vinosta jakaumasta; punaiset pystyviivat
kertovat mediaanin, ja ylä- ja alakvartiilien sijainnin aineistossa, musta pystyviiva keskiarvon.
Evästepohjaista aineistoa käytettäessä päätelmien tekemisessä on otettava huomioon, miten
pitkä käyttöaika evästeillä on. Esimerkiksi usean palvelun käyttö tulee parhaiten esiin
pitkäikäisten evästeiden osalta: korkeintaan 9 päivää voimassa olleet evästeet ilmaisivat
keskimäärin 1,6 palvelun käytön, kun vähintään 30 päivää voimassa olleiden evästeiden
vastaava arvo oli 2,7 palvelua. Kuva 3 kertoo, että useaa palvelua käyttävät ovat hyvin
aktiivisia käyttäjiä myös kun mittarina käytetään palvelua kohti tehtyä klikkausten määrää.
TUTKIMUSRAPORTTI VTT-R-04362-15
10 (23)
Kuva 3. Palvelukohtaisten klikkausten määrän mediaani käytettyjen palvelujen mukaan
jaotelluissa ryhmissä erikseen sen mukaan, miten monta päivää eväste oli ollut voimassa
(evästeen viimeinen käyttöpäivä miinus evästeen ensimmäinen käyttöpäivä).
4.1.2
Assosiaatiosäännöt ja klusterointi
Varsinaista koneoppimisen menetelmistä tähän aineistoon sovellettiin assosiaatiosääntöjä ja
klusterointia.
Assosiaatiosääntöjen vanhin sovellus on ostoskorien analysointi, eli haetaan suositut
yhdistelmät ja tehdään päätelmät tuotevalikoimista ja hinnoittelusta tämän tiedon perusteella.
Menetelmä soveltuu muidenkin yhdistelmien analysointiin. Tässä hankkeessa
assosiaatiosääntöjä käytettiin suosittujen palveluyhdistelmien tunnistamiseen. Vastaavalla
tavalla voitaisiin analysoida esimerkiksi suosittuja sivuyhdistelmiä.
Assosiaatiosääntöjen soveltaminen tehtiin Weka-ohjelmiston Apriori-algoritmilla. Algoritmi
olettaa datan olevan binääristä, eli se ei ota huomioon käyntimääriä. Saadut tulokset
kertovat, että tässä aineistossa Iltalehti oli hyvin hallitsevassa roolissa, sillä lähes kaikki
käynnit joko alkavat tai päättyvät sinne.
Taulukko 1. Apriori-algoritmilla tuotetut palveluyhdistelmät
Suosituimmat palveluyhdistelmät
iltalehti.fi
+
telkku.com
iltalehti.fi
+
kauppalehti.fi
iltalehti.fi
+
kotikokki.net
etuovi.com
+
iltalehti.fi
aamulehti.fi +
iltalehti.fi
kotikokki.net +
telkku.com
TUTKIMUSRAPORTTI VTT-R-04362-15
11 (23)
Klusterointi on menetelmä, jonka avulla voidaan pyrkiä hahmottamaan ison datamassan
osajoukkoja. Hankkeessa klusterointia hyödynnettiin hahmottamaan eri palvelujen käyttöä.
Klusterointi tehtiin Weka-ohjelmiston x-means-klusterointialgoritmilla. X-means on K-means
menetelmä sillä parannuksella, että käyttäjä voi määritellä yhden K-arvon sijasta kaksi rajaarvoa ja ohjelmisto luokittelee aineiston kaikilla raja-arvon sisään jäävillä klusterimäärillä ja
valitsee niistä parhaan.
Kuva 4 näyttää esimerkin klusteroinnin tuloksista. Evästeiden klusterointi on tehty eri
palveluiden käyttöosuuksien perusteella. Kooltaan suurin klusteri (punainen) koostuu
käyttäjistä, jotka käyttävät lähinnä pelkästään Iltalehteä. Seuraavat kaksi klusteria (turkoosi ja
sininen) ovat melko samansuuruiset. Sininen klusteri sisältää käyttäjät, joilla Iltalehden osuus
on vielä korkea, mutta mukana on myös muiden palvelujen käyttöä. Mitä korkeammalla
siniset pisteet ovat, sitä enemmän käyttäjät lukevat nimenomaan Kauppalehteä. Turkoosissa
klusterissa käytetään jossain määrin Iltalehteä ja Kauppalehteä, mutta mukaan tulee myös
muiden palvelujen kuten Kotikotin käyttöä. Pienimmän, vihreällä havainnollistetun klusterin
käyttäjillä painottuu Kauppalehden käyttö.
Kuva 4. Esimerkki klusteroinnin visualisoinnista. Evästeiden klusterointi on tehty palveluiden
käyttöosuuksien perusteella.
TUTKIMUSRAPORTTI VTT-R-04362-15
12 (23)
4.2
Käyttölokin analysointi
4.2.1
Esikäsittely ja aineiston kuvaileva tarkastelu
Toinen analysoitu esimerkkiaineisto sisälsi anonymisoituna rekisteröityneiden käyttäjien
käyttölokin neljän viikon ajalta. Aineiston esikäsittely vaati ainoastaan erillisten tiedostojen
yhdistämisen yhdeksi tiedostoksi; virheellisiä tietoja aineistosta ei löytynyt. Aineiston
kokonaismäärä oli noin 800 000 riviä dataa, joten se oli helposti käsiteltävissä yhtenä
kokonaisuutena.
Evästedataan verrattuna tämä aineisto antaa todennäköisesti keskimäärin luotettavamman
kuvan yksittäisten käyttäjien käyttötavoista, koska rekisteröinnin kautta on mahdollista saada
tieto palvelun käytöstä eri päätelaitteilta. Käyttäjät voivat kuitenkin käyttää palvelua myös
rekisteröitymättä, joten täyttä varmuutta käytön kattavuudesta ei ole, sillä henkilö voi
esimerkiksi käyttää palvelua rekisteröityneenä yhdeltä laitteelta, mutta vierailee palvelussa
rekisteröitymättä muita päätelaitteita käyttäen. Samaa tunnusta voi myös käyttää useampi
kuin yksi henkilö, joten eri käyttäjät voivat sekoittua tässä samoin kuin evästeiden kohdalla.
Tässä analysoituun aineistoon sisältyi varsinaisen uutissivuston käyttö, eikä aineisto
sisältänyt esimerkiksi keskustelupalstan käyttöä. Näköislehteen meno kirjautui aineistoon,
mutta ei näköislehden sisällä tapahtuva käyttö. Lukulaitelehden käyttö ei näkynyt aineistossa
millään tavalla. Aineisto ei siis mahdollistanut kattavan kokonaiskuvan muodostamista, vaan
se rajoittui verkossa olevan uutissivuston käyttöön.
Yleiskuvan saamiseksi tarkasteltiin käyttäjäkohtaisia käyntikertoja ja klikkausmääriä. Myös
tässä aineistossa käyntikertojen ja klikkausmäärien jakauma on selvästi oikealle vino.
Käyntitiheyttä voidaan tarkastella eri kriteerein, esimerkiksi käyntipäivien ja käyntiviikkojen
lukumäärän osalta. Käyntipäivien lukumäärä antaa käyntiviikkojen lukumäärän verrattuna
realistisemman kuvan käyttötiheydestä.
Ryhmittely käyttöaktiivisuuden mukaan luo ryhmät, jotka poikkeavat toisistaan myös sen
mukaan, millaisia sisältöjä ne käyttävät verkkopalvelussa. Taulukko 2 kertoo, miten
klikkaukset kohdistuvat eri osastoihin. Käyttäjät oli tätä tarkastelua varten ryhmitelty sen
mukaan, miten monena seurantajakson viikkona he olivat käyneet palvelussa, ja kustakin
ryhmästä otettiin noin 300 käyttäjän satunnaisotos. Joka viikko käyneiden lukijoiden
keskuudessa uutissisältö on tärkeässä roolissa, kun taas vain yhtenä viikkona käyneillä
asiakaspalvelun käyttö on tärkeää. Näköislehti on melko tasaisen suosittu kaikissa ryhmissä.
Taulukko 2. Osastoittainen käyttö neljässä ryhmässä, johon kuhunkin poimittiin noin 300
satunnaista käyttäjää. Ryhmät muodostettiin käyntiviikkojen lukumäärän perusteella.
Käynti 4 viikkona
323 käyttäjää, 44 957 klikkausta
etusivu NA
17478
uutiset kotimaa
12086
uutiset keski-suomi
3567
nakoislehti NA
3277
uutiset talous
1493
uutiset viihde
888
uutiset ulkomaat
711
uutiset NA
676
sisis NA
481
urheilu uutiset
458
mielipide NA
331
asiakaspalvelu omat-tiedot 304
38,9 %
26,9 %
7,9 %
7,3 %
3,3 %
2,0 %
1,6 %
1,5 %
1,1 %
1,0 %
0,7 %
0,7 %
Käynti 3 viikkona
329 käyttäjää, 13 145 klikkausta
etusivu NA
3882
uutiset kotimaa
3459
nakoislehti NA
973
uutiset keski-suomi
949
asiakaspalvelu omat-tiedot502
uutiset talous
478
uutiset ulkomaat
310
uutiset viihde
277
uutiset NA
243
urheilu uutiset
140
kirjaudu NA
113
erikoissivut verotiedot 112
29,5 %
26,3 %
7,4 %
7,2 %
3,8 %
3,6 %
2,4 %
2,1 %
1,8 %
1,1 %
0,9 %
0,9 %
Käynti 2 viikkona
326 käyttäjää, 6 792 klikkausta
etusivu NA
1835
uutiset kotimaa
1459
asiakaspalvelu omat-tiedot614
nakoislehti NA
514
uutiset keski-suomi
380
uutiset talous
175
uutiset NA
164
uutiset viihde
161
uutiset ulkomaat
127
sisis NA
108
asiakaspalvelu tilaus
101
lukulaitelehti NA
97
27,0 %
21,5 %
9,0 %
7,6 %
5,6 %
2,6 %
2,4 %
2,4 %
1,9 %
1,6 %
1,5 %
1,4 %
Käynti 1 viikkona
298 käyttäjää, 2 333 klikkausta
asiakaspalvelu omat-tiedot 746
32,0 %
etusivu NA
390
16,7 %
uutiset kotimaa
302
12,9 %
nakoislehti NA
133
5,7 %
uutiset keski-suomi
82
3,5 %
asiakaspalvelu tilaus
55
2,4 %
asiakaspalvelu NA
53
2,3 %
uutiset viihde
51
2,2 %
uutiset talous
40
1,7 %
asiakaspalvelu changePassword.do
36
1,5 %
uutiset NA
36
1,5 %
uutiset ulkomaat
30
1,3 %
Taulukko 2 kertoo myös sen, että iso osa klikkauksista kohdistuu etusivulle tai osastojen
etusivuille (kaikki joissa osastonimen jälkeen on merkintä NA). Lukijaprofiilin luomisen
kannalta nämä sivut eivät ole erityisen informatiivisia, joten monipuolisen profiilin
aikaansaamiseksi monien käyttäjien kohdalla dataa pitää kerätä melko pitkään.
TUTKIMUSRAPORTTI VTT-R-04362-15
13 (23)
Viikoittaisten ja päivittäisten käyttömäärien välillä on melko korkea korrelaatio (viikkojen
välillä 0.79 – 0.91; päivien välillä 0,6 -0,8 välillä).
4.2.2
Klusterointi
Tämän aineiston osalta klusterointia sovellettiin käyttäjien luokittelemiseksi käyttöaikojen
perusteella. Vuorokausi jaettiin kuuteen jaksoon alkaen varhaisesta aamusta kello 5:30
jatkuen yöhön 0:30 asti, ja jokaisen käyttäjän osalta laskettiin miten heidän seurantajakson
käyttökertansa jakautuivat näihin ajanjaksoihin. Käyttöaikajakauman lisäksi mallissa otettiin
huomioon kokonaiskäyntikertojen määrä.
Aineistosta oli muodostettavissa ryhmät, jotka poikkeavat toisistaan selvästi käyttötapojensa
suhteen (Kuva 5). Aikaisin aamulla ja vain iltaisin vierailevat käyttäjät edustavat melko pientä
osaa kaikista käyttäjistä. He myös olivat tehneet vain joitakin kymmeniä sivuklikkauksia
palvelussa. Muissa kolmessa ryhmässä klikkauksia oli keskimäärin lähes sata. Suurimman
käyttäjäryhmän muodostaa päiväsaikaan painottuvat käyttäjät; neljännes käy palvelussa
iltapainotteisesti, ja 11 % painottaa käynnit aikaiseen aamuun.
Kuva 5. Käyttäjien klusteroinnilla tuotettu ryhmittely viiteen ryhmään käyttöaikojen ja
käyttömäärän suhteen.
4.2.3
Ennustaminen
Koneoppimisen menetelmillä tyypillisesti tavoitellaan tulevaisuuden tapahtumien ennustamista. Tämä aineisto tarjosi mahdollisuuden ennustaa vierailuja sivustolla. UPCV-suositusmenetelmä pyrkii ennustamaan sitä, mikä sivu olisi tietyn käyttäjän kannalta kiinnostava ja
todennäköisesti klikkaa, ja siitä kerrotaan Luvussa 5.
Toinen, tässä aineistossa mahdollinen ennustamisen kohde oli käyttömäärä määritellyllä
ajanjaksolla. Yksittäisten käyttäjien käyttöaikojen ja -määrien tarkastelu antoi indikaatiota
siitä, että käyttö toistuu hyvin samantapaisena päivästä ja viikosta toiseen, joten tehtiin kokeilu, jossa pyrittiin ennustamaan, miten monta sivua käyttäjä tulee klikkaamaan viikolla neljä
kolmen ensimmäisen viikon käyttäytymisen perusteella. Ennuste tehtiin käyttäen ennusteessa neljää eri luokkaa: 0 klikkausta, 1 - 10 klikkausta, 11 - 50 klikkausta ja yli 50 klikkausta.
TUTKIMUSRAPORTTI VTT-R-04362-15
14 (23)
Kuva 6. Tulokset neljännen viikon käyttömäärän ennustamisesta aiempien kolmen viikon
käyttömäärien ja käyttöajankohdasta olevan tiedon perusteella. Diagonaali kertoo, miten
hyvin mallin ennuste onnistui eri käyttöluokissa.
Käyttäjät jakautuivat melko tasaisesti näihin neljään ryhmään; vain ylin ryhmä, yli 50
klikkausta, oli hieman muita pienempi.
Kuva 6 näyttää tulokset Microsofting Azure Machine Learning -ympäristössä tehdystä,
Multiclass decision jungle-menetelmällä tehdystä ennusteesta. Malli pystyi parhaiten
ennustamaan 0-käytön, ja huonoin ennustettavuus oli 1-10 klikkausta viikossa tekevälle
ryhmälle.
Palvelun käytön ennustettavuutta voidaan tarkastella myös korrelaatioiden avulla.
Esimerkkiaineistossa päivittäisen klikkausmäärien välinen korrelaatio liikkui pääosin 0,7:n ja
0,8:n välillä, mitä voidaan pitää kohtalaisen korkeana.
4.3
Tulosten tarkastelu
Käytettävään dataan liittyi kummassakin aineistossa epävarmuus siitä, miten havainto
korreloi yksittäiseen käyttäjään. Evästepohjaisessa aineistossa yksittäisten käyttäjien
käyttöhistoria hajautuu monen evästeen taakse; käyttölokiaineistossa osa käytöstä voi jäädä
pimentoon, koska käyttäjät eivät välttämättä kirjaudu sisään kaikissa käyttämissään
päätelaitteissa. Kummassakin aineistossa yhden tunnuksen takana voi olla useampi kuin
yksi henkilö. Tästä voisi sinänsä tehdä päätelmiä tarkastelemalla käytön tilastollisia
ominaisuuksia ja vierailtuja sivuja; esimerkiksi saman artikkelin toistuva klikkaaminen saman
päivän aikana viittaa useampaan käyttäjään.
Evästepohjaisessa aineistossa evästeiden ikä vaihtelee suuresti. Kun tällaista aineistoa
hyödynnetään, on syytä arvioida, miten evästeiden ikäjakauma vaikuttaa tutkittavaan asiaan,
ja esimerkiksi tarkastella vain tietyn rajatun ikähaarukan omaavia evästeitä.
Rekisteröityneiden käyttäjien käyttäytymisen tarkastelu antaa todennäköisesti evästeitä
kattavamman kuvan käyttötavoista, vaikka myös tähän aineistoon liittyy epävarmuustekijöitä.
Kattavan datan kerääminen on iso haaste. Tällainen, käyttöä osittainkin kuvaava aineisto
antaa kuitenkin suuntaviivoja palvelujen käytöstä ja käyttäytymismalleista. Ja voi antaa
hyödyllisiä oivalliksia.
TUTKIMUSRAPORTTI VTT-R-04362-15
15 (23)
5. UPCV-suositusmenetelmän kokeilu
5.1
UPCV menetelmänä
UPCV on yleiskäyttöinen yhteistoiminnallinen (kollaboratiivinen) suositusmenetelmä, joka
oppii käyttäjän ja tuotteen (item) välisistä vuorovaikutuksista, kuten käyttäjän klikkauksista
tiettyihin artikkeleihin. Menetelmässä kullakin käyttäjällä ja kullakin tuotteella on oma
varastonsa (”pino”) ,johon kerrytetään satunnaislukuja (”tokeneita”). Tokeneilla ei ole
vastinetta reaalimaailmassa - tokenin satunnaisluku ei itsessään merkitse mitään.
Klikkauksen seurauksena osapuolet kopioivat toistensa pinoista muutamia satunnaisesti
valittuja tokeneita. Kopioitavat tokenit voivat toki olla vasta pinoon tulleita tai siellä jo pitkään
olleita. Samaa artikkelia klikanneille käyttäjille kertyy tilastollisesti tarkastellen samoja
tokeneita, samoin kuin saman käyttäjän klikkaamille artikkeleille. Tokenit saavat levitä
rajoituksetta.
Suositukset voidaankin tehdä yksinkertaisesti vertaamalla kahden pinon samankaltaisuutta,
kuuluivatpa nuo pinot sitten käyttäjälle tai artikkelille.
Tieto siitä, kuka klikkaisi mitäkin, voidaan unohtaa tokeneiden vaihtamisen jälkeen. Koska
token on pelkkä satunnaisluku, ei sekään kuljeta historiatietoa. Koska tokeneilla ei ole
merkitystä reaalimaailmassa, ei niistäkään voi vetää johtopäätöksiä. Tämän vuoksi UPCVmenetelmän voidaan katsoa suojaavan yksityisyyttä poikkeuksellisen hyvin.
UPCV mahdollistaa myös monen toimijan suositusympäristöt, myös sellaiset, joissa käyttäjän
pino sijaitsee eri tietorakenteessa kuin tuotteiden pinot; ne voivat jopa olla käyttäjän itsensä
hallussa.
Menetelmään pohjautuva suosituskone sallii suositusten pyytämisen millä hetkellä hyvänsä.
Tällöin opetusaineistona ovat toimineet kaikki suositushetkeä edeltäneet vuorovaikutukset, ja
suosituksia etsitään kaikista artikkeleista, joita kuka tahansa on ennen suositushetkeä
klikannut.
Mainittakoon vielä, että muiden yhteistoiminnallisten suosittelijoiden tapaan menetelmä toimii
sitä paremmin, mitä vähemmän aineisto sisältää satunnaisia tai muuten merkityksettömiä
vuorovaikutuksia (kohinaa).
5.2
Esikäsittely
5.2.1
UPCV:n vaatimukset aineistolle
UPCV oppii siis käyttäjän ja tuotteen välisistä vuorovaikutuksista, joten mikä tahansa
klikkausloki voidaan helposti muuntaa UPCV-suosituskoneen lähdetiedostoksi. Tuotteina
käytettiin artikkeleja, tarkemmin ottaen niiden www-osoitteita, joista muodostettiin 64-bittinen
tunniste (item ID). Käyttäjien tunnisteina (item ID) käytettiin evästeitä, ja myös ne muokattiin
64-bittisiksi. Näitä muunnoksia tarkastellaan lyhyesti seuraavissa kappaleissa.
Kukin klikkaus tuotti lähdetiedostoon yhden rivin.
Laskenta-aika täytyi huomioida aineiston suuren määrän vuoksi. Kaikki menetelmän kannalta
vähemmän tärkeä karsittiin pois niin aineistosta kuin suosituskoneestakin, jotta aineiston
määrä pienenisi ja suosituskone saataisiin toimimaan mahdollisimman pitkälti keskusmuistia
hyödyntäen, kovalevyn käyttö minimoiden.
TUTKIMUSRAPORTTI VTT-R-04362-15
16 (23)
5.2.2
Artikkelien suodatus
Kokeilussa käytetty evästedata sisälsi myös sellaisia domaineja, jotka eivät kuuluneet
tarkasteltavien 40 domainin joukkoon; muun muassa välimuistien osoitteita esiintyi
domainien nimissä. Nämä suodatettiin pois.
Tämän jälkeen suodatettiin pois kaikki osoitteet, jotka selkeästi osoittivat jollekin etusivulle
(esimerkiksi ”main” tai ”etusivu”), hakusivulle tai muulle sellaiselle sivulle, jonka ei ajateltu
kuvaavan mitään erityistä aihepiiriä (esimerkiksi ”uutiset”, ”sää” tai ”logged-out”). Toisaalta
aihekohtaiset hakemistosivut, kuten ”jääkiekko” tai ”terveys”, jätettiin aineistoon ikään kuin ne
olisivat itsenäisiä artikkeleja.
Jäljelle jääneistä rivien osoitteista laskettiin 64-bittinen hash, joka taulukoitiin yhdessä
alkuperäisen osoitteen kanssa myöhempää analyysiä varten. Näitä hashejä käytettiin
menetelmässä artikkelien tunnisteina (item ID), ja niitä kertyi noin 118.000.
5.2.3
Käyttäjien suodatus
Aineistosta pääteltiin, että käyttäjien joukossa on runsaasti robotteja, joiden tarkoitus on
ilmeisesti indeksoida aineistoa eri hakukoneita varten. Menetelmän kannalta ne lisäävät
kohinaa, joten ne pyrittiin poistamaan. Tunnistus tapahtui seuraavilla säännöillä:
-
Saman evästeen aktiviteetti pysyy vakiona päivästä toiseen (klikkausmäärän
päivittäinen keskihajonta per päivittäinen keskiarvo, huomioiden vain ne päivät, jolloin
evästeelle oli kirjautunut vähintään yksi klikkaus). Rajaksi asetettiin 0,3.
-
Evästeen päivittäinen klikkausmäärä ylitti tietyn rajan jonain päivänä. Rajaksi
asetettiin 255 klikkausta.
Evästeet olivat UUID v4 –tyyppisiä satunnaislukuja, joten käyttäjän tunnisteeksi voitiin
yksinkertaisesti valita evästeen 62 viimeistä bittiä (syntymäpäiväparadoksin mukaisesti kaksi
62-bittistä tunnistetta syntyy 50% todennäköisyydellä vasta, kun käyttäjä olisi noin kaksi
miljardia; tällöinkin sekaannus olisi tulosten kannalta merkityksetön).
Analysoitavaksi jäi noin 5,6 miljoonaa eri käyttäjätunnistetta, ja rivejä niillä oli aineistossa 308
miljoonaa.
5.3
Suositusten tuottaminen
Esikäsitelty aineisto syötettiin UPCV-suosituskoneelle kronologisessa järjestyksessä
eräajona. Joka 100.000 rivin jälkeen tehtiin rivillä olleelle käyttäjätunnisteelle suositus, johon
liitettiin se aikaleima, joka aineistossa oli suositushetkellä. Käsittelynopeudeksi osoittautui
keskimäärin 16 miljoonaa riviä päivässä käyttäen Dell E6430 –kannettavaa (i7-3540M, 3
GHz, 8GB RAM, 64b-Windows 7 ), vastaten siis keskimäärin noin 5 ms käsittelyaikaa per
rivi. Eräajo kesti kolmisen viikkoa.
Suosituskone piti muistissaan käyttäjän 50 viimeisintä klikkausta, eikä suositellut niitä.
Muuten suositukset kohdistuivat koko aineistoon (118.000 artikkelia), aina senhetkisen
opetuksen mukaisesti.
Eräajo tehtiin niillä oletusasetuksilla, jotka on aiemmin todettu toimiviksi: Pinojen
maksimikoko oli 64 tokenia, minkä tultua täyteen tokeneita poistettiin satunnaisesti.
Vuorovaikutuksessa kopioitiin kerrallaan enintään 15% senhetkisistä vastaanottajan
tokeneista plus yksi. Todettakoon, että pinon koko valittiin näinkin pieneksi sen vuoksi, että
eräajon vaatima aineisto mahtuisi mahdollisimman hyvin keskusmuistiin.
TUTKIMUSRAPORTTI VTT-R-04362-15
17 (23)
Suosituskone etsi artikkelien joukosta käyttäjän token-pinon kanssa mahdollisimman
samankaltaisia pinoja käyttäen Jaccardin samankaltaisuutta.
Erään uudelleenkäynnistyksen yhteydessä aiempi suositusloki pyyhkiytyi yli, mutta
suosituksia saatiin silti noin 1900.
5.4
Analyysi
Tuloksia tarkasteltiin laadullisesti. Käyttäjän klikkausten haku klikkausdatasta kesti noin 50
minuuttia per käyttäjä, vaikka hakunopeus olikin 200.000 kilkkausdatan riviä sekunnissa.
Aineiston runsaus asetti siis omat rajoituksensa myös laadullisen analyysin laajuuteen.
Suosituksista poimittiin ne, joiden käyttäjätunniste oli sadalla jaollinen. Näiden 18 käyttäjän
klikkaukset etsittiin raakadatasta ja eroteltiin aikaleiman perusteella suositushetkeä ennen ja
sen jälkeen tehtyihin klikkauksiin. Koska aineiston aikaleimojen resoluutio oli yksi tunti, ei
kaikissa tapauksissa kyetty aivan tarkkaan erotteluun.
Lopuksi tehtiin kvalitatiivinen analyysi etsien klikkauksia vastaavat artikkelit www-haulla ja
kirjaamalla artikkelin otsikko ylös. Hakemistosivujen kohdalla aihe oli itsestään selvä, samoin
joidenkin domainien kohdalla osoite kertoi jo otsikon.
5.5
Tulokset
Yksi keskeisimmistä havainnoista oli, että ne käyttäjät, joilla suositushetkeen mennessä ollut
pelkästään tai pääosin osastotason ja suosittujen artikkelien klikkauksia, saivat tyypillisesti
lyhyehköjä suosituslistoja, jotka sisälsivät satunnaisilta vaikuttavia tuloksia. Liitteen 1
esimerkit 1-3 ovat esimerkkejä tästä.
Artikkelin suosion saattoi päätellä jo siitä, että niitä löytyi analyysiinkin päätyneiden käyttäjien
kohdalta lukuisia.
Sen sijaan jos joukossa oli vähemmän klikattuja artikkeleja, syntyi suosituksia runsaasti,
myös eri palvelujen välille, ja suositukset vaikuttivat relevanteilta. Erittäin laaja opetusaineisto
on esitetty Liitteen 1 esimerkissä 4. Tämä esimerkki antaa viitteitä siitä, että tokenien
vaihtoprosentti suosisi viimeksi klikattuja artikkeleja, ja se voisi olla pienempikin: juuri ennen
suosituksia käyttäjä oli klikkaillut rikosartikkeleja, ja myös suosituslistan kärkipaikoilla oli
rikosartikkeleja. Tässä nimenomaisessa tapauksessa suosituslistan ensimmäinen artikkeli oli
myös käyttäjän myöhemmin klikkaamien artikkelien joukossa.
Viimeinen esimerkki liitteessä 1 on käyttäjältä, jonka opetusaineistossa oli yleisten artikkelien
lisäksi muutama harvinaisempi, kyberturvallisuuteen liittyvä artikkeli. Suosituksiin päätyi
poikkeuksellisen monta työpaikkailmoitusta, joista yksi on nimikkeellä ”Data Protection
Officer” ja kaksi IT-alaan viittaavia.
Kaiken kaikkiaan suositukset eivät keskittyneet vain joihinkin artikkeleihin, vaan tarjosivat
sisältöä monipuolisesti.
TUTKIMUSRAPORTTI VTT-R-04362-15
18 (23)
6. Johtopäätökset ja suositukset
Liiketoiminnan kehittäminen datan avulla on tärkeä mahdollisuudeksi mediapalveluiden
ja -liiketoiminnan kehittämisessä. Datan avulla käyttäjistä ja käyttötavoista voidaan saada
lisää ymmärrystä, mikä auttaa palvelujen kehittämisissä ja uudistamisessa. Artikkelisuositukset ja parempi mainosten kohdistaminen ovat puolestaan esimerkkejä siitä, miten dataa
voidaan käyttää suoraan paremman palvelun tuottamisessa.
Tämän hankkeen tavoitteena oli edistää liikkeelle lähtöä datan hyödyntämisessä ja kohteeksi
valittiin kohtalaisen helposti kerättävissä olevan klikkausdatan käyttäminen. Palveluiden
käyttöä tarkastellaan yleensä sivujen näkökulmasta, klikkausdata antaa mahdollisuuden
tarkastella käyttöä käyttäjänäkökulmasta. Klikkausdatan klusteroinnin avulla pystyttiinkin
tunnistamaan käyttötapoihin ja käyttöajankohtiin liittyviä isompia yhtenäisiä ryhmiä. Tätä
voidaan käyttää palvelujen kehittämisessä eri segmenteille.
Klikkausdataan liittyy myös rajoituksia, joista suurin on se, että yksittäisen käyttäjän käyttö
hajautuu useimmiten monen eri evästeen taakse. Analysoidussa aineistossa tästä kertoi vain
päivän voimassa olleiden evästeiden suuri määrä. Kun klikkausdataa hyödynnetään, on
selvitettävä ja otettava huomioon, mikä on aineiston evästeiden ikäjakauma ja miten se voi
vaikuttaa analyysin tuloksiin.
Nyt tehdyissä tarkasteluissa tavoiteltiin pitempiaikaisen käyttäytymisen ymmärtämistä. Yksi
mahdollinen jatkokehityssuunta on pyrkiä ymmärtämään aiempaa paremmin yksittäisen
session tai päivän aikaista käyttäytymistä.
Analyysit antoivat selvää indikaatiota siitä, että palvelujen käyttö toistuu hyvin samanlaisena
päivästä ja viikosta toiseen. Anonymisoitujen tilaajien käyttölokin perusteella viikkotason
käyttömäärä pystyttiin ennustamaan varsin hyvin edellisten kolmen viikon käyttäytymisen
perusteella. Käyttömäärän ja käyttötiheyden seuraaminen onkin alue jonka avulla voidaan
pyrkiä hakemaan aikaisia signaaleja käyttäytymiseen liittyvistä muutoksista, ja näin
esimerkiksi ennakoida kasvanutta riskiä tilauksen lopettamiseen.
Nyt käytettävissä oli vain klikkausdata. Monipuolisempi data, esimerkiksi tilaushistorian tai
demograafisten tietojen liittäminen antaisi paljon uusia mahdollisuuksia käyttötapojen
ymmärtämiseen ja ennustesovellusten tekemiseen. Tämä kuitenkin vaatii, että mediatalolla
on tietojen yhdistämisen mahdollistava rekisteriseloste, ja tietenkin myös käytännön
mahdollisuudet datan hankkimiseen.
Työkaluja datojen analysointiin ja koneoppimisen menetelmien soveltamiseen on tarjolla jopa
ilmaiseksi tai suhteellisen edullisesti. Tietojen kerääminen ja esikäsittely voi sitä vastoin olla
paljonkin resursseja vaativa vaihe. Vaiheittainen eteneminen tiedonkeruussa ja hyötyjen
konkretisoinnissa onkin hyvä lähtökohta.
Suositusmenetelmät voidaan jakaa karkeasti kahteen osaan: kollaboratiivisiin eli
yhteistoiminnallisiin, ja semanttisiin eli metadataa hyödyntäviin menetelmiin. Metadatoitus ja
metadatan hyödyntäminen on iso alue, johon ei tässä hankkeessa pystytty panostamaan.
Kollaboratiivista UPCV-suosituskonetta kokeiltiin projektissa oletusasetuksilla. Koe antoi
lupaavia tuloksia, mikäli käyttäjällä oli massasta poikkeavia klikkauksia. Menetelmän
tarkempi arviointi edellyttäisi todellisessa käyttöympäristössä tehtävää A/B-testausta jonkin
toisen suositusmenetelmän kanssa. Samalla suosituskoneen parametrit on syytä optimoida
arvioinnissa käytettäviä suorituskykymittareita vastaaviksi.
TUTKIMUSRAPORTTI VTT-R-04362-15
19 (23)
Liite 1. Esimerkkejä suosituksista
Esimerkki 1: Suositus pienelle ja yleisluontoiselle opetusaineistolle (ID 111209fb9ccab75c)
Opetusaineisto
viihde
jalkapallo
talviurheilu
digi
ulkomaat
urheilu
Suositukset
If aloittaa yt-neuvottelut Suomessa
Uusi todistaja ääneen Auer-käräjillä: Väittää asiakkaansa tunnustaneen surman
Dresdenissä tuhannet marssivat "islamisaatiota" vastaan
Vaalimaalla rauhallista: Venäläisturisteja virtaa Suomeen maltillisesti
aamulehti.fi: 300x250_meedio_pirkanmaa
rannikkoseutu.fi: blogit
monster.fi: IT_4
Multian osuuspankki vaihtaa ryhmaa mutta säilyy itsenäisenä
iltalehti.fi: ilona
Helander lupaa muutoksia Keskoon
Petäjäveden Osuuspankki valmistelee siirtymistä itsenäisenä
Tässä ovat parhaat lukiot
Puukotus Härkitiellä - poliisi kaipaa vihjeitä
Helsinki: Logistiikka- ja osto- ja hankintatehtävät
telkku.com: programtable
telkku.com: subscription
Näkökulma: Soinin legendaarinen virhe
iltalehti.fi: index.shtml
Esimerkki 2: Minimaalinen suositus minimaaliselle ja yleisluontoiselle opetusaineistolle (ID
f4e4240d65a5c18)
Opetusaineisto
iltalehti.fi: viihde
Suositukset
Kohta tuttu tv:stä: Naantalilaissukeltaja tutkii 300 vuoden takaista hylkyä
Poliisi haluaa käteistä
TUTKIMUSRAPORTTI VTT-R-04362-15
20 (23)
Esimerkki 3: Lyhyehkö suositus laajahkolle, mutta yleisluontoiselle opetusaineistolle (ID
d1d5f8abe07a254)
Opetusaineisto
iltalehti.fi: rakkausjaseksi
iltalehti.fi: laihdutus
Tätä suomalaiset odottavat vuodelta 2015
Kateissa ollut Nikke Ankara löytyi - Poliisi: "Hän
on nyt turvassa"
iltalehti.fi: fiidifi
iltalehti.fi: leffat
iltalehti.fi: perhe
iltalehti.fi: pinnalla
iltalehti.fi: terveys
iltalehti.fi: iltv-hyvaolo
iltalehti.fi: muoti
iltalehti.fi: syopa
iltalehti.fi: kuntoilu
Tällaista on kulissien takana delfinaariossa
iltalehti.fi: elintavat
iltalehti.fi: kauneus
iltalehti.fi: smliiga
iltalehti.fi: ruoka
iltalehti.fi: viihde
iltalehti.fi: ilona
iltalehti.fi:
iltalehti.fi: asuminen
iltalehti.fi: matkajutut
iltalehti.fi: kauneudeksi
iltalehti.fi: mieli
iltalehti.fi: ulkomaat
iltalehti.fi: oho
iltalehti.fi: urheilu
Onko sinulla kokemusta krapulasta? Helsingin
yliopisto etsii koehenkilöitä tällä kriteerillä
Kotiin palannutta teinien äitiä odotti järkyttävä
yllätys
iltalehti.fi: nhl
iltalehti.fi: satakysymystaseksista
telkku.com: programtable
iltalehti.fi: hiukset
iltalehti.fi: hyvaolo
iltalehti.fi: tosielamaa
iltalehti.fi: catwalk
iltalehti.fi: viikon-laihduttaja
iltalehti.fi: popstars
iltalehti.fi: autot
Pariskunta teki yllättävän löydön lenkkipolulta
Ulvilasta
Suositukset
Poliitikko nujakoi kitukasvuisten kuusien takia
monster.fi: 143861483
kainuunsanomat.fi: kanta-asiakaslahja
Tupakka-askin hinta nousee 30 senttiä
Vasta vapautunut elinkautisvanki tunnusti Kuopion
henkirikoksen
myyjaosta.com: 1697939
Ilkka: 97-vuotias juhli Linnassa - koruvarkaat iskivät kotiin
Loton päävoitto jäi jakamatta - miljoonapotti kasvaa
Onko sarjaraiskaaja kaksoismurhaaja?
TUTKIMUSRAPORTTI VTT-R-04362-15
21 (23)
Esimerkki 4: Suositukset erittäin laajalle opetusaineistolle (ID 1506a7a687849f48). Ennen
suositushetkeä opetusaineistossa oli rikosartikkeleja; aihepiiri esiintyy myös suosituslistan.
Taulukon ulkopuolelta todettakoon, että suositusten ensimmäinen artikkeli
(Kristillisdemokraatit erotti…) löytyi myöhemmin klikattujen artikkelien listalta.
Opetusaineisto
Asiantuntija kyseenalaistaa Valviran rekkatulkinnan: Katosivatko
perinnetölkit
turhaan?
iltalehti.fi:
matkailu
iltalehti.fi: cgi-bin
Ilmatieteen laitos: Tänään luvassa talven toistaiseksi kovin myrsky
iltalehti.fi: matkajutut
iltalehti.fi: ulkomaat
Näkökulma: Kiikun kaakun [keskustalainen lomabisnes]
Ministeriö: Tuulituhot voivat nousta miljooniin euroihin
Perjantain myrsky: Pahimmillaan lähes 10 000 taloutta vailla sähköä
iltalehti.fi: viihde
iltalehti.fi: iltvuutiset
iltalehti.fi: kuninkaalliset
Halla-ahon ulostulo sähköisti perussuomalaiset
Joulusiivous paljasti kasvun ihmeen - "emme vielä tiedä, mikä se on"
Keskiseltä paloi päreet aluehallintovirastoon: "Aion pitää jatkossa
auki juuri niin kuin haluan"
Kohta paukkuu ja kiristää! Loppiaisena hyisen kylmä
iltalehti.fi: iltvtyylicom
iltalehti.fi: iltvluontojaelaimet
Vuosi 2015 tuo 96 uutta nimipäivää - katso lista
iltalehti.fi: kolumnistit
Virkamies häkeltyi Keskisen haukuista: "24 päivää on käsittämätön
väite"
iltalehti.fi: talviurheilu
iltalehti.fi: ruoka
iltalehti.fi: iltv
Teatterifestivaali valitti esiintyjän alastomuuskiellosta
Kaupunki kielsi lasten luistinradan - viranomaisen mielestä
turvallisuusriski
iltalehti.fi: asuminen
iltalehti.fi: popstars
Näkökulma: Perussuomalaiset päätyvät aina syömään omaa
häntäänsä
iltalehti.fi: fiidifi
Uhkaako Suomea supermyrsky?
Poliisi: Vaarallisia Superman-pillereitä myös Suomessa
Tyttö jäi jumiin sadevesikaivoon Järvenpäässä
Nainen löytyi kuolleena roskiksesta - epäilty sanoo toimineensa
äkkipikaistuksissaan
Vakava räjähdysonnettomuus varuskunnan varastolla - sytytin
räjähti kädessä
18-vuotiailla naisilla hurja päähänpisto uudenvuodenyönä
Tyttöporukan Whatsapp-kiusaaminen kärjistyi - poliisi tutkii
iltalehti.fi: oho
kotikokki.net: reseptit
Tärkeä liikennesääntö unohtui taas: 14-vuotias tyttö jäi tilataksin
alle suojatiellä
iltalehti.fi: raskausjalapset
iltalehti.fi: perhe
Intin voi suorittaa näinkin - IL listasi erikoisimmat tehtävät
Siitäs sait, Sääntö-Suomi! Kotileipurit ottivat torjuntavoiton
Varaudu loppiaisen poikkeusaikoihin: Ovatko kaupat auki, miten
junat kulkevat?
iltalehti.fi: kauneudeksi
Mies lainasi tutultaan aseen "kissan lopettamiseen" - ampui
vaimonsa
Suositukset
Kristillisdemokraatit erotti Heinäluoman vaimon
kuolemaa kommentoineen valtuutetun
Eerikan murha: Puolustuksella uusi todistaja
Klara Kivilahti kiisti syytteet
telkku.com: cache
HS: Aarnio-sotkun avannut prostituoitu pakoilee
ympäri Suomea
Nyrstar pääsi sopuun tuotevirrasta – Meksikossa
Eero Lehti Keskisuomalaisessa: Katainen
harhautti vakuusasiassa
Duudsonien Rabbit Films avaa toimiston Los
Angelesiin
Passin uusiminen helpottuu
iltalehti.fi: oho
Armeijapojan järkytys - koko koti tyhjennettiin
telkku.com: kl
SDP:n suklaakampanja sai tylyn vastaanoton:
"Työnnä hanuriin!"
Ammattiliitto TEAM haastoi Loimaan kassan
oikeuteen
monster.fi: Pori_2
myyjaosta.com: 1692261
Hirveimmät Facebook-mokat
Sähköt poikki yhä tuhansilta Savossa
monster.fi: 144430704
Kohuliikemies Arto Merisalo vapautui vankilasta
Et arvaa, miten monella tavalla kotisi voidaan
hakkeroida
Kahden euron kolikkoon lyödään Tove Janssonin
kasvot
Sähköyhtiöt korjaavat yhä talvimyrskyn tuhoja
autotalli.com: renault
Teinityttö yritettiin kaapata autoon - poliisi tutkii
raiskauksen yrityksenä
iltalehti.fi: iltvviihde
iltalehti.fi: fiidifi
Ilmatieteen laitos varoittaa: Merivesi tulvii yöllä
iltalehti.fi: juha-vuorinen
Kirvessurmista epäillyn rikostausta: Suuttui
puhelinkaupassa ja puri vartijaa
iltalehti.fi: rakkausjaseksi
iltalehti.fi: smliiga
TUTKIMUSRAPORTTI VTT-R-04362-15
22 (23)
Suomeen tulvi pakolaisia vuonna 1990 - salainen asiakirja paljastaa
Tekstiilitaiteilija Marjatta Metsovaara on kuollut
Pekka Puska ehdolle eduskuntaan
Näkökulma: Kaksi tavallista päivää Pariisissa
Naiset tekivät ikävän tempun hotellivieraalle
Kahta puukotettiin kauppakeskuksessa Helsingissä, epäilty karussa
Koira törmäsi tolppaan, omistaja hakee 2 500 euron korvauksia
Auton renkaat murskasivat puolet keulasta
Viinalain oikku: Pubivisojen palkintotuopit kiellettiin
Jungnerin säästölista: Tupakkaan täyskielto, käteisestä luovuttava
19-vuotiaan naisen röyhkeä taksitemppu sai nolon lopun
Kirkosta eronnut: Tämä saattaa yllättää
Palauta tämä tuote takaisin K-kauppaan - päiväys pettää pahasti
Rekan ojaanajo sulki Vaasantien Porissa
Useat suomalaiset hakevat mätkyarmoa Loirin tapaan - harva sitä
saa
iltalehti.fi: meikki
iltalehti.fi: tyylicom
Pääministeri Alexander Stubb: "Puolustan henkeen ja vereen
Charlie Hebdoa"
10 lapsen isä: Tukemme putoavat 1 300 euroa
6-vuotias juoksi suojatielle - autoilija törmäsi
Karhu vei Kaapon
Nainen pyllisti naapureille - sakot kunnianloukkauksesta
Nainen soitti hätäkeskukseen: Känni päällä, auto ojassa, jalka
puussa
iltalehti.fi: hiukset
iltalehti.fi: jaakiekko
Helsingin keskustassa Kampin kauppakeskuksen vieressä roihusi
tulipalo
Suomessa vain yksi vuosia hotellissa asunut?
iltalehti.fi: pinnalla
iltalehti.fi: tosielamaa
iltalehti.fi: iltvviihde
iltalehti.fi: rakkausjaseksi
iltalehti.fi: pikkutakki
Suomalaiset pilapiirtäjät tarttuivat kynään sananvapauden puolesta
iltalehti.fi: muoti
Ulkoministeriö karjalaisjihadistista: "Ainutlaatuinen tapaus"
ulkoministeriön
poikkeuksellinen.)
Kotiin
palannuttamukaan
teinienhyvin
äitiä odotti
järkyttävä yllätys
Eläkesopimus taskussa 19-vuotiaana - Ida tekee historiaa
Sähkökatkos pimensi koko Iso-Syötteen
Teinikuskille sakot - humalainen putosi auton katolta
iltalehti.fi: linnanjuhlat2014
iltalehti.fi: nhl
Leipäjonossa auttaneelle työttömälle kävi kalpaten - "Onneksi
tilanne on parantunut"
Poliisia odotti Velodromin aulassa alaston mies
Tuomioja Ylellä: Kreikkaa hoidettu alusta asti väärin
Mies syötti vauvaa väärin - hermostuneet vanhemmat kävivät
toistensa kimppuun
Näkökulma: Jumalan käsi
Sunnuntaisuomalainen: Laki sallii Muhammad-kuvien julkaisun
"Ei naista saa lyödä", sanoi mies - ja huonosti kävi
Etelään lunta ja viimaa - sähkönjakeluun lisää ongelmia
iltalehti.fi: suosikkikohteet
Lannoitetehtaassa suuri tulipalo Uudessakaupungissa
Kiuru verkkovalvontamietinnöstä: Kuin sallisi kotietsinnän joka
kotiin
Utsjoella talven pakkasennätys: -39,5 astetta
6-vuotias kuoli traktorin alle Helsingissä
iltalehti.fi: digi
iltalehti.fi: matkatarinani
TS: Aarnio-vyyhdin asianajaja on valehtelun Suomen mestari
TUTKIMUSRAPORTTI VTT-R-04362-15
23 (23)
Poika jumittui veistokseen Lahdessa
HS: Some-sukupolven huumekuriiri kattoi poliisille valmiin
iltalehti.fi: mallit
Ilmatieteen laitos varoittaa: Merivesi tulvii yöllä
Jyväskylän kirjastoisku: Poliisin toiminnasta tutkintapyyntö
Koira lukitsi pikkulapsen autoon - näpräsi myös ovet auki
iltalehti.fi: kauneuskirurgia
iltalehti.fi: urheilu
iltalehti.fi: ilona
"Olette ensimmäisiä tapettavien listalla kun saavumme Suomeen" KRP tutkii
Halla-ahon
saamaamiehen
uhkausviestiä
Kaksi
suurta
koiraa hyökkäsi
kimppuun Porissa
Alkossa alkoi maanantaina alennusmyynti
Varovaisuutta liikenteessä! Keski-Suomessa karmea ajokeli
Posti lopettaa suositun palvelunsa helmikuun alussa - kriittistä
"En ole ikinä ollut tuollaisessa kyydissä"
Professorit: Keskimääräinen eläke pienenee jopa 12 prosentilla
iltalehti.fi: kuntoilu
Jungnerille tyly palaute puoluetoverilta
KSML: Naisopettaja kumartui - kuva takamuksesta levisi hetkessä
Ilkka: 97-vuotias juhli Linnassa - koruvarkaat iskivät kotiin
iltalehti.fi: iltvmusiikki
Kirvessurmat keräävät paikalle paljon uteliaita: "Onni
Poliisi piirityspaikalla järein varustein - näkyykö kuvassa tekoväline?
Poliisi: Oulun kirvessurmista epäilty kuollut
TUTKIMUSRAPORTTI VTT-R-04362-15
24 (23)
Esimerkki 5: Suositukset opetusaineistolle, jossa yleisluonteisten klikkausten lisäksi esiintyi
myös harvinaisempien artikkelien klikkauksia (ID e4c9ee3b933c14): Opetusaineistossa oli
kaksi kyberhyökkäyksiin liittyvää klikkausta. Suosituksiin oli päätynyt Data protection officer –
työpaikkailmoitus ja lisäksi kaksi IT-alan työpaikkasivua.
Opetusaineisto
iltalehti.fi: rakkausjaseksi
telkku.com: programtable
kauppalehti.fi: porssi
iltalehti.fi: urheilu
iltalehti.fi: formulat
iltalehti.fi: ulkomaat
iltalehti.fi: iltvviihde
iltalehti.fi: jalkapallo
iltalehti.fi: viihde
Tesoman henkirikos: Oletko nähnyt tätä puukkoa?
iltalehti.fi: terveys
iltalehti.fi: omaguru
Kyberhyökkäykset ovat todellinen uhka: "Suomen
voisi pysäyttää vartissa"
Näin kyberturvallisuuskeskus kommentoi
uhkakuvaa Suomen lamauttamisesta
Naiset tekivät ikävän tempun hotellivieraalle
telkku.com: program
iltalehti.fi: kuntoilu
Tuomioja Ylellä: Karjalaistyttö lähti taistelemaan
Lähi-itään - jäi kiinni Lontoossa
iltalehti.fi: talviurheilu
Suomalaisnainen mopoili alasti Kambodzassa poliisit pidättivät
KSML: Naisopettaja kumartui - kuva takamuksesta
levisi hetkessä koko luokalle
iltalehti.fi: iltvmusiikki
Poliisi piirityspaikalla järein varustein - näkyykö
kuvassa tekoväline?
Suositukset
Poliitikko nujakoi kitukasvuisten kuusien takia
Supercell on kovin Kasvaja: kasvu yli 7 500 prosenttia
monster.fi: 144241365
monster.fi: Ejendals-Suomi-Oy_6
Näkökulma: Stubb uudistaa kokoomuksen kulttuurin
Ylin johto on unohtanut asiakkaat
Tavaratalo Hong Kong on palamassa kokonaan
Liki 500 evakkoon Akaan homekoulusta
Poika tyrmistyi: Sonera kaupusteli sairaalle isälle
Karuja tarinoita: Näin lapsi päätyy huostaanottoon
Data protection officer -työpaikka
myyjaosta.com: 1699303
Syväkurkku: Microsoftin johdossa puhkesi valtataistelu
etuovi.com: lainalaskuri
kauppalehti.fi: Estate
DN: Ruotsin puolustusbudjetissa jättiaukko
Poliisi hoiti vuodenvaihteessa yli 300 hälytystä
monster.fi: Turku+IT_24
IL selvitti kansanedustajien puheet ja teot
Yle myllää aluetoimituksiaan
Intin voi suorittaa näinkin - IL listasi erikoisimmat tehtävät
Perävaunun rengas pyöri tielle – Vastaantulija ei ennättänyt
väistää
"Pelastakaa pedofiilit" - parodiasta iso lasku helsinkiläismiehelle
iltalehti.fi: kotikokki
Muusikon käräjät jatkuvat - todistajat saliin
monster.fi: it_4
Yksi kuollut uudenvuoden vietossa - pahoinpitelyt työllistivät
poliisia
USA:n työmarkkinoilla paras vuosi 15 vuoteen
Tämä on lukijoiden suosikki Guggenheim-museoksi
Tällainen on Airbusin uutuuskone
PÖRSSIT: Öljyn luisu rasittaa tunnelmia
Koulu ei saanut tehdä muuminäytelmää
iltalehti.fi: diabetes
monster.fi: seinäjoki
monster.fi: 143638334
Uhrin tuttava: "Tummaihoiselle naiselle huudettiin, missä on sun
kirves"
Supercell-sijoittaja lähti mukaan koirankoulutusbisnekseen
monster.fi: pori_2
Armeijapomo Ylellä: Potero antaa suojaa ohjuksilta
Ojalanperältä lähti esitys Raaheen liittymisestä
Simon nokkakolari: Isovanhemmat kuolivat, 11-vuotias poika
takapenkillä
Nelostien liikenne kuin venäläistä rulettia
monster.fi: Oulu_2
Kiitos, myrskytuuli 10.-15.12.2014: Itämerellä on nyt onnenpäivät!
Jussi Niinistö: Salonius-Pasternak mainostaa Nato-jäsenyyttä
kauppalehti.fi: talous
iltalehti.fi: marjukka-karttunen