VTT-R-04362-15 TUTKIMUSRAPORTTI Big Datan mahdollisuudet mediaalalla Kirjoittajat: Asta Bäck, Ville Ollikainen, Caj Södergård, Sari Vainikainen Luottamuksellisuus: Julkinen TUTKIMUSRAPORTTI VTT-R-04362-15 2 (23) Raportin nimi Big Datan mahdollisuudet media-alalla Asiakkaan nimi, yhteyshenkilö ja yhteystiedot Asiakkaan viite Viestintäalan tutkimussäätiö Helene Juhola Projektin nimi Projektin numero/lyhytnimi Big Datan mahdollisuudet media-alalla 102125 /BIGDAME Raportin laatija(t) Sivujen/liitesivujen lukumäärä Asta Bäck, Ville Ollikainen, Caj Södergård, Sari Vainikainen 24/6 Avainsanat Raportin numero media, data-analyysi, suositukset, klikkausdata VTT-R-04362-15 Tiivistelmä Hankkeen tavoitteena oli edistää mediatalojen mahdollisuuksia palvelujensa kehittämiseen erityyppisten suositus-, segmentointi- ja ennustusmenetelmien avulla. Konkreettisella tasolla tavoitteena oli edistää näitä mahdollisuuksia määrittelemällä käyttöön soveltuva testiympäristö ja tekemällä käytännön kokeiluja esimerkkiaineistoilla. Hankkeen alussa tehtiin mediatalojen haastatteluja, joissa lupaavina sovelluskohteina esiin nousivat tilaajien/käyttäjien käyttäytymisen parempi ymmärtäminen eli sisältöjen lukeminen ja tilaajakäyttäytyminen, suositusten parantaminen, artikkelien metadatoitus, mainosten kohdistaminen, ja mainosten näyttömäärien ennustaminen. Hankkeen käytännön työn kohteeksi valittiin klikkausdata ja sen hyödyntäminen palvelujen käyttötapojen analysoinnissa ja suosituksissa. Suositusten osalta päätettiin rajautua UPCVmenetelmän käyttöön. Tilastollisten ja koneoppimisen menetelmien soveltamiseen hankkeessa käytettiin avoimen lähdekoodin R- ja Weka -ohjelmistoja sekä pienessä määrin Microsoftin Azure Machine Learning -ympäristöä. Näistä viimeksi mainittu tukee mallien kehittämisen ohella myös kehitettyjen mallien käyttöönottoa REST API -rajapinnan kautta. Hankkeen aikana analysoitiin kahden mediatalon toimittamaa klikkausdataa. Niistä toinen perustui evästeisiin, ja toinen kirjautuneiden käyttäjien anonymisoituun käyttödataan. Aineistoille tehtiin ensin kuvaileva tarkastelu, joka toi esiin mm. evästeiden ikäjakauman ja eväste/käyttäjätilikohtaiset klikkausmäärät. Assosiaatiosääntöjä käytettiin palveluyhdistelmien tunnistamiseen. Klusterointia käytettiin luokittelemaan evästeet/käyttäjätilit erilaisten käyttötapojen mukaisiin ryhmiin. Viikoittaista klikkausmäärää ennustettiin multiclass decision jungle -menetelmällä. Datan perustella käyttäjistä erottui selviä ryhmiä sekä palveluyhdistelmien että käyttöaikojen suhteen. Palvelujen käytön toistuvuus tuli aineistossa hyvin esiin, mikä tarjoaa mahdollisuuksia aikaisten signaalien löytämiseen muuttumassa olevista käyttötavoista. UPCV-menetelmää kokeiltiin evästeaineistolla ja menetelmän oletusasetuksilla. Saatuja suositustuloksia tarkasteltiin laadullisesti aineistosta tasavälein poimitussa otoksessa. Havaintona oli, että jos käyttäjällä on klikkauksia vain osastotasolle tai vain hyvin suosittuihin artikkeleihin, suositukset eivät vaikuttaneet merkityksellisiltä; relevantilta vaikuttavien suositusten tuottamiseksi käyttäjällä tulisi olla klikkauksia myös vähemmän suosittuihin artikkeleihin. Hankkeen loppuraportti kertoo tarkemmin klikkausaineiston analysoinnista ja UPCVsuositusmenetelmästä. TUTKIMUSRAPORTTI VTT-R-04362-15 3 (23) Summary This report describes a project which aimed at helping media houses to develop their abilities in using data for content recommendation, client segmentation and predicting user behaviour. At concrete level, the purpose was to define a testing environment and run trials on case data sets. The first step was to interview media houses to get better understanding of their current needs and interests. According to these interviews, important focus areas for the companies were getting better understanding of user behaviour both regarding subscription and reading patterns. Other important areas were ad targeting and predicting ad views, as well as creating article metadata and content recommendations. We analysed two data sets, each of them provided by a Finnish media house. The other dataset contained cookie based data, and the other click data by anonymised registered users. We studied life spans and click rates of the cookies and applied association rules to cluster groups of services that were commonly visited by the same users. We clustered the cookies and user clicks to match typical user behaviours. Weekly numbers of clicks were predicted with a Multiclass Decision Jungle method. The data revealed clear clusters of users based on their use of service combinations, or usage patterns. Repetitive patterns were clear implying that early signals of user habit changes can indeed be detected. We applied our own collaborative recommendation method, UPCV, on the cookie data set. We observed that when the user had accessed only section main pages or the most popular articles, the recommendations were rather insignificant, whereas few clicks on the less popular articles made the recommendations seem more relevant. In the statistical analysis, we applied the open source programs R and Weka as well as the Microsoft Azure Machine Learning environment. Luottamuksellisuus Julkinen VTT:n yhteystiedot Asta Bäck, [email protected] Postiosoite: VTT, PL 1000, 02044 VTT Jakelu VTT:n nimen käyttäminen mainonnassa tai tämän raportin osittainen julkaiseminen on sallittu vain Teknologian tutkimuskeskus VTT Oy:ltä saadun kirjallisen luvan perusteella. TUTKIMUSRAPORTTI VTT-R-04362-15 4 (23) Sisällysluettelo Sisällysluettelo........................................................................................................................ 4 1. Johdanto ja tavoite ............................................................................................................ 5 2. Datan hyödyntämisen haasteet ja mahdollisuudet ............................................................ 5 3. Rajaukset .......................................................................................................................... 7 4. Käytön analyysi................................................................................................................. 8 4.1 Evästepohjaisen käyttödatan analysointi................................................................... 8 4.1.1 Esikäsittely ja aineiston kuvaileva tarkastelu ................................................. 8 4.1.2 Assosiaatiosäännöt ja klusterointi ............................................................... 10 4.2 Käyttölokin analysointi ............................................................................................ 12 4.2.1 Esikäsittely ja aineiston kuvaileva tarkastelu ............................................... 12 4.2.2 Klusterointi .................................................................................................. 13 4.2.3 Ennustaminen ............................................................................................. 13 4.3 Tulosten tarkastelu ................................................................................................. 14 5. UPCV-suositusmenetelmän kokeilu ................................................................................ 15 5.1 UPCV menetelmänä ............................................................................................... 15 5.2 Esikäsittely.............................................................................................................. 15 5.2.1 UPCV:n vaatimukset aineistolle .................................................................. 15 5.2.2 Artikkelien suodatus .................................................................................... 16 5.2.3 Käyttäjien suodatus..................................................................................... 16 5.3 Suositusten tuottaminen ......................................................................................... 16 5.4 Analyysi .................................................................................................................. 17 5.5 Tulokset .................................................................................................................. 17 6. Johtopäätökset ja suositukset ......................................................................................... 18 Liite 1. Esimerkkejä suosituksista ......................................................................................... 19 TUTKIMUSRAPORTTI VTT-R-04362-15 5 (23) 1. Johdanto ja tavoite Sähköistyvä mediakäyttö tuottaa paljon dataa, jonka avulla mediatalot voivat kehittää tuotteitaan ja palveluitaan vastaamaan entistä paremmin käyttäjien tarpeisiin ja odotuksiin. Mediatalojen keskeisimpiä omia datalähteitä ovat palvelujen käytöstä syntyvät datavirrat, asiakassuhteeseen liittyvät tiedot, sekä julkaistavaan sisältöön liittyvä tieto. Datan hyödyntämiseen liittyy monia kysymyksiä tiedon keräämisestä ja tallentamisesta aina hyötyjen konkretisoitumiseen asti. Datan keruu ja hyödyntäminen vaatii panostuksia, ja panostusten perustelemiseksi hyötyjen pitäisi olla selvästi osoitettavissa. Tässä raportoitavan hankkeen ja tämän raportin tavoitteena on edistää mediatalojen mahdollisuuksia tarttua datan hyödyntämismahdollisuuksiin. Raportissa annetaan käytännön esimerkkejä siitä, mitä klikkausdata mahdollistaa. Raportin toivotaan innostavan mediataloja käytännön toimiin potentiaalisten hyötyjen konkretisoimiseksi. Hanke toteutettiin VTT:n Intelligent data -tutkimusryhmässä Viestintäalan tutkimussäätiön rahoituksella. Hankkeessa oli mukana kaksi mediataloa, joiden kanssa käytiin läpi datan hyödyntämiseen liittyviä tarpeita. Mediatalot myös antoivat dataa käytettäväksi esimerkkiaineistona. Hankkeen painopisteet valittiin ohjausryhmässä yhdessä esimerkkiyritysten kanssa. 2. Datan hyödyntämisen haasteet ja mahdollisuudet Hankkeen puitteissa haastateltiin ohjausryhmässä mukana olleiden mediatalojen edustajia. Tämän lisäksi osallistuttiin Trondheimin teknisen yliopiston (NTNU) 15.1.2015 Oslossa järjestämään seminaariin. Norjalaisten alan tutkijoiden kanssa järjestettiin myös onlinekokous. Suomalaisten mediatalojen kanssa käydyissä keskusteluissa ilmeni seuraavia käytännön tarpeita ja haasteista: Lokitietoa ei kerätä systemaattisesti Käyttötietoja ei välttämättä saa yhdistää käyttäjätietoihin, jolloin ei esimerkiksi pystytä hyödyntämään mahdollisesti olemassa olevia demograafisia tietoja. Käytöstä kertyvässä tiedossa evästeiden (cookie) merkitys on suuri, mutta niiden käyttöön liittyy monia heikkouksia (lyhytikäisyys; yhden evästeen takana voi olla useampi ihminen; saman ihmisen eri selainten kautta tapahtuva käyttö ei yhdisty) Eri palveluista (esim. mobiili, näköislehti, verkko) saadaan tietoa eri tarkkuudella eikä yhden henkilön käyttötavoista saada kokonaiskuvaa. Juttuja ei ole systemaattisesti ja laajasti metadatoitettu yhtenäisellä tavalla semanttisten suositusmenetelmin hyödyntämiseksi. Lupaavina sovelluskohteina nähtiin: Tilaajakäyttäytymisen parempi ymmärtäminen o Sisältöjen lukeminen o Tilaajakäyttäytyminen Suositusten parantaminen TUTKIMUSRAPORTTI VTT-R-04362-15 6 (23) Metadatoitus Mainosten kohdistaminen Mainosten näyttömäärien ennustaminen Norjan seminaarissa esiteltiin syksyllä 2014 käynnissä olleen hankkeen tuloksia. Hankkeessa keskeisessä roolissa olivat olleet suositusmenetelmät ja datan analysointi lukijaymmärryksen parantamiseksi. Suositukset nähtiin tärkeänä keinona lukijoiden kiinnostuksen herättämisessä ja ylläpitämisessä. Tulevaisuuden suositusmenetelmistä puhunut NTNU:n professori, Jon Atle Gulla, esitti seuraavia tulevaisuuden näkemyksiä ja painopistealueita: Laaja kontekstin huomioon ottaminen, eli suositusten tulisi ottaa huomioon paikka, aika, tehtävä ja intentio, mihin mobiilikäyttö antaa aiempaa paremmat mahdollisuudet. Semantiikan tarjoamien mahdollisuuksien hyödyntäminen eli semantiikan käyttö entiteettien tunnistamisessa, disambiguoinnissa, ontologisessa rikastamisessa ja semanttisten suhteiden hyödyntäminen suosituksissa. Sosiaalisen verkostoanalyysin hyödyntäminen. Suositusten monipuolisuus, eli suosituksissa on oltava myös yllättävyyttä ja monipuolisuutta. Yksityisyyden hallinta on otettava huomioon ja annettava käyttäjille mahdollisuuksia sen hallitsemiseen. Seminaarin yrityspuheenvuoroissa ilmeni seuraavanlaisia näkökulmia ja kokemuksia A/B-testaus, jossa puolet käyttäjistä saa toisen version ja puolet toisen version, auttaa verkkopalveluun tehtyjen muutosten hyödyllisyyden arvioinnissa todellisten käyttäjäreaktioiden pohjalta. A/B-testaus oli osoittanut, että layout-muutoksilla oli saatu kokonaiskäyttömääriin vain pientä parannusta. Pääosa yksittäisten uutisartikkelien klikkauksista tulee ensimmäisten 48 tunnin aikana. Vain osa artikkeleista on sellaisia, että niitä on perusteltua suositella ensimmäisten julkaisupäivien jälkeen. Datan laatu on perusvaatimus, ja vasta kun se on kunnossa, datan hyödyntämisen voi aloittaa. Toimituksen ja mainosmyynnin yhteistyötä voidaan helpottaa antamalla toimitukselle reaaliaikaista tietoa siitä, miten sivunäyttöjen määrä on toteutumassa tärkeille kohderyhmille (alueilla). Näin juttutuotantoa voidaan suunnata varmistamaan näyttöjen toteutuminen. Seuraamalla artikkelilinkkien jakamista esim. Facebookiin voidaan ennakoida tulossa olevia sivuklikkauksia. Big Data kiinnostaa paremman asiakasymmärryksen saamiseksi. Data voi auttaa ymmärtämään ja ennakoimaan myös sitä, miksi tietyt artikkelit kiinnostavat muita artikkeleita enemmän. TUTKIMUSRAPORTTI VTT-R-04362-15 7 (23) 3. Rajaukset Suomalaisia mediataloja kiinnostaneista aiheista tilaajakäyttäytymisen ymmärtäminen, suositukset ja sisältöjen metadatoitus hankkeen kohteeksi valittiin kaksi ensin mainittua, eli tilaajakäyttäytymisen ymmärtäminen ja suositukset. Data-aineistoksi valittiin klikkausdata, jota saatiin kahdesta mediataloista. Tämä aineisto soveltui käyttötapojen analysointiin ja kollaboratiivisten suosittelumenetelmien hyödyntämiseen. Suositusmenetelmistä kokeiltiin VTT:llä kehitettyä UPCV-menetelmää. Aineistoista toinen sisälsi evästepohjaista käyttödataa runsaan kuukauden ajalta sisältäen tiedot usean eri palvelun käytöstä. Toinen aineisto sisälsi kahden palvelun käyttölokit neljän viikon ajalta. Molemmat aineistot koostuivat seuraavista tiedoista: anonyymi/anonymisoitu käyttäjätunnus, klikatun sivun osoite ja klikkausajankohta. Evästepohjaisessa aineistossa klikkausajankohta oli tunnin tarkkuudella, käyttölokiaineistossa sekunnin tarkkuudella. Kumpaakin aineistoa analysoitiin käyttötapojen ymmärtämiseksi. Tämä analyysi tehtiin R- ja pienessä määrin Weka -ohjelmistoilla sekä hyödyntäen Microsoftin Azure Machine Learning -ympäristöä. R-ohjelmointikieli on avoimen lähdekoodin ohjelma, joka on alun perin kehitetty tilastotieteellistä ohjelmointia varten, ja siitä on kehittynyt keskeinen data-analyysin työkalu. R-kehittäjäyhteisö on aktiivinen ja toiminut pitkään, mikä tarkoittaa, että erilaisten analyysien ja visualisointien tekemiseen on saatavissa tuhansia kirjastoja. R sopii hyvin niin datan tarkastelemiseen ja tilastollisiin analyyseihin kuin myös koneoppimisen menetelmien käyttöön. Myös Weka on avoimen lähdekoodin ohjelmisto. Siihen on implementoitu useita koneoppimisen menetelmiä. Menetelmiä löytyy luokittelemiseen, regressiomallien rakentamiseen, klusterointiin ja assosiaatiosääntöjen soveltamiseen sekä eri menetelmien tuottamien tulosten visualisointiin. Microsoftin Azure Machine Learning -palvelu kokoaa monia koneoppimisen menetelmiä helppokäyttöiseen ympäristöön. Valmiiden komponenttien hyödyntämisen lisäksi ympäristössä voi hyödyntää itse kehitettyjä R- ja Python -koodeja. Ympäristö tarjoaa myös mahdollisuuden tarjota kehitettyjä menetelmiä helposti käyttöön REST API -rajapinnan kautta. UPCV-menetelmää kokeiltiin evästepohjaisella aineistolla. TUTKIMUSRAPORTTI VTT-R-04362-15 8 (23) 4. Käytön analyysi 4.1 Evästepohjaisen käyttödatan analysointi 4.1.1 Esikäsittely ja aineiston kuvaileva tarkastelu Aineisto vietiin tietokantaan, minkä jälkeen pystyttiin tarkastelemaan aineiston sisältöä, evästeiden ominaisuuksia ja rajaamaan sitä. Datan esikäsittely on tärkeä, varsinaista dataanalyysia edeltävä vaihe, jossa pyritään paikallistamaan aineiston mahdolliset virheet ja päätetään, mitä virheellisen aineiston suhteen kannattaa tehdä. Tästä tapauksessa aineistosta löytynyt puutteellinen tai ilmeisen virheellinen aineisto jätettiin tarkastelun ulkopuolelle. Tarkastelusta päätettiin jättää pois myös evästeet, joihin liittyvää käyttötietoa oli olemassa vain yhdeltä päivältä, koska ne eivät pystyneet tuottamaan paljoakaan tietoa käyttäytymisestä. Data-aineistoa oli myös niin paljon, että analyysi kohdistettiin joka tapauksessa vain otokseen koko aineistosta. Toinen datan esikäsittelyvaiheen kysymys oli arvio siitä, miten suuret klikkausmäärät ovat vielä mahdollisia ihmiselle, ja mitkä ovat syntyneet automaattisen käytön tuloksena. Tästä tarkastelusta kerrotaan tarkemmin luvussa 5. Evästeiden elinikä vaihteli paljon (Kuva 1). Aineistossa oli paljon hyvin lyhytkestoisia evästeitä, vaikka vain yhtenä päivän käytössä olleet evästeet oli poistettu. Pitkäkestoiset evästeet ovat käyttäytymisanalyysin kannalta kaikkein kiinnostavimmat, ja niiden osalta esiin tulee parhaiten esiin myös harvemmin toistuvat tapahtumat, kuten monen palvelun käyttö. Kuva 1. Histogrammi evästeiden eliniästä tutkitussa aineistossa, josta on poissa vain yhtenä päivänä aktiivisena olleet evästeet; eliniän maksimiarvo oli aineistossa 37 päivää. TUTKIMUSRAPORTTI VTT-R-04362-15 9 (23) Kuva 2 esittää evästekohtaisten klikkausmäärien jakauman, joka on hyvin vahvasti oikealle vino. On siis iso määrä evästeitä, joihin liittyy vain pieni klikkausmäärä. Tästä kertoo se, että sekä mediaani että yläkvartaalin raja ovat hyvin pienen klikkausmäärän kohdalla. Aineistossa on kuitenkin myös havaintoja hyvin suurista klikkausmääristä, mitkä nostavat keskiarvon suhteellisen korkealle. Kuva 2. Esimerkki klikkausten määrän, oikealle vinosta jakaumasta; punaiset pystyviivat kertovat mediaanin, ja ylä- ja alakvartiilien sijainnin aineistossa, musta pystyviiva keskiarvon. Evästepohjaista aineistoa käytettäessä päätelmien tekemisessä on otettava huomioon, miten pitkä käyttöaika evästeillä on. Esimerkiksi usean palvelun käyttö tulee parhaiten esiin pitkäikäisten evästeiden osalta: korkeintaan 9 päivää voimassa olleet evästeet ilmaisivat keskimäärin 1,6 palvelun käytön, kun vähintään 30 päivää voimassa olleiden evästeiden vastaava arvo oli 2,7 palvelua. Kuva 3 kertoo, että useaa palvelua käyttävät ovat hyvin aktiivisia käyttäjiä myös kun mittarina käytetään palvelua kohti tehtyä klikkausten määrää. TUTKIMUSRAPORTTI VTT-R-04362-15 10 (23) Kuva 3. Palvelukohtaisten klikkausten määrän mediaani käytettyjen palvelujen mukaan jaotelluissa ryhmissä erikseen sen mukaan, miten monta päivää eväste oli ollut voimassa (evästeen viimeinen käyttöpäivä miinus evästeen ensimmäinen käyttöpäivä). 4.1.2 Assosiaatiosäännöt ja klusterointi Varsinaista koneoppimisen menetelmistä tähän aineistoon sovellettiin assosiaatiosääntöjä ja klusterointia. Assosiaatiosääntöjen vanhin sovellus on ostoskorien analysointi, eli haetaan suositut yhdistelmät ja tehdään päätelmät tuotevalikoimista ja hinnoittelusta tämän tiedon perusteella. Menetelmä soveltuu muidenkin yhdistelmien analysointiin. Tässä hankkeessa assosiaatiosääntöjä käytettiin suosittujen palveluyhdistelmien tunnistamiseen. Vastaavalla tavalla voitaisiin analysoida esimerkiksi suosittuja sivuyhdistelmiä. Assosiaatiosääntöjen soveltaminen tehtiin Weka-ohjelmiston Apriori-algoritmilla. Algoritmi olettaa datan olevan binääristä, eli se ei ota huomioon käyntimääriä. Saadut tulokset kertovat, että tässä aineistossa Iltalehti oli hyvin hallitsevassa roolissa, sillä lähes kaikki käynnit joko alkavat tai päättyvät sinne. Taulukko 1. Apriori-algoritmilla tuotetut palveluyhdistelmät Suosituimmat palveluyhdistelmät iltalehti.fi + telkku.com iltalehti.fi + kauppalehti.fi iltalehti.fi + kotikokki.net etuovi.com + iltalehti.fi aamulehti.fi + iltalehti.fi kotikokki.net + telkku.com TUTKIMUSRAPORTTI VTT-R-04362-15 11 (23) Klusterointi on menetelmä, jonka avulla voidaan pyrkiä hahmottamaan ison datamassan osajoukkoja. Hankkeessa klusterointia hyödynnettiin hahmottamaan eri palvelujen käyttöä. Klusterointi tehtiin Weka-ohjelmiston x-means-klusterointialgoritmilla. X-means on K-means menetelmä sillä parannuksella, että käyttäjä voi määritellä yhden K-arvon sijasta kaksi rajaarvoa ja ohjelmisto luokittelee aineiston kaikilla raja-arvon sisään jäävillä klusterimäärillä ja valitsee niistä parhaan. Kuva 4 näyttää esimerkin klusteroinnin tuloksista. Evästeiden klusterointi on tehty eri palveluiden käyttöosuuksien perusteella. Kooltaan suurin klusteri (punainen) koostuu käyttäjistä, jotka käyttävät lähinnä pelkästään Iltalehteä. Seuraavat kaksi klusteria (turkoosi ja sininen) ovat melko samansuuruiset. Sininen klusteri sisältää käyttäjät, joilla Iltalehden osuus on vielä korkea, mutta mukana on myös muiden palvelujen käyttöä. Mitä korkeammalla siniset pisteet ovat, sitä enemmän käyttäjät lukevat nimenomaan Kauppalehteä. Turkoosissa klusterissa käytetään jossain määrin Iltalehteä ja Kauppalehteä, mutta mukaan tulee myös muiden palvelujen kuten Kotikotin käyttöä. Pienimmän, vihreällä havainnollistetun klusterin käyttäjillä painottuu Kauppalehden käyttö. Kuva 4. Esimerkki klusteroinnin visualisoinnista. Evästeiden klusterointi on tehty palveluiden käyttöosuuksien perusteella. TUTKIMUSRAPORTTI VTT-R-04362-15 12 (23) 4.2 Käyttölokin analysointi 4.2.1 Esikäsittely ja aineiston kuvaileva tarkastelu Toinen analysoitu esimerkkiaineisto sisälsi anonymisoituna rekisteröityneiden käyttäjien käyttölokin neljän viikon ajalta. Aineiston esikäsittely vaati ainoastaan erillisten tiedostojen yhdistämisen yhdeksi tiedostoksi; virheellisiä tietoja aineistosta ei löytynyt. Aineiston kokonaismäärä oli noin 800 000 riviä dataa, joten se oli helposti käsiteltävissä yhtenä kokonaisuutena. Evästedataan verrattuna tämä aineisto antaa todennäköisesti keskimäärin luotettavamman kuvan yksittäisten käyttäjien käyttötavoista, koska rekisteröinnin kautta on mahdollista saada tieto palvelun käytöstä eri päätelaitteilta. Käyttäjät voivat kuitenkin käyttää palvelua myös rekisteröitymättä, joten täyttä varmuutta käytön kattavuudesta ei ole, sillä henkilö voi esimerkiksi käyttää palvelua rekisteröityneenä yhdeltä laitteelta, mutta vierailee palvelussa rekisteröitymättä muita päätelaitteita käyttäen. Samaa tunnusta voi myös käyttää useampi kuin yksi henkilö, joten eri käyttäjät voivat sekoittua tässä samoin kuin evästeiden kohdalla. Tässä analysoituun aineistoon sisältyi varsinaisen uutissivuston käyttö, eikä aineisto sisältänyt esimerkiksi keskustelupalstan käyttöä. Näköislehteen meno kirjautui aineistoon, mutta ei näköislehden sisällä tapahtuva käyttö. Lukulaitelehden käyttö ei näkynyt aineistossa millään tavalla. Aineisto ei siis mahdollistanut kattavan kokonaiskuvan muodostamista, vaan se rajoittui verkossa olevan uutissivuston käyttöön. Yleiskuvan saamiseksi tarkasteltiin käyttäjäkohtaisia käyntikertoja ja klikkausmääriä. Myös tässä aineistossa käyntikertojen ja klikkausmäärien jakauma on selvästi oikealle vino. Käyntitiheyttä voidaan tarkastella eri kriteerein, esimerkiksi käyntipäivien ja käyntiviikkojen lukumäärän osalta. Käyntipäivien lukumäärä antaa käyntiviikkojen lukumäärän verrattuna realistisemman kuvan käyttötiheydestä. Ryhmittely käyttöaktiivisuuden mukaan luo ryhmät, jotka poikkeavat toisistaan myös sen mukaan, millaisia sisältöjä ne käyttävät verkkopalvelussa. Taulukko 2 kertoo, miten klikkaukset kohdistuvat eri osastoihin. Käyttäjät oli tätä tarkastelua varten ryhmitelty sen mukaan, miten monena seurantajakson viikkona he olivat käyneet palvelussa, ja kustakin ryhmästä otettiin noin 300 käyttäjän satunnaisotos. Joka viikko käyneiden lukijoiden keskuudessa uutissisältö on tärkeässä roolissa, kun taas vain yhtenä viikkona käyneillä asiakaspalvelun käyttö on tärkeää. Näköislehti on melko tasaisen suosittu kaikissa ryhmissä. Taulukko 2. Osastoittainen käyttö neljässä ryhmässä, johon kuhunkin poimittiin noin 300 satunnaista käyttäjää. Ryhmät muodostettiin käyntiviikkojen lukumäärän perusteella. Käynti 4 viikkona 323 käyttäjää, 44 957 klikkausta etusivu NA 17478 uutiset kotimaa 12086 uutiset keski-suomi 3567 nakoislehti NA 3277 uutiset talous 1493 uutiset viihde 888 uutiset ulkomaat 711 uutiset NA 676 sisis NA 481 urheilu uutiset 458 mielipide NA 331 asiakaspalvelu omat-tiedot 304 38,9 % 26,9 % 7,9 % 7,3 % 3,3 % 2,0 % 1,6 % 1,5 % 1,1 % 1,0 % 0,7 % 0,7 % Käynti 3 viikkona 329 käyttäjää, 13 145 klikkausta etusivu NA 3882 uutiset kotimaa 3459 nakoislehti NA 973 uutiset keski-suomi 949 asiakaspalvelu omat-tiedot502 uutiset talous 478 uutiset ulkomaat 310 uutiset viihde 277 uutiset NA 243 urheilu uutiset 140 kirjaudu NA 113 erikoissivut verotiedot 112 29,5 % 26,3 % 7,4 % 7,2 % 3,8 % 3,6 % 2,4 % 2,1 % 1,8 % 1,1 % 0,9 % 0,9 % Käynti 2 viikkona 326 käyttäjää, 6 792 klikkausta etusivu NA 1835 uutiset kotimaa 1459 asiakaspalvelu omat-tiedot614 nakoislehti NA 514 uutiset keski-suomi 380 uutiset talous 175 uutiset NA 164 uutiset viihde 161 uutiset ulkomaat 127 sisis NA 108 asiakaspalvelu tilaus 101 lukulaitelehti NA 97 27,0 % 21,5 % 9,0 % 7,6 % 5,6 % 2,6 % 2,4 % 2,4 % 1,9 % 1,6 % 1,5 % 1,4 % Käynti 1 viikkona 298 käyttäjää, 2 333 klikkausta asiakaspalvelu omat-tiedot 746 32,0 % etusivu NA 390 16,7 % uutiset kotimaa 302 12,9 % nakoislehti NA 133 5,7 % uutiset keski-suomi 82 3,5 % asiakaspalvelu tilaus 55 2,4 % asiakaspalvelu NA 53 2,3 % uutiset viihde 51 2,2 % uutiset talous 40 1,7 % asiakaspalvelu changePassword.do 36 1,5 % uutiset NA 36 1,5 % uutiset ulkomaat 30 1,3 % Taulukko 2 kertoo myös sen, että iso osa klikkauksista kohdistuu etusivulle tai osastojen etusivuille (kaikki joissa osastonimen jälkeen on merkintä NA). Lukijaprofiilin luomisen kannalta nämä sivut eivät ole erityisen informatiivisia, joten monipuolisen profiilin aikaansaamiseksi monien käyttäjien kohdalla dataa pitää kerätä melko pitkään. TUTKIMUSRAPORTTI VTT-R-04362-15 13 (23) Viikoittaisten ja päivittäisten käyttömäärien välillä on melko korkea korrelaatio (viikkojen välillä 0.79 – 0.91; päivien välillä 0,6 -0,8 välillä). 4.2.2 Klusterointi Tämän aineiston osalta klusterointia sovellettiin käyttäjien luokittelemiseksi käyttöaikojen perusteella. Vuorokausi jaettiin kuuteen jaksoon alkaen varhaisesta aamusta kello 5:30 jatkuen yöhön 0:30 asti, ja jokaisen käyttäjän osalta laskettiin miten heidän seurantajakson käyttökertansa jakautuivat näihin ajanjaksoihin. Käyttöaikajakauman lisäksi mallissa otettiin huomioon kokonaiskäyntikertojen määrä. Aineistosta oli muodostettavissa ryhmät, jotka poikkeavat toisistaan selvästi käyttötapojensa suhteen (Kuva 5). Aikaisin aamulla ja vain iltaisin vierailevat käyttäjät edustavat melko pientä osaa kaikista käyttäjistä. He myös olivat tehneet vain joitakin kymmeniä sivuklikkauksia palvelussa. Muissa kolmessa ryhmässä klikkauksia oli keskimäärin lähes sata. Suurimman käyttäjäryhmän muodostaa päiväsaikaan painottuvat käyttäjät; neljännes käy palvelussa iltapainotteisesti, ja 11 % painottaa käynnit aikaiseen aamuun. Kuva 5. Käyttäjien klusteroinnilla tuotettu ryhmittely viiteen ryhmään käyttöaikojen ja käyttömäärän suhteen. 4.2.3 Ennustaminen Koneoppimisen menetelmillä tyypillisesti tavoitellaan tulevaisuuden tapahtumien ennustamista. Tämä aineisto tarjosi mahdollisuuden ennustaa vierailuja sivustolla. UPCV-suositusmenetelmä pyrkii ennustamaan sitä, mikä sivu olisi tietyn käyttäjän kannalta kiinnostava ja todennäköisesti klikkaa, ja siitä kerrotaan Luvussa 5. Toinen, tässä aineistossa mahdollinen ennustamisen kohde oli käyttömäärä määritellyllä ajanjaksolla. Yksittäisten käyttäjien käyttöaikojen ja -määrien tarkastelu antoi indikaatiota siitä, että käyttö toistuu hyvin samantapaisena päivästä ja viikosta toiseen, joten tehtiin kokeilu, jossa pyrittiin ennustamaan, miten monta sivua käyttäjä tulee klikkaamaan viikolla neljä kolmen ensimmäisen viikon käyttäytymisen perusteella. Ennuste tehtiin käyttäen ennusteessa neljää eri luokkaa: 0 klikkausta, 1 - 10 klikkausta, 11 - 50 klikkausta ja yli 50 klikkausta. TUTKIMUSRAPORTTI VTT-R-04362-15 14 (23) Kuva 6. Tulokset neljännen viikon käyttömäärän ennustamisesta aiempien kolmen viikon käyttömäärien ja käyttöajankohdasta olevan tiedon perusteella. Diagonaali kertoo, miten hyvin mallin ennuste onnistui eri käyttöluokissa. Käyttäjät jakautuivat melko tasaisesti näihin neljään ryhmään; vain ylin ryhmä, yli 50 klikkausta, oli hieman muita pienempi. Kuva 6 näyttää tulokset Microsofting Azure Machine Learning -ympäristössä tehdystä, Multiclass decision jungle-menetelmällä tehdystä ennusteesta. Malli pystyi parhaiten ennustamaan 0-käytön, ja huonoin ennustettavuus oli 1-10 klikkausta viikossa tekevälle ryhmälle. Palvelun käytön ennustettavuutta voidaan tarkastella myös korrelaatioiden avulla. Esimerkkiaineistossa päivittäisen klikkausmäärien välinen korrelaatio liikkui pääosin 0,7:n ja 0,8:n välillä, mitä voidaan pitää kohtalaisen korkeana. 4.3 Tulosten tarkastelu Käytettävään dataan liittyi kummassakin aineistossa epävarmuus siitä, miten havainto korreloi yksittäiseen käyttäjään. Evästepohjaisessa aineistossa yksittäisten käyttäjien käyttöhistoria hajautuu monen evästeen taakse; käyttölokiaineistossa osa käytöstä voi jäädä pimentoon, koska käyttäjät eivät välttämättä kirjaudu sisään kaikissa käyttämissään päätelaitteissa. Kummassakin aineistossa yhden tunnuksen takana voi olla useampi kuin yksi henkilö. Tästä voisi sinänsä tehdä päätelmiä tarkastelemalla käytön tilastollisia ominaisuuksia ja vierailtuja sivuja; esimerkiksi saman artikkelin toistuva klikkaaminen saman päivän aikana viittaa useampaan käyttäjään. Evästepohjaisessa aineistossa evästeiden ikä vaihtelee suuresti. Kun tällaista aineistoa hyödynnetään, on syytä arvioida, miten evästeiden ikäjakauma vaikuttaa tutkittavaan asiaan, ja esimerkiksi tarkastella vain tietyn rajatun ikähaarukan omaavia evästeitä. Rekisteröityneiden käyttäjien käyttäytymisen tarkastelu antaa todennäköisesti evästeitä kattavamman kuvan käyttötavoista, vaikka myös tähän aineistoon liittyy epävarmuustekijöitä. Kattavan datan kerääminen on iso haaste. Tällainen, käyttöä osittainkin kuvaava aineisto antaa kuitenkin suuntaviivoja palvelujen käytöstä ja käyttäytymismalleista. Ja voi antaa hyödyllisiä oivalliksia. TUTKIMUSRAPORTTI VTT-R-04362-15 15 (23) 5. UPCV-suositusmenetelmän kokeilu 5.1 UPCV menetelmänä UPCV on yleiskäyttöinen yhteistoiminnallinen (kollaboratiivinen) suositusmenetelmä, joka oppii käyttäjän ja tuotteen (item) välisistä vuorovaikutuksista, kuten käyttäjän klikkauksista tiettyihin artikkeleihin. Menetelmässä kullakin käyttäjällä ja kullakin tuotteella on oma varastonsa (”pino”) ,johon kerrytetään satunnaislukuja (”tokeneita”). Tokeneilla ei ole vastinetta reaalimaailmassa - tokenin satunnaisluku ei itsessään merkitse mitään. Klikkauksen seurauksena osapuolet kopioivat toistensa pinoista muutamia satunnaisesti valittuja tokeneita. Kopioitavat tokenit voivat toki olla vasta pinoon tulleita tai siellä jo pitkään olleita. Samaa artikkelia klikanneille käyttäjille kertyy tilastollisesti tarkastellen samoja tokeneita, samoin kuin saman käyttäjän klikkaamille artikkeleille. Tokenit saavat levitä rajoituksetta. Suositukset voidaankin tehdä yksinkertaisesti vertaamalla kahden pinon samankaltaisuutta, kuuluivatpa nuo pinot sitten käyttäjälle tai artikkelille. Tieto siitä, kuka klikkaisi mitäkin, voidaan unohtaa tokeneiden vaihtamisen jälkeen. Koska token on pelkkä satunnaisluku, ei sekään kuljeta historiatietoa. Koska tokeneilla ei ole merkitystä reaalimaailmassa, ei niistäkään voi vetää johtopäätöksiä. Tämän vuoksi UPCVmenetelmän voidaan katsoa suojaavan yksityisyyttä poikkeuksellisen hyvin. UPCV mahdollistaa myös monen toimijan suositusympäristöt, myös sellaiset, joissa käyttäjän pino sijaitsee eri tietorakenteessa kuin tuotteiden pinot; ne voivat jopa olla käyttäjän itsensä hallussa. Menetelmään pohjautuva suosituskone sallii suositusten pyytämisen millä hetkellä hyvänsä. Tällöin opetusaineistona ovat toimineet kaikki suositushetkeä edeltäneet vuorovaikutukset, ja suosituksia etsitään kaikista artikkeleista, joita kuka tahansa on ennen suositushetkeä klikannut. Mainittakoon vielä, että muiden yhteistoiminnallisten suosittelijoiden tapaan menetelmä toimii sitä paremmin, mitä vähemmän aineisto sisältää satunnaisia tai muuten merkityksettömiä vuorovaikutuksia (kohinaa). 5.2 Esikäsittely 5.2.1 UPCV:n vaatimukset aineistolle UPCV oppii siis käyttäjän ja tuotteen välisistä vuorovaikutuksista, joten mikä tahansa klikkausloki voidaan helposti muuntaa UPCV-suosituskoneen lähdetiedostoksi. Tuotteina käytettiin artikkeleja, tarkemmin ottaen niiden www-osoitteita, joista muodostettiin 64-bittinen tunniste (item ID). Käyttäjien tunnisteina (item ID) käytettiin evästeitä, ja myös ne muokattiin 64-bittisiksi. Näitä muunnoksia tarkastellaan lyhyesti seuraavissa kappaleissa. Kukin klikkaus tuotti lähdetiedostoon yhden rivin. Laskenta-aika täytyi huomioida aineiston suuren määrän vuoksi. Kaikki menetelmän kannalta vähemmän tärkeä karsittiin pois niin aineistosta kuin suosituskoneestakin, jotta aineiston määrä pienenisi ja suosituskone saataisiin toimimaan mahdollisimman pitkälti keskusmuistia hyödyntäen, kovalevyn käyttö minimoiden. TUTKIMUSRAPORTTI VTT-R-04362-15 16 (23) 5.2.2 Artikkelien suodatus Kokeilussa käytetty evästedata sisälsi myös sellaisia domaineja, jotka eivät kuuluneet tarkasteltavien 40 domainin joukkoon; muun muassa välimuistien osoitteita esiintyi domainien nimissä. Nämä suodatettiin pois. Tämän jälkeen suodatettiin pois kaikki osoitteet, jotka selkeästi osoittivat jollekin etusivulle (esimerkiksi ”main” tai ”etusivu”), hakusivulle tai muulle sellaiselle sivulle, jonka ei ajateltu kuvaavan mitään erityistä aihepiiriä (esimerkiksi ”uutiset”, ”sää” tai ”logged-out”). Toisaalta aihekohtaiset hakemistosivut, kuten ”jääkiekko” tai ”terveys”, jätettiin aineistoon ikään kuin ne olisivat itsenäisiä artikkeleja. Jäljelle jääneistä rivien osoitteista laskettiin 64-bittinen hash, joka taulukoitiin yhdessä alkuperäisen osoitteen kanssa myöhempää analyysiä varten. Näitä hashejä käytettiin menetelmässä artikkelien tunnisteina (item ID), ja niitä kertyi noin 118.000. 5.2.3 Käyttäjien suodatus Aineistosta pääteltiin, että käyttäjien joukossa on runsaasti robotteja, joiden tarkoitus on ilmeisesti indeksoida aineistoa eri hakukoneita varten. Menetelmän kannalta ne lisäävät kohinaa, joten ne pyrittiin poistamaan. Tunnistus tapahtui seuraavilla säännöillä: - Saman evästeen aktiviteetti pysyy vakiona päivästä toiseen (klikkausmäärän päivittäinen keskihajonta per päivittäinen keskiarvo, huomioiden vain ne päivät, jolloin evästeelle oli kirjautunut vähintään yksi klikkaus). Rajaksi asetettiin 0,3. - Evästeen päivittäinen klikkausmäärä ylitti tietyn rajan jonain päivänä. Rajaksi asetettiin 255 klikkausta. Evästeet olivat UUID v4 –tyyppisiä satunnaislukuja, joten käyttäjän tunnisteeksi voitiin yksinkertaisesti valita evästeen 62 viimeistä bittiä (syntymäpäiväparadoksin mukaisesti kaksi 62-bittistä tunnistetta syntyy 50% todennäköisyydellä vasta, kun käyttäjä olisi noin kaksi miljardia; tällöinkin sekaannus olisi tulosten kannalta merkityksetön). Analysoitavaksi jäi noin 5,6 miljoonaa eri käyttäjätunnistetta, ja rivejä niillä oli aineistossa 308 miljoonaa. 5.3 Suositusten tuottaminen Esikäsitelty aineisto syötettiin UPCV-suosituskoneelle kronologisessa järjestyksessä eräajona. Joka 100.000 rivin jälkeen tehtiin rivillä olleelle käyttäjätunnisteelle suositus, johon liitettiin se aikaleima, joka aineistossa oli suositushetkellä. Käsittelynopeudeksi osoittautui keskimäärin 16 miljoonaa riviä päivässä käyttäen Dell E6430 –kannettavaa (i7-3540M, 3 GHz, 8GB RAM, 64b-Windows 7 ), vastaten siis keskimäärin noin 5 ms käsittelyaikaa per rivi. Eräajo kesti kolmisen viikkoa. Suosituskone piti muistissaan käyttäjän 50 viimeisintä klikkausta, eikä suositellut niitä. Muuten suositukset kohdistuivat koko aineistoon (118.000 artikkelia), aina senhetkisen opetuksen mukaisesti. Eräajo tehtiin niillä oletusasetuksilla, jotka on aiemmin todettu toimiviksi: Pinojen maksimikoko oli 64 tokenia, minkä tultua täyteen tokeneita poistettiin satunnaisesti. Vuorovaikutuksessa kopioitiin kerrallaan enintään 15% senhetkisistä vastaanottajan tokeneista plus yksi. Todettakoon, että pinon koko valittiin näinkin pieneksi sen vuoksi, että eräajon vaatima aineisto mahtuisi mahdollisimman hyvin keskusmuistiin. TUTKIMUSRAPORTTI VTT-R-04362-15 17 (23) Suosituskone etsi artikkelien joukosta käyttäjän token-pinon kanssa mahdollisimman samankaltaisia pinoja käyttäen Jaccardin samankaltaisuutta. Erään uudelleenkäynnistyksen yhteydessä aiempi suositusloki pyyhkiytyi yli, mutta suosituksia saatiin silti noin 1900. 5.4 Analyysi Tuloksia tarkasteltiin laadullisesti. Käyttäjän klikkausten haku klikkausdatasta kesti noin 50 minuuttia per käyttäjä, vaikka hakunopeus olikin 200.000 kilkkausdatan riviä sekunnissa. Aineiston runsaus asetti siis omat rajoituksensa myös laadullisen analyysin laajuuteen. Suosituksista poimittiin ne, joiden käyttäjätunniste oli sadalla jaollinen. Näiden 18 käyttäjän klikkaukset etsittiin raakadatasta ja eroteltiin aikaleiman perusteella suositushetkeä ennen ja sen jälkeen tehtyihin klikkauksiin. Koska aineiston aikaleimojen resoluutio oli yksi tunti, ei kaikissa tapauksissa kyetty aivan tarkkaan erotteluun. Lopuksi tehtiin kvalitatiivinen analyysi etsien klikkauksia vastaavat artikkelit www-haulla ja kirjaamalla artikkelin otsikko ylös. Hakemistosivujen kohdalla aihe oli itsestään selvä, samoin joidenkin domainien kohdalla osoite kertoi jo otsikon. 5.5 Tulokset Yksi keskeisimmistä havainnoista oli, että ne käyttäjät, joilla suositushetkeen mennessä ollut pelkästään tai pääosin osastotason ja suosittujen artikkelien klikkauksia, saivat tyypillisesti lyhyehköjä suosituslistoja, jotka sisälsivät satunnaisilta vaikuttavia tuloksia. Liitteen 1 esimerkit 1-3 ovat esimerkkejä tästä. Artikkelin suosion saattoi päätellä jo siitä, että niitä löytyi analyysiinkin päätyneiden käyttäjien kohdalta lukuisia. Sen sijaan jos joukossa oli vähemmän klikattuja artikkeleja, syntyi suosituksia runsaasti, myös eri palvelujen välille, ja suositukset vaikuttivat relevanteilta. Erittäin laaja opetusaineisto on esitetty Liitteen 1 esimerkissä 4. Tämä esimerkki antaa viitteitä siitä, että tokenien vaihtoprosentti suosisi viimeksi klikattuja artikkeleja, ja se voisi olla pienempikin: juuri ennen suosituksia käyttäjä oli klikkaillut rikosartikkeleja, ja myös suosituslistan kärkipaikoilla oli rikosartikkeleja. Tässä nimenomaisessa tapauksessa suosituslistan ensimmäinen artikkeli oli myös käyttäjän myöhemmin klikkaamien artikkelien joukossa. Viimeinen esimerkki liitteessä 1 on käyttäjältä, jonka opetusaineistossa oli yleisten artikkelien lisäksi muutama harvinaisempi, kyberturvallisuuteen liittyvä artikkeli. Suosituksiin päätyi poikkeuksellisen monta työpaikkailmoitusta, joista yksi on nimikkeellä ”Data Protection Officer” ja kaksi IT-alaan viittaavia. Kaiken kaikkiaan suositukset eivät keskittyneet vain joihinkin artikkeleihin, vaan tarjosivat sisältöä monipuolisesti. TUTKIMUSRAPORTTI VTT-R-04362-15 18 (23) 6. Johtopäätökset ja suositukset Liiketoiminnan kehittäminen datan avulla on tärkeä mahdollisuudeksi mediapalveluiden ja -liiketoiminnan kehittämisessä. Datan avulla käyttäjistä ja käyttötavoista voidaan saada lisää ymmärrystä, mikä auttaa palvelujen kehittämisissä ja uudistamisessa. Artikkelisuositukset ja parempi mainosten kohdistaminen ovat puolestaan esimerkkejä siitä, miten dataa voidaan käyttää suoraan paremman palvelun tuottamisessa. Tämän hankkeen tavoitteena oli edistää liikkeelle lähtöä datan hyödyntämisessä ja kohteeksi valittiin kohtalaisen helposti kerättävissä olevan klikkausdatan käyttäminen. Palveluiden käyttöä tarkastellaan yleensä sivujen näkökulmasta, klikkausdata antaa mahdollisuuden tarkastella käyttöä käyttäjänäkökulmasta. Klikkausdatan klusteroinnin avulla pystyttiinkin tunnistamaan käyttötapoihin ja käyttöajankohtiin liittyviä isompia yhtenäisiä ryhmiä. Tätä voidaan käyttää palvelujen kehittämisessä eri segmenteille. Klikkausdataan liittyy myös rajoituksia, joista suurin on se, että yksittäisen käyttäjän käyttö hajautuu useimmiten monen eri evästeen taakse. Analysoidussa aineistossa tästä kertoi vain päivän voimassa olleiden evästeiden suuri määrä. Kun klikkausdataa hyödynnetään, on selvitettävä ja otettava huomioon, mikä on aineiston evästeiden ikäjakauma ja miten se voi vaikuttaa analyysin tuloksiin. Nyt tehdyissä tarkasteluissa tavoiteltiin pitempiaikaisen käyttäytymisen ymmärtämistä. Yksi mahdollinen jatkokehityssuunta on pyrkiä ymmärtämään aiempaa paremmin yksittäisen session tai päivän aikaista käyttäytymistä. Analyysit antoivat selvää indikaatiota siitä, että palvelujen käyttö toistuu hyvin samanlaisena päivästä ja viikosta toiseen. Anonymisoitujen tilaajien käyttölokin perusteella viikkotason käyttömäärä pystyttiin ennustamaan varsin hyvin edellisten kolmen viikon käyttäytymisen perusteella. Käyttömäärän ja käyttötiheyden seuraaminen onkin alue jonka avulla voidaan pyrkiä hakemaan aikaisia signaaleja käyttäytymiseen liittyvistä muutoksista, ja näin esimerkiksi ennakoida kasvanutta riskiä tilauksen lopettamiseen. Nyt käytettävissä oli vain klikkausdata. Monipuolisempi data, esimerkiksi tilaushistorian tai demograafisten tietojen liittäminen antaisi paljon uusia mahdollisuuksia käyttötapojen ymmärtämiseen ja ennustesovellusten tekemiseen. Tämä kuitenkin vaatii, että mediatalolla on tietojen yhdistämisen mahdollistava rekisteriseloste, ja tietenkin myös käytännön mahdollisuudet datan hankkimiseen. Työkaluja datojen analysointiin ja koneoppimisen menetelmien soveltamiseen on tarjolla jopa ilmaiseksi tai suhteellisen edullisesti. Tietojen kerääminen ja esikäsittely voi sitä vastoin olla paljonkin resursseja vaativa vaihe. Vaiheittainen eteneminen tiedonkeruussa ja hyötyjen konkretisoinnissa onkin hyvä lähtökohta. Suositusmenetelmät voidaan jakaa karkeasti kahteen osaan: kollaboratiivisiin eli yhteistoiminnallisiin, ja semanttisiin eli metadataa hyödyntäviin menetelmiin. Metadatoitus ja metadatan hyödyntäminen on iso alue, johon ei tässä hankkeessa pystytty panostamaan. Kollaboratiivista UPCV-suosituskonetta kokeiltiin projektissa oletusasetuksilla. Koe antoi lupaavia tuloksia, mikäli käyttäjällä oli massasta poikkeavia klikkauksia. Menetelmän tarkempi arviointi edellyttäisi todellisessa käyttöympäristössä tehtävää A/B-testausta jonkin toisen suositusmenetelmän kanssa. Samalla suosituskoneen parametrit on syytä optimoida arvioinnissa käytettäviä suorituskykymittareita vastaaviksi. TUTKIMUSRAPORTTI VTT-R-04362-15 19 (23) Liite 1. Esimerkkejä suosituksista Esimerkki 1: Suositus pienelle ja yleisluontoiselle opetusaineistolle (ID 111209fb9ccab75c) Opetusaineisto viihde jalkapallo talviurheilu digi ulkomaat urheilu Suositukset If aloittaa yt-neuvottelut Suomessa Uusi todistaja ääneen Auer-käräjillä: Väittää asiakkaansa tunnustaneen surman Dresdenissä tuhannet marssivat "islamisaatiota" vastaan Vaalimaalla rauhallista: Venäläisturisteja virtaa Suomeen maltillisesti aamulehti.fi: 300x250_meedio_pirkanmaa rannikkoseutu.fi: blogit monster.fi: IT_4 Multian osuuspankki vaihtaa ryhmaa mutta säilyy itsenäisenä iltalehti.fi: ilona Helander lupaa muutoksia Keskoon Petäjäveden Osuuspankki valmistelee siirtymistä itsenäisenä Tässä ovat parhaat lukiot Puukotus Härkitiellä - poliisi kaipaa vihjeitä Helsinki: Logistiikka- ja osto- ja hankintatehtävät telkku.com: programtable telkku.com: subscription Näkökulma: Soinin legendaarinen virhe iltalehti.fi: index.shtml Esimerkki 2: Minimaalinen suositus minimaaliselle ja yleisluontoiselle opetusaineistolle (ID f4e4240d65a5c18) Opetusaineisto iltalehti.fi: viihde Suositukset Kohta tuttu tv:stä: Naantalilaissukeltaja tutkii 300 vuoden takaista hylkyä Poliisi haluaa käteistä TUTKIMUSRAPORTTI VTT-R-04362-15 20 (23) Esimerkki 3: Lyhyehkö suositus laajahkolle, mutta yleisluontoiselle opetusaineistolle (ID d1d5f8abe07a254) Opetusaineisto iltalehti.fi: rakkausjaseksi iltalehti.fi: laihdutus Tätä suomalaiset odottavat vuodelta 2015 Kateissa ollut Nikke Ankara löytyi - Poliisi: "Hän on nyt turvassa" iltalehti.fi: fiidifi iltalehti.fi: leffat iltalehti.fi: perhe iltalehti.fi: pinnalla iltalehti.fi: terveys iltalehti.fi: iltv-hyvaolo iltalehti.fi: muoti iltalehti.fi: syopa iltalehti.fi: kuntoilu Tällaista on kulissien takana delfinaariossa iltalehti.fi: elintavat iltalehti.fi: kauneus iltalehti.fi: smliiga iltalehti.fi: ruoka iltalehti.fi: viihde iltalehti.fi: ilona iltalehti.fi: iltalehti.fi: asuminen iltalehti.fi: matkajutut iltalehti.fi: kauneudeksi iltalehti.fi: mieli iltalehti.fi: ulkomaat iltalehti.fi: oho iltalehti.fi: urheilu Onko sinulla kokemusta krapulasta? Helsingin yliopisto etsii koehenkilöitä tällä kriteerillä Kotiin palannutta teinien äitiä odotti järkyttävä yllätys iltalehti.fi: nhl iltalehti.fi: satakysymystaseksista telkku.com: programtable iltalehti.fi: hiukset iltalehti.fi: hyvaolo iltalehti.fi: tosielamaa iltalehti.fi: catwalk iltalehti.fi: viikon-laihduttaja iltalehti.fi: popstars iltalehti.fi: autot Pariskunta teki yllättävän löydön lenkkipolulta Ulvilasta Suositukset Poliitikko nujakoi kitukasvuisten kuusien takia monster.fi: 143861483 kainuunsanomat.fi: kanta-asiakaslahja Tupakka-askin hinta nousee 30 senttiä Vasta vapautunut elinkautisvanki tunnusti Kuopion henkirikoksen myyjaosta.com: 1697939 Ilkka: 97-vuotias juhli Linnassa - koruvarkaat iskivät kotiin Loton päävoitto jäi jakamatta - miljoonapotti kasvaa Onko sarjaraiskaaja kaksoismurhaaja? TUTKIMUSRAPORTTI VTT-R-04362-15 21 (23) Esimerkki 4: Suositukset erittäin laajalle opetusaineistolle (ID 1506a7a687849f48). Ennen suositushetkeä opetusaineistossa oli rikosartikkeleja; aihepiiri esiintyy myös suosituslistan. Taulukon ulkopuolelta todettakoon, että suositusten ensimmäinen artikkeli (Kristillisdemokraatit erotti…) löytyi myöhemmin klikattujen artikkelien listalta. Opetusaineisto Asiantuntija kyseenalaistaa Valviran rekkatulkinnan: Katosivatko perinnetölkit turhaan? iltalehti.fi: matkailu iltalehti.fi: cgi-bin Ilmatieteen laitos: Tänään luvassa talven toistaiseksi kovin myrsky iltalehti.fi: matkajutut iltalehti.fi: ulkomaat Näkökulma: Kiikun kaakun [keskustalainen lomabisnes] Ministeriö: Tuulituhot voivat nousta miljooniin euroihin Perjantain myrsky: Pahimmillaan lähes 10 000 taloutta vailla sähköä iltalehti.fi: viihde iltalehti.fi: iltvuutiset iltalehti.fi: kuninkaalliset Halla-ahon ulostulo sähköisti perussuomalaiset Joulusiivous paljasti kasvun ihmeen - "emme vielä tiedä, mikä se on" Keskiseltä paloi päreet aluehallintovirastoon: "Aion pitää jatkossa auki juuri niin kuin haluan" Kohta paukkuu ja kiristää! Loppiaisena hyisen kylmä iltalehti.fi: iltvtyylicom iltalehti.fi: iltvluontojaelaimet Vuosi 2015 tuo 96 uutta nimipäivää - katso lista iltalehti.fi: kolumnistit Virkamies häkeltyi Keskisen haukuista: "24 päivää on käsittämätön väite" iltalehti.fi: talviurheilu iltalehti.fi: ruoka iltalehti.fi: iltv Teatterifestivaali valitti esiintyjän alastomuuskiellosta Kaupunki kielsi lasten luistinradan - viranomaisen mielestä turvallisuusriski iltalehti.fi: asuminen iltalehti.fi: popstars Näkökulma: Perussuomalaiset päätyvät aina syömään omaa häntäänsä iltalehti.fi: fiidifi Uhkaako Suomea supermyrsky? Poliisi: Vaarallisia Superman-pillereitä myös Suomessa Tyttö jäi jumiin sadevesikaivoon Järvenpäässä Nainen löytyi kuolleena roskiksesta - epäilty sanoo toimineensa äkkipikaistuksissaan Vakava räjähdysonnettomuus varuskunnan varastolla - sytytin räjähti kädessä 18-vuotiailla naisilla hurja päähänpisto uudenvuodenyönä Tyttöporukan Whatsapp-kiusaaminen kärjistyi - poliisi tutkii iltalehti.fi: oho kotikokki.net: reseptit Tärkeä liikennesääntö unohtui taas: 14-vuotias tyttö jäi tilataksin alle suojatiellä iltalehti.fi: raskausjalapset iltalehti.fi: perhe Intin voi suorittaa näinkin - IL listasi erikoisimmat tehtävät Siitäs sait, Sääntö-Suomi! Kotileipurit ottivat torjuntavoiton Varaudu loppiaisen poikkeusaikoihin: Ovatko kaupat auki, miten junat kulkevat? iltalehti.fi: kauneudeksi Mies lainasi tutultaan aseen "kissan lopettamiseen" - ampui vaimonsa Suositukset Kristillisdemokraatit erotti Heinäluoman vaimon kuolemaa kommentoineen valtuutetun Eerikan murha: Puolustuksella uusi todistaja Klara Kivilahti kiisti syytteet telkku.com: cache HS: Aarnio-sotkun avannut prostituoitu pakoilee ympäri Suomea Nyrstar pääsi sopuun tuotevirrasta – Meksikossa Eero Lehti Keskisuomalaisessa: Katainen harhautti vakuusasiassa Duudsonien Rabbit Films avaa toimiston Los Angelesiin Passin uusiminen helpottuu iltalehti.fi: oho Armeijapojan järkytys - koko koti tyhjennettiin telkku.com: kl SDP:n suklaakampanja sai tylyn vastaanoton: "Työnnä hanuriin!" Ammattiliitto TEAM haastoi Loimaan kassan oikeuteen monster.fi: Pori_2 myyjaosta.com: 1692261 Hirveimmät Facebook-mokat Sähköt poikki yhä tuhansilta Savossa monster.fi: 144430704 Kohuliikemies Arto Merisalo vapautui vankilasta Et arvaa, miten monella tavalla kotisi voidaan hakkeroida Kahden euron kolikkoon lyödään Tove Janssonin kasvot Sähköyhtiöt korjaavat yhä talvimyrskyn tuhoja autotalli.com: renault Teinityttö yritettiin kaapata autoon - poliisi tutkii raiskauksen yrityksenä iltalehti.fi: iltvviihde iltalehti.fi: fiidifi Ilmatieteen laitos varoittaa: Merivesi tulvii yöllä iltalehti.fi: juha-vuorinen Kirvessurmista epäillyn rikostausta: Suuttui puhelinkaupassa ja puri vartijaa iltalehti.fi: rakkausjaseksi iltalehti.fi: smliiga TUTKIMUSRAPORTTI VTT-R-04362-15 22 (23) Suomeen tulvi pakolaisia vuonna 1990 - salainen asiakirja paljastaa Tekstiilitaiteilija Marjatta Metsovaara on kuollut Pekka Puska ehdolle eduskuntaan Näkökulma: Kaksi tavallista päivää Pariisissa Naiset tekivät ikävän tempun hotellivieraalle Kahta puukotettiin kauppakeskuksessa Helsingissä, epäilty karussa Koira törmäsi tolppaan, omistaja hakee 2 500 euron korvauksia Auton renkaat murskasivat puolet keulasta Viinalain oikku: Pubivisojen palkintotuopit kiellettiin Jungnerin säästölista: Tupakkaan täyskielto, käteisestä luovuttava 19-vuotiaan naisen röyhkeä taksitemppu sai nolon lopun Kirkosta eronnut: Tämä saattaa yllättää Palauta tämä tuote takaisin K-kauppaan - päiväys pettää pahasti Rekan ojaanajo sulki Vaasantien Porissa Useat suomalaiset hakevat mätkyarmoa Loirin tapaan - harva sitä saa iltalehti.fi: meikki iltalehti.fi: tyylicom Pääministeri Alexander Stubb: "Puolustan henkeen ja vereen Charlie Hebdoa" 10 lapsen isä: Tukemme putoavat 1 300 euroa 6-vuotias juoksi suojatielle - autoilija törmäsi Karhu vei Kaapon Nainen pyllisti naapureille - sakot kunnianloukkauksesta Nainen soitti hätäkeskukseen: Känni päällä, auto ojassa, jalka puussa iltalehti.fi: hiukset iltalehti.fi: jaakiekko Helsingin keskustassa Kampin kauppakeskuksen vieressä roihusi tulipalo Suomessa vain yksi vuosia hotellissa asunut? iltalehti.fi: pinnalla iltalehti.fi: tosielamaa iltalehti.fi: iltvviihde iltalehti.fi: rakkausjaseksi iltalehti.fi: pikkutakki Suomalaiset pilapiirtäjät tarttuivat kynään sananvapauden puolesta iltalehti.fi: muoti Ulkoministeriö karjalaisjihadistista: "Ainutlaatuinen tapaus" ulkoministeriön poikkeuksellinen.) Kotiin palannuttamukaan teinienhyvin äitiä odotti järkyttävä yllätys Eläkesopimus taskussa 19-vuotiaana - Ida tekee historiaa Sähkökatkos pimensi koko Iso-Syötteen Teinikuskille sakot - humalainen putosi auton katolta iltalehti.fi: linnanjuhlat2014 iltalehti.fi: nhl Leipäjonossa auttaneelle työttömälle kävi kalpaten - "Onneksi tilanne on parantunut" Poliisia odotti Velodromin aulassa alaston mies Tuomioja Ylellä: Kreikkaa hoidettu alusta asti väärin Mies syötti vauvaa väärin - hermostuneet vanhemmat kävivät toistensa kimppuun Näkökulma: Jumalan käsi Sunnuntaisuomalainen: Laki sallii Muhammad-kuvien julkaisun "Ei naista saa lyödä", sanoi mies - ja huonosti kävi Etelään lunta ja viimaa - sähkönjakeluun lisää ongelmia iltalehti.fi: suosikkikohteet Lannoitetehtaassa suuri tulipalo Uudessakaupungissa Kiuru verkkovalvontamietinnöstä: Kuin sallisi kotietsinnän joka kotiin Utsjoella talven pakkasennätys: -39,5 astetta 6-vuotias kuoli traktorin alle Helsingissä iltalehti.fi: digi iltalehti.fi: matkatarinani TS: Aarnio-vyyhdin asianajaja on valehtelun Suomen mestari TUTKIMUSRAPORTTI VTT-R-04362-15 23 (23) Poika jumittui veistokseen Lahdessa HS: Some-sukupolven huumekuriiri kattoi poliisille valmiin iltalehti.fi: mallit Ilmatieteen laitos varoittaa: Merivesi tulvii yöllä Jyväskylän kirjastoisku: Poliisin toiminnasta tutkintapyyntö Koira lukitsi pikkulapsen autoon - näpräsi myös ovet auki iltalehti.fi: kauneuskirurgia iltalehti.fi: urheilu iltalehti.fi: ilona "Olette ensimmäisiä tapettavien listalla kun saavumme Suomeen" KRP tutkii Halla-ahon saamaamiehen uhkausviestiä Kaksi suurta koiraa hyökkäsi kimppuun Porissa Alkossa alkoi maanantaina alennusmyynti Varovaisuutta liikenteessä! Keski-Suomessa karmea ajokeli Posti lopettaa suositun palvelunsa helmikuun alussa - kriittistä "En ole ikinä ollut tuollaisessa kyydissä" Professorit: Keskimääräinen eläke pienenee jopa 12 prosentilla iltalehti.fi: kuntoilu Jungnerille tyly palaute puoluetoverilta KSML: Naisopettaja kumartui - kuva takamuksesta levisi hetkessä Ilkka: 97-vuotias juhli Linnassa - koruvarkaat iskivät kotiin iltalehti.fi: iltvmusiikki Kirvessurmat keräävät paikalle paljon uteliaita: "Onni Poliisi piirityspaikalla järein varustein - näkyykö kuvassa tekoväline? Poliisi: Oulun kirvessurmista epäilty kuollut TUTKIMUSRAPORTTI VTT-R-04362-15 24 (23) Esimerkki 5: Suositukset opetusaineistolle, jossa yleisluonteisten klikkausten lisäksi esiintyi myös harvinaisempien artikkelien klikkauksia (ID e4c9ee3b933c14): Opetusaineistossa oli kaksi kyberhyökkäyksiin liittyvää klikkausta. Suosituksiin oli päätynyt Data protection officer – työpaikkailmoitus ja lisäksi kaksi IT-alan työpaikkasivua. Opetusaineisto iltalehti.fi: rakkausjaseksi telkku.com: programtable kauppalehti.fi: porssi iltalehti.fi: urheilu iltalehti.fi: formulat iltalehti.fi: ulkomaat iltalehti.fi: iltvviihde iltalehti.fi: jalkapallo iltalehti.fi: viihde Tesoman henkirikos: Oletko nähnyt tätä puukkoa? iltalehti.fi: terveys iltalehti.fi: omaguru Kyberhyökkäykset ovat todellinen uhka: "Suomen voisi pysäyttää vartissa" Näin kyberturvallisuuskeskus kommentoi uhkakuvaa Suomen lamauttamisesta Naiset tekivät ikävän tempun hotellivieraalle telkku.com: program iltalehti.fi: kuntoilu Tuomioja Ylellä: Karjalaistyttö lähti taistelemaan Lähi-itään - jäi kiinni Lontoossa iltalehti.fi: talviurheilu Suomalaisnainen mopoili alasti Kambodzassa poliisit pidättivät KSML: Naisopettaja kumartui - kuva takamuksesta levisi hetkessä koko luokalle iltalehti.fi: iltvmusiikki Poliisi piirityspaikalla järein varustein - näkyykö kuvassa tekoväline? Suositukset Poliitikko nujakoi kitukasvuisten kuusien takia Supercell on kovin Kasvaja: kasvu yli 7 500 prosenttia monster.fi: 144241365 monster.fi: Ejendals-Suomi-Oy_6 Näkökulma: Stubb uudistaa kokoomuksen kulttuurin Ylin johto on unohtanut asiakkaat Tavaratalo Hong Kong on palamassa kokonaan Liki 500 evakkoon Akaan homekoulusta Poika tyrmistyi: Sonera kaupusteli sairaalle isälle Karuja tarinoita: Näin lapsi päätyy huostaanottoon Data protection officer -työpaikka myyjaosta.com: 1699303 Syväkurkku: Microsoftin johdossa puhkesi valtataistelu etuovi.com: lainalaskuri kauppalehti.fi: Estate DN: Ruotsin puolustusbudjetissa jättiaukko Poliisi hoiti vuodenvaihteessa yli 300 hälytystä monster.fi: Turku+IT_24 IL selvitti kansanedustajien puheet ja teot Yle myllää aluetoimituksiaan Intin voi suorittaa näinkin - IL listasi erikoisimmat tehtävät Perävaunun rengas pyöri tielle – Vastaantulija ei ennättänyt väistää "Pelastakaa pedofiilit" - parodiasta iso lasku helsinkiläismiehelle iltalehti.fi: kotikokki Muusikon käräjät jatkuvat - todistajat saliin monster.fi: it_4 Yksi kuollut uudenvuoden vietossa - pahoinpitelyt työllistivät poliisia USA:n työmarkkinoilla paras vuosi 15 vuoteen Tämä on lukijoiden suosikki Guggenheim-museoksi Tällainen on Airbusin uutuuskone PÖRSSIT: Öljyn luisu rasittaa tunnelmia Koulu ei saanut tehdä muuminäytelmää iltalehti.fi: diabetes monster.fi: seinäjoki monster.fi: 143638334 Uhrin tuttava: "Tummaihoiselle naiselle huudettiin, missä on sun kirves" Supercell-sijoittaja lähti mukaan koirankoulutusbisnekseen monster.fi: pori_2 Armeijapomo Ylellä: Potero antaa suojaa ohjuksilta Ojalanperältä lähti esitys Raaheen liittymisestä Simon nokkakolari: Isovanhemmat kuolivat, 11-vuotias poika takapenkillä Nelostien liikenne kuin venäläistä rulettia monster.fi: Oulu_2 Kiitos, myrskytuuli 10.-15.12.2014: Itämerellä on nyt onnenpäivät! Jussi Niinistö: Salonius-Pasternak mainostaa Nato-jäsenyyttä kauppalehti.fi: talous iltalehti.fi: marjukka-karttunen
© Copyright 2024