Luonnontieteellisten aineistojen georeferointi

Luonnontieteellisten aineistojen georeferointi
Digitarium
Jussi Mäkinen
Joensuu
2011-08-11
Sisällysluettelo
1.
Johdanto .............................................................................................................................................. 3
2.
Aineistot .............................................................................................................................................. 3
3.
Menetelmät ja käytetyt palvelut .......................................................................................................... 4
a.
Georeferointi ................................................................................................................................... 4
i.
Yleistä tietoa näytteiden paikkatiedoista ...................................................................................... 4
ii.
Hakumenetelmä ........................................................................................................................... 5
iii.
Validointi ...................................................................................................................................... 7
iv.
Epävarmuusalueet........................................................................................................................ 8
v.
JJClient georeferoinnissa .............................................................................................................. 9
b.
c.
Koordinaattien muuntaminen .......................................................................................................... 9
i.
Yleistä tietoa muunnoskoordinaateista ......................................................................................... 9
ii.
Tekninen toteutus .......................................................................................................................11
iii.
Koordinaattimuunnos JJClient:ssa................................................................................................13
iv.
Vaihtoehtoiset DWC- menetelmät ...............................................................................................14
Georeferoinnin ja koordinaattimuunnoksen yhteiskäyttö ................................................................16
4.
Tulokset ja tulevaisuus ........................................................................................................................16
5.
Yhteenveto .........................................................................................................................................17
6.
Lähteet ...............................................................................................................................................18
2
1. Johdanto
Projektin päämotiivi on digitoida Suomen luonnontieteellisen museon ja yksityisten tahojen omistamat
luonnontieteelliset kokoelmat ja luoda niistä yhdenmukainen tietokanta kotimaiseen ja kansainväliseen
yhteiskäyttöön. Tämä on osa kansainvälistä GBIF- (Global Biodiversity Information Facility) projektia, jonka
tavoitteena on yhdistää kansallisten instituutioiden hallussa pitämät luonnontieteelliset aineistot ja tuoda
ne kaikkien tahojen käytettäväksi. Aineistojen tulee olla yhteisten standardien mukaan rakennettuja, jolloin
niiden yhteiskäyttö on mutkatonta.
Georeferointi- osuus liittyy näytteiden paikkatietojen yhtenäistämiseen. Kansainvälisessä
projektissa aineistoille annetaan nykyaikaisen datumin (WGS 84) ja yhteisen koordinaattijärjestelmän
(ETRS-89) mukaiset maantieteelliset koordinaatit desimaalimuodossa. Museon näytteiden paikkatiedot
koostuvat keräilijöiden tekemistä merkinnöistä, jotka ovat verbaalisia paikkatietoja tai ykj(yhtenäiskoordinaatisto) tasokoordinaatteja. Keräilijät ovat merkinneet minkä eliömaakunnan, kunnan,
kylän tai tilan alueelta näyte on kerätty. Nämä tiedot ovat hyvin vaihtelevia, kuten myös näytteiden
sisältämien tasokoordinaattien tarkkuus. Georeferoinnin tavoitteena on etsiä verbaalisten paikannimien
perusteella todennäköinen sijainti näytteelle ja antaa havaintopisteelle epävarmuus, joka kuvaa
virhealuetta, jonka sisällä todellinen keräyspaikka sijaitsee. Ykj- tasokoordinaatit muutetaan
maantieteellisiksi koordinaateiksi ja niille annetaan epävarmuusalue, koska ykj- koordinaatit sisältävät
epätarkkuuksia. Tämän selvityksen tavoite on luoda Digitointikeskukselle mahdollisimman automaattinen
järjestelmä, joka muuntaa näytteen paikkatiedon maatieteellisiksi koordinaateiksi ja antaa näytteelle
epävarmuusalueen. Georeferoinnin lopputulos tarkistetaan manuaalisesti validointi- vaiheessa, mutta itse
tekninen työ suoritetaan automatisoidusti. Prosessin automatisointi on projektin tärkeimpiä tavoitteita,
koska näytteiden määrän ollessa miljoonia, niiden läpi kahlaaminen yksitellen on työlästä ja aikaa vievää.
Georeferointi -ohjelmien tulee olla mahdollisimman monikäyttöisiä, että niitä voidaan käyttää muidenkin
kuin vain suomalaisten aineistojen yhteydessä.
2. Aineistot
Projekti sisältää monia työvaiheita digitoinnista georeferointiin ja validointiin. Georeferointi suoritetaan,
kun näyte on jo pääosin digitoitu, ja sen tiedot ovat siistitty ja tulkittu. Validointi suoritetaan viimeiseksi ja
siinä tarkistetaan tiedostojen tietojen yhteneväisyys ja ulkoasu. Digitoinnissa näytteistä on luotu XMLtiedostoja, jotka ovat DWC:n (Darwin Core) mukaisia. DWC on tiedonvaihtostandardi, joka määrittää mitä
tietoja näytteestä halutaan, eli mitä kenttiä tiedosto sisältää ja missä muodossa tiedot merkitään kenttiin.
Yhtenäinen merkintätapa on tärkeä tekijä kansainvälisessä yhteiskäytössä ja helpottaa georeferointityövaihetta, koska tiedot ovat yhdenmukaistettu ennen sitä. Paikkatiedot ovat jaoteltu DWC:n eri kenttiin,
mikä helpottaa niiden tulkintaa. XML- tiedostoja hallitaan JJClient- ohjelman kautta. Tämä ohjelma on
suunniteltu nimenomaan DWC- standardin mukaisten tiedostojen hallintaan.
DWC
Continent Country
Suomennos Manner
Valtio
State/province County
Municipality Locality
Eliömaakunta Liitoskunta Kunta
Kylä/seutu
Taulukko 1. Georeferoinnin input- tiedot. DWC:n mukaiset paikkatiedot, jotka esiintyvät luonnontieteellisissä näytteissä.
Jokaisessa näytteessä on merkintä mantereesta, valtiosta ja eliömaakunnasta, mutta
liitoskunnasta, kunnasta tai kylästä voi jostakin puuttua merkintä. Kolme viimeisintä luokkaa ovat tarkkoja,
joista jokaisen avulla näyte saadaan sijoitettua kartalle melko tarkasti. Kylä/seutu saattaa sisältää myös
muita kuin kylien nimiä, esim. järvien, lampien, mäkien, vaarojen tai muiden selkeästi erotettavien
3
paikkojen nimiä. Tiedot ovat poimittu näytteen keräilijän merkinnöistä, ja digitoija on jaotellut paikkatiedot
taulukon 1 mukaisiin luokkiin. DWC- kenttien sisältämä tieto on tulkittua, ja jossain tapauksissa valinta
esim. liitoskunnan ja kunnan välillä voi olla kiistanalainen.
Jotkin näytteet sisältävät paikkatiedon myös ykj- koordinaatteina. Koordinaateille on oma
merkintätapansa DWC:ssa (taulukko 2). Taulukossa esiintyvät DWC- kenttien nimet eivät ole
totuudenmukaisia ykj- koordinaattien osalta, koska tasokoordinaatit ilmoitetaan etäisyyksinä, eivätkä
pituus- (longitude) tai leveyspiireinä (latitude). Verbatim Coordinates on sopivampi kenttä ykjkoordinaattien ilmoittamiseen, mutta XML- tiedostoissa koordinaatit ovat ilmoitettu sekä verbatim
coordinates että verbatim latitude/ longitude – kentissä. Verbatim coordinate system- kentässä on
koordinaattien järjestelmä, joka on tässä tapuaksessa ykj. Koordinaattien muuntamisen ja paikkatietojen
georeferoinnin avulla saatavat uudet maantieteelliset koordinaatit ja koordinaattien epävarmuudet
merkitään tiedostoon DWC:n mukaisesti (taulukko 3). Yhdenmukaisesti merkityt tulokset helpottavat
validointia.
DWC
Verbatim Coordinates
Suomennos alkup. koordinaatit
Verbatim
latitude
alkup.
Leveyspiiri
Verbatim
Longitude
alkup.
Pituuspiiri
Verbatim coordinate
system
alkup.
Koordinaattijärjestelmä
Taulukko 2. Koordinaattimuunoksen input- tiedot. DWC:n mukaiset koordinaattitiedot.
DWC
Decimal
Latitude
Suomennos leveyspiiri
desimaaleina
Decimal
Longitude
pituuspiiri
desimaaleina
Coordinate's uncertainty in
meters
koordinaattien epävarmuus
metreinä
Geodetic Datum
Koordinaattien
datumi
Taulukko 3. Molemman menetelmän tuottamat DWC:n mukaiset output- tiedot.
3. Menetelmät ja käytetyt palvelut
Näytteen sisältämät tiedot määrittävät, mitä menetelmää koordinaattien luomisessa käytetään. Tavoite on
saada koordinaattien epävarmuusalue mahdollisimman pieneksi. Verbaalisen paikkatiedon georeferointi on
yleisempi menetelmä, koska alle puolet suomalaisista näytteistä sisältää paikkatiedon
yhtenäiskoordinaatteina. Yleensä ykj- koordinaattien avulla saadaan tarkempia tuloksia kuin paikannimien
avulla.
Sijaintien etsimisessä ja koordinaattien muuntamisessa käytetään eri instituutioiden
tarjoamia Internet- palveluja. Palvelujen kirjo on laaja, ja ennen lopullisen georeferointi- järjestelmän
kehittämistä palvelujen ominaisuuksia tutkittiin, ja palveluista valittiin tehtävään sopivimmat. Palvelujen
hyödyntämisen riskinä on riippuvaisuus eri tahoista, joiden toiminnan jatkumisesta tulevaisuudessa ei ole
täyttä varmuutta.
a. Georeferointi
i. Yleistä tietoa näytteiden paikkatiedoista
Paikannimien mukaan sijaintien etsiminen on tulkinnanvaraista, koska paikannimet viittaavat eri
hierarkiatason paikkoihin, esim. laajaan liitoskuntaan, pieneen kuntaan, kylään tai tilaan. Suuremman
kunnan tai laajemmin tunnetun paikan löytäminen tapahtuu helpommin kuin pienen kylän tai tilan.
Toisaalta alhaisen hierarkiatason paikka vaatii laajan epävarmuusalueen, koska liitoskunta ja kunta omaavat
laajan maa-alueen. Näytteissä esiintyviä paikannimiä ei välttämättä löydy paikannimihakemistoista niiden
4
vähäisen tunnettavuuden vuoksi. Osa näytteistä on yli sata vuotta vanhoja, ja nimistö on muuttunut
vuosien aikana, jolloin näytteeseen merkitty paikannimi on hävinnyt käytöstä. Lisäksi monissa vanhoissa
näytteissä paikat esiintyvät ruotsinkielisillä nimillä, jotka ovat kartastoissa myöhemmin käännetty
suomenkielisiksi. Toinen ongelma on kuntien ja hallinnollisten alueiden jatkuva muuttuminen. Kuntien
yhdistämiset, uudelleen nimeämiset ja tilojen ja kylien autioitumiset tuovat aineistoihin ajallisen
ulottuvuuden. Monien vanhojen kuntien nimet ovat säilyneet taajamien niminä, jolloin ne eivät ole
hävinneet kartastoista. Kolmanneksi ongelmia tuottaa samojen nimien esiintyminen eri puolilla maata.
Muutamat nimet ovat niin tiheässä käytössä, ettei niiden avulla löydetä oikeaa sijaintia. Esim. Saariniminen paikka esiintyy ympäri Suomea kymmeniä kertoja.
Koordinaattien epävarmuusalue määritetään sen paikannimen mukaan, mihin sijainnin
etsintä perustuu. Georeferoidessa sijainteja paikannimen mukaan, ainoa epävarmuuden lähde on sijainnin
laajuus. Epävarmuusalue pyrkii kattamaan koko alueen, johon nimi viittaa. Tässä auttaa digitointi- vaiheen
paikannimien luokittelu (county-municipality-locality), jossa kunkin luokan paikannimet viittaavat saman
hierarkiatason ja kokoluokan alueisiin. Epävarmuusalue annetaan sen mukaan, mihin luokkaan sijainnin
määrittävä paikannimi kuuluu. Ongelmana tässä ovat paikkojen vaihtelevat koot, jolloin yhtenäinen
epävarmuusalue- järjestelmä on vaikeaa määrittää. Epävarmuusalueiden tulee olla konservatiivisesti
ennemminkin liian laajoja kuin liian suppeita. Liian suppealla epävarmuusalueella heikennetään
sijaintitiedon paikkansa pitävyyttä, kun liian laajalla lasketaan ainoastaan tarkkuutta, mikä on
sekundäärinen virhe. Projektissa tutkittiin, minkä tason paikkoihin luokitukset viittaavat ja kuinka suuria
niiden pinta-alat yleisesti ovat. Tämän perusteella DWC:n paikannimi- luokille annettiin epävarmuusalueet
(taulukko 4).
DWC-kenttä
Suomennos
Continent
Country
State/province
County
Municipality
Locality
Manner
Valtio
Eliömaakunta
Liitoskunta
Kunta
Kylä/seutu
Laajuus (extent)=
epävarmuusalue
ei järkevä
500
200
30
10
5
Taulukko 4. DWC-luokat ja niiden maantieteelliset laajuudet.
ii. Hakumenetelmä
Manner-, valtio- ja eliömaakunta- tiedoilla ei pystytä tuottamaan todellisia tuloksia, vaan ainoastaan
kohdentamaan ja tarkentamaan hakua. Tuloksia, joiden tarkkuus on hyväksyttävällä tasolla, syntyy
etsimällä sijainteja liitoskunnan, kunnan tai kylän/seudun perusteella. Etsinnässä tulee käyttää aina
tarkimman luokan paikkatietoa, jolloin epävarmuusaluetta saadaan pienennettyä.
Teknisesti työ suoritetaan Tulanen yliopiston ylläpitämällä GeoLocate- palvelulla
(http://www.museum.tulane.edu/geolocate/default.html). GeoLocate kerää paikkatiedot, etsii omasta
paikannimihakemistostaan (gazetteer) nimet ja sijoittaa ne kartalle. Jokaiselle sijainnille määrittyy
koordinaatit desimaali- muodossa. Sijainnit, jotka määrittyvät paikannimien mukaan ovat kyseisten
paikkojen keskeisiä sijainteja, esim. kunnan keskuksen postitoimisto tai kunnantalo. Ohjelma voi antaa
muitakin tuloksia samalle kunnalle, kuten kunnan maantieteellisen keskipisteen. Yhdelle paikannimelle
tulee monta tulosta, koska paikannimet esiintyvät useita kertoja nimihakemistossa.
5
Paikkatiedot lähetetään palveluun niin, että valtio ja eliömaakunta rajaavat tuloksia
maantieteellisesti, ja liitoskunta-, kunta- ja kylä/seutu- nimien avulla suoritetaan etsintä. Liitoskunta, kunta
ja kylä/seutu yhdistetään yhdeksi lauseeksi, locality string, jossa ei eritellä, mitä hierarkiatason paikkaa nimi
edustaa. Locality String on GeoLocatelle lähetettävän viestin yksi parametri (kuva 1, neljäs kenttä ylhäältä).
GeoLocateen on tallennettu valtioiden ja Suomen tapauksessa eliömaakuntien rajat polygoneina. Haku
keskittyy näytteen ilmoittaman eliömaakunnan alueelle. Eliömaakunnat noudattavat pitkälti hallinnollisten
maakuntien rajoja, mutta eroavat paikoitellen. Lisäksi monet ulottuvat Venäjän puolelle tai ovat kokonaan
Venäjän puolella. Luonnontieteelliset näytteet ovat kerätty pitkältä ajalta, jolloin niitä esiintyy myös
Venäjän alueilla.
Kuva 1. GeoLocateen lähetettävä http-viesti, joka sisältää paikkatiedot.
Vastauksena viestiin saapuvat paikannimien mukaan löydettyjen sijaintien koordinaatit
desimaalimuodossa. LocalityStringissä esiintyvät paikannimet synnyttävät erillisiä tuloksia, joilla ei
välttämättä ole tekemistä toistensa kanssa. GeoLocate ei etsi sijainteja laajemman paikan sisältä, kuten
kylää kunnan sisältä, vaan haku synnyttää toisistaan irrallisia tuloksia. Tuloksen Parsepattern (kuva 2,
kandidaatin numeron jälkeen) ilmoittaa, minkä paikannimen mukaan sijainti löytyi. Parsepattern on
elintärkeä tieto vertailtaessa tuloksia. GeoLocate etsii myös paikannimien osien mukaan, eli yksi haku
tuottaa suuren määrän kandidaatteja, joista osan voi heti tuomita vääriksi. Georeferoinnin tuloksena
syntyvistä sijaintikandidaateista validoija valitsee parhaan mahdollisen kandidaatin ja tallentaa sen
koordinaatit ja epävarmuusalueen näytteen tiedostoon.
GeoLocatea on kehitetty tämän projektin edistymisen aikana. Projektissa saatuja ideoita on
lähetetty GeoLocatesta vastaavalle taholle, ja he ovat ottaneet kehitysehdotukset vakavasti.
Georeferoinnin kannalta paras uudistus on ollut Suomen eliömaantieteellisten maakuntien lisääminen
GeoLocaten hakutietoihin. Aikaisemmin GeoLocatessa pystyi rajaamaan hakualuetta hallinnollisten läänien
avulla, mikä ei ole luonnontieteellisten näytteiden osalta käytännöllistä. Kehitysehdotuksen mukana
Tulanen yliopistolle lähetettiin eliömaakuntien sijainnit polygoneina. Tiedot lisättiin GeoLocateen, ja nyt
6
georeferointi- haun voi kohdistaa tiettyyn eliömaakuntaan. State- parametriin merkitään eliömaakunnan
latinankielinen lyhenne. Kandidaatteja syntyy ratkaisevasti vähemmän, ja validoijan työ helpottuu ja
nopeutuu. Kuvan 2 hakua ei ole rajattu eliömaakunnan avulla, ja tuloksia syntyy suuri määrä ympäri
Suomea. Jos haku kohdennettaisiin ainoastaan Pohjois- Karjalan eliömaakuntaan, kandidaatteja syntyisi
noin 3-5. Kyseinen edistys parantaa näytteen sisältämien paikkatietojen hyödyntämisastetta.
iii. Validointi
Tiedoston sisältämät paikkatiedot muodostavat kokonaiskuvan sijainnista, joka ei yksittäisissä
tuloskandidaateissa tule esiin. Validoijan tulee tutkia tiedoston paikkatietoja kokonaisuutena, luoda
yleiskuva, kuinka tarkasti niillä pystyy sijainnin määrittämään ja tutkia GeoLocatesta saatuja tuloksia.
Suurten liitoskuntien tai kuntien sijainnit ovat helposti määritettävissä, mutta oikean kylän/seudun
löytäminen monista kandidaateista on vaikeampaa. Eri paikannimien mukaan syntyneiden tuloksien tulee
tukea toisiaan niin, että kunta tai kylä sijaitsee suuren liitoskunnan lähistöllä ja kylä kunnan lähistöllä.
Tarkkoja etäisyyksiä on vaikea määrittää. Kandidaatit esitetään kartalla, jota tarkentamalla voi tutkia
Google Mapsin sisältämää nimistöä, ja sen perusteella arvioida eri tason paikkojen yhteyksiä.
GeoLocaten nimihakemisto ei ole täydellinen, ja siinä löytyy puutteita Suomen nimistössä.
Epäselvissä tapauksissa apuna tulee käyttää Maanmittauslaittoksen ylläpitämää kansalaisen karttapaikkaa
(kansalisen.karttapaikka.fi) ja GoogleMapsia. Näiden hakemistojen avulla löytyvät monet GeoLocatesta
puuttuvat paikannimet. Georeferoinnin tuloskartalla (kuva 2) pystyy kursorilla tarttumaan kandidaattiin ja
siirtämään sen sijaintia, jolloin sijainnin koordinaatit päivittyvät oikeaan alareunaan. Validoija tallentaa
koordinaatit oikean alareunan Save Coordinates- painikkeella. Kansalaisen karttapaikan ja GoogleMapsin
avulla voi tarkastaa epäselviä tuloksia tai määrittää parhaan kandidaatin sijaintia tarkemmin.
Kuva 2. Georeferoinnin tulosikkuna. Oikeassa yläkulmassa ovat tiedoston paikkatiedot ja niiden alla tuloskandidaatit. Tohmajärvi
sijaitsee itärajalla ja sen vieressä sijaitseva Uusikylä on kysymyksessä oleva sijainti. Valitun sijainnin merkki on sininen.
7
Liitoskunnan ja kunnan nimet liittyvät lähes aina hallinollisiin alueisiin, mutta kylä/seutu voi
viitata vesialueeseen tai maantieteelliseen muodostumaan. Monissa tapauksissa pienen järven tai mäen
vieressä sijaitsee saman niminen kylä, joka sekoittaa kandidaatin valintaa. Validoija ei tiedä kumpaan
objektiin keräilijä on viitannut. Näytteen muista tiedoista esim. lajista tai elinpaikasta voi tulkita kumpi
kohteista on parempi validoitavaksi sijainniksi. Kansalaisen karttapaikassa on eritelty maanpinnan muodot,
tilat ja kylät, ja sieltä on tehokasta tarkastaa epäselvät tapaukset. Jos kahdessa tai useammassa näytteessä
on sama paikkatieto, joka ohjaa epäselvään tilanteeseen kahden kohteen välillä, tulee näistä kohteista
valita toinen ja käyttää sitä johdonmukaisesti kaikkien kyseisen paikkatiedon omaavien näytteiden
kohdalla.
Moni näyte sisältää saman paikkatiedon, ja näiden näytteiden validointi yksitellen ei ole
tarkoituksen mukaista. Toistuvan sijaintitietojen validoinnin automatisointi on tulevaisuuden tavoite, jota ei
tässä projektissa ehditty toteuttaa. Sijaintitietojen yksilöinti ja tunnistaminen id:n avulla mahdollistaa
validointi- statuksen yhdistämisen moneen näytteeseen yhdellä validoinnilla. Jos tietylle paikkatiedolle
validoi yhden sijainnin, sen tulisi siirtyä jokaiselle sellaiselle näytteelle, joka omaa kyseisen paikkatiedon.
Ongelmana ovat keräilijöiden eriävät muistiinpanot samasta sijainnista, mikä sekoittaa validointia. Jos
saman sijainnin validointia ei automatisoida, validoijan tulee olla johdonmukainen sijaintien valinnassa ja
valita saman paikkatiedon perusteella sama sijainti.
Validoinnissa on mahdollista käyttää muitakin tietolähteitä. Kylä/seutu- kenttä saattaa
sisältää paikkatietoa, jonka voi georeferoida erittäin tarkasti. Paikkatietona on esim. joessa oleva
mittauspato tai muu kiinteä asema, jonka sijainti koordinaatteina löytyy asemaa hallinoivan tahon
raportista. Raportin ilmoittaman sijainnin voi edellleen paikantaa kartalle kansalaisen karttapaikalla ja
verrata sitä GeoLocaten antamiin tuloksiin. Jos monessa näytteessä on sama paikkatieto, sen
georeferoiminen erittäin tarkasti monia lähteitä käyttäen tuottaa hyvän tuloksen moneen näytteeseen.
iv. Epävarmuusalueet
Jokaisella kandidaatilla on oma epävarmuusalueensa, joka tarkoittaa aluetta, jonka sisällä todellinen
keräyssijainti sijaitsee. Paikannimet viittaavat todellisuudessa alueisiin, jotka ovat liitoskuntien ja kuntien
tapauksessa hallinnollisia alueita ja kylien ja seutujen tapauksessa vaikutusalueita, jotka rajoittuvat muiden
kylien vaikutusalueisiin. Paikkana mäki tai järvi yhdistyy sitä ympäröivään alueeseen, esim. rinteeseen tai
rantavyöhykkeeseen. Epävarmuusalue on paikan maantieteellinen ulottuvuus, johon verbaalinen
paikkatieto viittaa. Sillä pyritään kuvaamaan aluetta, johon keräilijä on viitannut kuvatessaan sijaintia
paikannimellä. Koska alueet ovat erikokoisia, jokaiselle sijaintikandidaatille ei voida antaa samaa
epävarmuusaluetta. Taulukon 4 epävarmuusalueet ovat hyvin epämääräisiä alueiden laaja kirjo
huomioiden, mutta niiden avulla saadaan paikkatietoa arvotettua nopeasti, ja työ automatisoituu. Tavoite
on, että ohjelma yhdistää kandidaatin johonkin kolmesta sijaintitietoluokasta (liitoskunta, kunta ja
kylä/seutu) kandidaatin Parse patternin perusteella. Sen mukaan, minkä paikkatietoluokan mukaan haku on
tehty, kandidaatille muodostuu epävarmuusalue. Tavoite on saada valittavan sijainnin epävarmuusalue
mahdollisimman suppeaksi, jolloin pyritään käyttämään pieneen alueeseen viittaavaa paikkatietoa, kunhan
se tukee muiden paikkatietojen luomaa kokonaiskuvaa sijainnista. Paikkansa pitävyyttä (preciseness) ei saa
heikentää tarkuuden (accuracy) kasvattamisella.
Tällä hetkellä sijaintia ja epävarmuusaluetta kuvataan ainostaan säteen muodostamana
kehänä point- radius- menetelmällä. Sen parametrejä ovat taulukossa 3 luetellut decimal coordinates,
coordinates’ uncertainty in meters ja geodetic datum sekä pointradisuSpatialfit. Georeferoinnin yhteydessä
8
sijainnnin laajuden ja maantieteelisen ulottuvuuden esittäminen on melko yksinkertaista point-radius –
protokollalla. Näytteen sijainti kuvautuu keskipisteenä ja sen ympärille kuvattavana säteen muodostamana
epävarmuusalueena. Vaikka tämä ei kuvaa täydellisesti kuntien ja kylien maantieteellistä ulottuvuutta, se
riittää tässä projektissa vaadittuun tarkkuteen. DWC:n kenttä pointradiusSpatial fit kuvaa, miten hyvin
säteen ja ympyrän mudostama pinta-ala kattaa kohteen todellisen alan, eli kunnan pinta-alan tai kylän
vaikutusalueen. Tämän laskeminen jokaiselle näytteelle on hyvin aikaa vievää, ja kylien todellisten pintaalojen mittaaminen on tulkinnanvaraista.
Täydellisessä sijainnin mallinnuksessa alueiden tulisi olla polygoneja, joilla voi kuvata
vaihtelevan muotoisia alueita. Esimerkki löytyy näytteestä EA 1.007(kunta= Kesälahti, kylä/seutu=
Pyhäjärven länsiranta). Oikea Pyhäjärvi valitaan kymmenen Suomessa sijaitsevan Pyhäjärven joukosta
lähellä sijaitsevan Kesälahden kunnan mukaan. Ongelmana on Pyhäjärven kapea ja pitkä pohjois-etelä
suuntainen muoto. Länsiranta käsittää pitkän ja kapean maakaistaleen, jota on epätarkoituksenmukaista
kuvata kehällä. Kylä/seutu- luokan paikkatiedolla löydetyn sijainnin kuuluisi saada viiden kilometrin säteellä
muodostetun epävarmuusalueen, mutta tässä tapauksessa se ei riitä kuvaamaan keräyssijainnin
mahdollista esiintymisvyöhykettä. Aluetta tulisi kuvata polygonilla, mutta validoijalle tämä tietäisi lisätyötä,
ja tapauksessa tulisi kasvattaa epävarmuusalueen sädettä 10 tai 30 kilometriin.
v. JJClient georeferoinnissa
Paikkatietojen georeferointi suoritetaan suoraan JJClient:in kautta. Digitointi- vaiheessa XML- tiedostoon on
merkitty paikkatiedot, jotka ovat JJClient:ssa käyttäjän hallittavissa. Ohjelmaan liitetään toiminto, joka
lähettää näytteen paikkatiedot GeoLocateen ja avaa kuvassa 2 esiintyneen karttaikkunan kandidaateista.
Validoija valitsee parhaan mahdollisen kandidaatin ja tallentaa koordinaatit kuvan oikeassa alareunassa
näkyvällä Savecoordinates –painikkeella. Koordinaatit tallentuvat JJClient:in käyttöliittymässä näkyviin
kenttiin. Lisäksi koordinaattien datumi (WGS 84) ja georeferoijan nimi tallentuvat oikeisiin kenttiin.
Menetelmiin merkataan GeoLocate ja lähteisiin muut tiedonhakuun käytetyt palvelut kuten GoogleMaps,
kansalaisen karttapaikka tai mahdolliset kirjalliset lähteet. Georeferointi- ohjelma ei vielä anna
epävarmuusaluetta automaattisesti kandidaatille, mutta toiminto tulisi toteuttaa ennen laajempaa
validointia inhimillisten virheiden välttämiseksi. Ohjelma antaisi kandidaatille edellä esitellyn logiikan
mukaisen epävarmuusalueen. Validoijan tulisi tarkastaa sijainnin todellinen maantieteellinen ulottuvuus ja
korjata epävarmuusaluetta, jos automaattisesti annettu alue ei kuvaa todellisuutta, kuten edellisen
kappaleen esimerkissä. Sääntönä epävarmuusalueiden muodostamisessa on konservatiivisuus, jolla
vältetään liian suppeiden epävarmuusalueiden antaminen ja tarkkuuden liioittelu.
DWC
georeferencedBy georeferenceProtocol
georeferenceSources
Suomennos georeferoija
georeferointimenetelmät georeferointi lähteet
Taulukko 5. DWC:n mukaiset georeferointi- merkinnät.
b. Koordinaattien muuntaminen
i. Yleistä tietoa muunnoskoordinaateista
Osa näytteistä sisältää sijaintitiedon paikannimien lisäksi koordinaatteina. Ne ovat yleensä ykjkoordinaatteina, joiden käytöstä ollaan siirtymässä kansainvälisen ETRS89- koordinaattijärjestelmän
Suomen realisaation Euref-Finin maantieteellisiin koordinaatteihin. Ykj- koordinaatit ovat
kartastokoordinaattijärjestelmän (kkj) tasokoordinaatteja. Prosessissa tasokoordinaatit muutetaan
9
maantieteelliseen muotoon ja vaihdetaan niiden koordinaattijärjestelmä. Ykj- koordinaatit eivät sovellu
kansainväliseen yhteiskäyttöön, mutta niitä edelleen käytetään luontohavaintojen ilmoittamiseen.
Ykj- koordinaatit kuvaavat etäisyyksiä maanpinnalla metreissä. Leveyspiiri (northing)
ilmoittaa etäisyyden päiväntasaajalta sijaintiin ja pituuspiiri (easting) etäisyyden nollameridiaanista
sijaintiin. Vanhoissa kkj- koordinaateissa Suomi oli jaettu viiteen pohjois-etelä- suuntaiseen kaistaan, joiden
keskellä kulki kaistan keskimeridiaani. Pituuspiirin eteen lisättiin numero merkiksi, minkä kaistan alueella
paikka sijaitsi. Ykj- koordinaatistossa on ainoastaan yksi kaista (numero 3), joka kuuluu kaikkiin
pituuskoordinaatteihin (esim. 3496000), mutta on yleensä vuoteen 2008 asti tiputettu pois koordinaattien
merkinnöissä (taulukko 7). Maantieteelliset koordinaatit kuvaavat sijainnin kulma-asteina. Maapallo on
kiinnitetty kolmiuloitteiseen asteikkoon, jonka origo on maapallon keskipiste. Sijainnista vedetään viiva
origoon, ja lasketaan viivan ja akselien muodotamat kulmat. Maantieteelliset koordinaatit ilmoitetaan aste,
minuutti, sekunti –muodossa tai desimaaleina.
Tasokoordinaatteja ei yleensä ilmoiteta koko muodossaan, eli metrin tarkkuudella, mikä
tarkoittaisi seitsemännumeroista- muotoa. Koordinaatit ilmoitetaan lyhennetyssä muodossa, joka kertoo
sijainnin lisäksi koordinaattien tarkkuuden. Tasokoordinaatit viittavat koordinaatiston muodostaman
ruudukon soluun. Koordinaattien tarkkuus määrää ruudukon solun koon. Koordinaatit eivät ilmoita solun
keskipisteen koordinaatteja, vaan sen lounaiskulman. Solun sivun pituus vastaa koordinaattien lyhennetyn
muodon yhtä yksikköä (taulukko 6). Tarkkuuden ja solun koon voi lukea koordinaattien numeroiden
lukumäärästä. Kolmenumeroinen muoto viittaa luonnontieteissä yleisesti käytettyyn ”kymppiruutuun”,
jonka koko on 10X10 km. Siinä yksikkö vastaa 10 kilometriä maan pinnalla. Koordinaattien ruutu on sen
ilmoittaman sijainnin laajuus (extent) ja kokonaisepävarmuusalue. Lyhennetyt koordinaatit ovat lisäksi
helpommin luettavassa muodossa. Pituuspiiriin ei merkitä kaistanumeroa, koska se on sama kaikissa
sijainneissa, mistä johtuu pituuspiirin yhden numeron lyhyempi kirjoitusmuoto.
Solun
kulma
SW
SE
NW
NE
Koordinaatit
(x,y)
(x+1,y)
(x, y+1)
(x+1, y+1)
Taulukko 6. Ykj- koordinaatiston solun kulmien koordinaatit. X- ja y-koordinaatit ilmoitetaan lyhennetyssä muodossa.
10
Kuva 3. Ykj- koordinaattien ruudukko, jossa solukoko 10X10 km.
Maantieteellisten koordinaattien laajuus eroaa tasokoordinaattien vastaavasta.
Maantieteellisten koordinaattien ilmoittaman sijainnin laajuus (extent) on säteen muodostama alue tarkan
sijainnin ympärillä. Tarkkana sijaintina voidaan pitää viidellä desimaalilla ilmoitettuja koordinaatteja, jotka
kuvaavat maanpinnalla noin metrin tarkkuutta. Sijainnin ilmoittamista DWC:n parametreillä selitin
georeferointi- osuudessa. Georeferoinnissa sijainnin laajuuden kuvaaminen DWC:n point-radiusmenetelmän decimal coordinates, uncertainty in meters ja mahdollisesti pointradiusSpatialfit –
parametreillä sujuu hyvin. Alkuperäisten tasokoordinaattien ruudun laajuden kuvaaminen point-radius menetelmällä ei onnistu tehokkaasti, koska neliö- muotoa ei voida ilmoittaa sillä. Tähän mennessä
muunnettujen koordinaattien kohdalla on käytetty point-radius- menetelmää, mutta siihen voisi kehittää
vaihtoehtoja. Niitä pohditaan enemmän koordinaattimuunnoksen teknisen osuuden jälkeen.
ii. Tekninen toteutus
Koordinaattijärjestelmän muuntamiseen on internetissä tarjolla monia ilmaisia palveluja, joiden toiminnot
eroavat toisistaan. Kappaleen lopussa arvioidaan muutaman palvelun ominaisuuksia. Tasokoordinaatit
lähetetään palveluun, josta saadaan vastauksena sijainnin maantieteelliset koordinaatit.
Tasokoordinaatteja joudutaan muokkaamaan ennen niiden lähettämistä palveluun. Koordinaattien
osoittaman sijainnin laajuus pitää huomoida muunnoksessa. Lähtökoordinaatit ovat niiden osoittaman
solun lounaiskulman koordinaatit. Tasokoordinaatit tulee siirtää solun keskipisteseen, että uudet
maantieteelliset koordinaatit kuvaavat todellista sijaintia. Sijainnin siirtäminen solun keskelle tapahtuu
lisäämällä sekä pituus-, että leveyspiiriin puolet solun sivusta, eli koordinaattien yksiköstä. Lisäksi
koordinaatit täydennetään seitsemännumeroiseen muotoon. Solun keskipisteen koordinaatit lähetetään
palveluun, josta saadaan keskipisteen tarkat maantieteelliset koordinaatit. Muunnoksessa voi tapahtua
noin metrin virhe, joka ei ole kriittinen ottaen huomioon esim. ”kymppiruudun” laajuuden. Toinen
mahdollinen virhelähde on keräilijän tai digitoijan tekemät virheet merkkauksessa, mutta ne ovat hyvin
satunnaisia ja harvinaisia, ja voidaan jättää huomioimatta.
11
Näytteen
Lounaiskulman
Solun keskipisteen
koordinaatit koordinaatit metrin
koordinaatit
tarkkuudella
leveyspiiri
6977
6977000
6977500
pituuspiiri
698
3698000
3698500
Maantieteelliset
koordinaatit
62.84732
30.89531
Taulukko 7. Koordinaattien muuntaminen kahdessa vaiheessa, sekä vastaavat maantieteelliset koordinaatit
Uusille koordinaateille lasketaan laajuus (extent), joka on hyvin konservatiivinen, eli sillä
peitetään tasokoordinaattien solun koko ala. Neliön kattaminen säteen luomalla alueella muuttaa tietoa
epätarkemmaksi. Säde on etäisyys keskipisteestä solun kulmaan, eli ”kymppiruudun kohdalla: (5²+5²) km=
7,071 km. Tämä on Coordinate's uncertainty in meters. Soluruudun koko määrää maantieteellisten
koordinaattien epävarmuusalueen. PointradiusSpatialfit kuvaa tasokoordinaattien ja maantieteellisten
koordinaattien sijaintein laajuuksien suhdetta. Suhdeluku on sama kaikilla eri tasokoordinaattien
tarkkuuksilla. Tässä suhde on laskettu 1X1 km – kokoisen ruudun parametreilla: *(0,707km) ²/ 1km²=
1,570. Maantieteellisten koordinaattien laajuus on yli 50 % suurempi (kuva 5).
Moni kansallinen toimija on suunnitellut oman koordinaattien muunnospalvelun, joissa on
hienoisia eroja. Projektissa tutkittiin Geodeettisen Instituutin, Maanmittauslaitoksen ylläpitämän
kansalaisen karttapaikan ja Luonnontieteellisen museon palveluja. Geodeettisen Instituutin ja kansalaisen
karttapaikan palvelut ovat hyvin samantyyppiset. Molemmat tarjoavat monipuolisesti erilaisia koordinaattija korkeusjärjestelmiä muunnettaviksi. Niiden käyttöliittymät ovat käyttäjäystävällisiä, mutta palvelut eivät
tarjoa helppoa tapaa automatisoida koordinaattien muuntamista lähettämällä ja vastaanottamalla HTTPviestejä. Palvelut toimivat yksittäisten tulosten tarkastamiseen. Luonnontieteellisen museon palvelu
sisältää ainoastaan mahdollisuuden muuntaa koordinaatteja ykj:n ja Euref-Fin:in välillä. Tämän projektin
aineistoon toiminto riittää, mutta sen käytettävyyden rajat tulevat nopeasti vastaan heterogeenisemmällä
aineistolla. Luonnontieteellisen museon palvelu ei ole yhtä käyttäjäystävällinen kuin kaksi edellä mainittua
palvelua, mutta laajojen aineistojen muuntaminen automaattisesti on yksinkertaista. Koordinaatit
ohjelmoitiin muunnettavaksi Luonnontieteellisen museon palvelulla.
12
Kuva 4. Luonnontieteellisen museon palvelun lähettämä vastaus. Uusi koordinaattijärjestelmä on merkitty väärin. Etrs-tm35fin:in
sijaan se on etrs-89.
Kuva 5. Maantieteellisten koordinaattien laajuuden suhde tasokoordinaattien laajuuteen.
iii. Koordinaattimuunnos JJClient:ssa
Koordinaattien muuntaminen tapahtuu automaattisesti JJClient:iin kautta georeferoinnin tapaan.
JJClient:iin lisätään toiminto, joka muuntaa lähtökoordinaatit oikeaan muotoon, lähettää ne palveluun,
vastaanottaa uudet koordinaatit ja merkkaa ne oikeisiin kenttiin. Ohjelma tutkii tiedoston sisältämät
13
koordinaatit ja muut koordinaatteja koskevat tiedot tiedostosta. Koordinaatit saattavat olla
”kymppiruudun” sijaan jollain muulla tarkkuudella. Todennäköisin vaihtoehto on kilometrin tarkkuus,
jolloin koordinaatit ovat neljänumeroisessa muodossa. Ohjelma reagoi koordinaatin muotoon ja muuntaa
sen aina samaan seitsemännumeroiseen muotoon ja siirtää sen kyseessä olevan solun keskipisteeseen.
Ohjelma tarkastaa, että verbatim coordinate system- kenttään on merkitty ykj. Todennäköisin vaihtoehto
on kkj, joka jakaa Suomen viiteen kaistaan, ja kkj- muotoisten koordinaattien lähettäminen
Luonnontieteellisen museon palveluun tuottaa vääriä tuloksia. Tässä tapauksessa näytteiden sijainti tulee
paikantaa georeferoimalla. Jos kkj- koordinaatteja halutaan muuntaa suureen määrään näytteitä, tulee
koordinaattien muunnospalvelua vaihtaa.
Tekstiä kirjoitettaessa koordinaattien muunnosohjelma ei ollut vielä valmis. Se muutti
koordinaatit, lähetti ne palveluun ja vastaanotti tulokset. JJClient:in yhteydessä ohjelman tulee täyttää
automaattisesti decimal longitude/latitude, coordinates uncertainty in meters, pointradiusSpatialfi ja,
geodetic datum. PointradiusSpatialfit on sama kaiken kokoisten gridiruutujen ja niitä vastaavien
maantieteellisten koordinaattien laajuuksien kanssa. GeoreferenceProtocol- kenttään ohjelma merkitsee
Luonnontieteellisen museon muunnospalvelun. Muunnospalvelu muuntaa maantieteelliset koordinaatit
todella tarkkaan muotoon, n. 9 desimaalia, joka on turhan tarkka ja tilaa vievä tapa ilmoittaa sijainti.
Ohjelma voisi pyöristää koordinaatit viiden desimaalin tarkkuudelle merkitessään niitä JJClient:in kenttiin.
Tämä koskee myös Georeferoinnissa syntyviä koordinaatteja.
Kuva 6. Kaavio koordinaattimuunnoksen työvaiheista.
iv. Vaihtoehtoiset DWC- menetelmät
Taulukossa 2 (s. 3) DWC:n kentät esittävät gridi- muotoisten koordinaattien lähtöaineiston tiedot. Näissä
ilmenee tulkinnan avulla koordinaattien luoman sijainnin laajuus ja sen muoto. DWC:n menetelmät eivät
tarjoa mahdollisuutta kuvata tasokoordinaattien ruudun laajuutta maantieteellisten koordinaattien
14
sijainnin kohdalla. Sijainnin laajuus kasvaa huomattavasti koordinaattimuunnoksessa, kuten
pointradiusSpatialfitin arvo 1,57 kertoo. Pisteellä ja säteellä ei saada tallennettua ruudun laajuutta tarkasti.
DWC:ssä on yhteensä kolme tapaa käsitellä sijainnin laajuutta. Näistä point-radius:ta (piste-säde) on
käytetty georeferoinnin yhteydessä. Sen parametrit ovat decimal longitude/latitude, geodetic datum,
coordinate uncertainty in meters ja pointradiusSpatial fit. Georeferointi- tuloksien esittämisessä menetelmä
toimii hyvin, mutta koordinaattiruudukon solun osalta se ei toimi. Informaatio solusta ei välity kyseisten
parametrien avulla. Projektissa on käytetty point- radius- menetelmää sen yksinkertaisuuden ja
luotettavuuden vuoksi. Se on testattu käytössä ja sopii hyvin luonnontieteellisiin aineistoihin.
Toinen tapa ilmaista ruudun sijainti ja ala on point-precision (piste-tarkkuus), jonka DWCparametrit ovat decimal longitude/latitude, geodetic datum ja coordinate precision. Taulukossa 8 (s.14) on
kuvattu maantieteellisten koordinaattien desimaalien luomaa tarkkuutta maan pinnalla. Koordinaatteja
pyöristämällä voi kuvata sijainnin laajuutta. Molemmilla koordinaateilla (leveys- ja pituuspiiri) on oma
tarkkuutensa, jotka yhdistämällä saadaan taulukon 8 mukaisia epävarmuuksia. Leveys- ja pituuspiirien
luomia erilaisia epävarmuuksia on hankala eritellä. Kokonaisepävarmuus on etäisyys sijainnista sen
epävarmuusalueen uloimpaan kulmaan. Koordinaattien yhteisen kokonaisepävarmuuden luovat pohjoisetelä- ja itä-länsisuuntaiset janat, jotka kuvaavat molempien koordinaattien epävarmuuden luomaa
liikkumavaraa. Tämä luo sijainnille samanlaisen ruudunmuotoisen epävarmuusalueen kuin
tasokoordinaateilla, ja epävarmuus on sidottu koordinaatteihin sisään. Uusien koordinaattien
epävarmuusaluetta ei saada tarkasti alkuperäisen gridiruudun kokoiseksi, mutta sille saadaan yhtenevä
muoto. Jos gridiruutu on kooltaan 1X1 km, sen epävarmuus on 0,707 km. Lähimmäksi tätä esitystä
päästään esittämällä uudet koordinaatit kahden desimaalin tarkkuudella, jolloin niiden epävarmuus 1,246
km. Piste-tarkkuus – menetelmä toimii esim. maastosta kerättyjen GPS- pisteiden kanssa. Sitä voitaisiin
tulevaisuudessa harkita tasokoordinaateista muunnettujen maantieteellisten koordinaattien esittämisessä.
1,0 degree
0,1 degree
0,01 degree
0,001 degree
0,0001 degree
0,00001
degree
0 degree
latitude
156.904 m
15.691 m
1.570 m
157 m
16 m
2m
30 degree
latitude
146.962 m
14.697 m
1.470 m
147 m
15 m
2m
60 degree
latitude
124.605 m
12.461 m
1.246 m
125 m
13 m
2m
85 degree
latitude
112.109 m
11.211 m
1.121 m
112 m
12 m
2m
Taulukko 8. Maantieteellisten koordinaattien desimaalien luoma sijainnin laajuus metreinä.
Kolmas menetelmä on shape (muoto), jonka parametrit ovat footprintWKT,
footprintSpatialfit ja fooprintSRS. Esitysmenetelmä eroaa ratkaisevasti edellä mainituista kahdesta
pistemenetelmästä. FootprintWKT kuvaa kohteen sijainnin ja muodon. Se ilmoittaa muodon (polygon,
square) ja sen perään kohteen reunapisteiden koordinaatit. FootprintSpatialfit kuvaa mallinnetun sijainnin
ja alkuperäisen gridiruudun alojen suhdetta, kuten pointradiusSpatialfit. Jos footprintWKT:lla on
mallinnettu gridiruudun ala täydellisen peittävästi ilman ylimeneviä osia, Spatialfit saa arvon 1.
FootprintSRS on footprintWKT:n kuvaaman sijainnin georeferenssijärjestelmä. Shape- menetelmällä voisi
parhaiten kuvata gridiruutua. Ruudun kulmien koordinaattipisteet ilmoitetaan square- termin yhteydessä
footprintWKT- parametrilla, jolloin spatial fit olisi 1. Kulmien koordinaatit laskettaisiin taulukon 6 mukaisten
kulmapisteiden avulla. Menetelmää ei ole testattu käytännössä, eikä se ole yleisessä käytössä, mikä luo
riskin sen käyttöönottoon. Menetelmän hyödyt suhteessa point-radius- ja point- precision menetelmiin
15
ovat paremmassa tarkkuudessa. Alkuvaiheessa shape- menetelmän käyttöön ei ole vakiintuneita
käytäntöjä, mikä tekee siitä hitaan ja kankean. Menetelmän nimeäminen on pahasti kesken, koska WKT
(well known text) ei anna viitteitä siitä, että se kuvaisi sijaintia.
c. Georeferoinnin ja koordinaattimuunnoksen yhteiskäyttö
Projektissa käytetyt luonnontieteelliset näytteet sisältävät paikkatiedot verbaalisina paikanniminä ja
joissain näytteissä myös ykj- koordinaatteina. Keräilijän merkkaamien ykj- koordinaattien avulla luodut
maantieteelliset koordinaatit saavat suppeamman epävarmuusalueen. Tästä syystä prosessissa on
suositeltavaa käyttää ykj- koordinaatteja, jos näyte sisältää ne. Suosituksella on poikkeuksia, jotka johtuvat
näytteiden sisältämien paikkatietojen laadun voimakkaasta vaihtelusta. Ykj- koordinaatit eivät ole aina
tarkkoja. Monien näytteiden ykj- koordinaatit ovat kilometrin kokoisen gridiruudun tarkkudella, mutta
jotkut kymmen kilometrin tarkkuudella ”kymppiruutuina”. Kilometrin tarkkuudella ilmaistavien ykjkoordinaattien muuntamisen tuloksena saadaan maantieteellisiä koordinaatteja, joiden tarkkuuteen ei
verbaalista paikkatietoa georeferoimalla päästä missään tapauksessa. Jos näytteen ykj- koordinaatit
ovat”kymppiruudun”- tarkkuudella, tulee sen verbaaliset paikkatiedot tutkia, ja pohtia päästäisiinkö niillä
ykj- koordinaatteja tarkempaan tulokseen. Locality- kenttä voi sisältää paikkatietoa, joka pystytään
georeferoimaan erittäin luotettavasti ja tarkasti, ja näin tuottaa tarkempaa sijaintitietoa kuin ykjkoordinaateilla. Tarkempi sijaintitieto tarkoittaa, että uusien koordinaattien epävarmuusalue pienenee.
”Kymppiruudusta” muunnettujen maantieteellisten koordinaattien epävarmuusalue on 7,071 km, ja
locality- kentän tieojen mukaan paikannetun sijainin epävarmuusalue voidaan asettaa 5 km:iin.
Eri paikkatietojen luomia tuloksia voi vertailla tekstissä mainittujen palvelujen avulla.
Luonnontieteellisen museon palvelutarjonnasta löytyy työkalu, jolla voi etsiä koordinaattien avulla sijainnin
ja asettaa tälle 16- kulmaisen epävarmuusalueen. Työ on hyvin manuaalista, mutta havainnollistaa
epävarmoissa tilanteissa eri lähteistä saatujen tulosten suhdetta. Jos verbaalisilla paikkatiedoilla viitataan
tiettyyn niemeen, joka rajautuu tarkasti kartalla, sijainnille voi antaa pienen epävarmuusalueen. Ykjkoordinaateilla saatava tulos voi olla epätarkka suhteessa siihen. Tulosten vertailu on hyvin
tapauskohtaista, ja monen näytteen paikkatiedoista pystyy nopeasti sanomaan kumpi on tarkempi tapa
tuottaa sijaintitieto.
4. Tulokset ja tulevaisuus
Raportissa on käsitelty digitointi- projektin georeferointi- osuuden menetelmät ja teoreettinen tausta.
Näiden tietojen perusteella kirjoitettiin kaksi ohjelmaa maantieteellisten koordinaattien luomiseen.
Ensimmäinen ohjelma koskee verbaalisten paikkatietojen georeferoimista, ja toinen koordinaattien
muuntamista. Ohjelmat on tarkoitus liittää JJClient:iin, ja niiden käyttö tulee olemaan mahdollisimman
automatisoitua. Ohjelmat poimivat tiedostoista oikeat tiedot, arvioivat tietojen laadun, ja merkitsevät
tulokset DWC:n mukaisiin kenttiin. Näin pitkälle työssä ei päästy kesän aikana. Ohjelmat toimivat halutun
logiikan mukaan ja tuottavat oikeita tuloksia, mutta ovat visuaalisesti mitättömiä, eivätkä arvota tietoja,
jolloin käyttäjälle jää suuri vastuu. Ohjelmia on testattu luonnontieteellisillä näytteillä, ja niiden tuottamat
tulokset ovat olleet tavoitteiden mukaisia. Georeferointi on tuottanut näytteille kandidaatteja, joista on
voitu valita paras tekstissä esitellyn logiikan perusteella. Koordinaattimuunnokset ovat toimineet samoin, ja
luonnontieteellisen museon palvelun tuottamat tulokset ovat olleet yhteneviä muiden palveluiden
tuottamien tuloksien kanssa. Ohjelmilla on georeferoitu 20 näytettä, jotka ovat JJClient:lla tallennettu
uusiksi verifoituiduiksi XML- tiedostoiksi näytteiden tietokantaan. Näiden näytteiden testauksesta saatuja
kokemuksia on käytetty apuna tekstin kirjoittamisessa ja jatkokehityksen ideoinnissa. Testaus on tehty
16
melko homogeenisillä näytteillä, joten ohjelman testausta tulee jatkaa vaihtelevammalla otannalla
luonnontieteellisiä näytteitä.
Georeferointi- ohjelma tulee luultavasti muuttumaan tulevaisuudessa, koska Tulanen
yliopisto Floridassa on kehittänyt GeoLocate- ohjelmaa jatkuvasti ja sen uudistaminen luo päivitystarpeita
georeferointi- ohjelmalle. GeoLocaten paikannimihakemisto tulee uudistumaan, mikä parantaa
georeferoinnin tuloksia, ja helpottaa validoijan työtä, koska uudistukset tulevat luulutavasti laskemaan
kandidaattien määrää. Koordinaattimuunnoksissa on käytetty poin-radius - menetelmää, joka saattaa
tulevaisuudessa vaihtua point- precision- tai shape- menetelmiin. Lisätestaus antaa tietoa muutoksen
tarpeellisuudesta.
5. Yhteenveto
Luonnontieteelliset aineistot kootaan eri instituutioissa ympäri maailman yhdeksi verkostoksi, jota voidaan
käyttää globaalisti. Ainestot kootaan tietokannoiksi, joissa on yhtenäinen DWC- tiedonvaihtostandardi,
jolloin niiden yhteiskäyttö on helpompaa. DWC määrittää mitä tietoja näytteistä merkitään tiedostoihin ja
missä muodossa. Yksi osa DWC:n protokollaa ovat sijaintitiedot, joita olen tutkinut projektissa. Sijaintitiedot
halutaan WGS-84- datumin mukaisen koordinaattijärjelmän desimaali- muotoisina maantieteellisinä
koordinaatteina. Projektissa pyritään georeferoimaan suomalaisten luonnontieteellisten näytteiden
keräyssijianteja. Sijainnit ovat merkitty tiedostoihin verbaalisina paikkatietoina ja/tai ykjtasokoordinaatteina. Projekti jakautuu kahteen osaan: sijaintien löytämiseen verbaalisten paikkatietojen
avulla ja tasokoordinaattien muuntamiseen maantieteellisiksi koordinaateiksi.
Georeferoinnissa ja koordinaattien muuntamisessa annetaan näytteille sijaintien
koordinaattien lisäksi epävarmuusalueet, koska paikkatiedot sisältävät epävarmuustekijöitä. Tuloksena
syntyy alue, jolla keräyspaikka sijaitsee varmasti. Georeferoinnissa ja koordinaattien muuntamisessa
käytetään eri instituutioiden internetissä tarjoamia palveluita. Projektissa luotiin kaksi ohjelmaa,
georeferointiin ja koordinaattien muuntamiseen. Ohjelmat poimivat paikkatiedot tiedostoista, lähettävät
ne palveluiden käsiteltäväksi, vastaanottavat tulokset palveluista ja merkkaavat ne tiedostoon. Ohjelmia
käytetään JJClient- ohjelman kautta. Kun näytteen tiedosto sisältää oikeat paikkatiedot ja muut lajiin
liittyvät tiedot, se validoidaan, ja tiedostosta luodaan uusi verifoitu tiedosto.
17
6. Lähteet
Biodiversity Information Standards, http://rs.tdwg.org/dwc/index.htm
Biogeomancer, http://biogeomancer.org/
Chapman, A.D. and J. Wieczorek (eds). 2006. Guide to Best Practices for Georeferencing. Copenhagen:
Global Biodiversity Information Facility. 84 s.
Geodeettinen laitos. http://coordtrans.fgi.fi/index.jsp;jsessionid=5A41586101175810C424A297CD41F422
GeoLocate, http://www.museum.tulane.edu/geolocate/
Hannu Saarenmaa, Jere Kahanpää, Raino Lampinen, Tapani Lahti, Mikko Heikkinen, Janne Kovanen, Pasi
Häkli ja Jyrki Puupponen. Luonnontieteellisten havaintojen sijainnin ilmoittaminen EUREF-FINkoordinaatistossa: Luonnontieteellisen keskusmuseon suositus. Luonnon Tutkija 5/2008, s. 144-150.
Maanmittauslaitos, http://www.maanmittauslaitos.fi/kartat/koordinaatit/koordinaatti-korkeusjarjestelmat
Suomen Luonnontieteellinen museo, http://www.luomus.fi/projects/coord/
Wikipedia, koordinaattijäjestelmät, http://fi.wikipedia.org/wiki/Koordinaattijärjestelmä.
18