Neljä tähteä avoimesta datasta

Melko tarkkaan kuusi vuotta sitten, 1.3.2013 Ilmatieteen laitos avasi avoimen datan portaalinsa beta-version. Portaali sisältää merkittävän määrän usein päivittyvää dataa sisältäen lukuisia ympäristön tilaa mallintavia havaintoja ja ennusteita. Jaettavat aineistot ovat suuria (jopa 3oG) ja päivittyvät usein (päivitysväli 1 min – 6 h), mikä luo erityishaasteita datan jakamiselle ja hyödyntämiselle.  Nyt on hyvä aika pysähtyä hetkeksi tutkimaan miten hyvin onnistuimme.

Ilmatieteen laitoksen toteutus perustuu INSPIRE-direktiivin määritelmiin. Tämä tarkoittaa, että metadatat ovat saatavilla katalogi-palvelun kautta (CSW), dataan voi tutustua katselupalvelun avulla (WMS) ja dataa voi ladata latauspalvelun avulla (WFS). Päätös INSPIRE-määritelmien noudattamisesta oli Ilmatieteen laitokselle melko ilmeinen. INSPIRE-palvelut oli toteutettava joka tapauksessa, ja toisaalta INSPIRE tarjosi hyvin määritellyn kansainvälisesti yhteentoimivan standardin rajapinnoille.

Miten avointa dataa tulisi jaella? Berner Leen luoman 5 tähden mallin mukaan datan täytyy olla:

  1. saatavilla,
  2. rakenteellista,
  3. avointa,
  4. yksilöityä (URI),
  5. linkitettyä.

Steven Adler, IBM Chief Data Strategist, on laajentanut listaa myös koneluettuudella, spatiaalisella linkitettävyydellä, löydettävyydellä sekä hyvällä hallinnoinnilla (OGC-kokous 01/2016).

Näitä kriteerejä vasten tarkasteltuna Ilmatieteen laitoksen ratkaisu on suhteellisen hyvä. INSPIRE tarjoaa ratkaisun rakenteellisiin ja teknisiin kysymyksiin sekä jossain määrin löydettävyyteen. Säädata on luonnostaan georeferoitua ja hyvin hallinnoitua. Data on saatavilla ja sitä on markkinoitu melko aktiivisesti. Paljon on siis saatu “ilmaiseksi”. Muutama asia ansaitsee kuitenkin tarkempaa tarkastelua.

Rajapinnan helppous. On huomattava, että käytön helppous ei ollut Leen eikä Adlerin listalla. Helppous on tietenkin tavoiteltava asia mutta ei itseisarvo. Hyvin tunnetun ohjeen mukaanhan asioita tulee yksinkertaistaa niin paljon kuin mahdollista, mutta ei yhtään enempää. Käyttöä oltaisiin tietenkin voitu helpottaa tarjoamalla yksinkertainen REST API hyvin yksinkertaisella tietomallilla. Tällöin oltaisiin kuitenkin menetetty kokonaan tai osittain rakenteellisuus, metatiedot, linkitettävyys, yksilöivät tunnisteet, jne. Ja ennen kaikkea ratkaisu ei olisi perustunut standardiin; jokaisen käyttäjän olisi pitänyt kehittää ohjelmistoja mittatilaustyönä  Ilmatieteen laitoksen rajapintaa varten.

Kulttuurimuutos on yksi tärkeimmistä ja haastavimmista asioista, joita dataa julkaiseva organisaatio joutuu kohtaamaan. Yhtäkkiä ihmiset joutuvat työskentelemään parrasvaloissa. Heidän työnsä on avointa kommenteille ja kritiikille. (On huomattava, että myös itse avaamisprosessin pitäisi olla avoin ja altis palautteille.) Muutosjohtamista ei voi alleviivata riittävästi. Ilmatieteen laitoksella avointa dataa on ollut kuusi vuotta ja kulttuurimuutos on vasta alkamassa.

Linkitettävyys. Sekä Lee että Adler pitävät linkitettävyyttä tärkeänä ominaisuutena. INSPIRE varmistaa, että tietotuotteet ja niiden osat ovat linkitettäviä. Perinteisesti Ilmatieteen laitos on kuitenkin vaatinut käyttäjän rekisteröintiä (sähköpostilla) ja autentikointia (api-avaimella), mikä katkaisee linkitettävyyden ja rikkoo avoimen datan periaatteita. Rekisteröinti on vaadittu, jotta on voitu varmistaa tasapuolinen palvelu kaikille käyttäjille sekä, jotta on voitu analysoida riittävällä tarkkuudella rajapinnan käyttöä. Jälkikäteen katsottuna tasapuolisen palvelun tarjoaminen ei ollut ongelma, joten hinta tarkemmasta käytön analytiikasta on kova. Näinpä Ilmatieteen laitos on päättänyt luopua rekisteröinnistä.

Entäpä vaikutukset? VNK:n raportti “Avoimen datan hyödyntäminen ja vaikuttavuus” osoittaa, miten hankala avoimen datan vaikuttavuutta on arvioida – erityisesti datan julkaisijan suunnalta. Joitakin huomioita voidaan kuitenkin tehdä.

Luvut ovat melko hyviä. Portaalissa on yli 10 000 rekisteröitynyttä käyttäjää, jotka tekevät keskimäärin yli 5 data kyselyä joka sekunti. Tähän mennessä  datan latauksia on tehty yli 300 miljoonaa kertaa. Luvut peittävät alleen kuitenkin myös joitakin rumia piirteitä. Ainoastaan 40-50 % rekisteröityneistä käyttäjistä oikeasti lataa dataa. Syitä tähän voi lähinnä arvailla. Osa käyttäjistä on voinut käyttää dataa kertaluonteiseen tutkimukseen tai tuotekehitykseen. Käyttäjät ovat saattaneet vain olla kiinnostuneita kurkistamaan mitä rekisteröinnin takana on. Jotkut käyttäjät ovat olettaneet saavansa käyttöliittymän koneluettavan rajapinnan sijaan. Osa käyttäjistä on saattanut lannistua WFS-palvelun ja INSPIREssä käytettävän O&M-tietomallin korkeaan aloituskynnykseen.

Miksei datan käyttäjiä voisi kutsua istumaan saman katon alle?

Vaikuttavuus. Luvut itsessään eivät kerro paljoakaan datan vaikuttavuudesta. Käyttäjät voivat ladata dataa käyttämättä sitä tai yksi käyttäjä voi jaella uudelleen dataa sadoille käyttäjille. Avointa dataa julkaisevalle organisaatiolle onkin hyvin haastava pitää yllä ymmärrystä miten tämän dataa käytetään. Ilmatieteen laitos onkin teettämässä selvitystä avoimen datan ja lähdekoodin vaikuttavuudesta. Selvitykset eivät kuitenkaan yksinään riitä. Riittävä jalkautuminen, hyvä palautekanava sekä läheiset yhteydet asiakkaisiin ja käyttäjiin ovat elintärkeitä tukitoimintoja datan jakeluun. Miksei datan käyttäjiä voisi myös kutsua istumaan saman katon alle?

Kaiken kaikkiaan Ilmatieteen laitoksen avoin data on mielestäni varsin onnistunut kokonaisuus. Parannettavaa on erityisesti rajapinnan helppokäyttöisyydessä, mutta parannukset tulee tehdä OGC-standardien  ja INSPIRE-määritelmien kehittämisen kautta. Ilmatieteen laitos on aktiivinen myös tällä saralla. Tänä vuonna avataan uusi, huomattavasti vanhaa rajapintaa kehittäjäystävällisempi, WFS3-rajapintaan perustuva beta-palvelu. Samalla tehdään kovasti töitä OGC-konsortiossa ja INSPIRE-ylläpitoryhmässä, jotta määritelmistä saadaan parempia. Tässä työssä kehittäjien palaute on kultaakin kalliimpaa.

Roope Tervo
suunnittelija, Ilmatieteen laitos

P.S. Ilmatieteen laitos julkaisee datan tuotantoon käytettäviä ohjelmistoja avoimena lähdekoodina. Näin kehittäjien on helpompaa käsitellä ja prosessoida haastavia aineistoja.

Osa tästä blogikirjoituksesta on julkaistu alunperin Ilmatieteen laitoksen Atmos-verkkolehdessä 1.3.2017.