Asiantuntija-artikkelit ja ajankohtaisblogit
Sivuston näkymät

Hallinnolliset rekisterit ovat tilasto­tuotantomme kivijalka – nyt niiden käyttö on murroksessa

26.3.2021
Twitterissä: @aura_pasila
Kuva: Shutterstock

Rekisterit ovat 1980-luvulta lähtien tehostaneet tilasto­tuotantoa merkittävästi. Viime vuosina monet rekisterin­pitäjät ovat rakentaneet uudenlaisia tieto­varantoja kuten Verohallinnon tulorekisteri. Ne tuovat tilastointiin mahdollisuuksia mutta myös niin paljon työtä, että uusia kustannus­säästöjä ja tuottavuus­loikkia ei ole ainakaan lyhyellä tähtäimellä luvassa – pikemminkin päinvastoin.

Hallinnon omiin tarkoituksiinsa keräämiä rekisteri­tietoja käytetään myös toissijaisiin tarkoituksiin. Itsestään selvää? Tänä päivänä kyllä, mutta aina ei ole ollut näin.

Suomessakin tilastoinnin tarvitsemat tiedot kerättiin vielä pitkälti 1980-luvulle saakka enimmäkseen suoraan yrityksiltä ja väestöltä – postikyselyin tai haastattelemalla. Osin näin joudutaan tekemään edelleenkin, sillä kaikkea tilastotoimen tarvitsemaa tietoa ei ole rekisteröity vielä nykyisinkään olemassa oleviin rekistereihin. 

Tietosisältö suorissa tiedon­keruissa oli ymmärrettävästi rajallinen. Keskityttiin vain olennaisimpaan ja tärkeimpään. Useimmiten tiedot kuvasivat tilannetta jonain tiettynä ajankohtana, esimerkiksi tiettynä viikkona tai vuoden vaihteessa. Kertymä­tietoina saatettiin kysyä esimerkiksi tulotietoja tai liikevaihtoa kuluneelta vuodelta, mutta ei ollut mahdollista kysyä henkilöiltä erilaisia toiminnan jaksoja tai tarkkaa tulolajien erittelyä. 

Rekisterit tilastojen tietolähteeksi 

Sotien jälkeen kävi ilmeiseksi, että tarve tietojen rekisteröintiin eri hallinnon aloilla oli suuri. Lähtökohta oli kuitenkin vaikea – yhteiskunnassa ei ollut kokemusta suurista ja kattavista rekistereistä eikä henkilöiden tunnistamisesta. Tietotekniikka ja sen hyväksikäyttö olivat vasta alullaan.

Vähitellen tietotekniikan kehittyessä 1960-luvulla viranomaiset alkoivat kuitenkin siirtää omia hallinnollisia aineistojaan rekistereihin.  

Henkilörekisteröinnin puolella yksi tärkeimpiä virstan­pylväitä oli 1960-luvun alussa Kansaneläke­laitoksen väestölle luomat sosiaali­turvatunnukset (nyk. henkilötunnus). Se pohjautui työeläke­järjestelmässä toteutettuihin henkilön tunnistamis­ratkaisuihin ja helpotti henkilöiden tunnistautumista eläke- ja sairausvakuutus­asioissa.

Saman vuosikymmenen lopussa perustettiin Väestörekisteri­keskus (nyk. Digi- ja väestötietovirasto), jonka tehtäväksi tuli väestö­kirjanpidon ohjaus ja valvonta sekä väestön keskusrekisterin (nyk. väestötieto­järjestelmän) ylläpitäminen. Henkilön tunnustiedoksi valittiin Kansaneläke­laitoksen luoma sosiaaliturva­tunnus, joka edelleen muodostaa pohjan aineisto­lähteiden yhdistelylle.

1970-luvun alussa Väestörekisteri­keskuksesta tuli vastuullinen viranomainen henkilö­tunnusten myöntämiselle ja ylläpitämiselle. 

Tällä hetkellä Suomen tilasto­tuotannon kivijalka ovat rekisterit – niin sosiaali- kuin talous­tilastojenkin puolella. Tuskin mitään tilastoa tuotetaan hyödyntämättä rekistereitä. Vaikka osa keskeisistä tilastoista tuotetaankin kyselyihin tai haastatteluihin perustuen otos­tutkimuksina, kuten vaikkapa työvoimatutkimus, niin rekisteritietoja hyödynnetään myös niissä. 

Digitalisaatio tuo datan näpin ja näppäimen päähän? 

Suomalaisessa yhteiskunnassa on meneillään digitalisaation murros. Datan määrä kasvaa räjähdysmäisesti, mutta samalla myös tiedon tarve kasvaa.

Tarvitaan yhä ajantasaisempaa tietoa eri näkökulmista. Sen myötä olemassa olevat toimintatavat ja rakenteet joutuvat muutoksen kohteiksi. Tarvitaan yhä joustavampia ja toimivampia toimintoja ja järjestelmiä, jotka palvelevat väestöä eri elämän­tilanteissa. Samalla tuotetaan tietoa yhteiskunnan käyttöön.  

Digitalisaatio on nostettu hallitus­ohjelmassa tärkeäksi kaikkia koskettavaksi teemaksi ja se huomioidaan lähes jokaisessa kärkihankkeessa. Esimerkiksi julkisen tiedon hyödyntämisen ja avaamisen hankkeessa pyritään parantamaan julkisen tiedon saatavuutta, laatua ja yhteentoimivuutta (VM043:00/2020).

Yhtenä periaatteena digitalisaatiossa on se, että tieto kerätään vain kerran ja se on sen jälkeen kaikkien tarvitsijoiden saatavilla. Tämä hyödyttää niin yksittäistä ihmistä, palvelun tuottajaa, viranomaisia – ja tilastotointa. 

Edesmennyt Tilastokeskuksen pääjohtaja Olavi Niitamo (1926–1999) hehkutti 1990-luvulla tiedon olevan “näpin ja näppäimen päässä”. Viime vuosisadan lopulla tilastoinnissa otettiinkin melkoinen tuottavuusloikka rekisteritietojen avulla. Tilastotuotanto nopeutui, mutta toisaalta oltiin hyvin riippuvaisia rekisteripitäjien aikatauluista, mikä heijastui joihinkin tilastoihin hyvinkin pitkänä viiveenä.  

Digitalisaation luomat mahdollisuudet, yhä suuremmat tietomassat niin viranomaisten kuin yritystenkin tieto­varannoissa haastavat myös tilastoprosessit. Joko nyt tieto olisi mahdollista saada ajantasaisesti, monipuolisesti näpin ja näppäimen päähän? 

Uudenlaiset tietolähteet haastavat tilastoinnin 

Siinä missä rekisteritiedon käyttö on merkinnyt tuottavuus­loikkaa, uudistuvien tieto­varantojen käyttöönotto ei yllättäen merkitsekään suoraviivaisia kustannus­säästöjä. Datan saaminen näpin ja näppäimen ulottuville vaatii paljon työtä.

Tilastoijan näkökulmasta valmiiksi koostetun tiedon vastaanottamisesta ollaan siirtymässä tiedon omatoimiseen noutamiseen. Myös tiedon rajaaminen ja jalostaminen rakenteeltaan tilastointiin soveltuvaksi on siirtymässä vahvemmin aineiston hyödyntäjän tehtäväksi. Varsinkin uuden aineiston käyttöönotto­vaiheessa tarvitaan sekä sisällöllistä perehtymistä että teknistä suunnittelua ja varsin usein myös uusien tietoteknisten ratkaisujen rakentamista esimerkiksi aineistojen noutoon. 

Uusien aineistojen käyttöönoton työläys on osittain myös tulosta tarpeesta yhdistellä uutta ja vanhaa sekä sisällöllisesti että teknisesti. Tilastokeskus käyttää yhtä aikaa niin haastattelu­aineistoja, perinteisiä rekisteriaineistoja kuin kasvavissa määrin useammista uudenlaisista tietovarannoista tulevaa dataa.

Aineistot voivat olla rakenteeltaan varsin vaihtelevia tai ajallisesti esimerkiksi vuositason kokonais­aineistoja tai päivittäisiä ilmoitus­aineistoja. Yhtenäisen tilasto­aineston muodostamiseksi erityyppisille aineistoille täytyy löytää tekninen yhdistelytapa ja -logiikka.

Myös aineistojen varastointi voi tietomäärien kasvaessa vaatia uusia ratkaisuja. Tulevaisuuden avauksina on nostettu esille esimerkiksi pilvipohjaiset tieto­varannot, joissa tietojen konvertoinnista yhtenäiseen muotoon voidaan luopua. 

Uusien aineistojen haltuunoton ensiaskel on sekä teknisesti että sisällöllisesti pyrkiä turvaamaan samantyyppinen tilastotuotanto kuin aiemmin, jotta tiedoista voitaisiin yhä tuottaa aikasarjoja ja vakiintuneiden käsitteiden mukaisia lukuja. Uudentyyppisiä aineistoja pyritään siis aluksi viemään yhtenäiseen muotoon tietokantaan ja poimimaan tiedot siten, että samankaltaista tietoa pystytään tuottamaan.

Tiedon tuottaminen muuttuvassa ympäristössä on iso haaste ja selittää sitä, miksi uusien aineistojen käyttöönotto on niin työlästä. Uuden aineiston käyttöönoton yhteydessä on tärkeää aktiivisesti tunnistaa, mitkä tiedot ovat niitä, joiden sisällöistä ja aikasarjoista halutaan pitää kiinni, ja mistä on mahdollista luopua tai mitä voisi tehdä uudella tavalla. Uusia sisällöllisiä avauksia on tehty kokeellisten tilastojen kautta, joissa käytetään uusia aineistoja ja/tai menetelmiä.  

Mihin vielä tarvitaan erillisiä tilastoja?

Uudenlaisten tietolähteiden jatkuva­päivitteiset tieto­järjestelmät tuottavat käyttäjille raportteja nopeassa tahdissa, joten voidaan pohtia sitäkin, mihin enää tarvitaan erillistä tilastoa.

Uudet tietolähteet ovat usein hyvinkin erikoistuneita ja yleensä yhden organisaation tai toiminnon näkökulmasta toteutettuja. Tilaston­tekijälle tärkeää on havaita ne katvealueet, jotka jäävät huomiotta. Esimerkiksi tulorekisterissä ei ole juuri saatavissa tietoa työpanoksesta tai tiedot työpaikan sijainnista voi antaa vapaaehtoisesti. Näitä tietoja voidaan joutua edelleen keräämään erillisillä tiedonkeruilla.

Milloin sitten voidaan varmistua, että uudet tietoaineistot ovat riittävän laadukkaita tilasto­tuotantoon? Aikaisemmin tämä oli todettavissa vertaamalla perinteisen tiedonkeruu­tavan ja uusien lähteiden välistä eroa tiedon laadussa, mutta nykyään ei uusien tietolähteiden laadun arvioimiseksi ole yksinkertaisesti mahdollista tehdä vastaavaa suoraa tiedonkeruuta. Tähän vaikuttavat sekä suoran tiedonkeruun kustannukset että etenkin vaatimukset nopeasta tiedon­tuotannosta.  

Kaikkiaan tiedon tulkinnan merkitys kasvaa entisestään, kun on tarve saada nopeasti ennakollista tietoa ja ennusteita tulevasta. Onko niin, ettei virallisen tilaston leimalla tehty tieto voi lähtökohtaisesti olla koskaan yhtä nopeasti reagoivaa kuin varsinainen alkuperäisen hallinnollisen aineiston tuottama data? Mikä sitten on jatkossa tilastoinnin rooli?

Uusia aineistoja muodostuu paljon ja tilastoinnissa pitää osata tunnistaa se, miten niitä voisi käyttää tilastoinnissa. Näiden käyttöönotossa ei kuitenkaan saavuteta tuottavuus­hyötyjä ainakaan lyhyellä aikavälillä, sillä tilastoinnin kokonaisuus joudutaan miettimään ja rakentamaan uudelleen. Tarvitaan yhä enemmän erilaisten tietojen kokoamista ja yhdistämistä, jotta voidaan saada kattava aineisto ilmiöiden kohdealueesta. Tässä työssä keskeiseksi muodostuu tietojen vertailu ja laadun­kontrollointi niin, että tilastossa muodostettava lisäarvo saadaan kuvattua myös tiedon käyttäjälle. 

Tulorekisterin käyttöönotto Tilast­okeskuksessa on ollut vuosien työ

Tulorekisteri on hyvä esimerkki uudentyyppisestä aineistosta, jonka käyttöönotto haastaa perinteisten tilastojen tuottajaa.

Tulorekisterin käyttöönotto on tarkoittanut Tilasto­keskuksessa monia asioita. Ensinnäkin tulorekisterillä voitaisiin parhaimmillaan korvata useita vanhoja rekisteri­aineistoja ja tiedonantajille työläitä tiedonkeruita. Sitä voidaan myös hyödyntää tietojen tarkistamisessa tai puuttuvan tiedon korvaajana perinteisten tilastojen tuotannossa.

Toisaalta tulorekisteri sisältönsä ja lähes reaali­aikaisuutensa puolesta voi toimia myös täysin uuden tai nopeamman ennakko­tiedon lähteenä.

Eri näkökulmat tuovat omat erityis­piirteensä aineiston tutkimiseen ja käsittelyyn. Aineisto täytyy saada muotoon, jossa se on käytettävissä useiden vanhojen aineistojen rinnalla ja toisaalta niin, että sitä voidaan hyödyntää uusissa tilastointi- ja tutkimus­tarkoituksissa – sellaisissakin, joita ei ole vielä keksitty. 

Uuden tietolähteen rakentaminen ja käyttöönotto on ollut vuosien prosessi. Tulorekisterin toteutuksen ja sisällön suunnittelu käynnistyi valtiovarain­ministeriön hankkeena marraskuussa 2014 (VM055:00/2014). Tilastokeskus oli alusta alkaen mukana suunnittelu­työssä.

Konkreettinen tulorekisterin käyttöön­ottotyö Tilastokeskuksessa alkoi vastaanotto­prosessin suunnittelusta 2018 ja sisällön käytön suunnittelusta 2019. Testiaineistoa saatiin vuonna 2019. Vuoden 2020 alusta Tilastokeskus alkoi saada palkkatieto­aineistoa tiedon käyttäjänä.

Tähän mennessä valmistelu- ja käyttöönotto­työtä on Tilasto­keskuksessa tehnyt kuusi puhtaasti tulorekisteriin keskittyvää projektia, minkä lisäksi pienempiä osa­kokonaisuuksia on toteutettu osana muita projekteja sekä muun työn ohella. Suunnitteilla on tälläkin hetkellä useita jatkoprojekteja.  

Vuonna 2020 tulorekisteriin lähetetiin päivittäin keskimäärin 140 000 palkka­ilmoitusta, ja saman verran niitä siirtyy joka vuorokausi Tilastokeskukseen, joka tilasto- ja tutkimus­tiedon tuottajana ja jakelijana saa lähes koko tulorekisterin sisällön näitä tarkoituksia varten. Palkkatiedot viedään Tilast­okeskuksen omaan tietovarantoon, josta sitä jatko­jalostetaan eri käyttö­tarkoituksia varten.

Aineiston koko tuo omat haasteensa prosessiin, ja datan latausaika sekä aineiston käsittely ja analysointi kestävät kauemmin kuin mihin perinteisten aineistojen kanssa on totuttu. Lukemattomien rivien lisäksi aineisto on monimutkaisempi kuin vanhat rekisteri­aineistot ja tämä vaatii aineiston käyttäjältä sisällön tuntemuksen ohella osaamista datan rakenteesta.

Palkkailmoitusten lisäksi uutena kokonaisuutena eläke- ja etuustietoja alettiin toimittaa ja vastaanottaa tulorekisteristä vuoden 2021 alusta. 

Perinteisiin tilastoihin tulorekisteri on jo vaikuttanut korvaamalla keväästä 2020 alkaen esimerkiksi palkkasumma­kuvaajissa aiemmin käytetyt Verohallinnolta saadut yritys­kohtaiset lähdeaineistot. Koska monet aiemmin rekisteri­aineistoina saadut erilliset tietotoimitukset siirtyvät tulorekisteristä suoraan käytettäviksi, tuotanto­käyttöönottoja tehdään tilastoissa sitä mukaa kuin niiden julkaisu­aikataulut vaativat.

Loikan sijaan tuottavuus­romahdus alkuun 

Vaikka aineiston korvautuminen toisella kuulostaa yksinkertaiselta asialta, niin käytännössä käyttöönotto ei ihan sitä ole, sillä aineistot tulevat eri muodossa ja eri sisältöisenä kuin aiemmin, ja vanhat käsitteet täytyy muodostaa tästä uudesta tietosisällöstä. Näin ollen ainakin väliaikaisesti uusi aineisto aiheuttaa tuottavuus­romahduksen tuottavuus­loikan sijaan, kun aineiston käsittelyyn kuluu huima määrä työtunteja. 

Suuri tulorekisteriin liittyvä tavoite työnantajien tiedonanto­rasitteen pienentymisestä on osoittautunut haasteelliseksi toteuttaa Tilasto­keskuksen tiedonkeruissa, kun käytännössä tiedonkeruiden korvaaminen vaatii sitä, että tulorekisteriin olisi ilmoitettu laajasti pakollisen tietosisällön lisäksi täydentävä eli vapaaehtoisesti ilmoitettava sisältö.

Tiedonkeruiden lakkauttamisen sijaan tulorekisteriä pystytään hyödyntämään esimerkiksi työvoima­kustannusten neljännesvuosi­tiedonkeruun palkkatietojen esitäyttö­tietona joillekin vastaajille ja palkkatiedon­keruussa pystytään joidenkin palkansaaja­ryhmien tiedot poimimaan Tulorekisteristä. Tämä ei välttämättä tarkoita kuitenkaan toivottua tuottavuuden kohentumista, vaan esimerkiksi tulorekisteristä esitäytetyt tiedot voivat aiheuttaa ennemmin hämmennystä ja lisäselvitysten tekoa sekä tiedon­antajille että tiedon tuottajille. Tilastojen tuotanto­prosessit helposti monimutkaistuvat, kun tilaston lähdetiedot ovat hajallaan eri rekistereissä ja tiedonkeruissa. 

Tilastokeskuksella on tärkeä rooli tiedon yhdistäjänä, jatko­jalostajana ja jakelijana. Tulorekisteriaineisto on tuotu tutkijoiden käyttöön niin, että siihen pystyy yhdistämään yritysten ja henkilöiden taustatietoja. Aineiston muodostuksen taustalla on lukuisia tunteja sekä teknistä että sisällöllistä työtä, jonka avulla oikeat tiedot on saatu oikeaan paikkaan oikeassa muodossa. Aineistoa ei voida vain jakaa, vaan Tilastokeskukselta vaaditaan laaja-alaista aineiston tuntemusta ja asiakkaiden tarpeiden ymmärrystä, jotta tietoa voidaan toimittaa järkevällä tavalla. 

Tulorekisteritietojen pohjalta julkistettiin 2020 useita artikkeleita liittyen palkansaajiin ja palkkatuloihin. Vuoden 2021 helmikuussa julkaistiin ensimmäiset kokeelliset palkkatilastot tulorekisteristä.

Tilastokeskus on korona­tilanteeseen liittyen tuottanut Tilastokeskuksen tutkija­palveluiden kautta tulorekisteriin pohjautuvia tilastotietoja Helsingin GSE:lle (Helsinki Graduate School of Economics). Uudet aineistot saatiin poikkeus­tilanteessa poikkeuksellisen nopeasti käyttöön. Tilasto­keskukselle on myös tullut tutkijoilta ensimmäisiä käyttölupa­hakemuksia tulorekisteri­aineistoon. 

Tulevaisuuden tavoitteena on tuottaa lisää tietoa ja tilastoja tulorekisteristä, jotka kuvaavat nyky-yhteiskuntaa ja sen kehitystä. Tulorekisteri­tiedoilla on mahdollisuus tuottaa selkeästi nykyistä nopeampaa tilastotietoa alueista, joista tällä hetkellä emme pysty laatimaan nopeaa tilastoa kuten kausi­työskentelystä, eläkeläisten työssäkäynnistä sekä laajemmin pätkätöistä ja osa-aikatyöstä.

Tulorekisteristä saisi tietoja yhdistelemällä kattavampaa ja ajankohtaisempaa tilannekuvaa suomalaisten työssäkäynnistä, palkkatasoista ja saaduista eduista ja tulonsiirroista. Ja aivan uusia mahdollisuuksia tuo tulorekisteritietojen yhdistäminen muihin rekisteri­tietoihin kuten uuteen Opetus­hallituksen KOSKI-aineistoon, joka sisältää opiskelu- ja tutkintotietoja.

 

Aura Pasila työskentelee kehittämis­päällikkönä Tilastokeskuksen Kehittäminen ja digitalisaatio -palvelualueella, Kaija Ruotsalainen Yhteiskuntatilastot-osastolla. Jari Nieminen ja Jukka Pitkäjärvi työskentelevät kehittämis­päällikköinä Tietovarannot -osastolla, Hanna Jokimäki palkkatilastojen parissa Työelämä ja palkat -ryhmässä.

Lähteitä: 

Lindholm, Mikko, 10.2.2021: Dataräjähdys muutti datan merkityksen yhteiskunnassa – miten siihen pitäisi reagoida? 
https://www.stat.fi/tietotrendit/blogit/2021/datarajahdys-muutti-datan-merkityksen-yhteiskunnassa-miten-siihen-pitaisi-reagoida/  

Ruotsalainen, Kaija 21.12.2017: Rekisteritiedoilla tilastotuotannon tuottavuusloikka 
https://www.stat.fi/tietotrendit/artikkelit/2017/rekisteritiedoilla-tilastotuotannon-tuottavuusloikka/ 

Tilastokeskus 29.9.2020: Tutkijoiden käyttöön julkaistu uusi tulorekisteriaineisto 
http://tilastokeskus.fi/uutinen/tutkijoiden-kayttoon-julkaistu-uusi-tulorekisteriaineisto 

Tilastokeskus 8.2.2021: Tulorekisterin palkat ja palkkiot, Palkka- ja palkkiotulojen mediaani 2 958 euroa joulukuussa 2020 
https://tilastokeskus.fi/tup/kokeelliset-tilastot/tulorekisterin_palkat_ja_palkkiot/2020-joulukuu/index.html 

Tulorekisteri 16.6.2020: Tulorekisterin tietomassojen käsittely vaatii järjestelmältä paljon 

https://www.vero.fi/tulorekisteri/tietoa-meist%C3%A4/uutishuone/ajankohtaista/uutiset/tulorekisterin-tietomassojen-kasittely-vaatii-jarjestelmalta-paljon/

VM043:00/2020, Tiedon hyödyntämisen ja avaamisen hanke 
https://vm.fi/hanke?tunnus=VM043:00/2020 

VM055:00/2014, Kansallisen tulorekisterin perustamishanke 
https://vm.fi/hanke?tunnus=VM055:00/2014 

Lue samasta aiheesta:

tk-icons