Asiantuntija-artikkelit ja ajankohtaisblogit
Sivuston näkymät

Haravoimalla uutta tietoa vuokra­mökeistä

3.7.2020
Kuva: Kari Likonen

Verkkoharavointi (eng. web-scraping) tarkoittaa tietojen automatisoitua keruuta internet-sivuston lähdekoodista. Verkko­haravointi on ollut jo pitkään mahdollista useilla eri koodikielillä, mutta vasta viime vuosina eri maissa on tunnistettu haravoinnin mahdollisuudet tilasto­tuotannossa.

Myös Tilastokeskuksessa on selvitetty verkko­haravoinnin mahdollisuuksia tiedon­hankinnassa. Käytännössä kaikki verkossa oleva tieto on mahdollista kerätä tilastojen tuotantoon, kunhan tiedon keräämisessä noudatetaan laillisia sekä eettisiä toiminta­periaatteita.

Verkkoharavoinnilla voidaan kerätä uutta tietoa kokonaan uusien tilastojen tuottamiseen tai nykyisten laadun parantamiseen. Lisäksi voi olla mahdollista korvata vanhoja haastatteluihin perustuvia tiedonkeruita, mikä vähentää vastaus­rasitetta eli yritysten ja yksityis­henkilöiden tiedon­keruisiin käyttämää aikaa.

Yksityishenkilöiden omistamat vuokra­mökit saadaan mukaan

Tilastokeskuksen majoitustilasto tuottaa laadukasta tietoa yöpymisistä yli 20 vuodepaikan majoitus­liikkeistä. Tiedolla pystytään arvioimaan sekä ulkomaalaisten matkailua Suomeen sekä suomalaisten kotimaan matkailua.

Matkailutilastoissa on kuitenkin ongelmana koko Suomen majoitus­kapasiteetin tunnistaminen, koska iso osa Suomen kapasiteetista on yksityisten henkilöiden omistamissa vuokra­mökeissä ja loma-asunnoissa.

Vuokramökkien majoitus­kapasiteetin tilastointi on aikaisemmin ollut mahdotonta, koska kapasiteettia ei ole laskettavissa viran­omaisten rekistereistä eikä haastattelu­tutkimuksen luominen vuokra­mökkien omistajille ole käytännössä mahdollista kohtuullisilla kustannuksilla.

Visit Finland ja Tilastokeskus aloittivat esiselvityksen vuokramökki­tilastoinnin perustamisesta vuoden 2018 alussa, jonka aikana luotiin menetelmä vuokra­mökkien tilastoimiseksi. Menetelmän keskeisenä osana on kapasiteetin tunnistaminen haravoimalla vuokra­mökkejä välittäviä sivuja. Haravoidut tiedot yhdistetään vuokra­mökkien välitys­palveluilta saatavaan käyttö­tietoon.

Vuokramökkitilaston verkko­haravoinnissa on tunnistettu yhteensä yli 11 000 vuokralla olevaa mökkiä. Esimerkiksi huhtikuussa 2020 suurimmilla kotimaisilla sivustoilla oli tarjolla 11 338 vuokra­mökkiä ja vuokrattavaa loma-asuntoa.

Vuonna 2019 vuokramökeissä oli yhteensä noin 2,68 miljoonaa yöpymistä. Tämä vastaa noin kymmentä prosenttia majoitus­liikkeissä tapahtuneista yöpymisistä.

Vuokramökkien keskihinnat ovat tilaston mukaan 43,31–144,98 euroa yöltä riippuen kuukaudesta. Tarkempia tietoa voi katsoa tilaston kotisivulta: http://www.stat.fi/tup/kokeelliset-tilastot/vuokramokkitilasto/index.html.

Haasteina ulkomaiset alusta­palvelut ja tupla­havainnot

Tällä hetkellä tiedonkeruu käsittää suurimmat kotimaiset vuokra­mökkien kauppa­paikat ja välitys­palvelut. Tiedonkeruu kattaa suurimman osan Suomen vuokra­mökeistä. Toistaiseksi ulkomaiset alusta­palvelut, kuten Airbnb, kuitenkin puuttuvat.

Kansainväliset sivut ovat vaikeampia haravoida, ja lisäksi niiden kanssa on vaikeampi sopia haravoinnin teknisistä yksityis­kohdista. Tilasto kattaa kuitenkin myös ison osan Airbnb:ssä olevista vuokra­mökeistä, koska useimmat kohteet on ilmoitettu myös kotimaisilla alustoilla.

Suurena haasteena tilastoinnissa on tupla­havaintojen tunnistaminen eli jos sama mökki on ilmoitettu kahdella tai useammalla eri sivustolla. Toistaiseksi Tilasto­keskuksessa on käytetty ilmoitus­tekstiin perustuvaa tunnistusta. Muita vaihtoehtoja on muun muassa kuvantunnistus­menetelmät.

Tämän tyylisissä haasteissa on tilasto­viranomaisilla mahdollista ottaa käyttöön koneoppimis­menetelmiä, jotka tekevät myös vahvasti tuloaan Tilasto­keskuksessa.

 

Kirjoittaja työskentelee yliaktuaarina Tilasto­­keskuksen matkailu- ja liikenne­­tilastoissa.

Blogikirjoitukset eivät ole Tilastokeskuksen virallisia kannanottoja. Asiantuntijat kirjoittavat omissa nimissään ja vastaavat kukin omista kirjoituksistaan.

Lue samasta aiheesta:

tk-icons