maanantai 23. elokuuta 2021

Tekoälylle dataa

Kirjoittajat:
Antti Isosalo
Satu Inkinen
Jarmo Reponen
Miika Nieminen


Olemme Oulun yliopistossa keränneet yhteistyössä Oulun yliopistollisen sairaalan kanssa laajan, noin 50 000 mammografiakuva-aineiston, ja se on keräilyn yhteydessä pseudonymisoitu tutkimuskäyttöä varten. Aineiston avulla on tarkoituksena kehittää tekoälyperustaista rintasyövän havainnointia mammografiakuvista ja prosessia, jolla tulevissa yliopiston ja sairaalan rajapinnassa tapahtuvissa tekoälyhankkeissa päästään suoraviivaisesti potilasdatasta analyysivaiheeseen. Tässä artikkelissa käymme lyhyesti läpi aineistonkeruun vaiheita ja annamme muutamia esimerkkejä huomioonotettavista asioista.


Aineiston keruu ja sen eri vaiheet


Terveydenhuollon ammattilaisten ja hoitohenkilökunnan suorittamalla aineiston keruulla tarkoitetaan jatkuva-aikaista systemaattista terveydentilaa ja tutkimustuloksia koskevan aineiston keruuta, analysointia ja tulkintaa. Näitä tuloksia käytetään terveydenhuollon suunnittelun, toteutuksen ja arvioinnin apuna. 

Tutkimusaineisto voidaan jakaa keräysmenetelmän mukaan havaintoaineistoon, kokeelliseen aineistoon, simuloituun aineistoon ja johdettuun aineistoon. 

Havaintoaineisto on tyypillisesti jonkin mittalaitteen avulla kerättyä aineistoa, kuten Holter-mittaukset tai esimerkiksi kuva-aineistoa, kuten röntgenmenetelmällä kuvatut mammografiakuvat. Myös rekistereihin kerätyt potilastiedot voidaan lukea havaintoaineistoksi.

Kokeellinen aineisto syntyy, kun tutkija säätää esimerkiksi magneettikuvantamislaitteen tai sekvenssin parametrejä ja pyrkii selvittämään syy-seuraus-suhteita esimerkiksi kuvantamismenetelmän parantamiseksi. 

Simuloidulla aineistolla puolestaan pyritään mallintamaan reaalimaailman ilmiötä tiettyjen reunaehtojen ja lähtötietojen perusteella. Simuloinnissa tärkeää on hyvä malli. Useimmille meistä tuttu esimerkki reaalimaailman ilmiötä simuloivasta mallista ovat sääennusteet, joita tarkennetaan säähavaintojen avulla saatavien lähtötietojen, kuten lämpötilan, ilmanpaineen ja mm. ilmankosteuden avulla. Mammografiatutkimusten kontekstissa laajaan aineistoon perustuva malli voisi ennustaa esimerkiksi tulevaa hoidon tarvetta tai rintasyövän puhkeamista. 

Johdetulla aineistolla tarkoitetaan useammista lähteistä saatujen tietojen avulla saatua aineistoa. Johdettu aineistolla voidaan tarkoittaa esimerkiksi potilastietojen ja erilaisista tutkimuksista saatujen tietojen avulla tuotettuja annotointeja. Johdettu aineisto voi olla myös jonkin muunnoksen kautta saatua uutta aineistoa, jonka avulla lääketieteellisessä sovelluksessa pyritään saamaan aikaan esimerkiksi tarkempi diagnoosi tai ennustamaan terveydentilan kehitystä. Toisiokäyttölaki mahdollistaa rekistereihin kertyneiden potilastietojen käytön tutkimustyön tekemiseen. 


Tekoäly ja opetusaineisto


Kuten ihmisenkin oppimisessa, hyvä aineisto on keskeisessä osassa tekoälyn opettamisessa. Tekoälyn osalta aineiston merkitys on ehkä vielä keskeisempi, koska tekoälyn kyky päätellä ja pidättäytyä päätöksistä ei ole vielä ihmisen tasolla. Opetusaineistosta merkittävästi poikkeavat näytteet ovat mm. suurempi ongelma tekoälylle kuin mitä ne ovat ihmiselle. Se missä automaattiset menetelmät ovat kuitenkin ihmistä parempia on laajojen aineistojen käsittely.

Ennen kuin tekoälyä päästään opettamaan tarvitaan monia eri työvaiheita aineiston keruusta, tallennukseen, louhimiseen ja eri tietolähteiden yhdistämiseen sekä nimeämiseen eli annotoimiseen. Potilasaineistoja käytettäessä yhtenä työvaiheena on myös tietojen de-identifiointi.


Oikeanlainen aineisto tärkeää


Keskeisessä osassa tekoälyä sovelluksissa on oikeanlainen aineisto. Aineiston täytyy lisäksi olla jäsennettynä oikeaan muotoon ja sitä täytyy olla riittävä määrä. Riittävä määrä vaihtelee sovelluksen mukaan, sadoista miljooniin esimerkkeihin.

Aineiston esikäsittely on usein merkittävä ponnistus. Monia aineistoja ei ole aiottu tekoälykäyttöön ja niinpä ne eivät ole välttämättä sopivassa muodossa. Useammasta lähteestä tuleva aineisto on lisäksi siirrettävä jatkokäyttöä varten yleiseen esitysmuotoon (engl. common representational format).

Aineisto saattaa sisältää myös erilaista vaihtelua. Aineistoa on voitu esimerkiksi mitata/kuvata eri valmistajien laitteilla ja näillä valmistajilla on saattanut olla oma standardinsa, jota he ovat seuranneet esimerkiksi ohjelmistototeutuksessaan.

Aineistosta voi olla tarpeen myös suodattaa pois ne näytteet, joita ei jostain syystä haluta tutkia, muu kuin haluttu kuvantamismenetelmä ja korruptoituneet kuvat, joita niitäkin luonnollisesti on.

Aineiston hallintaan ja erityisesti aineiston tehokkaaseen ja toisaalta virheettömään tulkintaan soveltuvaa teknologian määrittely on käynnissä niin menetelmiin keskittyvän perustutkimuksen kuin esimerkiksi toimintaa ohjaavan lainsäädännön osalta. Aineiston keruu on oman aktiivisen tutkimuksensa kohteena.


Lopuksi


Useista tekoälyn sovelluksista ja erityisesti syväoppimismenetelmien viime vuosina mahdollistamista kehitysaskeleista huolimatta asenteet tekoälyn käyttöä kohtaan ovat pysyneet varauksellisina. Uskomme, että tekoälypohjaiselle kuva-analyysille on lähitulevaisuudessa olemassa tärkeä rooli tuottavuuden ja diagnostisen hoitopolun tehokkuuden kehittämisessä. Tehokkuuden kehittäminen puolestaan auttaa lievittämään elintärkeisiin toimintoihimme kohdistuvia maailmantalouden vaikutuksia, jolloin terveydenhuoltomme korkeasta laatutasosta ei tarvitse joustaa.

 

Kirjoittajat ovat AIDMEI-projektin projektiryhmän jäseniä. Projektissa tutkitaan kahta kiinnostavaa käyttötapausta alaselkäkivun havainnointia magneettikuvista ja rintasyövän tunnistamista mammografiakuvista. Projektirahoitus on Teknologiateollisuuden 100-vuotissäätiön ja Jane ja Aatos Erkon säätiön tulevaisuuden tekijät rahastosta. Tutkimusyhteistyössä tärkeinä yhteistyökumppaneina ovat Helsingin yliopisto ja Oulun yliopistollinen sairaala.

Ei kommentteja:

Lähetä kommentti