Luonnollisen kielen prosessointia suomalaisittain

Koneoppiminen, tekoäly, luonnollisen kielen prosessointi (Natural Language Processing, NLP). Trendikkäitä sanoja, jopa ns. hype-termejä, joiden pohjalta toivotaan mullistavia tuloksia automatisointiin ja älykkäisiin palveluihin. Nyt tällä hypellä on kuitenkin hieman pohjaakin.

Suomen kielellä on omat erikoisuutensa ja se on pienehkö erikoisalueensa maailmalta katsottuna. Siksi sille ei aina ole niin suurta tukea näille viimeisimmille teknologioille tai viimeisimpiä ohjelmistokirjastoja tuunattuna. Tutkimustulosten tulkinta on monesti myös turhan monimutkaista, tutkijoilla kun ei aina ole varsinaista kiinnostusta esittää kansantajuisesti tuloksiaan.

Näihin teknologioihin liittyen olen omina sivuprojekteinani tehnyt (ja edelleen jatkokehitän) omaan käyttöön suomen kielen NLP-analyysiin erilaisia komponentteja, joita olen hyödyntänyt mm. Oulun Valtuustopilven kehityksessä (http://oulu.katesc.io). Tässä on hyödynnetty jo olemassa olevia suomen kielen resursseja, avointa dataa ja avointa lähdekoodia. Suomen kielen NLP:lle ei ole kuitenkaan merkittävästi avoimia resursseja saatavilla ja hyvin dokumentoituna.

Fuugin säätiön apurahan turvin voin eriyttää ohjelmistokoodeistani yleisemmin käytettävissä olevia suomen kielen prosessointiin soveltuvia kompnentteja, julkaista niistä soveltuvia osia avoimena lähdekoodina sekä dokumentoida näitä ymmärrettävään muotoon. Tämä toki vaatii samalla myös niiden tutkimustulosten tulkintaa, yleisempien komponenttien integrointia ja evaluointia suomen kielelle. Tekemistä siis riittää!

 

Teksti: Teemu Kanstrén

Yksi kommentti artikkeliin ”Luonnollisen kielen prosessointia suomalaisittain”

Jätä kommentti