Kieliteknologiaa Linuxilla: Suomen romanikielen automaattinen muoto-opin analysaattori ja korjausohjelma

Hankkeeni tavoitteena on kehittää Suomen romanikielen automaattinen muoto-opin analysaattori ja korjausohjelma. Muoto-opin analysaattorilla voidaan tunnistaa romanikielisiä sananmuotoja ja päätellä niiden perusmuodot, sanaluokat ja taivutusmuodot. Korjausohjelma auttaa kirjoittajaa löytämään tekstistään kirjoitusvirheet.

Muoto-opin analysaattorin pohjana on Helsingin yliopiston emeritusprofessori Kimmo Koskenniemen 1980-luvulla kehittämä kaksitasomalli (Two-level Morphology, TWOL), joka soveltuu minkä tahansa kielen muoto-opillisen rakenteen mallintamiseen. Analysaattorin keskeiset osat ovat sanasto ja säännöstö.

Hankkeessani tehtävän työn perustana on 2000-luvun alussa kehittämäni Suomen romanikielen muoto-opin analysaattori, joka käsitti silloisista lähtökohdista kattavan sanaston ja toimivat muoto-opin säännöt. Uusi muoto-opin analysaattori on tarpeen, koska PC-KIMMO-ohjelmisto, jolla alkuperäinen ROMTWOL toteutettiin, ei enää ole yhteensopiva nykyaikaisten käyttöjärjestelmien ja luonnollisen kielen käsittelyn ohjelmistoinfrastruktuurien kanssa. Myös analysaattorin sanastoa on laajennettava nyky-yhteiskunnan tarpeisiin soveltuvammaksi.

Muoto-opin analysaattorin ja korjausohjelman toteutus

Hankkeessa luotava uusi muoto-opin analysaattori ROMTWOL 2 hyödyntää Helsinki Finite-State Transducer (HFST) -ohjelmistoa, ohjelmointikirjastoa ja apuohjelmia luonnollisen kielen käsittelyyn äärellisillä automaateilla. HFST:tä on käytetty muun muassa monien kielten oikeinkirjoituksen tarkistimien, tavuttimien ja muoto-opin analyysiohjelmien laatimiseen.

ROMTWOL 2 tulee olemaan avoimen lähdekoodin sovellus. Se tulee olemaan julkisesti ladattavissa verkosta. Se tulemaan toimimaan Suomen romanikielen korjausohjelman perustana, ja sen sanasto tulee olemaan Suomen romanikielen verkkosanakirjan pohjana. Korjausohjelma edustaa pioneerityötä. Ohjelma tulee olemaan vapaasti ladattavissa oleva, avoimen koodin sovellus. Verkkosanakirja toteutetaan jatkohankkeessa.

Automaattinen muoto-opin analysaattori ja korjausohjelma toteutetaan Ubuntu Desktop -ympäristössä (tämänhetkinen versio 23.0.4). Ubuntu on osoittautunut käytännössä riittävän vakaaksi ja toimivaksi. Hanke tarkastelee, edistää ja esittelee Linuxin ja muiden avoimen ohjelmistojen käyttöä tieteessä ja etenkin kielentutkimuksessa. Tämän tekee erityisen tutkimuksellisesti erityisen mielenkiintoiseksi, että kohteena on voimakkaasti varioiva kieli, jonka kodifikaatio on kesken. Hanke luo pohjaa avoimen lähdekoodin työkalujen käyttöönotolle Suomen romanikielen kieliteknologisissa välineissä.

Hankkeessa auttavat neuvoin ja työkaluin Lingsoft Oy ja CSC – Tieteen tietotekniikan keskus Oy.

Hankkeen merkitys ja tulosten esittely

Hankkeessa tuotettavat ohjelmat ovat yhteiskunnallisesti merkittäviä ja yleishyödyllisiä. Ohjelmat auttavat romanikielen kirjallisten tuotosten kieliasun yhdenmukaistamisessa ja kielenhuollossa. Ne ovat myös pedagoginen väline, joka opastaa romanikielen käytössä ja opettaa romanikieltä. Niitä voidaan hyödyntää romanikielen opetuksessa. Ohjelmat hyödyttävät suoraan esimerkiksi romanikielellä julkaisevien kirjailijoiden, kääntäjien ja TV-ohjelmien tekstittäjien työtä. Hanke tukee romanikielen normitus- ja kielenhuoltotyötä. Romanikieli on Suomen perinteisiä vähemmistökieliä ja vakavasti uhanalainen.

Hankkeessa laadittuja työkaluja esitellään tieteellisissä konferensseissa ja artikkeleissa sekä romaneille suunnatuissa populaariartikkeleissa muun muassa Opetushallituksen ja romanijärjestöjen lehdissä sekä verkkosivuilla. Hankkeessa järjestetään kaksi tuotettavien ohjelmien ja Linuxin esittelytilaisuutta tammi- ja toukokuussa 2024.

Jätä kommentti