Suomen romanikielen kieliteknologiaa valmistunut Linuxia hyödyntäen

18.2.2024 kirjoittaja Kimmo Granqvist

ROMTWOL on Suomen romanikielen automaattisen muoto-opin jäsennin. Se etsii siihen syötetylle sananmuodolle sanavartalon tai perusmuodon, jonka hyväksyttävä muoto se on. Samalla se kertoo, millaisista osista sananmuoto koostuu. Esimerkiksi romanikielen sana ”džeeno” ’mies’ analysoidaan ”^džeeno/’džeen$<n><sg><nom>$”, jossa <n> tarkoittaa sanaluokkaa substantiivi, <sg> yksikköä ja <nom> nominatiivisijaa. Jäsennin ei löydä analyysiä väärin kirjoitetulle tai sen sanastosta puuttuvalle sananmuodolle. Siksi sen avulla voidaan myös tarkistaa oikeinkirjoitusta, mikä on sen tärkeä käytännön sovellus. Tällaisenaan ROMTWOL 2 on ensimmäinen Suomen romanikielen oikolukuohjelma. Sitä on tarkoitus kehittää edelleen hyödyntämään HFST-OSPELLia, jotta se osaisi väärin kirjoitettujen sanojen lisäksi myös ehdottaa korjauksia, sekä luoda tekstinkäsittelyohjelmissa (ainakin LibreOffice Writerissa) toimiva oikolukumoduuli. Leksikkoa ja sääntökomponenttia tullaan jatkuvasti ja säännöllisesti päivittämään, jotta ne pysyvät ajantasaisina niin sanaston kuin sääntöjensä osalta.

ROMTWOL 2 ja muutkin uudet, tulossa olevat Suomen romanikielen kieliteknologiset työkalut auttavat kaikkia romanikieltä kirjoittavia – kielen kääntäjiä, kirjantekijöitä, kielen opettajia ja oppimateriaalien laatijoita, mutta työkaluista on hyötyä myös romanikielen opiskelijoille ja tutkijoille. Kieliteknologiatyö saattaa lisäksi Suomen romanikieltä samalle viivalle Pohjoismaiden muiden ”pienten” kielten kanssa. Saamen kielten kieliteknologiaa on kehitetty pohjoismaisena työnä 1990-luvulta lähtien, ja Karjalan kielelle on Norjassa ja Suomessa laadittu kielimalleja ja kielioppeja sekä kokeellinen oikolukuohjelma. Romanikielen kieliteknologia on Pohjoismaissa yhä pioneerityötä. Suomen romanikielen kieliteknologiatyö vahvistaa myös avoimien lähdekoodin ohjelmien ja Linuxin käyttöä tutkimuksessa.

ROMTWOLin nykyinen versio 2 perustuu osin vuosina 2001–2002 kehittämääni ohjelman ensimmäiseen, kokeiluluonteiseen versioon. ROMTWOL 2 rakennettiin ja kirjoitettiin nykyisten ohjelmistojen (HFST-LEXC ja HFST-TWOLC) formalismien mukaiseksi, ja sen kielimalli on uudistettu kattamaan Suomen romanikielen koko tunnetun perussanaston ja koko sääntöperäisen kieliopin (Granqvist 2007, 2011a) kuvausten ja romanikielen lautakunnan suositusten mukaiseksi. ROMTWOL 2 toimii komentorivipohjaisena sovelluksena. Sen kehitysympäristönä on Red Hat Enterprise Linux (RHEL), tämänhetkinen versio 9.3. Sitä voi kokeilla CSC:n Suomen Kielipankin sivuilla olevalla työkalulla osoitteessa: https://www.kielipankki.fi/cgi-bin/romtwol.py.

ROMTWOL 2 on julkaistu avoimen lähdekoodin GNU GPL-lisenssin (General Public License) alaisuudessa. Sen lähdekoodit voi ladata osoitteesta Suomen Romaniyhdistyksen verkkosivustolta (https://www.suomenromaniyhdistys.fi/hanketoiminta/kotimaan-tyo/suomen-romanikielen-kieliteknologiaa/romtwol-omalla-koneella/), josta löytyy myös ohjeita ja tietoa ROMTWOLista ja laajemmin romanikielestä ja sen kieliteknologiasta.

ROMTWOL 2:n leksikossa on tällä hetkellä 3996 riviä: substantiiveja, adjektiiveja, pronomineja, determinoijia, numeraaleja, johtamattomia adverbejä, verbejä, adpositiota, rinnastus- ja alistuskonjunktiota sekä partikkeleita. Leksikko kattaa valtaosan dokumentoidusta Suomen romanikielen sanastosta. Säännössä on 13 sääntöä, jotka riittävät kuvaamaan äänneopillisen vaihtelun romanikielen muoto-opissa.

ROMTWOL 2 kykenee tällä hetkellä tunnistamaan keskimäärin yli 90 % juoksevien tekstien sanoista
Testejä on suoritettu yliopistoon tarkoitetun Suomen romanikielen oppikirjan Vaaguno! (Granqvist 2011b) lukukappaleiden 1–7 teksteillä, jotka on kirjoitettu melko kurinalaisesti ja kirjoitetun kielen normia noudattaen. Teksteissä on mukana myös erisnimiä ja paikannimiä, joita ei ole ROMTWOLin leksikossa. Tulokset vertautuvat hyvin muidenkin pohjoismaisten ”pienten” kielten automaattisten muoto-opin jäsentimien saavuttamiin (Pohjoismaiden neuvosto, painossa).

Koska ROMTWOL 2 tuottaa sanetta kohti keskimäärin 1,5 luentaa, kehitteillä on sen rinnalle ROMCG-sanaluokkajäsennin, jonka tehtävänä on yksiselitteistää ROMTWOL 2:n tuottamia luentoja. ROMCG laaditaan käyttäen VislCG3-rajoituskielioppia (https://edu.visl.dk/cg3.html), joka on Tino Didriksenin ja Eckhard Bickin kehittämä CG-rajoituskieliopin toteutus. Lisäksi on suunnitteilla Suomen romanikielen keliopintarkistusohjelma.

ROMTWOL-työ kytkeytyy myös Suomen romanikielen verkkosanakirja Laaven (’Sanat’) (2024–) kehitystyöhön. CSC:n Sanatissa (https://sanat.csc.fi/wiki/Suomen_romanikielen_verkkosanakirja) julkaistava verkkosanakirja tulee olemaan laajin tähän mennessä laadittu Suomen romanikielen sanakirja, joka kokoaa yhdeksi verkkoresurssiksi romanikielen sanakirja- ja termityön tähänastiset tulokset. Samalla se on suunniteltu jatkuvasti kartutettavaksi joukkoistamisen kautta, jolloin se inspiroi keskustelua romanikielestä ja tukee romanikielen elvyttämistä. Laave tulee olemaan keskeisin Suomen romanikielen sanaston lähde ja tieteellisesti ja yhteiskunnallisesti arvokas historiallisen syvyytensä, laajuutensa ja kartutettavuutensa ansiosta.

Kirjallisuus

Granqvist, Kimmo 2007. Suomen romanin äänne- ja muotorakenne Suomen Itämaisen Seuran Suomenkielisiä julkaisuja 36. Kotimaisten kielten tutkimuskeskuksen julkaisuja 145. Helsinki: Yliopistopaino.

Granqvist, Kimmo 2011a. Lyhyt Suomen romanikielen kielioppi [Concise grammar of Finnish Romani]. http://scripta.kotus.fi/www/verkkojulkaisut/julk24/ Kotimaisten kielten tutkimuskeskuksen verkkojulkaisuja 24. Helsinki. (Julkaissut painettuna Suomen Romaniyhdistys ry.)

Granqvist, Kimmo 2011b. Vaaguno! Helsinki: Kotimaisten kielten tutkimuskeskus.

Pohjoismaiden neuvosto, painossa. Collaborative opportunities: Language technology for less-resourced languages in the Nordics.