"Neironu tīkli fleksīvo dabisko valodu apstrādei"

PROJEKTS

Parakstīts līgums ar Centrālo finanšu un līguma aģentūru (CFLA) darbības programmas “Izaugsme un nodarbinātība” 1.1.1.specifiskā atbalsta mērķa “Palielināt Latvijas zinātnisko institūciju pētniecisko un inovatīvo kapacitāti un spēju piesaistīt ārējo finansējumu, ieguldot cilvēkresursos un infrastruktūrā” 1.1.1.1. pasākuma “Praktiskas ievirzes pētījumi” ietvarā, par projekta:

“Neironu tīkli fleksīvo dabisko valodu apstrādei” (Nr.1.1.1.1/16/A/215) īstenošanu.

Projekts tiks īstenots sadarbībā starp - Sabiedrību Tilde un pētniecības institūciju - Latvijas Universitātes Datorikas fakultāti.

Projekts ilgs no 2016. gada 1. novembra līdz 2019. gada 31. oktobrim. Projekta kopējas izmaksas ir 690 672,13 EUR, t.sk., ERAF atbalsts 484 384,04 EUR.

Projekta īstenošanas vieta – Vienības gatve 75a, Rīga, Latvija un Raiņa bulvāris 19, Rīga, Latvija, LV-1586.

PROJEKTA STATUSS

Projekta īstenošanas noslēdzošajā 12. posmā (no 2019. gada 1. augusta līdz 2019. gada 31. oktobrim) pabeigti visi plānotie pētījumi darbībās:

I. Neironu tīklu lietojuma matemātiskie un kognitīvie aspekti valodu tehnoloģijās
II. Neironu tīklu lietojamība rakstītā teksta analīzē
III. Neironu tīklu lietojamība automatizētas tulkošanas uzdevumā
IV. Neironu tīklu lietojamība runas tehnoloģijās (LV, LT)
V. Neironu tīklu lietojamība cilvēka-datora saziņas modelēšanā,

un prototipa (TRL 5) izstrāde darbībā “Daudzvalodu cilvēka-datora mijiedarbības tehnoloģiju prototips”, sagatavoti plānotie nodevumi, pētniecības publikācijas, datu kopas un prototipi (TRL 4).

Darbībā “Daudzvalodu cilvēka-datora mijiedarbības tehnoloģiju prototips” izstrādātais prototips ir integrēts risinājums, kurā ir iekļauti būtiskākie pētniecisko aktivitāšu rezultāti – rakstītā teksta apstrādes, runas, automatizētās tulkošanas un cilvēka-datora saziņas tehnoloģijas. Prototips implementēts abām dominantajām mobilajām operētājsistēmām Android un iOS”. Līdztekus automātiskām novērtēšanas metodēm, kas tika izmantotas atsevišķu komponentu novērtēšanai, prototipa kopējās darbības novērtēšana notika, izmantojot lietotāju viedokļa aptauju. Kvantitatīvi rezultāti tika iegūti, lietotājiem novērtējot 10 apgalvojumus (gan par prototipu kopumā, gan par atsevišķiem komponentiem prototipa kontekstā) 4 baļļu Likerta tipa vērtēšanas skalā. Papildus tika uzdoti trīs brīvas formas jautājumi, ar kuru palīdzību lietotājiem bija iespēja aprakstīt viņu pieredzi ar prototipu. Anketēšanas rezultāti uzrādīja pozitīvu vērtējumu visiem prototipā izmantotajiem projekta pētniecības un izstrādes rezultātiem.

Projekta īstenošanas 11. posmā (no 2019. gada 1. maija līdz 2019. gada 31. jūlijam) turpināti pētījumi darbībās:

I. Neironu tīklu lietojuma matemātiskie un kognitīvie aspekti valodu tehnoloģijās
II. Neironu tīklu lietojamība rakstītā teksta analīzē
III. Neironu tīklu lietojamība automatizētas tulkošanas uzdevumā
IV. Neironu tīklu lietojamība runas tehnoloģijās (LV, LT)
V. Neironu tīklu lietojamība cilvēka-datora saziņas modelēšanā,

un prototipa izveide darbībā “Daudzvalodu cilvēka-datora mijiedarbības tehnoloģiju prototips”.

Turpinot neironu tīklu lietojamības izpēti, balstoties uz latviešu valodas morfoloģisko modeli, kā arī vārdu grupēšanas pieeju, izveidots vārdu segmentācijas algoritms latviešu valodai. Izmantojot vārdu grupēšanas pieeju bez morfoloģiskās analīzes, izstrādāts algoritms citu valodu tekstu segmentēšanai. Segmentēšanas algoritms publicēts: https://github.com/zuters/genseg.

Veikts likumos balstītu un neironu tīklu pieejā balstītu teksta analīzes risinājumu veiktspējas un kvalitātes salīdzinājums, apkopoti likumos balstītas pieejas un neironu tīklu pieejas risinājumu sintaktiskai analīzei un gramatikas pārbaudei rezultāti. Konstatēts, ka katram no risinājumiem ir savas stiprās un vājās puses. Neironu tīklu risinājumam grūtības sagādā teikumi, kuros teikuma locekļi nav pamatsecībā. Likumos balstītais risinājums atrod mazāk kļūdu, taču ar lielāku precizitāti. Secināts, ka abus risinājumus būtu ieteicams lietot paralēli, lai tie papildinātu viens otru.

Pētījumā par neironu tīklu lietojamību automatizētas tulkošanas uzdevumā pabeigta vārdu sastatījumu izvilkšanas risinājumu Marian un Sockeye rīkkopās novērtēšana, izmantojot šim nolūkam iepriekš sagatavotu datu kopu. Pabeigta novērtēšanas rezultātu analīze. Līdztekus uzsākts automātiski apvērstu datu pēcrediģēšanas process, lai papildinātu elektroniskās vārdnīcas saturu. Ir apkopoti šī procesa pirmie rezultāti, un process uzlabots, lai šo uzdevumu varētu veikt efektīvāk.

Lai novērtētu runas tehnoloģijas ar Mean Opinion Score (MOS), izveidota un nopublicēta tīmekļa lapa sintezēto audioierakstu novērtēšanai. Šim nolūkam izveidota 100 teikumu liela novērtēšanas kopa no radio ziņām. Novērtēšanas kopas teikumiem sintezēti audiofaili ar diviem runas sintēzes modeļiem. Novērtēšanu veiks uzaicināti vērtētāji, kas nav saistīti ar runas sintēzes tehnoloģiju pētniecību un izstrādi.

Telpisko attiecību jomā norisinājies darbs pie trīs zinātnisku publikāciju izstrādes par (a) ģeometrisko stimulu valodisko atveidi, eksperimentā izmantojot t.s. produkcijas testu, (b) ikdienas telpisko stimulu produkcijas testa rezultātiem par ikdienas objektu uztveri, balstoties noteiktās pētnieciski aprobētās objektu kategorijās, (c) ģeometrisko stimulu pieņemamības vērtēšanas eksperimenta uzdevumu rezultātu analīzi. Vienlaikus  ar zinātnisko publikāciju izstrādi notiek darbs pie rezultātu padziļinātas analīzes Kopumā šobrīd ir noslēgusies visu eksperimentu (arī trešā lielā eksperimenta, kurā tika izmantota t.s. pieņemamības vērtēšanas eksperimentālā metode) datu ievākšana, priekšapstrāde un lielākajai daļai no pētījumiem ir noslēgusies arī statistiskā analīze. Šībrīža būtiskākie atklājumi – noskaidrotas latviešu valodā visviennozīmīgākās telpiskās attiecības, kā arī attiecības, kurām ir plaša interpretāciju iespēja. Tāpat noskaidrota objektu tuvuma un ass informācijas ietekme, kas ir būtiski atšķirīga dažādu telpisko attiecību gadījumā. Būtisko rezultātu vidū jāatzīmē, ka ikdienas objektu gadījumā parādās t.s. leksisko verbu ietekme, kā arī atklājas, ka dažas telpiskās attiecības pēc to tipa ir stingrākas un viennozīmīgākas nekā citas (piem., telpiskā atbalsta vai ietvertības attiecības ir stingrākas nekā piesaistes attiecības). Rezultāti ir būtisks pienesums ne tikai latviešu valodas izpētei telpiskās uztveres gadījumā, bet arī kopumā pētot ass un tuvuma ietekmi telpisko attiecību izpratnē. Pētījumu veikšanas gaitā notikušas konsultācijas un diskusijas ar vadošiem ekspertiem no Izraēlas, ASV un Vācijas.

Turpināta cilvēka-datora mijiedarbības tehnoloģiju prototipa izveide, veidojot balss un teksta dialogsistēmu, kurā lietotājs ar virtuālo asistentu var sarunāties par aktuālajām ziņām. Dialoga scenārijs specificēts virtuālo sarunu biedru izveides vidē, kas ļauj modelēt prototipa darbību un ļauj integrēt projektā radītās prototipa darbībai nepieciešamās komponentes. Implementēts ierobežots ziņu lasīšanas scenārijs fiksētam ziņu klāstam. Šajā scenārijā ar nodoma noteicēja palīdzību var izvēlēties dažādus ziņu lasīšanas režīmus – jaunākos, tematiskos vai lietotājam specifiskos. 

Projekta īstenošanas 10. posmā (no 2019. gada 1. februāra līdz 2019. gada 30. aprīlim) turpināti pētījumi darbībās:

I. Neironu tīklu lietojuma matemātiskie un kognitīvie aspekti valodu tehnoloģijās
II. Neironu tīklu lietojamība rakstītā teksta analīzē
III. Neironu tīklu lietojamība automatizētas tulkošanas uzdevumā
IV. Neironu tīklu lietojamība runas tehnoloģijās (LV, LT)
V. Neironu tīklu lietojamība cilvēka-datora saziņas modelēšanā,

kā arī turpināta 6. darbība “Daudzvalodu cilvēka-datora mijiedarbības tehnoloģiju prototips”.

Pārskata periodā pabeigts pētījums par gramatikas labošanu tērzēšanas tekstā, izveidots prototips teksta gramatikas labošanai. Turpināts darbs pie likumos balstīta un neironu tīklu pieejā balstīta teksta analīzes risinājuma salīdzināšanas, veidojot to novērtēšanai nepieciešamās datu kopas un pielīdzinot kļūdu taksonomiju starp modeļiem.

Pētījumā par neironu tīklu lietojamību automatizētas tulkošanas uzdevumā pabeigts darbs pie prototipa izstrādes neironu tīklu modeļu integrēšanai statistiskās mašīntulkošanas darbplūsmās. Pabeigts pētījums par pilna cikla neironu tīklu mašīntulkošanas modeļiem. Sagatavots pilna cikla neironu mašīntulkošanas sistēmu apmācības risinājuma prototips, kas ietver datu sagatavošanas risinājumu, apmācības risinājumu un teksta tulkošanas risinājumu.       

Turpināta latviešu-angļu vārdnīcas apvēršanas procesa izpēte. Pilnveidoti automātiskas apvēršanas skripti, kas sagatavo trīs dažādas sarežģītības failus manuālai pēcrediģēšanai: jauni šķirkļi ar vienu tulkojumu un opcionāliem piemēriem; jauni šķirkļi ar vairākiem tulkojumiem (opcionāliem piemēriem); esoši angļu-latviešu vārdnīcas šķirkļi ar papildu tulkojumiem (opcionāliem piemēriem).

Runas tehnoloģiju jomā pabeigti divi pētījumi par neironu tīklu lietojamību runas atpazīšanā un runas sintēzē. Labākās pētījuma laikā atrastās metodes  prototipētas pilna cikla neironu tīklu risinājumā runas atpazīšanai un neironu tīklos balstītā runas sintēzes risinājumā.

Cilvēka-datora saziņas modelēšanai latviešu valodā ar neirontulkošanas sistēmu no angļu valodas latviešu valodā pārtulkota datu kopa SQuAD. Izmantojot priekšapmācītus BERT modeļus (angļu valodas modeli un daudzvalodu modeli), ar  SQuAD datu kopu apmācīta un notestēta jautājumu atbildēšana angļu un latviešu valodā. Pētījuma rezultāti apkopoti nodevumā un prototipēti jautājumu atbildēšanas dialogsistēmā. Iesniegta un publicēta publikācija "FastText-Based Intent Detection for Inflected Languages".

Telpisko attiecību jomā pabeigts eksperiments, kurā tika testēta ikdienas objektu attiecību uztvere, balstoties eksperimentāli aprobētās objektu attiecību kategorijās. Pētījums uzrāda būtiskas un pētnieciski nozīmīgas atšķirības ģeometrisko un ikdienas objektu uztverē. Paralēli norisinās darbs pie rezultātu analīzes un interpretācijas acu kustību pieraksta pētījumā ievāktajos datos (sadarbībā ar maģistra programmas studentiem). Šajā pētījumā tika testētas pamata topoloģiskās un ģeometriskās attiecības. Šī pētījuma rezultāti sniegs ātras darbības vizuāli telpiskās uztveres pamatojumu valodisko testu laikā iegūtajiem datiem. Šie ir arī pirmie precīzie eksperimentālie dati par latviešu valodas telpisko reprezentāciju semantikā.

Turpināta cilvēka-datora mijiedarbības tehnoloģiju prototipa izveide, veidojot balss un teksta dialogsistēmu, kurā lietotājs ar virtuālo asistentu var sarunāties par aktuālajām ziņām.

Projekta īstenošanas 9. posmā (no 2018. gada 1. novembra līdz 2019. gada 31. janvārim) turpināti pētījumi darbībās:

I. Neironu tīklu lietojuma matemātiskie un kognitīvie aspekti valodu tehnoloģijās
II. Neironu tīklu lietojamība rakstītā teksta analīzē
III. Neironu tīklu lietojamība automatizētas tulkošanas uzdevumā
IV. Neironu tīklu lietojamība runas tehnoloģijās (LV, LT)
V. Neironu tīklu lietojamība cilvēka-datora saziņas modelēšanā,

kā arī ar 2018. gada 1. decembri uzsākta 6. darbība “Daudzvalodu cilvēka-datora mijiedarbības tehnoloģiju prototips”.

Pārskata periodā turpināti pētījumi par neironu tīklu lietojamību gramatikas labošanai tērzēšanas tekstos. Turpināta modeļa izveide, kas, izmantojot nejaušu lēmuma koku klasifikatora algoritmu, spēj izvēlēties labāko hipotēzi tērzēšanas tekstam. Izveidots tīmekļa pakalpojums moduļa darbināšanai attālināti. Pētījuma rezultāti aprakstīti publikācijā, kas pieņemta ICAART 2019 konferencē. Izvērtētas kļūdu grupas, ko labo likumos balstīts teksta analīzes risinājums. Daļa no tām pievienota gramatikas labošanas modelim, paplašinot izlaboto kļūdu klāstu.

Pētījumā par neironu tīklu lietojamību automatizētas tulkošanas uzdevumā pabeigts darbs pie statistiskās mašīntulkošanas datu apstrādes darbplūsmas izvērtēšanas, lai nodrošinātu neironu mašīntulkošanas modeļu integrāciju statistiskās mašīntulkošanas infrastruktūrā. Pabeigta vārdu sastatījumu izvilkšanas risinājuma izstrāde Marian un Sockeye rīkkopās retu vai nezināmu vārdu labākai apstrādei neironu mašīntulkošanas risinājumos. Pabeigta metodoloģijas izstrāde vārdu sastatījumu kvalitātes novērtēšanai aktuālajiem neironu tīklu mašīntulkošanas modeļu veidiem un datu sagatavošana vārdu sastatījumu kvalitātes novērtēšanai dokumentu tulkošanas uzdevumā.  

Projektā veiktie pētījumi neironu mašīntulkošanā minēti starp nozīmīgākiem Latvijas zinātnes sasniegumiem 2018. gadā un saņēmuši LZA balvu konkursā "Gada balva zinātnē 2018".

Turpināta latviešu-angļu vārdnīcas papildināšana ar jauniem šķirkļiem, īpašvārdiem, nozīmēm, skaidrojumiem. Veikta latviešu-angļu vārdnīcas apvēršana, iegūstot negaidīti lielu materiālu potenciālai angļu-latviešu vārdnīcas papildināšanai. Materiāls samazināts līdz elementāriem pamatšķirkļiem, kuru nav angļu-latviešu vārdnīcā. Šis materiāls tika izlases veidā rediģēts, lai saprastu kvalitātes līmeni. Secināts, ka tas ir izmantojams mašīntulkošanas uzdevumā un pēc manuālas caurskatīšanas arī vārdnīcas papildināšanai.

Runas atpazīšanai apmācīti dažāda veida pilna cikla neironu tīklu modeļi. Veikti eksperimenti valodas modeļa apmācības datu segmentēšanā ar PRPE (Prefix-Root-Postfix-Encoding), kvazi-morfoloģisku vārdu segmentēšanas metodi, kas tika izstrādāta šī pētījuma ietvaros. Apmācīti neironu tīklu valodas modeļi, kas darbojas ar BPE vārdu daļām un pārspēj 6-grammu BPE modeļus. Secināts, ka runas atpazīšanas rezultātu pārvērtēšana gan ar 6-grammu, gan ar neironu tīklu BPE modeļiem dod ievērojamu atpazīšanas kvalitātes uzlabojumu. Salīdzinot pilna cikla neironu tīklu runas atpazīšanas modeļus ar tradicionāliem modeļiem, konstatēts, ka joprojām labāku atpazīšanas kvalitāti nodrošina tradicionāli modeļi. Līdztekus analizētas runas sintēzes kļūdas. Konstatētas runas sintēzes “uzmanības mehānisma“ problēmas – atkārtojumi, izlaisti vārdi utml.  Tika pētīti dažādi šīs problēmas risinājumi, veikti eksperimenti.

Pētījumā par cilvēka-datora saziņas modelēšanu veikti padziļināti testi nodoma noteikšanas precizitātei latviešu, lietuviešu, igauņu, krievu un angļu valodās. Sagatavots vienkāršots dialoga piemērs ar nodomiem un entitātēm dialoga struktūras apmācības uzdevumam. Iesākta risinājuma izveide dialoga struktūras apguvei no piemēriem.

Telpisko attiecību pētījumā noslēgts darbs pie eksperimenta par ģeometrisko attiecību uztveri valodā, veikta statistiskā un apkopojošā analīze. Pabeigta eksperimentālās saskarnes izstrāde eksperimentam, kurā produkcijas uzdevuma veidā tika testētas ikdienas objektu attiecības. Apzināta eksperimenta dalībnieku izlases kopa un pilnībā un kvalitatīvi ievākti nepieciešamie dati. Izstrādāti eksperimenta datu analīzes kritēriji. Papildus sākotnēji iecerētajiem uzdevumiem ir veikts darbs pie telpisko attiecību uztveres analīzes acu kustību pieraksta metodes izmantojumā.

Iegūtie pētījuma rezultāti ir izmantojami valodas apstrādes sistēmās, mākslīgā intelekta un dialoga sistēmās, kā arī telpiskās uztveres lietišķajos un fundamentālajos pētījumos un telpiskās informācijas sistēmās, jo šie ir pirmie eksperimentāli precīzie dati par telpiskās uztveres atveidi latviešu valodā. Uzsākta daudzvalodu cilvēka-datora mijiedarbības tehnoloģiju prototipa izveide, kas aptver projekta pētniecības aktivitāšu vērtīgākos rezultātus.

Projekta īstenošanas 8. posmā (no 2018. gada 1. augusta līdz 2018. gada 31. oktobrim) turpināti pētījumi darbībās:

I. Neironu tīklu lietojuma matemātiskie un kognitīvie aspekti valodu tehnoloģijās

II. Neironu tīklu lietojamība rakstītā teksta analīzē

III. Neironu tīklu lietojamība automatizētas tulkošanas uzdevumā

IV. Neironu tīklu lietojamība runas tehnoloģijās (LV, LT)

V. Neironu tīklu lietojamība cilvēka-datora saziņas modelēšanā

Pārskata periodā pētītas metodes datu skrajuma mazināšanai. Analizētas metodes un veidoti risinājumi teksta vārdu segmentācijai apakšvārdos ar nolūku samazināt unikālo vārdu skaitu tekstā. Īpaši analizēta nosaukto entitāšu (piemēram, personu, organizāciju, ģeogrāfisku vietu) apstrāde, jo to tulkošana bieži atšķiras no sugas vārdu tulkošanas. Šie pētījumi ļāvuši projektā radīto segmentēšanas rīku PRPE papildināt ar specializētu nosaukto entitāšu apstrādi, nodrošinot tām citāda veida segmentēšanu.

Veikti pētījumi par neironu tīklu izmantošanu teksta gramatiskuma pārbaudē. Konstatēts, ka labākus rezultātus tekstvienību gramatiskuma marķēšanā uzrāda klasifikatori, kuri izmanto Bi-LSTM tīklu algoritmu. Pētījuma rezultāti ļāvuši radīt modeli tērzēšanas teksta kļūdu noteikšanai ar augstus precizitāti un pārklājumu visām kļūdu grupām (precizitāte: 99,52%, pārklājums: 99,28%), kuras datos ir ieviestas. Arī pētījumā radītais vispārīga rakstura teksta kļūdu noteikšanas modulis uzrāda augstus rezultātus (kopējie rādītāji visām kļūdu grupām – precizitāte: 94,85%, pārklājums: 94,39%).

Automatizētas tulkošanas uzdevumā turpināta vārdu sastatījumu izvilkšanas risinājuma izstrāde Marian un Sockeye rīkkopās, lai nodrošinātu retu vai nezināmu fenomenu labāku apstrādi neironu mašīntulkošanas risinājumos. Veidoti neironu tīklos balstīti risinājumi tulkošanai starp angļu un igauņu valodām, kas ir viena no sarežģītākajām automatizētai tulkošanai. Pētījumā radītie risinājumi uzrādījuši labus rezultātus ziņu jomai starptautiskā kopīgas tulkošanas uzdevumā WMT 2018.

Runātās valodas apstrādes jomā veikti vairāki eksperimenti, lai dziļāk izpētītu datu mākslīgas palielināšanas ietekmi uz atpazīšanas precizitāti un robustumu. Konstatēts, ka uz augstas kvalitātes novērtēšanas datiem kļūdaino vārdu īpatsvara (WER) uzlabojums ir nenozīmīgs, bet gadījumos kad novērtēšanas audiodatu kvalitāte ir slikta un neatbilst oriģināliem apmācības datiem, WER var samazināties pat 4 reizes. Implementētas vārdu daļu atpazīšanas sistēmas, kas prot atpazīt vārdus un vārdformas, kuru nav apmācības datos. Pārbaudītas un salīdzinātas divas vārdu dalīšanas metodes: Morfessor un BPE. Eksperimenti veikti gan vispārīgas jomas sistēmām, gan pielāgotai diktēšanas sistēmai. Atpazīšanas sistēma ar BPE daļiņām pārspēja gan bāzlīniju, gan Morfessor.

Telpisko attiecību pētījumā veikta pirmā eksperimenta rezultātu izvērtēšana, veikta elektronisko rezultātu kodēšana (papīra un elektroniskās anketas ir pilnībā nokodētas), precizēšana un analīze, notiek darbs pie funkcionālo stimulu izveides un saskarnes izstrādes nākošajam eksperimentam. Veicot elektronisko rezultātu kodēšanu un analīzi, vairākās pozīcijās konstatētas samērā lielas atšķirības (piem., lokatīva izmantojums) elektroniskās un papīra anketās. To iemesli tiek analizēti.

Pētījumā par cilvēka-datora saziņas modelēšanu izveidotas salīdzināmas datu kopas latviešu, lietuviešu, igauņu un krievu valodās. Veikta pētījumā radītā nodomu noteicēja novērtēšana uz šīm datu kopām. Secināts, ka vairumā gadījumu pētījumā radītais risinājums pārspēj ārpus Latvijas radītos risinājumus wit.ai un LUIS.

Projekta īstenošanas 7. posmā (no 2018. gada 1. maija līdz 2018. gada 31. jūlijam) notika darbības:

I. Neironu tīklu lietojuma matemātiskie un kognitīvie aspekti valodu tehnoloģijās

II. Neironu tīklu lietojamība rakstītā teksta analīzē

III. Neironu tīklu lietojamība automatizētas tulkošanas uzdevumā

IV. Neironu tīklu lietojamība runas tehnoloģijās (LV, LT)

V. Neironu tīklu lietojamība cilvēka-datora saziņas modelēšanā

Pārskata periodā turpināti pētījumi par neironu tīklu lietojamību fleksīvo dabisko valodu apstrādē. Fleksīvu valodu atbalstam neironu tīklos pabeigta risinājuma izveide, kas neironu tīklu mašīntulkošanas risinājumā ļauj iekļaut morfoloģisko un sintaktisko informāciju un risina nosaukto entitāšu atpazīšanas un apstrādes problēmu. Veikti pirmie eksperimenti, lai automātiski iegūtu informācijas elementus automātiskai valodas saprašanai.

Turpinot pētīt neironu tīklu modeļu piemērotību rakstītā teksta analīzei, analizēta nejaušu lēmuma koku klasifikatora piemērotība teksta gramatiskuma pārbaudei un gramatikas kļūdu labošanai. Projektā izstrādātais modelis sasniedz 92,7% precizitāti pareizu un kļūdainu teikumu novērtēšanas uzdevumā un 84,33% precizitāti kļūdu labošanas uzdevumā.

Automatizētas tulkošanas uzdevumā uzsākta vārdu sastatījumu izvilkšanas risinājuma izstrāde Marian un Sockeye rīkkopās, lai nodrošinātu retu vai nezināmu fenomenu labāku apstrādi neironu mašīntulkošanas risinājumos. Veikta tulkojumu kvalitātes novērtēšana vairākām neironu tīklu mašīntulkošanas sistēmām - vārtotai rekurento slāņu sistēmai un multiplikatīvās garās īstermiņa atmiņas rekurento slāņu sistēmai.
Runātās valodas apstrādes jomā veikti pirmie praktiskie eksperimenti neironu tīklos balstītai parametriskai runas sintēzei, mēģinot apmācīt Tacotron, Tacotron-2, GST-Tacotron modeļus. Modeļu apmācībai veiktas nepieciešamās modifikācijas apmācība datos, kā arī sagatavoti papildu dati. 

Telpisko attiecību pētījumā veikta pirmā eksperimenta (produkcijas uzdevuma) pilotversijas izstrāde, datu vākšana un apstrāde. Šajā eksperimentā tiek noskaidrots, kā ģeometriskas un topoloģiskās attiecības uztver latviešu valodas lietotāji. Pēc pilotversijas datu ievākšanas izveidota digitāla eksperimentāla saskarne, kā arī tika izveidota priekšapstrādes matrica datu analīzei, lai varētu veikt biežuma un statistisko analīzi. Pētījuma provizoriskie rezultāti apliecina, ka, pirmkārt, attālums ir viens no eksperimentāli un statistiski sensitīvajiem neatkarīgajiem mainīgajiem, otrkārt, telpisko attiecību uztvere un reprezentācija valodā ir lielā mērā kategoriāla, kā arī, treškārt, daļa no telpisko attieksmju reprezentācijām ir darbības vārdi, kas ļoti precīzi atveido topoloģiskās attiecības.

Pētījumā par cilvēka-datora saziņas modelēšanu, izmantojot neironu tīklus, turpināta pilna cikla dialogsistēmu izpēte. Uztrenēti jēdzientelpu modeļi Baltijas valstu valodām (latviešu, lietuviešu, igauņu), izmantojot ziņu jomas tekstu korpusu.  Lai analizētu datora un cilvēka kļūdas nodoma noteikšanā, izveidots vizualizācijas rīks nodomu pārklāšanās analizēšanai.

Projekta īstenošanas 6. posmā (no 2018. gada 1. februāra līdz 2018. gada 31. aprīlim) notika darbības:

I. Neironu tīklu lietojuma matemātiskie un kognitīvie aspekti valodu tehnoloģijās

II. Neironu tīklu lietojamība rakstītā teksta analīzē

III. Neironu tīklu lietojamība automatizētas tulkošanas uzdevumā

IV. Neironu tīklu lietojamība runas tehnoloģijās (LV, LT)

V. Neironu tīklu lietojamība cilvēka-datora saziņas modelēšanā

Pārskata periodā turpināti pētījumi par neironu tīklu lietojamību fleksīvo dabisko valodu apstrādē. Šajā periodā sekmīgi pabeigti vairāki pētījumi, to rezultāti apkopoti publikācijās, kā arī radīti vairāki pētnieciski prototipi.

Apmācības datu skrajuma problēma risināta, pētot morfoloģiski bagātu valodu segmentēšanu, ar nolūku samazināt unikālo tekstvienību skaitu tekstā. Secināts, ka morfoloģiski bagātu valodu segmentēšana pirms mašīntulkošanas dod zināmu pozitīvu efektu. Savukārt pārāk smalka segmentēšana dod drīzāk negatīvu efektu, samazinot tulkošanas kvalitāti, kas izskaidrojams ar teikuma kā vārdu segmentu virknes pagarināšanos, kam ir būtisks negatīvs iespaids uz tulkošanas kvalitāti. Pētījuma rezultāti apkopoti nodevumā. Izveidots teksta segmentēšanas rīks PRPE, kura izmantošana dod uzlabojumus neironu mašīntulkošanā starp latviešu un angļu valodām.

Pētot gramatiskumu un sintaktiskās konstrukcijas, tika konstatēts, ka dabiskās valodas lietotājam gramatiskā pareizība ir uztverama atšķirīgi, atkarībā no gramatisko konstrukciju veida. Vitāli būtiska ir prepozicionālās konstrukcijās ietvertā informācija, taču visai marginālas ir priedēkļu konstrukcijas un to kļūdas. Tāpat teikumu izpratni salīdzinoši būtiski traucējošas ir vārdu saskaņojuma kļūdas. Citi kļūdu veidi ir ar mazāku savstarpējo atšķirību un to statistiskais un saturiskais nozīmīgums ir neviennozīmīgs un tam ir mazāka ietekme uz gramatiskuma izpratni. Pētījuma rezultāti apkopoti nodevumā.

Turpinot pētīt neironu tīklu modeļu piemērotību rakstītā teksta analīzei, tika analizēti sintaktiskās analīzes algoritmi un izveidoti neironu tīklu modeļi, kas (1) tekstu dala sintaktiski saistītos fragmentos un (2) veic pilnu sintaktisko analīzi. Modeļu trenēšanai tika izmantots universālo atkarību formātā marķētu teksta korpuss. Pētījuma rezultāti apkopoti nodevumā, izveidots prototips. Teksta gramatiskuma pārbaudei ir izveidots modulis kļūdu noteikšanai tērzēšanas valodā, labojumu hipotēžu ģenerēšanai un labākās hipotēzes izvēlei.

Automatizētas tulkošanas uzdevumā pētītas metodes neironu mašīntulkošanas (NMT) sistēmu pielāgošanai konkrētām jomām, izmantojot jomas paralēlo datu korpusus un attulkotus konkrēto jomu vienvalodas datus. Šim nolūkam izstrādātas vairākas NMT sistēmas vairākiem tulkošanas virzieniem (piemēram, angļu<->bulgāru un vācu->angļu). Eksperimentu rezultātos empīriski noteikts, ka pielāgošanas metodes, izmantojot konkrētas jomas paralēlos datus, ļauj uzlabot NMT sistēmu tulkošanas kvalitāti pat par 25% (un vairāk), kā arī pielāgošanas metodes, izmantojot attulkotus konkrēto jomu monolingvālus datus, ļauj uzlabot NMT sistēmu tulkošanas kvalitāti par 6.4% (un vairāk).

Runātās valodas apstrādes jomā pabeigta adasoft valodas modeļu apmācīšana un novērtēšana. Secināts, ka adasoft strādā 3-4x ātrāk par pilno softmax, nezaudējot runas atpazīšanas kvalitāti. Ir izveidoti neironu tīklu risinājumi vairākiem pēcapstrādes uzdevumiem, izmantojot Transformer modeļus, kas pārspēj iepriekš iegūtos rezultātus šajos uzdevumos. Tika uzlabota pieturzīmju un lielo burtu atjaunošana runas atpazīšanas izvadam, kā arī tika izveidots jauns pieturzīmju atjaunošanas modelis ar 4 pieturzīmju klasēm (punkts, komats, domuzīme, jautājuma zīme) iepriekšējo divu vietā (punkts, komats). Pētījuma rezultāti apkopoti nodevumā, izveidots prototips. Uzsākta izpēte par pilna cikla runas atpazīšanu un runas sintēzi ar neironu tīkliem.

Pētījumā par cilvēka-datora saziņas modelēšanu, izmantojot neironu tīklus, turpināti pētījumi par metodēm, kas ļautu paaugstināt nodoma noteikšanas precizitāti: (1) veikti testi nodoma noteikšanai ar šajā projektā radīto automātisku kļūdu labotāju, (2) veikts tests ar valodas vienkāršošanu, (3) uzlabota FastText vektorizētāja darbība. Veikti testi ar vairākdimensionālu jēdzientelpu. Izveidots un notestēts konvolūciju tīkla modelis nodoma noteikšanai. Pētījumā radītā nodomu noteicēja precizitāte salīdzināta ar risinājumiem citām dialogsistēmu platformām. Pētījuma rezultāti apkopoti nodevumā, izveidots nodoma noteicēja prototips.

Pārskata periodā turpināti pētījumi par neironu tīklu risinājumu lietojamību fleksīvo dabisko valodu apstrādē četrās projektā plānotajās jomās – rakstītā teksta analīzē, automatizētā tulkošanā, runas tehnoloģijās un cilvēka-datora saziņā.

Datu skrajuma problēmas mazināšanai tiek izstrādāta metode, kas ļauj vārdus sadalīt morfēmās vai citās lingvistiski pamatotās tekstvienībās. Radītas un attīstītas vairākas risinājuma versijas. Pētījuma gaitā tiek meklēts labākais risinājums, kas, no vienas puses, vārdu segmentēšanu var veikt, izmantojot valodneatkarīgu risinājumu, bet no otras puses, iekļaujot valodspecifiskas zināšanas, ļauj būtiski uzlabot dalījuma akurātumu.

Turpinot eksperimentālu un korelatīvu gramatiskuma un sintaktisko konstrukciju izpēti, veikta anketēšana, noskaidrojot respondentu viedokli par noteikta veida gramatiskām kļūdām. Anketēšanas dalībnieki izvēlēti, un anketēšanas rezultāti analizēti, ņemot vērā respondentu dzīvesvietu, vecumu un dzimumu. Lai arī iegūto rezultātu analīze vēl turpinās, respondentu vidū novērota atšķirīga atsevišķu kļūdu grupu uztvere, t.i., atsevišķas kļūdu grupas tiek labāk novērtētas nekā citas.

Analizējot neironu tīklu modeļu piemērotību rakstītā teksta analīzei teksta un teikuma gramatiskuma novērtēšanas uzdevumā, analizēta tērzēšanas kanālos lietotās valodas specifika un veidoti neironu tīklu modeļi šādu tekstu apstrādei un pārveidei. Šajā pētījuma posmā galvenokārt analizēti tērzēšanas vietnēs lietotie tipiskie saīsinājumi un dažādie latviešu valodas burtu atveides principi, izstrādātas metodes to identificēšanai.

Automatizētas tulkošanas uzdevumā analizēta pēcrediģēšanas efektivitāte ar projekta pētījumā radīto neironu mašīntulkošanas sistēmas modeli. Pētījumā radītais risinājums salīdzināts ar citu Eiropas universitāšu risinājumiem, kas tika iesniegti WMT 2017 konkursam ziņu automatizētas tulkošanas uzdevumā. Konstatēts, ka, tulkošanā izmantojot pētījumā radīto risinājumu, iespējams uzlabot produktivitāti par 13%, salīdzinot ar tulkošanu (rediģēšanu), izmantojot citu pētnieku izstrādātās mašīntulkošanas sistēmas.  

Turpināta no paralēliem tekstiem automātiski uzgūtu vārdu un to tulkojumu izvērtēšana un angļu-latviešu elektroniskās vārdnīcas papildināšana. Papildinātais vārdnīcas materiāls caurskatīts, tipogrāfiski vienādots, ieviests ģenitīveņu marķējums. Papildus automātiski izgūtajiem papildinājumiem, ievadīts ap tūkstoti manuālo papildinājumu. Paplašināts frazeoloģismu lietojums. Veikti teorētiskie pētījumi par leksikas un frazeoloģijas ekvivalences problēmu vārdnīcā.   Sagatavota un akceptēta publikācija “Phraseology in General Bilingual Dictionaries: Idioms as Equivalents of Single Words. In: Contrastive Phraseology: Languages and Cultures in Comparison. Cambridge Scholars Publishing. 2018.”

Darbībā “Neironu tīklu lietojamība runas tehnoloģijās” analizēta valodas modeļa ietekme uz runas atpazīšanas kvalitāti. Pārbaudīti vairāki neironu tīklu modeļi, meklējot piemērotāko gan no resursu, gan ātrdarbības, gan kvalitātes viedokļa.

Turpinot pētījumu par cilvēka-datora saziņas modelēšanu, izmantojot neironu tīklus, veikta liela apjoma modeļu un metožu izvērtēšana dialogsistēmai, kas veidota konkrēta uzdevuma veikšanai, lai atrastu piemērotāko metodi nolūka noteikšanai. Analizēti vairāki izteikumu reprezentācijas veidi neironu tīklu modeļos, salīdzināti klasifikācijas algoritmi un datu reprezentācijas veidi. Analizētas metodes nebūtisku vārdu identificēšanai, to ietekme uz nolūka noteikšanu.

Projekta īstenošanas 5. posmā (no 2017. gada 1. novembra līdz 2018. gada 31. janvārim) notika darbības:

I. Neironu tīklu lietojuma matemātiskie un kognitīvie aspekti valodu tehnoloģijās

II. Neironu tīklu lietojamība rakstītā teksta analīzē

III. Neironu tīklu lietojamība automatizētas tulkošanas uzdevumā

IV. Neironu tīklu lietojamība runas tehnoloģijās (LV, LT)

V. Neironu tīklu lietojamība cilvēka-datora saziņas modelēšanā

Pārskata periodā turpināti pētījumi par risinājumiem datu skrajuma mazināšanai. Veikti pētījumi par veidiem, kā valodai specifiskās zināšanas iekļaut neironu tīklu modeļos un izmantot dekodēšanas laikā.

Turpināta gramatiskuma un sintaktisko konstrukciju empīriska un eksperimentāla izpēte. Sagatavoti dati, izveidoti anketējamo profili un veikts pilottests teikuma gramatiskuma novērtēšanai, uzsākta pilna apjoma anketēšana un iegūto rezultātu izvērtēšana.

Lai novērtētu neironu tīklu modeļu piemērotību teksta un teikuma gramatiskuma novērtēšanas uzdevumā, veikta datu sagatavošana, izmantojot regulārās izteiksmēs balstītu teikumu “sabojāšanu”. Izveidoti vairāki neironu tīklu modeļi un veikti pirmie eksperimenti ar šiem modeļiem, lai tekstā identificētu gramatikas kļūdas un lai labotu tās.

Darbībā “Neironu tīklu lietojamība automatizētas tulkošanas uzdevumā“ pabeigta bāzlīnijas pilna cikla neironu tīklu mašīntulkošanas modeļu izstrāde. Pētīta lingvistiski motivēta vārdu dalīšana atvērtas vārdnīcas neironu mašīntulkošana sistēmām. Turpināta vārdu tulkojumu izvilkšana no tulkošanas modeļiem, to novērtēšana un iekļaušana cilvēkam domātā elektroniskā vārdnīcā. Veikta automātisko procesu pieļauto kļūdu apzināšana un analīze. Šajā darbībā iegūtie rezultāti publicēti divu konferenču rakstu krājumos un prezentēti: TSD 2017 konferencē “Neural Machine Translation for Morphologically Rich Languages with Improved Sub-word Units and Synthetic Data” un WMT 2017 konferencē “Tilde’s Machine Translation Systems for WMT 2017

Darbībā “Neironu tīklu lietojamība runas tehnoloģijās” turpināti eksperimenti ar telefonsakaru kvalitātes (8KHz) trenēšanas datu automātisku izveidi no parastiem augstas kvalitātes datiem. Implementēti vairāki neironu tīklos balstīti modeļi skaitļu konvertēšanai no cipariskas formas uz vārdiem. Uzsākta neironu tīklu modeļu novērtēšana latviešu un lietuviešu valodām. Sagatavots nodevums “Automātiskas un pusautomātiskas metodes runas korpusa anotēšanai un sastatīšanai”

Darbībā “Neironu tīklu lietojamība cilvēka-datora saziņas modelēšanā” veikti pirmie eksperimenti ar pilna cikla neironu tīklu dialogsistēmām, izmantojot latviešu valodai pieejamos datus. Veikta vairāku datu modeļu salīdzināšana. Uzsākta risinājuma meklēšana datu skrajuma problēmai. Uzsākta nepieciešamo datu vākšana neironu tīklu modeļa izveidei, kas ļautu automātiski noteikt izteikuma nolūku un atrast tam piemērotāko atbildi jomai pielāgotā risinājumā. Uzsākta neironu tīklu risinājumu mašīntulkošanas uzdevumam adaptēšana nolūka noteikšanai (tulkošana no izteikuma uz nolūku).

Projekta īstenošanas 4. posmā (no 2017. gada 1. augusta līdz 2017. gada 31. oktobrim) notika darbības:

I. Neironu tīklu lietojuma matemātiskie un kognitīvie aspekti valodu tehnoloģijās

II. Neironu tīklu lietojamība rakstītā teksta analīzē

III. Neironu tīklu lietojamība automatizētas tulkošanas uzdevumā

IV. Neironu tīklu lietojamība runas tehnoloģijās (LV, LT)

V. Neironu tīklu lietojamība cilvēka-datora saziņas modelēšanā

Turpināta literatūras un metožu izpēte par neironu tīklu modeļu izmantošanu statistiskās mašīntulkošanas risinājumos, vārdu jēdzientelpu analīzei, lai gūtu priekšstatu un zināšanas par esošiem risinājumiem vārdu jēdzientelpu vizualizācijai un to potenciālos lietojumus. Pārskata periodā pabeigta datu sagatavošana statistiskās mašīntulkošanas un neironu tīklu modeļu bāzlīnijas versiju izstrādei. Pārskata periodā pabeigta metožu apzināšana pilna cikla neironu tīklu mašīntulkošanas modeļu izstrādei. Uzsākta bāzlīnijas pilna cikla neironu tīklu mašīntulkošanas modeļu izstrāde. Tika veikta jaunu (vārdnīcās neiekļautu) vārdu tulkojumu izvilkšana no tulkošanas modeļiem, kas iegūti no liela paralēlā datu korpusa.

Veikta Latviešu valodas gramatikas kļūdu tipoloģija ir salīdzināta ar kļūdu tipiem, kurus piedāvā labot angļu valodas gramatikas pārbaudes rīki. Ir identificētas kļūdu grupas, kuras būtu izmantojamas gramatiskuma vērtēšanas testos. Ir apzināti ar kļūdu tipiem  marķēti korpusi, kuru piemērus varētu izmantot gramatiskuma vērtēšanas testos.

Veikti eksperimenti ar telefonsakaru kvalitātes (8KHz) trenēšanas datu automātisku izveidi no parastiem augstas kvalitātes datiem. Implementēti pirmie uz neironu tīkliem balstīti modeļi skaitļu konvertēšanai no cipariskas formas uz rakstītiem vārdiem, kas ir vajadzīgs valodas modeļu trenēšanas datu apstrādei. Veikta novērtēšana un salīdzinājums ar klasisko uz likumiem bāzēto risinājumu.

Projekta īstenošanas 3. posmā (no 2017. gada 1. maija līdz 2017. gada 31. jūlijam) notika darbības:

I. Neironu tīklu lietojuma matemātiskie un kognitīvie aspekti valodu tehnoloģijās

II. Neironu tīklu lietojamība rakstītā teksta analīzē

III. Neironu tīklu lietojamība automatizētas tulkošanas uzdevumā

IV. Neironu tīklu lietojamība runas tehnoloģijās (LV, LT)

V. Neironu tīklu lietojamība cilvēka-datora saziņas modelēšanā

Projekta īstenošanas 1. ceturksnī (no 2016. gada 1. novembra līdz 2017. gada 31. martam) ir sākušās aktivitātes pie darbībām:

II. Neironu tīklu lietojamība rakstītā teksta analīzē

III. Neironu tīklu lietojamība automatizētas tulkošanas uzdevumā

IV. Neironu tīklu lietojamība runas tehnoloģijās (LV, LT)

V. Neironu tīklu lietojamība cilvēka-datora saziņas modelēšanā

 

Pārskata periodā turpināta jaunākās literatūras un pētījumu rezultātu analīze par fleksīvo dabisko valodu apstrādi, izmantojot neironu tīklus. Uzsākta padziļināta datu skrajuma problēmas izpēte. Veikta teorētiskās un metodoloģiskās literatūras izpēte par gramatiskuma eksperimentālu un korelatīvu pētniecību. Izmantojot neironu tīklu modeļus, veikti pirmie laboratoriski eksperimenti to lietojamības izpētei rakstītā teksta analīzē, mašīntulkošanā un runas atpazīšanā. CICLING 2017 konferencē prezentēti pirmie pētījuma rezultāti par neironu tīklu lietojumu mašīntulkošanā, pētījumu rezultāti apkopoti publikācijā, kas iesniegti publicēšanai šīs konferences rakstu krājumā.

Projekta īstenošanas 2. ceturksnī (no 2017. gada 1. februāra līdz 2017. gada 28. aprīlim) notika darbības:

I. Neironu tīklu lietojuma matemātiskie un kognitīvie aspekti valodu tehnoloģijās

II. Neironu tīklu lietojamība rakstītā teksta analīzē

III. Neironu tīklu lietojamība automatizētas tulkošanas uzdevumā

IV. Neironu tīklu lietojamība runas tehnoloģijās (LV, LT)

V. Neironu tīklu lietojamība cilvēka-datora saziņas modelēšanā

 

PROJEKTU LĪDZFINANSĒ EIROPAS REĢIONĀLĀS ATTĪSTĪBAS FONDS