Vislielākais burtu izmērs
Lielāks burtu izmērs
Burtu standarta izmērs
Projekts “Neironu tīkli fleksīvo dabisko valodu apstrādei” (Nr.1.1.1.1/16/A/215)
Pēdējās izmaiņas veiktas:
27.10.2017

PROJEKTS

 

Parakstīts līgums ar Centrālo finanšu un līguma aģentūru (CFLA) darbības programmas “Izaugsme un nodarbinātība” 1.1.1.specifiskā atbalsta mērķa “Palielināt Latvijas zinātnisko institūciju pētniecisko un inovatīvo kapacitāti un spēju piesaistīt ārējo finansējumu, ieguldot cilvēkresursos un infrastruktūrā” 1.1.1.1. pasākuma “Praktiskas ievirzes pētījumi” ietvarā, par projekta:

“Neironu tīkli fleksīvo dabisko valodu apstrādei” (Nr.1.1.1.1/16/A/215) īstenošanu.

Projekts tiks īstenots sadarbībā starp - Sabiedrību Tilde un pētniecības institūciju - Latvijas Universitātes Datorikas fakultāti.

Projekts ilgs no 2016. gada 1. novembra līdz 2019. gada 31. oktobrim. Projekta kopējas izmaksas ir 690 672,13 EUR, t.sk., ERAF atbalsts 484 384,04 EUR.

Projekta īstenošanas vieta – Vienības gatve 75a, Rīga, Latvija un Raiņa bulvāris 19, Rīga, Latvija, LV-1586.

 

PROJEKTA STATUSS

 

uz 2017. gada 28. aprīli:

Pārskata periodā turpināta jaunākās literatūras un pētījumu rezultātu analīze par fleksīvo dabisko valodu apstrādi, izmantojot neironu tīklus. Uzsākta padziļināta datu skrajuma problēmas izpēte. Veikta teorētiskās un metodoloģiskās literatūras izpēte par gramatiskuma eksperimentālu un korelatīvu pētniecību. Izmantojot neironu tīklu modeļus, veikti pirmie laboratoriski eksperimenti to lietojamības izpētei rakstītā teksta analīzē, mašīntulkošanā un runas atpazīšanā. CICLING 2017 konferencē prezentēti pirmie pētījuma rezultāti par neironu tīklu lietojumu mašīntulkošanā, pētījumu rezultāti apkopoti publikācijā, kas iesniegti publicēšanai šīs konferences rakstu krājumā.

Projekta īstenošanas 2. ceturksnī (no 2017. gada 1. februāra līdz 2017. gada 28. aprīlim) notika darbības:

I. Neironu tīklu lietojuma matemātiskie un kognitīvie aspekti valodu tehnoloģijās

II. Neironu tīklu lietojamība rakstītā teksta analīzē

III. Neironu tīklu lietojamība automatizētas tulkošanas uzdevumā

IV. Neironu tīklu lietojamība runas tehnoloģijās (LV, LT)

V. Neironu tīklu lietojamība cilvēka-datora saziņas modelēšanā

 

uz 2017. gada 31. janvāri:

Projekta īstenošanas 1. ceturksnī (no 2016. gada 1. novembra līdz 2017. gada 31. martam) ir sākušās aktivitātes pie darbībām:

II. Neironu tīklu lietojamība rakstītā teksta analīzē

III. Neironu tīklu lietojamība automatizētas tulkošanas uzdevumā

IV. Neironu tīklu lietojamība runas tehnoloģijās (LV, LT)

V. Neironu tīklu lietojamība cilvēka-datora saziņas modelēšanā

 

uz 2017. gada 31. jūliju:

Turpināta literatūras un metožu izpēte par neironu tīklu modeļu izmantošanu statistiskās mašīntulkošanas risinājumos, vārdu jēdzientelpu analīzei, lai gūtu priekšstatu un zināšanas par esošiem risinājumiem vārdu jēdzientelpu vizualizācijai un to potenciālos lietojumus. Pārskata periodā pabeigta datu sagatavošana statistiskās mašīntulkošanas un neironu tīklu modeļu bāzlīnijas versiju izstrādei. Pārskata periodā pabeigta metožu apzināšana pilna cikla neironu tīklu mašīntulkošanas modeļu izstrādei. Uzsākta bāzlīnijas pilna cikla neironu tīklu mašīntulkošanas modeļu izstrāde. Tika veikta jaunu (vārdnīcās neiekļautu) vārdu tulkojumu izvilkšana no tulkošanas modeļiem, kas iegūti no liela paralēlā datu korpusa.

Veikta Latviešu valodas gramatikas kļūdu tipoloģija ir salīdzināta ar kļūdu tipiem, kurus piedāvā labot angļu valodas gramatikas pārbaudes rīki. Ir identificētas kļūdu grupas, kuras būtu izmantojamas gramatiskuma vērtēšanas testos. Ir apzināti ar kļūdu tipiem  marķēti korpusi, kuru piemērus varētu izmantot gramatiskuma vērtēšanas testos.

Veikti eksperimenti ar telefonsakaru kvalitātes (8KHz) trenēšanas datu automātisku izveidi no parastiem augstas kvalitātes datiem. Implementēti pirmie uz neironu tīkliem balstīti modeļi skaitļu konvertēšanai no cipariskas formas uz rakstītiem vārdiem, kas ir vajadzīgs valodas modeļu trenēšanas datu apstrādei. Veikta novērtēšana un salīdzinājums ar klasisko uz likumiem bāzēto risinājumu.

Projekta īstenošanas 3. posmā (no 2017. gada 1. maija līdz 2017. gada 31. jūlijam) notika darbības:

I. Neironu tīklu lietojuma matemātiskie un kognitīvie aspekti valodu tehnoloģijās

II. Neironu tīklu lietojamība rakstītā teksta analīzē

III. Neironu tīklu lietojamība automatizētas tulkošanas uzdevumā

IV. Neironu tīklu lietojamība runas tehnoloģijās (LV, LT)

V. Neironu tīklu lietojamība cilvēka-datora saziņas modelēšanā

 

uz 2017. gada 31. oktobri:

Pārskata periodā turpināti pētījumi par risinājumiem datu skrajuma mazināšanai. Veikti pētījumi par veidiem, kā valodai specifiskās zināšanas iekļaut neironu tīklu modeļos un izmantot dekodēšanas laikā.

Turpināta gramatiskuma un sintaktisko konstrukciju empīriska un eksperimentāla izpēte. Sagatavoti dati, izveidoti anketējamo profili un veikts pilottests teikuma gramatiskuma novērtēšanai, uzsākta pilna apjoma anketēšana un iegūto rezultātu izvērtēšana.

Lai novērtētu neironu tīklu modeļu piemērotību teksta un teikuma gramatiskuma novērtēšanas uzdevumā, veikta datu sagatavošana, izmantojot regulārās izteiksmēs balstītu teikumu “sabojāšanu”. Izveidoti vairāki neironu tīklu modeļi un veikti pirmie eksperimenti ar šiem modeļiem, lai tekstā identificētu gramatikas kļūdas un lai labotu tās.

Darbībā “Neironu tīklu lietojamība automatizētas tulkošanas uzdevumā“ pabeigta bāzlīnijas pilna cikla neironu tīklu mašīntulkošanas modeļu izstrāde. Pētīta lingvistiski motivēta vārdu dalīšana atvērtas vārdnīcas neironu mašīntulkošana sistēmām. Turpināta vārdu tulkojumu izvilkšana no tulkošanas modeļiem, to novērtēšana un iekļaušana cilvēkam domātā elektroniskā vārdnīcā. Veikta automātisko procesu pieļauto kļūdu apzināšana un analīze. Šajā darbībā iegūtie rezultāti publicēti divu konferenču rakstu krājumos un prezentēti: TSD 2017 konferencē “Neural Machine Translation for Morphologically Rich Languages with Improved Sub-word Units and Synthetic Data” un WMT 2017 konferencē “Tilde’s Machine Translation Systems for WMT 2017

Darbībā “Neironu tīklu lietojamība runas tehnoloģijās” turpināti eksperimenti ar telefonsakaru kvalitātes (8KHz) trenēšanas datu automātisku izveidi no parastiem augstas kvalitātes datiem. Implementēti vairāki neironu tīklos balstīti modeļi skaitļu konvertēšanai no cipariskas formas uz vārdiem. Uzsākta neironu tīklu modeļu novērtēšana latviešu un lietuviešu valodām. Sagatavots nodevums “Automātiskas un pusautomātiskas metodes runas korpusa anotēšanai un sastatīšanai”

Darbībā “Neironu tīklu lietojamība cilvēka-datora saziņas modelēšanā” veikti pirmie eksperimenti ar pilna cikla neironu tīklu dialogsistēmām, izmantojot latviešu valodai pieejamos datus. Veikta vairāku datu modeļu salīdzināšana. Uzsākta risinājuma meklēšana datu skrajuma problēmai. Uzsākta nepieciešamo datu vākšana neironu tīklu modeļa izveidei, kas ļautu automātiski noteikt izteikuma nolūku un atrast tam piemērotāko atbildi jomai pielāgotā risinājumā. Uzsākta neironu tīklu risinājumu mašīntulkošanas uzdevumam adaptēšana nolūka noteikšanai (tulkošana no izteikuma uz nolūku).

Projekta īstenošanas 4. posmā (no 2017. gada 1. augusta līdz 2017. gada 31. oktobrim) notika darbības:

I. Neironu tīklu lietojuma matemātiskie un kognitīvie aspekti valodu tehnoloģijās

II. Neironu tīklu lietojamība rakstītā teksta analīzē

III. Neironu tīklu lietojamība automatizētas tulkošanas uzdevumā

IV. Neironu tīklu lietojamība runas tehnoloģijās (LV, LT)

V. Neironu tīklu lietojamība cilvēka-datora saziņas modelēšanā

 

PROEJKTU LĪDZFINANSĒ EIROPAS REĢIONĀLĀS ATTĪSTĪBAS FONDS