Daudzvalodu cilvēka-datora komunikācijas modelēšana, izmantojot mākslīgā intelekta metodes

PROJEKTS

Parakstīts līgums ar Centrālo finanšu un līguma aģentūru (CFLA) darbības programmas “Izaugsme un nodarbinātība” 1.1.1.specifiskā atbalsta mērķa “Palielināt Latvijas zinātnisko institūciju pētniecisko un inovatīvo kapacitāti un spēju piesaistīt ārējo finansējumu, ieguldot cilvēkresursos un infrastruktūrā” 1.1.1.1. pasākuma “Praktiskas ievirzes pētījumi” ietvarā, par projekta:

“Daudzvalodu cilvēka-datora komunikācijas modelēšana, izmantojot mākslīgā intelekta metodes” (1.1.1.1/18/A/148) īstenošanu.

Projekts tiks īstenots sadarbībā starp - Sabiedrību Tilde un pētniecības institūciju - Latvijas Universitātes Datorikas fakultāti.

Projekts ilgs no 2019. gada 1. aprīļa līdz 2022. gada 31. martam.
Projekta kopējas attiecināmās izmaksas ir 756 694.09 EUR, t.sk., ERAF atbalsts 519 332.49 EUR.
Projekta īstenošanas vieta – Vienības gatve 75a, Rīga, Latvija un Raiņa bulvāris 19, Rīga, Latvija, LV-1586.

Projekta īstenošanas 5. posmā turpināti pētījumi par dabiskās valodas sapratnes modelēšanu, zināšanu izguvi no daudzvalodu tekstiem un daudzvalodīgas piekļuves nodrošināšanu, cilvēka-datora saziņas emocionālajiem aspektiem un runātās valodas paralingvistisko parametru modelēšanu. Uzsākts darbs pie sākotnējā multilingvālā virtuālā aģenta prototipa.

Turpināta lielu priekšapmācītu valodas modeļu (BERT, ALBERT un ELECTRA) izveide un novērtēšana latviešu valodai un šo modeļu apmācībai nepieciešamo datu sagatavošana. Veikta dažādo pētījumā izveidoto modeļu piemērotības novērtēšana atbildes atrašanas uzdevumā, izmantojot latviskotu SquAD datu kopu. Pētījuma rezultāti parādījuši, ka projekta mērķiem piemērotākais ir latviešu valodas BERT modelis, kurš SQuAD2.0 uzdevumā sasniedz F1 mēra vērtību 0.6.

Lai risinātu zināšanu identificēšanas uzdevumu nestrukturētā tekstā, veikta nosaukto entitāšu atpazīšanas (NER) metožu padziļināta izpēte - apzinātas datu kopas latviešu valodas NER risinājuma apmācībai un novērtēšanai, izveidoti un novērtēti vairāki NER modeļi, izmantojot priekšapmācītos BERT modeļus. Šī pētījumā labākie latviešu valodas nosaukto entitāšu atpazīšanas modeļi sasniedz 83 - 84% pēc F1 mēra.

Dialoga modelēšanas uzdevumā pētītas nākamās darbības prognozēšanas metodes, izmantojot rekurento LSTM tīklu ar priekšlaicīgas apmācības pārtraukšanu. Tā kā pirmie iegūtie rezultāti nav viennozīmīgi interpretējami, tiek pētīti šim uzdevumam piemērotākie neironu tīkla parametri un arhitektūras.

Zināšanu izvilkšanas, saglabāšanas un vaicājumu modelēšanas uzdevumiem turpināta literatūras apkopošana un analīze. Izstrādāti kritēriji novērtēšanas kopu izveidei. Apkopota informācija par zināmākajām novērtēšanas kopām un vairākas datu kopas salīdzinātas pēc izvirzītajiem kritērijiem.

Lietotāja emocionālā stāvokļa noteikšanai izstrādāts darbplūsmas modelis daudzslāņu anotēšanai, kurš paredzēts afektīvo parametru, afektīvo emocijvārdu un paralingvistisko pazīmju marķēšanai. Veikts pilotpētījums, kura laikā izvērtēti anotēšanas rīki (ELAN 5.8., DARMA un Annotation Pro) un aprobēts darbplūsmas modelis. Secināt, ka pētījuma vajadzībām vislabāk atbilst rīki Annotation Pro (izmantojams anotēšanai) un ELAN (izmantojams konvertēšanai). Izpētīti dialogu struktūru modeļi zvanu centru kontekstā. Paralēli veikti divi pilotpētījumi, nosakot spontānas runas laikā novērojamo balss skaļuma, intensitātes parametru saistību ar verbālā satura afektīvajām pazīmēm.

Turpināti pētījumi par cilvēka datora komunikācijas adaptāciju lietotāja emocionālajam stāvoklim – veikta pieejamo ar emocijām anotēto dialogu datu kopu analīze, emociju analīzes metožu un rīku izpēte, dialoga emociju intensitātes izmaiņu konceptuālā modeļa izstrāde un klientu atbalsta dialogu tekstu sagatavošana prognozēšanas modeļa veidošanai. Pieejamo ar emocijām anotēto dialogu datu avotu pārskatam tika veikta dažādu teksta datu kopu analīze pēc vairākiem kritērijiem, šī pētījuma rezultāti apkopoti zinātniskā publikācijā “Leonova V. Review of Non-English Corpora Annotated for Emotion Classification in Text”, kas pieņemta konferencei Baltic DB&IS 2020. Uzsākts padziļināts pētījums neapmierinātības intensitātes prognozēšanai klientu atbalsta dialogu tekstos, analizējot frustrāciju (neapmierinātību) un tās intensitāti katrā klienta izteikumā.

Runātās valodas apstrādes uzdevumā padziļināti pētīti runātāja atpazīšanas, runas ierakstu segmentācijas (diarizācija) un runas neplūstošo daļu atpazīšanas un filtrēšanas uzdevumi. Runātāja atpazīšanas uzdevumā vislabākos rezultātus sasniedza x-vector modelis, kas apmācīts ar angļu valodas datiem, bet pielāgots ar latviešu valodas runas korpusu. Novērtējot audiosegmentācijas uzdevumā Kaldi x-vector diarisation un LIUM SpkDiarizatio, iegūts DER novērtējums 14.25% pielāgotam x-vector modelim un 30.45% LIUM SpkDiariz bāzlīnijai. Runas neplūstošo daļu atpazīšanas uzdevumā tika pētīta pašuzraugoša

(self-supervised) pieeja. Ar šo metodi izdevās pārspēt bāzlīniju (63% F1 pret 54% F1), tomēr modelis ir pārāk neprecīzs, lai to izmantotu praksē.

Izteiksmīgas runas sintēzes uzdevumā pētītas metodes, kas iemācās runas izteiksmes variācijas nepārraudzītā veidā no runātās valodas korpusa. Paralēli tiek pētītas metodes (piem., ne-autoregresīvās sintēzes metodes un ātrākas mel-spektrogramu pārveides metodes) runas sintēzes kvalitātes un sintēzes ātruma uzlabošanai, lai kvalitatīvu runas sintēzi varētu izmantot reālā laika dialogos

Publicēts 18.06.2020.

Projekta īstenošanas 4. posmā turpināti pētījumi par dabiskās valodas sapratnes modelēšanu, zināšanu izguvi no daudzvalodu tekstiem, daudzvalodīgas piekļuves nodrošināšanu, cilvēka-datora saziņas emocionālajiem aspektiem un runātās valodas paralingvistisko parametru modelēšanu.

Dabiskās valodas sapratnes uzdevuma pētījumi pārskata periodā saistīti ar BERT un ALBERT modeļu izveidi latviešu valodai un šo modeļu apmācībai nepieciešamo datu sagatavošanu. Turpināta dažādo modeļu piemērotības novērtēšana atbildes atrašanas uzdevumā, izmantojot latviskotu SquAD datu kopu.

Pārskata periodā turpināti pētījumi par zināšanu izvilkšanu no tekstiem. Uzsākta nosaukto entitāšu atpazīšanas (NER) uzdevuma padziļināta izpēte un novērtēšana, izmantojot sagatavotos BERT modeļus. Apzinātas datu kopas latviešu valodai NER risinājuma apmācībai un novērtēšanai. Turpināta zinātniskās literatūras analīze par metodēm automātiskai zināšanu izvilkšanai, īpaši pētot hibrīdās vairāku “sprieduma lēcienu” jautājumu atbildēšanas metodes (hybrid multi-hop QA).

Dabiskās valodas izteikumu automātiskas tulkošanas uzdevumā turpināti pētījumi par mašīntulkošanas sistēmas pielāgošanu negramatisku datu (runas atpazīšanas sistēmas izvada, tērzēšanas valodas u.c.) tulkošanai.

Lietotāja emocionālā stāvokļa noteikšanai un modelēšanai turpināta afekta tezaura izveide un afekta pazīmju kategorizācijas sistēmas izveide. Uzsākta afekta anotēšana audioierakstos, aprobējot izvēlēto kategorizācijas sistēmu un novērtējot mūsdienīgākos anotēšanas rīkus.

Pārskata periodā turpināti pētījumi par cilvēka datora komunikācijas adaptāciju lietotāja emocionālajam stāvoklim. Turpināta datu kopu dialogu modelēšanai apzināšana un izpēte, uzsāks pētījums par empātiskas dialogsistēmas izveidi. Uzsākta dialoga emociju automātiskas analīzes pieejas izstrāde pēc izvēlēto emociju intensitātes.

Turpināti pētījumi par labākajām metodēm izteiksmīgas runas sintēzei un emocionālas runas atpazīšanai datu nepietiekamības apstākļos. Turpināta novērtēšana audiosegmentācijas uzdevumam, salīdzinot Kaldi x-vector diarisation un LIUM SpkDiarization. Sagatavoti nepieciešamie dati atbilstoši DIHARD challenge ieteikumiem. Iegūts novērtējums pēc DER (Diarization error rate): LIUM: 67.55, bet Xvector: 60.80.

Publicēts 31.03.2020.
 

Pārskata periodā turpināti pētījumi par efektīvākajām metodēm pašapmācošu virtuālo sarunu biedru izveidei. Veikta modeļu un metožu analīze dialoga stāvokļa izsekošanas un nākamās darbības prognozēšanas uzdevumiem. Veikta dažādu pētījumam nepieciešamo BERT modeļu izveide un analīze latviešu valodai, veikta bāzlīnijas novērtēšana SquAD uzdevumā latviešu valodā.

Uzsākti pētījumi par zināšanu izvilkšanu no tekstiem. Veikta sākotnējā analīze diviem risinājumiem – komponentēs balstītai zināšanu izguvei (pārskata periodā koncentrējoties uz nosauktajām entitātēm) un pašapmācošamies un pašpapildinošamies modeļiem, analizējot pašreiz labākos rezultātus angļu valodai un pētot to adaptēšanas iespējas.

Dabiskās valodas izteikumu automātiskai tulkošanai uzsākti eksperimenti mašīntulkošanas sistēmas pielāgošanai darbam ar runas atpazīšanas sistēmas izvadu. Mašīntulkošanas sistēmās izmantota “transformer” tipa tīkla arhitektūra, tās apmācītas ar WMT 2017 datu kopu, papildinot to ar mākslīgi sintezētu un atpazītu runāto tekstu avotvalodā un to tulkošanas ekvivalentiem mērķvalodā. Sākotnējie eksperimentu rezultāti ļauj secināt, ka jaukto datu sistēma veiksmīgi pielāgojas darbam ar runas atpazīšanas sistēmas izvadu.

Lietotāja emocionālā stāvokļa noteikšanai un modelēšanai uzsākts pilotpētījums par multimodālu dialogu modelēšanu un anotēšanu. Veikta audiālu dialoga fragmentu analīze, esošo tehnisko palīglīdzekļu novērtēšana. Veikta datu apstrāde, iegūstot transkribētā teksta kvalitātes rādītājus un emociju vārdu parametrus. Sagatavoti scenāriji uzlaboto dialogu struktūru veidošanai. Apzinātas datu kopas dialogu modelēšanai, un izstrādāta saskarne dialoga datu manuālai tulkošanai.

Turpināti pētījumi par labākajām metodēm izteiksmīgas runas sintēzei un emocionālas runas atpazīšanai datu nepietiekamības apstākļos. Uzsākta novērtēšana audio segmentācijas uzdevumam.

Publicēts 31.12.2019.

Projekta īstenošanas 2. posmā (no 2019. gada 1. jūlija līdz 2019. gada 30. septembrim)  turpinājās darbs pie vairākām projekta Rūpnieciskās pētniecības aktivitātēm:

1.1.       Dabiskās valodas saprašana      

1.2.       Dabiskās valodas ģenerēšana    

1.3.       Dialoga scenāriju mācīšanās no datiem  

2.1.       Zināšanu identificēšana tekstu datos      

2.2.       Automātiska daudzvalodu zināšanu bāzes izveide           

3.1.       Mašīntulkošana dabiskās valodas vaicājumiem    

5.1.       Paralingvistisko pazīmju atpazīšana un runātās valodas apstrāde dialogos          

5.2.       Izteiksmīgas runas sintēze dialogiem      

Pārskata posmā tika turpināts darbs atbilstoši sagatavotajam pētījuma plānam, izvērsts darbs pie galvenajiem problēmjautājumiem, un turpinājās pētījumam nepieciešamo datu kopu sagatavošana.

Publicēts 30.09.2019.

Projekta īstenošanas 1. posmā (no 2019. gada 1. aprīļa līdz 2019. gada 30. jūniju) notika darbs pie vairākām projekta Rūpnieciskās pētniecības aktivitātēm:

1.1.       Dabiskās valodas saprašana      

1.2.       Dabiskās valodas ģenerēšana    

1.3.       Dialoga scenāriju mācīšanās no datiem  

2.1.       Zināšanu identificēšana tekstu datos      

2.2.       Automātiska daudzvalodu zināšanu bāzes izveide           

3.1.       Mašīntulkošana dabiskās valodas vaicājumiem    

5.1.       Paralingvistisko pazīmju atpazīšana un runātās valodas apstrāde dialogos          

5.2.       Izteiksmīgas runas sintēze dialogiem      

Pārskata posmā tika sagatavots pētījuma plāns, apzināti galvenie problēmjautājumi, un uzsākta pētījumam nepieciešamo datu kopu un jaunāko literatūras avotu apkopošana un analīze.

Publicēts 30.06.2019.

 

PROJEKTU LĪDZFINANSĒ EIROPAS REĢIONĀLĀS ATTĪSTĪBAS FONDS