2020. gada 15. maijā Anastasija Ņikiforova LU Datorzinātnes un informātikas nozares promocijas padomē aizstāvēja promocijas darbu "Datu kvalitātes definēšana un novērtēšana" un ieguva zinātnes doktores grādu (Ph.D) datorzinātnē un informātikā. Darba zinātniskie vadītāji bija LU DF asoc. prof. Dr.sc.comp. Zane Bičevska (LU DF, SIA “DIVI grupa”) un prof. Dr.sc.comp. Jānis Bičevskis.

Darbu recenzēja prof., Dr. habil. sc. comp. Jānis Visvaldis Bārzdiņš (Latvijas Universitātes Matemātikas un informātikas institūts (LUMII)), prof., Dr. habil. sc. ing.  Jānis Grundspeņķis (Rīgas Tehniskā universitāte), vadošais pētnieks, Dr. sc. comp. Uģis Sarkans (Eiropas Bioinformātikas institūts (EMBL-EBI), Lielbritānija).

Par promocijas darbu

Promocijas darbā ir piedāvāta datu objekta virzīta pieeja datu kvalitātes definēšanai un novērtēšanai.
Datu kvalitātes problēma ir aktuāla kopš 60-o gadu beigām, kad tās atsevišķus aspektus sāka pētīt statistikas pētnieki. Datorzinātnieki datu kvalitātes problēmu sāka aktīvi pētīt 90-o gadu sākumā. Taču neskatoties uz datu popularitāti un to apjoma nepārtrauktu pieaugumu, gandrīz 30 gadus vēlāk datu kvalitātes problēma vēl joprojām nav atrisināta un ir aktuāla, kas galvenokārt ir saistīts ar datu un atvērto datu popularitāti. Vairums eksistējošo risinājumu balstās uz datu kvalitātes dimensiju definēšanu, grupēšanu un to pielietošanu datu kopām, ko paši datu pētnieki bieži vien atzīst par problemātisku uzdevumu pat datu kvalitātes speciālistiem. Tādejādi ir pamats apgalvot, ka eksistējošās pieejas nav piemērotas lietotājiem bez padziļinātām zināšanām IT un datu kvalitātes jautājumos, līdz ar to datu kvalitātes specialistu iesaiste kļūst nepieciešama visos datu kvalitātes analīzes posmos. Mūsdienu apstākļos tas nav pieņemami, jo katru dienu lietotāji saskaras ar datiem – tie ir visur, līdz ar ko iespējai pārbaudīt to kvalitāti ir jābūt katram lietotājam neatkarīgi no viņa zināšanām IT un datu kvalitātes jomās, jo pats “datu kvalitātes” jēdziens nozīmē datu piemērotību lietojumam, kam piemīt relatīvais un dinamiskais raksturs, kura kontekstu nosaka datu lietošanas piemērs un no tā atkarīgas prasības, kas laika gaitā var mainīties.

Darba mērķis bija izstrādāt pieeju, kas ļauj definēt analizējamo datu objektu un tā kvalitātes prasības lietotājiem, kuriem var nepiemist padziļinātas zināšanas IT vai datu kvalitātes jomās, pielietojot to atvērto datu kopām, nodemonstrējot to darbībā, un praktiskā risinājuma formalizācijas rezultātā piedāvājot datu kvalitātes teoriju.

Par piedāvātās lietotājorientētas pieejas oriģinalitāti liecina darba autores eksistējošo risinājumu analīze (pētījuma gaitā autore veica vairāk kā 65 eksistējošo risinājumu analīzi, darbā apskatot vairāk nekā 25 risinājumus), kā arī Batini (datu kvalitātes jautājumos vadošā pētnieka) datu kvalitātes problēmas dziļš izpētes darbs un eksistējošo metodoloģiju pārskats). Taču neskatoties uz pieejas pamatidejas būtisku atšķirību no citiem risinājumiem, atsevišķas piedāvātā risinājuma idejas saskaņojas ar Batini uzskatiem.

Piedāvātais kvalitātes modelis sastāv no trim komponentiem: (1) datu objekts, kura kvalitāte tiek vērtēta, (2) datu kvalitātes prasības – nodefinētajam datu objektam definētas kvalitātes prasības, kas ir atkarīgas no konkrēta datu lietojuma, un (3) datu kvalitātes pārbaudes process, kura izpildes rezultātā tiek lemts par dotā datu objekta kvalitāti, analizējot tajā konstatētās datu kvalitātes problēmas. Piedāvātā pieeja būtiski atšķiras no eksistējošām pieejām – tā neizmanto “datu kvalitātes dimensijas” jēdzienu, ļaujot lietotājiem pašiem definēt specifiskās kvalitātes prasības ar viņu noteiktiem datu objektiem atkarībā no datu lietojuma jeb lietošanas piemēra. “Datu kvalitātes dimensijas” jēdziena vietā tiek izmantots plašāks “datu kvalitātes prasības” jēdziens, kas var tikt uzskatīts par uz datu kvalitāti attiecināmu datu kvalitātes dimensiju virskopu. Datu objektu un kvalitātes prasības konkrētam datu objektam definē lietotājs, līdz ar ko lietotājiem ir sniegta iespēja pārbaudīt konkrētas datu kopas datu kvalitāti saviem nolūkiem. Katrs komponents tiek definēts, izmantojot grafiskas blokshēmām līdzīgas diagrammas, kas ļauj atvieglot datu kvalitātes analīzes procesu, kā arī nodrošināt vairāku lietotāju mijiedarbību, veicinot lietotāju savstarpēju saziņu ar diagrammu palīdzību, ko ir iespējams ātri un vienkārši veidot un labot. Tas tiek panākts katram komponentam izstrādājot grafisko domēnspecifisko valodu (DSL). Kvalitātes modelis var tikt definēts divos veidos – neformāli, izmantojot dabisko valodu (atbilst PIM no MDA viedokļa), vai formāli, neformālus tekstus aizstājot ar izpildāmiem (atbilst PSM), piemēram, SQL vaicājumiem. Izstrādātās diagrammas ir attīstāmas līdz izpildāmām, līdz ar ko datu kvalitātes novērtēšanas process kļūst automatizēts. Datu objekta un datu kvalitātes prasību definēšana neprasa no lietotājiem iepriekšējas zināšanas IT vai datu kvalitātes jomā, šīs process ir intuitīvs, līdz ar ko, atšķirībā no esošo datu kvalitātes risinājumu lielākas daļas, piedāvātā pieeja ir paredzēta plašam lietotāju lokam. IT specialistu iesaiste kļūst nepieciešama tikai beidzamajā posmā - neformālas prasības pārveidojot par izpildāmām.

Pieeja paredz arī konteksta pārbaudes, analizējot datu kopas kvalitāti pret citām datu kopām, kas ir nepieciešamas, veicot padziļinātu datu kvalitātes analīzi. Datu objekts, kura kvalitāte tiek analizēta, kļūst par primāro datu objektu, savukārt pārējie datu kvalitātes analīzē iesaistītie datu objekti, pret kuriem tiek pārbaudīta primārā datu objekta kvalitāte, kļūst par sekundārajiem datu objektiem. Sekundārais datu objekts parasti ir datu kopa, kas tika uzkrāta un apstrādāta ar citu no primārā datu objekta neatkarīgu datu sniedzēju, līdz ar ko kļūst iespējams pārbaudīt primāra datu objekta kvalitāti pret citu neatkarīgu datu objektu. Viena primāra datu objekta datu kvalitātes analīzē iesaistīto sekundāro datu objektu skaits nav ierobežots.

Piedāvātais risinājums nodrošina iespēju veikt “trešo pušu” datu kvalitātes analīzi, t.i. analizēt datus, informācija par kuru uzkrāšanas un apstrādes mehānismiem vai procedūrām var nebūt zināma. Risinājums tiek pielietots atvērtajiem datiem, vienlaicīgi pārliecinoties pieejas efektivitātē un atvērto datu kvalitātē, lielāku uzsvaru liekot uz Latvijas atvērtajiem datiem. Doto risinājumu autore pielietoja arī vienam specifiskam domēnam – medicīnas datiem. Atvērto datu kvalitātes analīze pati par sevi ir izaicinājums, jo, neskatoties uz atvērto datu popularitātes pieaugumu, atvērto datu kvalitātes jautājums tiek pētīts salīdzinoši reti, par ko liecina arī atbilstošās tēmas reprezentējošo pētījumu skaits Google Scholar. Statistika rāda, ka laika periodā no 2003. līdz 2014. gadam tika publicēti 4.6 reizes mazāk pētījumu par atvērto datu kvalitāti nekā 2018. gadā, taču, attiecinot ar atvērto datu kvalitāti saistīto pētījumu skaitu pret kopējo ar atvērtajiem datiem saistīto pētījumu skaitu, ir redzams, ka datu kvalitātes jautājums tiek pētīts nepamatoti reti, jo 2018. gadā atvērto datu pētījumu skaits pārsniedz ar atvērto datu kvalitāti saistīto pētījumu skaitu 147 reizēs, t.i. atvērto datu kvalitātes pētījumu īpatsvars pret kopējo ar atvērtajiem datiem saistīto pētījumu skaitu nepārsniedz 0.5%. Pie tam datu kvalitātes pētījumu skaits pārsniedz atvērto datu kvalitātes pētījumu skaitu gandrīz 196 reizēs. Pieaugot atvērto datu apjomam, kļūst nepieciešami risinājumi, kas būtu piemēroti arī lietotājiem bez padziļinātājām zināšanām datu kvalitātes un IT jomā, jo atvērtie dati kļūst par ikdienas parādību, un arī to kvalitātes analīze kļūst par neatņemamu ikdienas darbību. Pētījuma ietvaros, piedāvāto pieeju pielietojot atvērtajiem datiem, autore konstatēja tajos vairākas datu kvalitātes problēmas, kuras, ņemot vērā to raksturu, izdalīja atsevišķās grupās, lai pievērstu uzmanību kopīgajām problēmām, no kurām būtu jāuzmanās datu lietotājiem, un jāņem vērā datu sniedzējiem, izceļot populārākās, kas ir raksturīgas ne tikai Latvijas, bet arī citu valsts datu kopām, kas tika noteiktas gan veiktā pētījumā, gan citu pētījumu izpētes rezultātā.

Pētījuma rezultāti ir nopublicēti 11 zinātnisko rakstu ciklā un prezentēti sešās starptautiskajās konferencēs. Tāpat rezultāti tika prezentēti Ekonomikas ministrijas rīkotājā “Digitālizācijas un Inovāciju foruma DIG-IN” POPup Demo centrā. Savukārt pētījumu rezultātus, kas attiecas uz atvērto datu kvalitāti, 2020. gadā tika prezentēti LATA (Latvijas Atvērto Tehnoloģiju Asociācijas) konferencē “Datu virzītā nācija”.

Šobrīd uz darba rezultātiem balstās arī 2019. gadā uzsāktais IT kompetences centra pētījums Nr. 1.7. “Biznesa procesu modeļu lietojums pilnai informācijas sistēmas funkcionalitātes testēšanai”. Par saviem sasniegumiem dotajā tēmā 2019. gadā Beļģijas Universitātes prof. Marc Nyssen ir nominējis darba autori uz vienu no pasaules prestižākajiem apbalvojumiem datu zinātnes jomā “WDS Data Stewardship Award”, kas ikgadēji tiek piešķirts perspektīvākajiem datu zinātniekiem.

Dalīties