Sidebar

 pexels-pavel-danilyuk-8438980_copy.jpg

Pexels / Asociatyvinė nuotr.

Vilniaus universiteto (VU) Matematikos ir informatikos bei Filologijos fakultetų mokslininkai jau kone dešimtmetį įgyvendina VU informatikų inicijuotą projektą LIEPA. Toks bendradarbiavimas neturėtų stebinti – ateityje lietuvių kalba taps neatsiejama technologijų dalimi. VU mokslininkų sukurti robotai humanoidai Ąžuolas ir Liepa, naudodami projekto metu sukaupto lietuvių kalbos garsyno duomenis ir technologijas, išmoko kalbėti lietuviškai, o lietuvių kalbos atpažinimo programėlė „Tildės balsas“ skaito tekstą garsu, atpažįsta jai diktuojamą tekstą ir sakomas komandas. Tačiau dirbtinis intelektas (DI) turi suprasti ne tik bendrinę kalbą, bet ir tarmes, žargoną, kitus kalbos variantus, todėl projektas LIEPA intensyviai juda į priekį ir turtina turimą garsyną gyva, spontanine kalba, žadėdamas DI vartotojams sklandesnį bendradarbiavimą, o ateities filologams vis tarpdalykiškesnes studijas ir platesnes galimybes.

Kiekvienas etapas – vis sudėtingesnis 

Per dešimtmetį projektuose LIEPA ir LIEPA-2 VU mokslininkai sukūrė šimto, vėliau – tūkstančio valandų lietuvių šnekos garsyną, o dar projekto pradžioje išvystytas kalbos sintezatorius jau kelerius metus naudojamas viename naujienų portale ir Vilniaus miesto savivaldybės svetainėje pateiktai informacijai įgarsinti. Tačiau mokslininkai turi daugiau ambicijų – trečiajame projekto etape sukurti 10 tūkst. valandų lietuvių šnekos garsyną.

„Projekte LIEPA-2 garsynui skirti tekstai buvo įrašomi studijoje – savo balsus šiam projektui „paskolino“ daugiau nei 2,5 tūkst. įvairiausių žmonių. Projekto LIEPA-3 uždavinys dar ambicingesnis – sukurti 10 tūkst. valandų anotuotą lietuvių kalbos garsyną, kurį sudarys garso įrašų ir juos atitinkančių tekstų pavyzdžiai. 5 tūkst. garsyno valandų bus skirta spontaninei kalbai, jos pavyzdžius šiuo metu ir renkame. Likusią garsyno dalį renka ir anotuoja projekto partneriai – Vytauto Didžiojo universitetas ir Lietuvių kalbos institutas. Mums, dešimties žmonių filologų komandai, ypač svarbu kuo įvairesnė aplinka ir kuo skirtingesni žmonės – nuo vaikų iki senjorų. Nors atrodo, kad mūsų darbas – išskirtinai techninis, iš tiesų taip nėra, nes visų pirma labai svarbu turėti kalbinę klausą, taip pat išmanyti fizikinius garso aspektus, suprasti gramatiką, morfologiją ir sintaksę. Anotuoti garsyną – išties sudėtingas darbas. Tačiau mūsų bendro darbo tikslas – 10 tūkst. valandų duomenų – ateityje leis ne tik integruoti lietuvių kalbą į išmaniąsias technologijas, bet ir įvertinti realią mūsų šnekamosios kalbos padėtį – į šiuos tyrimus galėtų įsitraukti būsimieji filologai“, – pasakojo VU Filologijos fakulteto profesorius Vytautas Kardelis.

Žygimanto_Savicko_nuotrauka.jpg

Vytautas Kardelis / Žygimanto Savicko nuotr.

Anotuoto lietuvių kalbos garsyno duomenys šiuo metu ir ateityje galės būti naudojami praktikoje – jie nuo 2026 m. gegužės, kai pasibaigs projektas, bus prieinami įmonėms ar organizacijoms, kuriančioms dirbtinio intelekto ar kitas technologijas. Pasak VU Filologijos fakulteto profesoriaus, šis projekto tikslas – ypač svarbus, mat kuriamos kalbos technologijos reikalingos neregiams ir silpnaregiams bei vyresnio amžiaus žmonėms, kuriems, naudojant kalbos sintezatorių, jau dabar prieinama informacija viešojoje erdvėje ar išmaniajame įrenginyje.

Remdamasis projekto LIEPA-1 ir LIEPA-2 duomenimis, verslas sukūrė pirmąją lietuvių kalbos atpažinimo programėlę „Tildės balsas“, atpažįstančią išmaniajam įrenginiui diktuojamus tekstus ir sakomas komandas, o tekstus tariančią lietuviškai.

Dar viena sritis, kur pritaikomi VU Filologijos fakulteto mokslininkų parengto garsyno duomenys – robotika. Du VU mokslininkų sukurti robotai humanoidai Ąžuolas ir Liepa, naudodami projekto metu sukauptus duomenis ir technologijas, išmoko kalbėti lietuviškai.

„Nors mes esame sukūrę tik Didžiojo lietuvių kalbos garsyno pradžią, ateityje jį galėtų plėsti anotuotojų lingvistų grupė, kuri tyrinėtų ne tik standartinę kalbą, bet ir tarmes, žargoną, kitus kalbos variantus. Neabejoju, kad filologijos ateitis – tarpdalykiškumas, kurį laikyčiau ir vienu šio projekto privalumų. Kito kelio nėra. Tarpdalykiškumas skatina ne tik į savo tyrimų sritį, bet ir į kalbą žiūrėti kitaip. Jeigu kalbėsime apie studentus, kurie planuoja studijuoti lietuvių filologiją, o papildomai domisi technologijomis, toks projektas galėtų tapti puikiausia erdve kurti“, – sako prof. V. Kardelis.

Būsimiesiems filologams – daugiau galimybių

VU Filologijos fakulteto Lietuvių kalbos katedros profesorė Irena Smetonienė sutinka: anotuotas lietuvių kalbos garsynas – puiki platforma moksliniams tyrimams. Garsyno duomenis mokslininkė visų pirma rekomenduotų pasitelkti diskutuojant apie kalbos politikos formavimą, kalbos prestižą ir suvokimą, nagrinėjant, kodėl, kada ir kokius žodžius pasirenka kalbos vartotojai, norėdami kuo aiškiau perduoti savo mintis.

Irena_Smetonienė_Bernardinai.lt_Evgenios_Levin_nuotrauka_copy_copy.jpg

Irena Smetonienė / Bernardinai.lt, Evgenios Levin nuotr.

„Kalbant apie standartinę kalbą, galima išskirti tarties problemas. Pastebėjau, kad atpažintuvui vis sunkiau suprantami tekstai, jei žmogus kalba neartikuliuotai, jeigu jo kalboje gausu įvairiausių piktžodžių, pasikartojančių žodžių – tokia informacija lieka neišgirsta ar tinkamai nesuprasta. Nekreipdami dėmesio į tartį, artikuliaciją, turėsime problemų, kai savo tekstus bandysime diktuoti, o ne rašyti. Pamatę rezultatą, tikrai nebūsime juo patenkinti. Kalbos mokslui, jauniems žmonėms, pasirinkusiems filologiją, pagaliau atsiveria galimybės tyrinėti intonaciją ir fonetikos dalykus, kurie ilgą laiką nesulaukė pakankamai dėmesio“, – aiškina prof. I. Smetonienė.

Kaip komentavo pašnekovė, dirbtinį intelektą būtina mokyti gyvesnės, žmogiškesnės lietuvių kalbos. Mokslininkų praktika parodė, kad dirbtinis anotatorius, pavyzdžiui, neatpažįsta žodžio „žaliaskarė“ – siūlo įvairių alternatyvų, pavyzdžiui, „žalia skara“, arba nesupranta tokių žodžių kaip „akmenskaldys“ ir „švietėjiška“. Tokius ir panašius žodžius būtina įtraukti į skaitmeninę erdvę, kitaip dirbtinis intelektas jų neatpažins ir nevartos.

„Jeigu norime, kad dirbtinis intelektas bendrautų kuo natūralesne lietuvių kalba, svarbu pateikti kasdienius, tarptautinius ir įvairių mokslo sričių žodžius – tuomet jis sudėlios logišką sakinį. Mano akimis, filologiją pasirinkusiems jauniems žmonėms atsiveria didžiulės galimybės. Neabejoju, kad būsimi studentai bus savotiški tarpininkai, bendradarbiaujant su kitų sričių mokslininkais. Taip pat neabejoju, kad technologijoms tobulėjant keisis požiūris į kalbą. Nesvarbu, ar dirbi su teisininkais, informatikais, ar su komunikacijos specialistais, pagrindinis įrankis – kalba, ir filologas čia turi tokias plačias galimybes, kokių niekas daugiau neturi“, – apibendrina profesorė.

Siekdami užtikrinti jums teikiamų paslaugų kokybę, Universiteto tinklalapiuose naudojame slapukus. Tęsdami naršymą jūs sutinkate su Vilniaus universiteto slapukų politika. Daugiau informacijos