Мова44

Гаварыць па-беларуску. Зроблены важны крок у штучным сінтэзе беларускага маўлення

На сайце праекта «Беларускі N-корпус», дзе над стварэннем Нацыянальнага корпуса беларускай мовы працуе сектар камп'ютарнай лінгвістыкі Інстытута мовазнаўства імя Якуба Коласа НАН Беларусі, з’явіўся першы сінтэзатар беларускага маўлення.

Новая магчымасць пашырыць гарызонты распаўсюджвання беларускай мовы. 

Спецыялісты адзначаюць, што даўно шукалі магчымасць стварыць сінтэзатар і цяпер свае першыя вынікі ў гэтым кірунку зрабілі даступнымі для ўсіх у раздзеле «Фанетычны канвертар і сінтэз маўлення» на сайце «Беларускага N-корпуса». 

Сінтэзатар зроблены па слядах беларускамоўнай мадэлі для агучвання тэксту «Беларускі тэкст-у-маўленне» і выкарыстоўвае тыя самыя запісы для навучання, якія былі сабраныя праектам donar.by. На сайце праекта donar.by можна як запісаць («ахвяраваць») свой голас, так і праверыць ужо зробленыя запісы. Ухваленыя запісы трапляюць у набор даных Common Voice, які распаўсюджваецца пад свабоднай ліцэнзіяй і закліканы дапамагаць распрацоўшчыкам ствараць прылады для распазнавання маўлення. Менавіта гэтай магчымасцю і скарысталіся навукоўцы з Акадэміі навук.

Дэманстрацыя сінтэзу беларускай мовы.

Цяпер на сайце «Беларускага N-корпуса» можна зрабіць фанетычную транскрыпцыю любога беларускага тэксту паводле правілаў Міжнароднага фанетычнага алфавіта (IPA), або так званай «школьнай транскрыпцыі», якая шырока распаўсюджана ў айчынным мовазнаўстве. Для большасці слоў канвертар здольны самастойна падабраць і паставіць націскі для карэктнай сінтэзацыі маўлення, для больш рэдкіх словаў, напрыклад, уласных назваў, ёсць магчымасць паставіць націск самастойна. У цяперашняй тэставай версіі максімальны памер тэксту для агучвання абмежаваны 2000 знакаў.

Прыклад апрацоўкі канвертарам тэксту «Наша Ніва» — першая беларуская газета з карцінкамі»

Пакуль што сінтэзаванае маўленне гучыць досыць штучна, механічна, але пры гэтым цалкам карэктна. Сінтэзатары іншых буйных моў, якія вядомыя ўжо не першы год, ад пачатку ўсе грашылі на некарэктнае прачытанне слоў і памылковыя націскі — гэты досвед, відаць, быў улічаны. Беларускія спецыялісты абяцаюць працягваць працу далей і заклікаюць далучацца ўсіх, хто гатовы да супрацоўніцтва.

«Цяпер мы маем досвед у навучанні сінтэзу маўлення і гатовыя працягваць працу далей. Для гэтага нам трэба давесці да ладу фанетычны канвертар, запісаць у добрай якасці дыктараў з добрымі галасамі і правільнай фанетыкай, падрыхтаваць гэтыя запісы для навучання сінтэзатару маўлення», — адзначаюць распрацоўшчыкі.

У сацсетках гэтую навіну ўспрынялі надзвычай станоўча, беларусы адразу прыкінулі, што развіццё гэтай тэхналогіі дазволіць, напрыклад, беларусізаваць галасавых памочнікаў, аўтаматызаваць стварэнне субцітраў на YouTube і распазнаваць беларускамоўныя галасавыя паведамленні ў месенджарах, чаго цяпер пазбаўлены.

Каментары4

  • Беларусінчык
    10.07.2023
    ДЗЯКУЙ!!!
  • донарка ў donar.by
    11.07.2023
    як прыемна бачыць такія навіны, ведаючы, што і вы ўклаліся ў гэтую добрую справу! выдатная праца, N-корпус, прывітаньні ўсім донарам і донаркам donar.by / Common Voice Belarus!
  • Gubaz
    11.07.2023
    Дзякуй за артыкул. Я вельмі доўга такое шукаў

Цяпер чытаюць

Стала вядома сутнасць справы Софтклуба1

Стала вядома сутнасць справы Софтклуба

Усе навіны →
Усе навіны

У Налібоцкай пушчы прадаецца з аўкцыёна стары млын на беразе ракі

Касцёлы Беларусі намалявалі ў папулярным трэндзе «вязаныя гарады» ФОТЫ3

Прадстаўнік Трампа адмовіўся ад сустрэчы з Зяленскім у Анкары, бо той не згодны з прарасійскім мірным планам31

Айцішнік назбіраў да 28 гадоў $10 мільёнаў. Хоча пайсці на пенсію, але баіцца, што не хопіць2

Случакі абураюцца: школу абгарадзілі так, што для паходу ў краму трэба рабіць ладнага кругаля2

Лідарка «Сумленных людзей» Алена Жываглод атрымала прапанову рукі і сэрца на беразе Атлантычнага акіяну. Але пабрацца шлюбам пакуль не можа41

Пад Дзяржынскам валанцёры зрабілі жыллё для бяздомных катоў. Мясцовыя жыхары гэта не ацанілі22

Пра беларускія пратэсты-2020 здымуць маштабную гульнявую драму — расказваем падрабязнасці19

Літва не будзе патрабаваць новых санкцый супраць Беларусі27

больш чытаных навін
больш лайканых навін

Стала вядома сутнасць справы Софтклуба1

Стала вядома сутнасць справы Софтклуба

Галоўнае
Усе навіны →

Заўвага:

 

 

 

 

Закрыць Паведаміць