Общество22

Проект SONORA ищет тех, кто поможет «подключить» белорусский голос к BigTech

В канале «TTS па-беларуску» появилось объявление о запуске SONORA. Это проект, где участники записывают открытый белорусский датасет для TTS — «чтобы белорусский язык звучал естественно в современных AI-сервисах», пишет телеграм-канал Dzik Pic.

Иллюстративное фото. Снимок: freepik.com

В чем проблема? Как утверждается на сайте, сегодня в мире почти не существует качественных белорусскоязычных голосовых датасетов, специально записанных для обучения современных TTS-моделей. При этом в белорусском языке тысячи омографов: одинаковое написание, но разный смысл в зависимости от ударения. Если модель ошибается с ударением, ломается и звучание, и смысл. 

Вторая проблема — фонетическая корректность: мягкость, «ў», «дз/дж», интонация и ритм:

«Без качественного студийного материала модели повторяют ошибки и звучат менее естественно».

Да, сегодня уже существуют подобные инициативы, например, Donar.by или модель BexTTS. Но Sonora продолжит их путь и «выведет его на студийный уровень».

Поэтому энтузиасты запустили совместное финансирование, чтобы «организовать профессиональную студийную запись белорусской речи на специально подобранных текстах». Пользоваться датасетом смогут исследователи, энтузиасты, стартапы и образовательные инициативы.

Кроме того, команда планирует партнерство с Google, OpenAI и ElevenLabs — «чтобы наш датасет усилил их решения для белорусов».

В частности, SONORA ищет теплые интро/прямые контакты в:

  • Google;
  • OpenAI;
  • ElevenLabs;
  • Speechify;
  • Meta.

«Если знаете кого-нибудь в этих компаниях и можете сделать интро — напишите, пожалуйста, в личку, или напишите обращение от нас сами. Текст обращения здесь», — просят создатели.

Вы можете послушать, как звучит белорусский язык в технологиях сегодня, на стартовой странице.

Комментарии2

  • ???
    09.03.2026
    Чаму напрыклад гэтым не займаецца Каардынацыйная Рада? Ці гендарныя квоты і лгбт важней чым беларуская мова?
  • Чарговы веласіпед
    10.03.2026
    Так а ў чым розніца паміж дадзеным праектам і Donar.by? Donar.by ж спецыяльна пашыраў функцыянал Common Voice, каб былі датасэты не толькі на распазнаванне гаворкі, але і на агучку.

    Ну а наконт "амаль не існуе якасных беларускамоўных галасавых датасэтаў", то наогул хлусня, на адным толькі Common Voice на дадзены момант запісана і праверана 1800 гадзін ад больш як 8000 чалавек. Такія вялікія датасэты ў свабодным доступе мала для якой мовы існуюць.

Сейчас читают

Минский школьник проспал остановку. Но водитель автобуса довез его домой!3

Минский школьник проспал остановку. Но водитель автобуса довез его домой!

Все новости →
Все новости

Под Минском для отдыха сдают трёхэтажную башню

«Вопрос в воспитании молодежи». Министр торговли объяснил, почему белорусская продукция не выдерживает конкуренции на внутреннем рынке11

Российские огурцы в магазинах стоят уже дешевле, чем белорусские

Американская разведка узнала о начале минирования Ормузского пролива5

В Украине показали, как ударили по заводу «Кремний Эл» в Брянске ВИДЕО1

Патриарх Кирилл назвал нового верховного лидера Ирана «дорогим братом»11

Беларусь вошла в топ-40 мировых импортеров оружия

Головченко заговорил о перспективности валюты БРИКС1

Ещё одна платежная система стала блокировать белорусов4

больш чытаных навін
больш лайканых навін

Минский школьник проспал остановку. Но водитель автобуса довез его домой!3

Минский школьник проспал остановку. Но водитель автобуса довез его домой!

Главное
Все новости →

Заўвага:

 

 

 

 

Закрыць Паведаміць