Беларуская мова99

Нейросети все еще спотыкаются на белорусской речи. Белорусы хотят подарить искусственному интеллекту идеальный голос

Технологии синтеза речи стремительно захватывают мир, но синтезированный белорусский язык до сих пор звучит с ощутимыми дефектами. Даже самые продвинутые модели спотыкаются на наших ударениях и фонетике. Белорусы запустили проект Sonora по созданию первого студийного датасета, который должен навсегда изменить звучание цифрового белорусского языка.

Студия звукозаписи. Иллюстративный снимок. Фото: Freepik / DC Studio

Важный технологический прорыв в синтезе белорусской речи произошел еще весной 2025 года, благодаря внедрению корпорацией Google своей новой модели Gemini, которая научилась качественно распознавать белорусскую речь (STT — Speech-to-Text), благодаря чему, например, на ютубе наконец появились автоматические белорусскоязычные субтитры.

Этому во многом поспособствовали сами белорусы через волонтерский проект Donar.by, собрав тысячи часов живых голосов.

Благодаря этой гигантской базе данных, сегодня именно голос от Google является наиболее близким к правильному звучанию белорусского языка. Модель хорошо понимает контекст и имеет огромный словарный запас, оставляя далеко позади конкурентов из OpenAI или ElevenLabs, чьи попытки заговорить по-белорусски далеки от естественной речи.

Но распознать речь — это только половина дела. Когда же нейросети приходится самой озвучивать текст (TTS — Text-to-Speech), она систематически ошибается в редко используемых словах и не может справиться с омографами — словами, которые пишутся одинаково, но имеют разный смысл в зависимости от ударения.

Когда вместо правильного «спарыша́мі» искусственный интеллект уверенно выдает «спары́шамі», это сразу выдает его синтетическую природу для носителя языка. Сам носитель может и не знать значение слова, не знать где в нем ставится ударение, но языковая интуиция ему подсказывает, что что-то не то.

К тому же такие ошибки, пусть и редкие в моделях Google, оказывают медвежью услугу тем, кто только начинает осваивать белорусский язык, закрепляя искаженное произношение.

Добавьте сюда проблемы с передачей мягкости согласных, специфическим звучанием «ў», аффрикатами «дз» и «дж» — слушать и воспринимать длинные тексты в таком исполнении пока физически тяжело.

Голос из пробирки

Проблема не в том, что алгоритмы недостаточно умны — в случае с белорусским языком им просто не на чем учиться. Чтобы искусственный интеллект усвоил правильную интонацию, ритм и ударения, ему недостаточно аудио с ютуба или подкастов, где качество звука всегда разное, а дикция людей несовершенна.

Для создания естественного синтезированного голоса требуется специальный, кристально чистый студийный датасет. Это тысячи часов профессиональной начитки, где тексты специально сконструированы лингвистами таким образом, чтобы охватить все возможные фонетические сочетания и показать модели, как правильно ставить ударения в сложных контекстах. Сегодня в мире просто не существует такого открытого массива данных для белорусского языка.

Именно эту пустую нишу и собирается заполнить проект Sonora. Это волонтерская инициатива, которую продвигают проектный менеджер Анна Маклакова, инженер-лингвист Владислав, команда разработчиков TuteishyGPT и ряд специалистов, чьи имена не называются из соображений безопасности. Их цель — не создать закрытый коммерческий продукт, а сделать фундаментальную базу, которую смогут использовать все.

Как хотят сделать идеальный голос

Сейчас команда находится на этапе сбора средств, планируя собрать 13 000 евро на проект. Наибольшая часть бюджета пойдет на аренду профессиональной студии и оплату труда дикторов с идеальным произношением. Остальное — на услуги звукорежиссеров и кропотливую работу лингвистов, которые будут готовить и размечать текстовый корпус, и другие расходы.

Результатом этой работы станет полностью открытый датасет с публичной лицензией. На его основе авторы проекта планируют доработать уже существующую отечественную модель BexTTS, выведя ее на принципиально новый уровень.

Команда ищет прямые контакты с представителями Google, OpenAI, Meta и Speechify, чтобы предложить им готовый и качественный материал. В логике глобальных корпораций все просто: если им дают готовый инструмент для улучшения продукта на локальном рынке, они с радостью его интегрируют.

Если собрать всю сумму сразу не получится, авторы проекта обещают начать запись на те средства, которые уже будут на счетах, так как даже частичное пополнение базы — это практический шаг вперед.

От учебников до навигаторов

Присутствие белорусского языка в технологиях сегодня — это вопрос его выживания в принципе. Качественный синтез речи кардинально меняет правила игры в создании контента.

Это означает, что издание белорусских аудиокниг или озвучивание длинных статей больше не будет требовать огромных бюджетов и недель работы в студии. Это возможность для школьников и студентов слушать учебники, а для людей с нарушениями зрения или дислексией — получить полноценный доступ к белорусскоязычной информации.

Это база для создания отечественных голосовых помощников, чат-ботов и навигаторов, которые не будут разговаривать с нами поломанной гугловской речью. Наконец, это удобный инструмент для огромной белорусской диаспоры, которая хочет сохранить языковую среду для своих детей за границей.

«Наша Нiва» — бастион беларущины

ПОДДЕРЖАТЬ

Комментарии9

  • .
    19.04.2026
    1, гугл пакрысе адмяняе беларускую мову на карысць украінскай. Запыты па-беларуску ўсё часцей выдаюць украінскія спасылкі і прапановы зрабіць запыт па-украінску без памылак.
  • беларуская мадэль маўлення Bextts
    19.04.2026
    каб не пераскоквала на іншыя мовы, можна скарыстацца існуючай беларускай мадэллю

    https://huggingface.co/spaces/archivartaunik/Bextts
  • Скептык
    19.04.2026
    А нахалеру нам ідэальны штучны голас? Каб гэб'ё і ментаўё рабіла правакацыі на чысцюткай беларускай мове? Тэхнары такія тэхнары - ім абы нешта скрэацівіць, каб не адставаць ад сіліконавай даліны. а колькі шкоды гэтыя "інструменты" могуць потым нарабіць, пра гэта яны ня думаюць.

Сейчас читают

«Феминизм в моем случае победил». Вероника Станкевич — о помощи политзаключенным в «Вольных» и планах на свадьбу с Ивулиным5

«Феминизм в моем случае победил». Вероника Станкевич — о помощи политзаключенным в «Вольных» и планах на свадьбу с Ивулиным

Все новости →
Все новости

Инфаркт, тяжелое состояние. Появились сведения о заключенном католическом священнике Парахневиче и его обвинении

Наста Кудасова: Где-то лет в 15 отправила стихи в «Нашу Ніву», в далекий Минск, в котором даже никогда не была

В результате российского удара по Днепру погибли четыре человека1

Жлобинский «Металлург» необычно отпраздновал победу в чемпионате Беларуси по хоккею1

СК подтвердил смерть 18‑летнего парня на стадионе в Минске1

Зеленский подтвердил переговоры с Алиевым

Клубника по 10 рублей, редис за 5. Что предлагает Комаровка в конце апреля1

В Минске прекращают строить третью линию метро в Зеленый Луг. Все силы пойдут на четвертую, кольцевую30

Беларусбанк снизил ставки по кредитам на жилье1

больш чытаных навін
больш лайканых навін

«Феминизм в моем случае победил». Вероника Станкевич — о помощи политзаключенным в «Вольных» и планах на свадьбу с Ивулиным5

«Феминизм в моем случае победил». Вероника Станкевич — о помощи политзаключенным в «Вольных» и планах на свадьбу с Ивулиным

Главное
Все новости →

Заўвага:

 

 

 

 

Закрыць Паведаміць