Праект SONORA шукае тых, хто дапаможа «падключыць» беларускі голас да BigTech
У канале «TTS па-беларуску» з'явілася аб'ява аб запуску SONORA. Гэта праект, дзе ўдзельнікі запісваюць адкрыты беларускі датасэт для TTS — «каб беларуская гучала натуральна ў сучасных AI-сэрвісах», піша тэлеграм-канал Dzik Pic.

У чым праблема? Як сцвярджаецца на сайце, сёння ў свеце амаль не існуе якасных беларускамоўных галасавых датасэтаў, спецыяльна запісаных для навучання сучасных TTS-мадэляў. Пры гэтым у беларускай мове тысячы амографаў: аднолькавае напісанне, але розны сэнс у залежнасці ад націску. Калі мадэль памыляецца з націскам, ламаецца і гучанне, і сэнс.
Другая праблема — фанетычная карэктнасць: мяккасць, «ў», «дз/дж», інтанацыя і рытм:
«Без якаснага студыйнага матэрыялу мадэлі паўтараюць памылкі і гучаць менш натуральна».
Так, сёння ўжо існуюць падобныя ініцыятывы, напрыклад, Donar.by альбо мадэль BexTTS. Але Sonora працягне іхні шлях і «выведзе яго на студыйны ўзровень».
Таму энтузіясты запусцілі супольнае фінансаванне, каб «арганізаваць прафесійны студыйны запіс беларускага маўлення на спецыяльна падабраных тэкстах». Карыстацца датасэтам змогуць даследчыкі, энтузіясты, стартапы і адукацыйныя ініцыятывы.
Акрамя таго, каманда плануе партнёрства з Google, OpenAI і ElevenLabs — «каб наш датасэт узмацніў іх рашэнні для беларусаў».
SONORA шукае цёплыя інтры/прамыя кантакты ў:
- Google;
- OpenAI;
- ElevenLabs;
- Speechify;
- Meta.
«Калі ведаеце каго-небудзь у гэтых кампаніях і можаце зрабіць інтра — напішыце, калі ласка, у прыват, альбо напішыце зварот ад нас самі. Тэкст звароту тут», — просяць стваральнікі.
Вы можаце паслухаць, як гучыць беларуская мова ў тэхналогіях сёння, на стартавай старонцы.
Каментары