Prajekt SONORA šukaje tych, chto dapamoža «padklučyć» biełaruski hołas da BigTech
U kanale «TTS pa-biełarusku» źjaviłasia abjava ab zapusku SONORA. Heta prajekt, dzie ŭdzielniki zapisvajuć adkryty biełaruski dataset dla TTS — «kab biełaruskaja hučała naturalna ŭ sučasnych AI-servisach», piša telehram-kanał Dzik Pic.

U čym prablema? Jak śćviardžajecca na sajcie, siońnia ŭ śviecie amal nie isnuje jakasnych biełaruskamoŭnych hałasavych datasetaŭ, śpiecyjalna zapisanych dla navučańnia sučasnych TTS-madelaŭ. Pry hetym u biełaruskaj movie tysiačy amohrafaŭ: adnolkavaje napisańnie, ale rozny sens u zaležnaści ad nacisku. Kali madel pamylajecca z naciskam, łamajecca i hučańnie, i sens.
Druhaja prablema — fanietyčnaja karektnaść: miakkaść, «ŭ», «dz/dž», intanacyja i rytm:
«Bieź jakasnaha studyjnaha materyjału madeli paŭtarajuć pamyłki i hučać mienš naturalna».
Tak, siońnia ŭžo isnujuć padobnyja inicyjatyvy, naprykład, Donar.by albo madel BexTTS. Ale Sonora praciahnie ichni šlach i «vyviedzie jaho na studyjny ŭzrovień».
Tamu entuzijasty zapuścili supolnaje finansavańnie, kab «arhanizavać prafiesijny studyjny zapis biełaruskaha maŭleńnia na śpiecyjalna padabranych tekstach». Karystacca datasetam zmohuć daśledčyki, entuzijasty, startapy i adukacyjnyja inicyjatyvy.
Akramia taho, kamanda płanuje partniorstva z Google, OpenAI i ElevenLabs — «kab naš dataset uzmacniŭ ich rašeńni dla biełarusaŭ».
SONORA šukaje ciopłyja intry/pramyja kantakty ŭ:
- Google;
- OpenAI;
- ElevenLabs;
- Speechify;
- Meta.
«Kali viedajecie kaho-niebudź u hetych kampanijach i možacie zrabić intra — napišycie, kali łaska, u pryvat, albo napišycie zvarot ad nas sami. Tekst zvarotu tut», — prosiać stvaralniki.
Vy možacie pasłuchać, jak hučyć biełaruskaja mova ŭ technałohijach siońnia, na startavaj staroncy.
Ciapier čytajuć
Babaryka turemščykam: «U mianie było, ciapier niama, ale jość šaniec, što budzie. A ŭ vas nie było, niama i nie budzie. I ŭ vašych dziaciej nie budzie»
Kamientary
Nu a nakont "amal nie isnuje jakasnych biełaruskamoŭnych hałasavych datasetaŭ", to naohuł chłuśnia, na adnym tolki Common Voice na dadzieny momant zapisana i pravierana 1800 hadzin ad bolš jak 8000 čałaviek. Takija vialikija datasety ŭ svabodnym dostupie mała dla jakoj movy isnujuć.