SG.hu·2022. január 6.

Könnyen szintetizálhatóvá válhat a beszéd

Kevesebb, mint egy év alatt komoly eredményt értek el a Mozilla volt munkatársai.

A Mozilla volt mesterséges intelligencia kutatói, akik többek között a szervezet beszédtechnológiai, beszédfelismerési és beszédvezérlési projektjein dolgoztak, tavaly márciusban alapították meg a Coqui nevű startupjukat azért, hogy továbbra is a mesterséges intelligencián alapuló beszédkutatással foglalkozzanak.

A szakemberek már tavaly megfogalmazták, hogy a rendkívül korszerű beszédtechnológiát nyílt forráskódú megoldásként az összes fejlesztő számára elérhetővé akarják tenni, hogy az ne csupán a gépi tanulási szakértőknek legyen hozzáférhető. Most pedig bejelentették, hogy az általuk megalkotott YourTTS nevű új modell segítségével könnyen szintetizálhatóvá válhat a beszéd, sőt, a megírt szöveg is egyszerűen átalakítható felolvasható beszéddé. Az utóbbihoz akár egyetlen rendkívül rövid anyag is elegendő.

A Coqui csapata az új modellhez kapcsolódó blogbejegyzésében azt írta, hogy a jelenleg elérhető szöveg-beszéd átalakító (TTS) megoldások legalább 20-40 órányi felvételt használnak, amelyeket ráadásul professzionális szövegfelolvasók bevonásával rögzítenek. Ebben a környezetben nem mindenki számára lehetséges a fejlesztések más nyelvekre és beszédmondókra való kiterjesztése. Különösen igaz ez olyan nyelvek esetében, amelyekre a kutatások közben kevesebbet figyelnek vagy ha a szakembereknek kevesebb erőforrás áll a rendelkezésükre. A YourTTS esetében viszont nincs ilyen korlátozás.

A modell különböző nyelveken lévő hangokat tud szintetizálni és jelentős mértékben csökkenteni tudja a szükséges adatmennyiségeket azáltal, hogy a megszerzett tudást egyik nyelvről átviszi a másikra. Így például a portugál nyelven elhangzott hangok akár az angol nyelvben is alkalmazhatók. A csoport már feltöltött a honlapjára egy kisebb demót.

Kapcsolódó cikkek és linkek

A gépelést egyre inkább a suttogás váltja fel, de ez nagyon idegesítő tud lenni Beszédsebesség-rekordot értek el egy agy-számítógép interfésszel Intuitív gépvezérlés beszédfelismeréssel A digitális közjavak közé került a Common Voice kezdeményezés Egyre méretesebbek a beszédfeldolgozó modellek Beszédhibák esetén segít a Google Új beszédtechnológiai szervezet alakult Mesterséges intelligencia céget vett a Zoom Coqui ↗

Hozzászólások

Jelentkezz be a hozzászóláshoz.

Ez szerintem inkább ügyfélszolgálati helyekre lett tervezve.

A színészet és azon belül a hangtechnika egy teljesen más szint. Azt majd a fejlődés legvégén, pár évtized múlva... talán.

Hát még a jelenleg futó, nem szinkronizált vagy rosszul szinkronizált sorozatok, filmek esetén.
Épp most nézem a The Expanse-t magyarul és itt-ott azért hiányzik az angol. Az öv tört "magyarját" egyáltalán nem sikerült megoldaniuk. Pedig angolul nagyon jó volt.
Viszont így szegény szinkronszínészek...
Emellett kérdéses, hogyan fog megbirkózni olyan kaliberű játékokkal, mint az X sorozat. Ott a gépi fordító is elvérzik. Nem véletlen nincs hozzájuk kész fordítás.

Majd, a Jedi visszatér-t újraszinkronizáltatom, a Csillagok háborúja 1984-es TV-s szinkronjának, a magyar hangjaival, pluszban támaszkodva, a Birodalom visszavág 1981-es mozis szinkronjára is.

Mekkora poén lenne! <#hehe>

De, ezt a játékoknál is el lehetne sütni, mint ahogy már napjainkra, a gépi magyarítások is teret kaptak már. Mekkora buli lenne, mondjuk a GTA V-öt, magyarul végigtolni, az eredetileg angolul beszélő színészek hangjával. <#idiota>
Utoljára szerkesztette: kjhun, 2022.01.06. 18:13:40

Hihető 😄