Berta Sándor
Könnyen szintetizálhatóvá válhat a beszéd
Kevesebb, mint egy év alatt komoly eredményt értek el a Mozilla volt munkatársai.
A Mozilla volt mesterséges intelligencia kutatói, akik többek között a szervezet beszédtechnológiai, beszédfelismerési és beszédvezérlési projektjein dolgoztak, tavaly márciusban alapították meg a Coqui nevű startupjukat azért, hogy továbbra is a mesterséges intelligencián alapuló beszédkutatással foglalkozzanak.
A szakemberek már tavaly megfogalmazták, hogy a rendkívül korszerű beszédtechnológiát nyílt forráskódú megoldásként az összes fejlesztő számára elérhetővé akarják tenni, hogy az ne csupán a gépi tanulási szakértőknek legyen hozzáférhető. Most pedig bejelentették, hogy az általuk megalkotott YourTTS nevű új modell segítségével könnyen szintetizálhatóvá válhat a beszéd, sőt, a megírt szöveg is egyszerűen átalakítható felolvasható beszéddé. Az utóbbihoz akár egyetlen rendkívül rövid anyag is elegendő.
A Coqui csapata az új modellhez kapcsolódó blogbejegyzésében azt írta, hogy a jelenleg elérhető szöveg-beszéd átalakító (TTS) megoldások legalább 20-40 órányi felvételt használnak, amelyeket ráadásul professzionális szövegfelolvasók bevonásával rögzítenek. Ebben a környezetben nem mindenki számára lehetséges a fejlesztések más nyelvekre és beszédmondókra való kiterjesztése. Különösen igaz ez olyan nyelvek esetében, amelyekre a kutatások közben kevesebbet figyelnek vagy ha a szakembereknek kevesebb erőforrás áll a rendelkezésükre. A YourTTS esetében viszont nincs ilyen korlátozás.
A modell különböző nyelveken lévő hangokat tud szintetizálni és jelentős mértékben csökkenteni tudja a szükséges adatmennyiségeket azáltal, hogy a megszerzett tudást egyik nyelvről átviszi a másikra. Így például a portugál nyelven elhangzott hangok akár az angol nyelvben is alkalmazhatók. A csoport már feltöltött a honlapjára egy kisebb demót.
A Mozilla volt mesterséges intelligencia kutatói, akik többek között a szervezet beszédtechnológiai, beszédfelismerési és beszédvezérlési projektjein dolgoztak, tavaly márciusban alapították meg a Coqui nevű startupjukat azért, hogy továbbra is a mesterséges intelligencián alapuló beszédkutatással foglalkozzanak.
A szakemberek már tavaly megfogalmazták, hogy a rendkívül korszerű beszédtechnológiát nyílt forráskódú megoldásként az összes fejlesztő számára elérhetővé akarják tenni, hogy az ne csupán a gépi tanulási szakértőknek legyen hozzáférhető. Most pedig bejelentették, hogy az általuk megalkotott YourTTS nevű új modell segítségével könnyen szintetizálhatóvá válhat a beszéd, sőt, a megírt szöveg is egyszerűen átalakítható felolvasható beszéddé. Az utóbbihoz akár egyetlen rendkívül rövid anyag is elegendő.
A Coqui csapata az új modellhez kapcsolódó blogbejegyzésében azt írta, hogy a jelenleg elérhető szöveg-beszéd átalakító (TTS) megoldások legalább 20-40 órányi felvételt használnak, amelyeket ráadásul professzionális szövegfelolvasók bevonásával rögzítenek. Ebben a környezetben nem mindenki számára lehetséges a fejlesztések más nyelvekre és beszédmondókra való kiterjesztése. Különösen igaz ez olyan nyelvek esetében, amelyekre a kutatások közben kevesebbet figyelnek vagy ha a szakembereknek kevesebb erőforrás áll a rendelkezésükre. A YourTTS esetében viszont nincs ilyen korlátozás.
A modell különböző nyelveken lévő hangokat tud szintetizálni és jelentős mértékben csökkenteni tudja a szükséges adatmennyiségeket azáltal, hogy a megszerzett tudást egyik nyelvről átviszi a másikra. Így például a portugál nyelven elhangzott hangok akár az angol nyelvben is alkalmazhatók. A csoport már feltöltött a honlapjára egy kisebb demót.