Áttörés a számítógép által generált beszédben

Komoly előrelépés történt a területen.

A Google által 2014 januárjában felvásárolt DeepMind mesterséges intelligencia laboratórium WaveNet nevű rendszere körülbelül 50 százalékkal jobb a szöveget beszéddé átalakító jelenlegi megoldásoknál, s ezzel jelentős mértékben csökkent az emberi és a számítógép által létrehozott beszéd közötti különbség.

Növeli a siker értékét, hogy az eredményt mind az angol, mind a mandarin nyelv esetében sikerült elérni. Ráadásul a rendszer képes akár hangok között is váltani és a zenét is valósághűen utánozza.

A WaveNet rendszerét audio nyersanyagok és több beszélő személy segítségével tanítják. Mindez azt eredményezi, hogy a megoldás később minden fajta hanganyagot, sőt, akár zenéket is modellezni tud. A fejlesztés az egyes beszélők egyedi jellemzőit, például légzését és szájmozgását is tudja utánozni - mind férfi, mind női hangon. A DeepMind blogjában számos próbaanyag érhető el angol és mandarin nyelven.

Ahhoz, hogy a WaveNet még jobb legyen, rendkívül nagy adatmennyiségre és ezzel párhuzamosan komoly számítási teljesítményre lesz szükség. Az audio nyersanyagok valósághű modellezésére a vállalkozás másodpercenként legalább 16 000 mintát használ fel.

Áttörés a számítógép által generált beszédben

Kapcsolódó cikkek és linkek

Hozzászólások