SG.hu·

Áttörés a számítógép által generált beszédben

Áttörés a számítógép által generált beszédben
Komoly előrelépés történt a területen.

A Google által 2014 januárjában felvásárolt DeepMind mesterséges intelligencia laboratórium WaveNet nevű rendszere körülbelül 50 százalékkal jobb a szöveget beszéddé átalakító jelenlegi megoldásoknál, s ezzel jelentős mértékben csökkent az emberi és a számítógép által létrehozott beszéd közötti különbség.

Növeli a siker értékét, hogy az eredményt mind az angol, mind a mandarin nyelv esetében sikerült elérni. Ráadásul a rendszer képes akár hangok között is váltani és a zenét is valósághűen utánozza.

A WaveNet rendszerét audio nyersanyagok és több beszélő személy segítségével tanítják. Mindez azt eredményezi, hogy a megoldás később minden fajta hanganyagot, sőt, akár zenéket is modellezni tud. A fejlesztés az egyes beszélők egyedi jellemzőit, például légzését és szájmozgását is tudja utánozni - mind férfi, mind női hangon. A DeepMind blogjában számos próbaanyag érhető el angol és mandarin nyelven.

Ahhoz, hogy a WaveNet még jobb legyen, rendkívül nagy adatmennyiségre és ezzel párhuzamosan komoly számítási teljesítményre lesz szükség. Az audio nyersanyagok valósághű modellezésére a vállalkozás másodpercenként legalább 16 000 mintát használ fel.

Kapcsolódó cikkek és linkek

Hozzászólások

Jelentkezz be a hozzászóláshoz.

© csulok00002016. 09. 14.. 13:00||#3
hogyha ilyen nagy mennyiségű adatra, és ekkora erőforrásra van szükség, akkor már nem lenne egyszerűbb szimulálni egy ember teljes hangképző rendszerét és azzal alkotni "beszédet"?
© NEXUS62016. 09. 14.. 10:20||#2
Zámbó Krisztiánt biztos nem tudja modellezni!
XD
© Cefet2016. 09. 14.. 08:03||#1
Viszont nálatok még gondok vannak a gondolatok szöveggé alakításában: " s ezzel jelentősen mértékben csökkent..."