Berta Sándor

Áttörés a számítógép által generált beszédben

Komoly előrelépés történt a területen.

A Google által 2014 januárjában felvásárolt DeepMind mesterséges intelligencia laboratórium WaveNet nevű rendszere körülbelül 50 százalékkal jobb a szöveget beszéddé átalakító jelenlegi megoldásoknál, s ezzel jelentős mértékben csökkent az emberi és a számítógép által létrehozott beszéd közötti különbség.

Növeli a siker értékét, hogy az eredményt mind az angol, mind a mandarin nyelv esetében sikerült elérni. Ráadásul a rendszer képes akár hangok között is váltani és a zenét is valósághűen utánozza.

A WaveNet rendszerét audio nyersanyagok és több beszélő személy segítségével tanítják. Mindez azt eredményezi, hogy a megoldás később minden fajta hanganyagot, sőt, akár zenéket is modellezni tud. A fejlesztés az egyes beszélők egyedi jellemzőit, például légzését és szájmozgását is tudja utánozni - mind férfi, mind női hangon. A DeepMind blogjában számos próbaanyag érhető el angol és mandarin nyelven.

Ahhoz, hogy a WaveNet még jobb legyen, rendkívül nagy adatmennyiségre és ezzel párhuzamosan komoly számítási teljesítményre lesz szükség. Az audio nyersanyagok valósághű modellezésére a vállalkozás másodpercenként legalább 16 000 mintát használ fel.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • csulok0000 #3
    hogyha ilyen nagy mennyiségű adatra, és ekkora erőforrásra van szükség, akkor már nem lenne egyszerűbb szimulálni egy ember teljes hangképző rendszerét és azzal alkotni "beszédet"?
  • NEXUS6 #2
    Zámbó Krisztiánt biztos nem tudja modellezni!
    XD
  • Cefet #1
    Viszont nálatok még gondok vannak a gondolatok szöveggé alakításában: " s ezzel jelentősen mértékben csökkent..."