Berta Sándor

Nyílt forráskódú lett a Google Lyra

A webes konszern elérhetővé tette az új audiokodeket.

A Google már februárban részleteket közölt a projektről, s nyilvánosságra hozta a Lyra hangfelvételeit és a más kodekekkel végzett összehasonlításokról készített videókat. Az óriáscég most a GitHub fejlesztői platformon - a matematikai funkciók egy részének kivételével - hozzáférhetővé tette az általa "forradalmian új audiokodeknek" nevezett Lyra forráskódját.

Az új fejlesztés rendkívül hatékony és a segítségével a beszéd akár 3 kbit/s-os bitrátával is kódolható. A szakemberek a Lyrát kifejezetten az ARM64 platformokra optimalizálták és többek között a mesterséges intelligenciára és a gépi tanulásra épít. A kodeket teljes mértékben C++ programozási nyelvben írták, míg az alkalmazásprogramozási interfésze (API) lehetővé teszi mind a teljes fájlok, mind az egyes fájlcsomagok kódolását. A Lyra a beszéd feldolgozásakor különböző spektrogramokat használhat, amelyek figyelembe veszik az emberek természetes hallását. Azért, hogy ez a megvalósulhasson, a kodeket összesen 70 nyelv segítségével tanították be.

A Lyra számos szűrőt és átkonvertálási funkciót tartalmaz, amelyek elsősorban a jelek feldolgozásában segíthetnek és a jövőben hatékony kodek lehet a mobiltelefonálásban. A Lyrát támogató első kompatibilis alkalmazás már elérhető, miként a kodek a Google Duóval szintén használható.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • kvp #1
    Vegigolvastam a nyilt forraskod fontosabb reszeit, igazabol egy recurrens neuralis halozat van alatta, amit a hangmintakbol kivett feature-okkel etetnek. Tehat a beszedhang voiceprint-jebol kiemeli az emberi hangkepzesben hasznalt felismerheto elemeket es hozzajuk a hangzas reprodukalasahoz szukseges hangszin tulajdonsagokat, ezt tomoritik es viszik at a halozaton, majd a masik oldalon futo modell osszerakja beloluk az informaciot.

    Gyakorlatilag egy hangszint is eltarolo speech to text rendszer, ahol a szoveg nem irott szoveg hanem a hangzasi jelekhez hasonlo szimbolumok formajaban utazik, majd a masik oldal ebbol rak ossze egy text to speech eljarassal az eredeti hanghoz hangzasilag eleg hasonlo hangot. A veszteseges tomorites soran eloszor a hangzashoz tartozo, tehat az ertelmesseget nem befolyasolo, csak a beszelo hangjanak egyediseget ado jeleket dobjak el. Ha direkt minden ilyen jelet eldobnank, akkor a neuralis modell sajat "termesztetes" hangjan hallatszana a masik fel.

    ps: Olyan a mukodese mint amikor az ember elmondja a mondandojat egy futarnak, az elmegy a cimzetthez, majd a futar a felado hangjat a leheto legjobban utanozva mondja el az informaciot.

    Nekem az egyetlen gondom az, hogy a neuralis modell miatt eleg nagy lehetoseg van a tartalom emberileg eszrevehetlen torzulasara az atvitel soran, tehat amikor nem tunik fel a hallgatonak, hogy adatvesztes miatt mast hallott mint amit a beszelo mondott. Magyarban tipikus pelda erre a megolelni es megolni esete, ahol eleg egyetlen hangfoszlany adatcsomaganak elvesznie, hogy a "Legszivesebben megolelnem!" helyett "Legszivesebben megolnem!" jojjon ki a masik oldalon, a neuralis hanggenerator miatt atviteli zavarra semmilyen modon nem utalo hangzassal. A cikkben emlitett codec-et egyebkent mar jelenleg is hasznaljak par kereskedelmi termekben.