SG.hu·2021. április 9.

Nyílt forráskódú lett a Google Lyra

A webes konszern elérhetővé tette az új audiokodeket.

A Google már februárban részleteket közölt a projektről, s nyilvánosságra hozta a Lyra hangfelvételeit és a más kodekekkel végzett összehasonlításokról készített videókat. Az óriáscég most a GitHub fejlesztői platformon - a matematikai funkciók egy részének kivételével - hozzáférhetővé tette az általa "forradalmian új audiokodeknek" nevezett Lyra forráskódját.

Az új fejlesztés rendkívül hatékony és a segítségével a beszéd akár 3 kbit/s-os bitrátával is kódolható. A szakemberek a Lyrát kifejezetten az ARM64 platformokra optimalizálták és többek között a mesterséges intelligenciára és a gépi tanulásra épít. A kodeket teljes mértékben C++ programozási nyelvben írták, míg az alkalmazásprogramozási interfésze (API) lehetővé teszi mind a teljes fájlok, mind az egyes fájlcsomagok kódolását. A Lyra a beszéd feldolgozásakor különböző spektrogramokat használhat, amelyek figyelembe veszik az emberek természetes hallását. Azért, hogy ez a megvalósulhasson, a kodeket összesen 70 nyelv segítségével tanították be.

A Lyra számos szűrőt és átkonvertálási funkciót tartalmaz, amelyek elsősorban a jelek feldolgozásában segíthetnek és a jövőben hatékony kodek lehet a mobiltelefonálásban. A Lyrát támogató első kompatibilis alkalmazás már elérhető, miként a kodek a Google Duóval szintén használható.

Kapcsolódó cikkek és linkek

Megnégyszerezte profitját a Google anyavállalata A Google egyre inkább bezárja a felhasználókat saját MI világába A Google 4,6 milliárdos bírsága az uniós tagállamok befizetéseit csökkenti Teljesen megújul a Google képes keresője A felhasználók adataiért aggódik a Google az EU új szabályai miatt A Google havi 920 millió dollárt fizet majd a SpaceX-nek számítási kapacitásért A Google gyökeresen átalakítja a keresést az ügynökszerű MI segítségével A Gemininek köszönhetően nyerésre áll a Google az MI-versenyben Google ↗

Hozzászólások

Jelentkezz be a hozzászóláshoz.

Vegigolvastam a nyilt forraskod fontosabb reszeit, igazabol egy recurrens neuralis halozat van alatta, amit a hangmintakbol kivett feature-okkel etetnek. Tehat a beszedhang voiceprint-jebol kiemeli az emberi hangkepzesben hasznalt felismerheto elemeket es hozzajuk a hangzas reprodukalasahoz szukseges hangszin tulajdonsagokat, ezt tomoritik es viszik at a halozaton, majd a masik oldalon futo modell osszerakja beloluk az informaciot.

Gyakorlatilag egy hangszint is eltarolo speech to text rendszer, ahol a szoveg nem irott szoveg hanem a hangzasi jelekhez hasonlo szimbolumok formajaban utazik, majd a masik oldal ebbol rak ossze egy text to speech eljarassal az eredeti hanghoz hangzasilag eleg hasonlo hangot. A veszteseges tomorites soran eloszor a hangzashoz tartozo, tehat az ertelmesseget nem befolyasolo, csak a beszelo hangjanak egyediseget ado jeleket dobjak el. Ha direkt minden ilyen jelet eldobnank, akkor a neuralis modell sajat "termesztetes" hangjan hallatszana a masik fel.

ps: Olyan a mukodese mint amikor az ember elmondja a mondandojat egy futarnak, az elmegy a cimzetthez, majd a futar a felado hangjat a leheto legjobban utanozva mondja el az informaciot.

Nekem az egyetlen gondom az, hogy a neuralis modell miatt eleg nagy lehetoseg van a tartalom emberileg eszrevehetlen torzulasara az atvitel soran, tehat amikor nem tunik fel a hallgatonak, hogy adatvesztes miatt mast hallott mint amit a beszelo mondott. Magyarban tipikus pelda erre a megolelni es megolni esete, ahol eleg egyetlen hangfoszlany adatcsomaganak elvesznie, hogy a "Legszivesebben megolelnem!" helyett "Legszivesebben megolnem!" jojjon ki a masik oldalon, a neuralis hanggenerator miatt atviteli zavarra semmilyen modon nem utalo hangzassal. A cikkben emlitett codec-et egyebkent mar jelenleg is hasznaljak par kereskedelmi termekben.