Szövegből CD-minőségű zenét képes generálni a mesterséges intelligencia

Csak be kell gépelni, hogy "drámai bevezető zene", és máris egy szárnyaló szimfónia szólal meg. Vagy azt, hogy "hátborzongató lépések", és kiváló minőségű hangeffekteket játszhatunk le. Ezt ígéri a Stable Audio, a Stability AI által most bejelentett szövegből hangot generáló mesterséges intelligenciamodell, amely képes zenét vagy hangokat szintetizálni írott utasítások alapján.

A Stability AI adta ki 2022 augusztusában a Stable Diffusion képszintetizáló modellt, de a vállalat nem elégedett meg fotók generálásával, hanem a Harmonai nevű MI-laboratóriummal együttműködve Dance Diffusion néven zenei generátort is készített. Most a Stability és a Harmonai a Stable Audio segítségével a kereskedelmi MI-hangok piacán is helyet kér, és a gyártási minták alapján úgy tűnik, hogy a hangminőség jelentősen javult a korábbi MI audiógenerátorokhoz képest. A cég promóciós oldalán olyan szöveges anyagok szerepelnek, mint "epikus zene intenzív törzsi ütőhangszerek és rézfúvósok" és "lofi hip hop beat dallamos chillhop 85 bpm". A Stable Audio a generált hanghatásokból is kínál mintákat, például egy rádión keresztül beszélő repülőgép-pilótát és egy zsúfolt étteremben beszélgető emberek moraját.

A modell betanításához a Stability az AudioSparx stock zenei szolgáltatóval működött együtt, tőlük licenceltek egy adathalmazt, amely "több mint 800 000 hangfájlból áll, amelyek zenét, hangeffekteket és egyhangszeres muzsikákat, valamint a megfelelő szöveges metaadatokat tartalmazzák". Miután 19 500 órányi hanganyagot tápláltak a modellbe, a Stable Audio tudja, hogyan kell parancsra utánozni bizonyos hallott hangokat, mivel a hangokat a neurális hálózaton belül a hozzájuk tartozó szöveges leírásokhoz társították. A Stable Audio több részből áll, amelyek együttesen működnek, hogy gyorsan testreszabott hangokat hozzanak létre. Az egyik rész úgy zsugorítja le a hangfájlt, hogy a fontos jellemzői megmaradjanak, miközben a felesleges zajokat eltávolítja. Ezáltal a rendszer gyorsabban tanítható és gyorsabban is hoz létre új hanganyagot. Egy másik rész a szöveg (a zene és a hangok metaadat-leírása) segítségével irányítja, hogy milyen hanganyagot hozzon létre.

A dolgok felgyorsítása érdekében a Stable Audio architektúra egy erősen egyszerűsített, tömörített hangreprezentációval dolgozik, hogy csökkentse a következtetési időt, azt az időt, amely alatt egy gépi tanulási modell létrehoz egy kimenetet, miután kapott egy bemenetet. A Stability AI szerint a Stable Audio egy Nvidia A100 GPU-n kevesebb, mint egy másodperc alatt képes 95 másodpercnyi sztereó hangot készíteni 44,1 kHz-es mintavételi frekvencián (ezt "CD-minőségnek" nevezzük). A Stability közlése szerint a Stable Audio ingyenes és havi 12 dollárba kerülő Pro csomagban lesz elérhető. Az ingyenes opcióval a felhasználók havonta legfeljebb 20 zeneszámot generálhatnak, amelyek mindegyike legfeljebb 20 másodperc hosszúságú lehet. A Pro csomag kibővíti ezeket a korlátokat, és havonta 500 sáv generálását teszi lehetővé, a sávok hossza pedig legfeljebb 90 másodperc lehet.

A Stable Audio nem az első diffúziós technikákon alapuló zenei generátor. Tavaly decemberben jelent meg a Riffusion, a Stable Diffusion audio változatának hobbisták által készített változata, majd januárban a Google kiadta a MusicLM-et, ami 24 kHz-es mintavételre volt képes, a Meta pedig augusztusban elindított egy nyílt forráskódú audioeszköz-csomagot (beleértve egy szöveg-zene generátort is) AudioCraft néven. Most a Stable Diffusion a 44,1 kHz-es sztereó hanggal emeli a tétet. A Stability jövőbeli kiadásai várhatóan tartalmazni fognak a Stable Audio architektúrán alapuló nyílt forráskódú modelleket, valamint oktató kódot azok számára, akiket érdekel a hanggeneráló modellek fejlesztése.

A Stable Audio hanghűségét tekintve a produkciós minőségű mesterséges intelligencia által generált zene határán vagyunk. Vajon a zenészek örülni fognak, ha a mesterséges intelligencia modellekkel helyettesítik őket? Valószínűleg nem. Egyelőre egy ember könnyedén felülmúlja mindazt, amit az MI képes létrehozni, de lehet, hogy ez nem sokáig lesz így. Akárhogy is, a mesterséges intelligencia által generált hang egy újabb eszköz lehet a professzionális hangkészítés eszköztárában.

Szövegből CD-minőségű zenét képes generálni a mesterséges intelligencia

Kapcsolódó cikkek és linkek

Hozzászólások