Zenetömörítés az MP3 ezredrészére

A Rochester Egyetem kutatói egy mp3 fájl közel ezredrészére tömörítettek egy zenerészletet. A 20 másodperces klarinét szólót kevesebb mint 1 kilobájtba sűrítették be. Az eljárás nem a hang felvételén, hanem hangszer és használatának újraalkotásán alapul.

A technikáról a Las Vegasban tartott Nemzetközi Akusztikus Beszéd- és Jelfeldolgozási Konferencián számoltak be, a kutatók szerint az eredeti előadás reprodukálása még nem tökéletes, azonban egyre közelebb kerülnek a célhoz.

A technika egyik kiagyalója, Mark Bocko professzor elmondta, gyakorlatilag a hangszer és a hangszeren játszott zene előadásának a reprodukálására hoztak létre egy rendszert, modellezve a klarinét és az azt megszólaltató zenész valós fizikáját. A professzor szerint nincs szükség a digitális technikák által alkalmazott, másodpercenkénti több ezer mintavételezésre, mivel az előadó ennél jóval lassabban használja a hangok képzéséhez szükséges szerveit, a klarinét esetében a tüdejét, nyelvét, ujjait. Ennek fényében elvileg most sikerült megtalálni egy zenedarab újraalkotásához szükséges lehető legkevesebb adatot, állítja Bocko.

A zene visszajátszásához a számítógép szó szerint újraalkotja az eredeti előadást azon ismeretei alapján, amit a klarinétról és a klarinétozásról tanult, illetve beleprogramoztak. Bocko hallgatóival felmérte a klarinét tulajdonságait és azok hangbefolyásoló tényezőit, a fúvóka vissznyomásától a különböző ujjmozdulatoknál, egészen a hang kisugárzásáig. Ezután elkészítették a klarinét számítógépes modelljét, a kapott virtuális hangszer így teljes egészében a valódi akusztikus mérésekre épül.

A virtuális hangszerhez kellett egy virtuális zenész is. A kutatók lemodellezték a játékos és a hangszer kapcsolatát, beleértve az ujj játékát, a kifújt levegő erejét és a játékos ajkai által kifejtett nyomást, hogy megállapíthassák, hogyan befolyásolja mindez a klarinétot, majd a kapott adathalmazt levetítették a virtuális hangszerre. Ezután a számítógéppel valódi klarinét előadást "hallgattattak", hogy az kikövetkeztethesse és rögzíthesse egy adott hang létrehozásához szükséges tevékenységeket.

Végül a játékos által végrehajtott mozzanatokat betáplálták a számítógépes modellbe és megpróbálták reprodukálni az eredeti hangot. Jelenleg a végeredmény nagyon közel áll az eredeti előadáshoz, ha még nem is tökéletes. Az itt meghallgatható két felvétel .wav formátumban került fel a világhálóra az összehasonlításhoz.

"Még dolgozunk a nyelv mozgásának modellezésén, hogy tökéletesebbé tegyük a hangok kezdését a staccato szakaszokban" - mondta Bocko. "A jobban kitartott és jobban összefonódó hangokból felépülő zenéknél a módszer kifejezetten jól működik, és valóban nehéz megkülönböztetni a szintetizált hangot az eredetitől"

A módszer finomításától a kutatók azt remélik, hogy a számítógépes zenészek még kifejezőbb zenéket alkothatnak a virtuális zenész beépítésével szintetizátoraikba. És bár az emberi vokális terület rendkívül összetett, Bocko szerint a módszer alapelveit tekintve az emberi hangképzés modellezésére is kiterjeszthető. A jelenlegi módszer egyszerre csak egy hangszert kezel, az Egyetem Zenei Kutató Laboratóriumának egy másik munkája, amit Gordana Velikic és Dave Headlam professzor vezet, előállított egy eljárást a különböző hangszerek szétválasztásához egy egyvelegben, így a két módszer kombinálásával egészen összetett hangfelvétel készíthető majd.

Bocko meggyőződése, hogy a minőség folyamatosan javulni fog az akusztikus mérések és az ebből eredő szintézis algoritmusok pontosabbá válásával, ez a folyamat pedig a zenei adattömörítés lehetséges maximumát jelentheti. "Talán a zenerögzítés jövője az előadók reprodukálásában és nem a felvételükben rejlik" - vélekedett Bocko.

én is kb. ugyanezt mondtam pár hsz-sal lejjebb , csak én inkább több terrásra becsültem egy olyan adatbázist, amely még a mûvésznõ torkának barázdáit is külön eltárolja...

és egyébként mit akarnak ezek az okostojások ezzel a formátummal???

hogy majd egy olyan egszerû és közérthetõ formátumban komponáljanak zenét az alkotók, ahol a mûvész szájcsücsörületének és hangszálainak együtthatóját egy heizenberg-féle határozatlansági relációelméletben kell három külömbözõen megdimenziónált tömbre felírni???????

és még azt a néhányszázezer módosítótényezõt mint pl.: a tüdõhörgõinek megcsimbókosodása a tegnap este becsavart cigitõl és az alsó ajakherpesz okozta enyhe Hilleresen ejtett "mókuszka" roppant valószínû, hogy egy ilyen pinduri adatbázis belefér 1, azaz egy gigabájta nem ???

nevetséges... amikrõl ezek álmodoznak terrabájtokban sem lehet kifejezni.

Zenetömörítés az MP3 ezredrészére

Kapcsolódó cikkek és linkek

Hozzászólások