SG.hu

Az emberi hangokat rekonstruáló technológiát mutatott be az OpenAI

Az OpenAI a ChatGPT után nemrég egy olyan eszközt kínált, amellyel az emberek digitális képeket hozhattak létre egyszerűen azzal, hogy leírták, mit szeretnének látni. Aztán hasonló technológiát épített, amely teljes mozgóképet generált, amely mintha egy hollywoodi filmből származna. Most pedig olyan technológiát mutatott be, amely képes rekonstruálni valakinek a hangját.

A magasan jegyzett startup közölte, hogy vállalkozások egy kis csoportja teszteli az új OpenAI rendszert, a Voice Engine-t, amely 15 másodperces felvételből képes újrateremteni egy személy hangját. Ha feltölt valaki egy felvételt magáról és egy bekezdésnyi szöveget, a rendszer képes felolvasni a szöveget a feltöltő szintetikus hangján. A szövegnek nem kell a tesztelő anyanyelvén lennie: a rendszer képes a hangokat spanyolul, franciául, kínaiul vagy számos más nyelven is rekonstruálni. Az OpenAI azért nem osztja meg szélesebb körben a technológiát, mert még próbálja megérteni annak potenciális veszélyeit. A kép- és videogenerátorokhoz hasonlóan a hanggenerátor is segíthet a dezinformáció terjesztésében a közösségi médiában. Lehetővé teheti továbbá, hogy a bűnözők online vagy telefonhívások során embereknek adják ki magukat.

A vállalatot különösen aggasztja, hogy az ilyen technológiát az online bankszámlákhoz és más személyes alkalmazásokhoz való hozzáférést ellenőrző hanghitelesítők feltörésére is fel lehet használni. "Ez egy érzékeny dolog, és fontos, hogy jól csináljuk" - mondta az OpenAI termékmenedzsere, Jeff Harris. A vállalat vizsgálja, hogyan lehetne a szintetikus hangokat vízjelekkel ellátni, vagy olyan vezérlőket hozzáadni, amelyek megakadályozzák, hogy az emberek politikusok vagy más prominens személyek hangjával használják a technológiát. A múlt hónapban az OpenAI hasonló megközelítést alkalmazott, amikor ismertette a Sora nevű videógenerátorát: bemutatta a technológiát, de nem hozta nyilvánosságra.

Ez nem újszerű technológia. Számos startup cég szállított már évek óta hangklónozó termékeket, az ElevenLabstól a Replica Studioson és a Papercupon át a Deepdubig és a Respeecherig. A nagy technológiai cégek, mint az Amazon, a Google és a Microsoft - amelyek közül az utóbbi egyébként az OpenAI egyik fő befektetője - is ezt tették. Mindazonáltal Harris szerint az OpenAI megközelítése a versenytársaknál összességében jobb minőségű beszédet biztosít. A vállalkozások felhasználhatják ezeket a technológiákat hangoskönyvek generálására, hangot adhatnak online chatbotoknak, vagy akár egy automatizált rádióállomás DJ-jét is létrehozhatják. Az OpenAI tavaly óta használja technológiáját a ChatGPT beszélő változatának működtetésére, a vállalkozásoknak pedig már régóta kínál olyan hangokat, amelyeket hasonló alkalmazásokhoz használhatnak. Ezek mindegyike szinkronszínészek által biztosított klipekből épült fel.

A vállalat azonban eddig még nem kínált olyan nyilvános eszközt, amely lehetővé tenné magánszemélyek és vállalkozások számára, hogy egy rövid klipből újrateremtsenek hangokat, ahogyan azt a Voice Engine teszi. Harris szerint az a képesség, hogy ilyen módon bármilyen hangot ilyen módon újrateremthetnek, nagyon veszélyessé a technológiát - különösen egy választási évben. (Januárban amerikai lakosok olyan robothívásokat kaptak, amelyek az állami előválasztáson való szavazástól tartották vissza őket, olyan hangon, amelyet mesterségesen úgy alakítottak, hogy Biden elnökre hasonlítson. A Szövetségi Kommunikációs Bizottság betiltotta az ilyen hívásokat.)

Meglepő módon a Voice Engine nem felhasználói adatokon van kiképezve vagy finomhangolva. Ez részben annak köszönhető, hogy a modell - amely egy diffúziós folyamat és egy transzformátor kombinációja - a beszéd előállításának efemer módja. "Veszünk egy kis hangmintát és szöveget, és olyan valósághű beszédet generálunk, amely megfelel az eredeti beszélőnek" - mondta Harris. "A felhasznált hangot a kérés befejezése után eldobjuk." Mint kifejtette, a modell egyszerre elemzi a beszédadatokat, amelyekből merít, és a felolvasásra szánt szövegadatokat, így generál egy megfelelő hangot anélkül, hogy beszélőnként egyedi modellt kellene készíteni.

A technológia használatának várhatóan nagyon alacsony lesz az ára: egymillió karakterenként 15 dollár. Ez kb. ~162 500 szó, Dickens "Twist Olivér"-je ilyen hosszú. A HD minőségű opció ennek kétszeresébe kerül. Ez körülbelül 18 órányi hangot jelent, így az ár valamivel 1 dollár/óra alatt van. Ez valóban olcsóbb, mint amit például az egyik népszerű rivális szolgáltató, az ElevenLabs felszámít, ők 11 dollárt kérnek 100 000 karakterért.

Harris elmondta, hogy az OpenAI nem tervezi, hogy azonnal pénzt csináljon a technológiából. Elmondta, hogy az eszköz különösen hasznos lehet azoknak, akik betegség vagy baleset miatt elvesztették a hangjukat. Bemutatta, hogyan használták a technológiát egy nő hangjának helyreállítására, miután agydaganat károsította azt. Elmondta, hogy a nő most már a saját hangján tud beszélni, mert talált egy rövid felvételt egy középiskolás korában tartott előadásról.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • Frekvency #6
    pont azt aknázzák alá ami minden működő társadalom alapja, a bizalmat és a kiszámíthatóságot. Totális káosz körvonalazódik, széleskörű identitásvesztés, tömegek számíthatnak arra, hogy nem tudják többi igazolni magukat, bármit elkövethetnek a nevükben, mert szimulálhatóvá válik az egyén. Én már a deepfake kezdetén éreztem, hogy ez kurva szar irány, és senki nem mer semmit csinálni ellene, mert fé, hogy kiröhögik, maradinak, fejlődésképtelennek tartják, pedig csak a józan eszünket kellene használni és nem térdre borulni minden előtt amit a technológia felkínál. Az ember biológiai klónozása is tiltva van, ennek a szarnak miért nincs társadalmi kontrollja, mitől más a digitális klónozás??
  • Tetsuo #5
    Ennyi. Nem lehet megállítani az összeomlást.
  • tom_pika #4
    "a körülmények, amiben létrejött. Azokat kellene módosítani"

    Mert azokon tényleg lehet... Mondjuk az open ai-t se lehet megállítani, úgyhogy jönni fog aminek jönnie kell. Az emberi kapzsiságot és nagyravágyást nem lehet megállítani.
    Utoljára szerkesztette: tom_pika, 2024.03.30. 11:12:33
  • Ender Wiggin #3
    Ebben mi az új? Tele van a youtube olyan csatornákkal, ahol jelenlegi és ex-elnökök vagy sztárszínészek hangján beszélnek pl. videójátékokról.
  • Tetsuo #2
    Nem az OpenAI a rossz, hanem a körülmények, amiben létrejött. Azokat kellene módosítani. Paradigmaváltás szükséges, de ha lenne, az is csak rosszabb lenne, mint volt.
  • Frekvency #1
    erre az open ai-ra le kell baszni egy atombombát amit nem késő...