SG.hu
Egy szoftverfejlesztő kávézása David Attenborough narrációjában
A Replicate fejlesztője, Charlie Holtz a GPT-4 Vision (közismert nevén GPT-4V) és az ElevenLabs hangklónozó technológiáját kombinálva létrehozta a híres természettudós, David Attenborough jogosulatlan MI-verzióját, amely Holtz mozdulatait narrálja élőben.
A ChatGPT frissítése lehetővé teszi, hogy a mesterséges intelligencia "lásson, halljon és beszéljen" - írja az OpenAI. "Itt van a Homo sapiens egy figyelemre méltó példánya, akit ezüstszínű, kör alakú szemüvege és kócos, göndör fürtökből álló sörénye különböztet meg" - mondja az ál-Attenborough a demóban, miközben Holtz vigyorogva nézi. "Egy kéknek tűnő szövetborítást visel, amiről csak feltételezhetjük, hogy a párzási bemutatójának része. Nézze meg jól a szemöldökének finom ívét" - folytatja, mintha a BBC vadvilágról szóló dokumentumfilmjét mesélné. "Olyan, mintha a kíváncsiság vagy a szkepticizmus bonyolult rituáléja közepén lenne. A háttér egy védett élőhelyre utal, esetleg egy közös táplálkozóhelyre vagy itatóhelyre."
Működése egyszerű. A "narrátor" nevű Python-szkript öt másodpercenként készít egy fotót a Holtz webkamerája által mutatott videófolyamból, majd azt egy API-n keresztül elküldi a GPT-4V-nek, az OpenAI nyelvi modelljének képi bemeneteket feldolgozni képes változatának. Ezután az egy Attenborough narrációinak stílusában készült szöveget hoz létre, és ezt megkapja az ElevenLabs azon hangprofilja, amelyet Attenborough beszédének hangmintáin képeztek ki. Holtz a GitHubon közzétette a kódot, de működéséhez tokeneket kell venni az OpenAI és az ElevenLabs cégektől, azaz pénzbe kerül.
Néhány ilyen képesség már egy ideje külön-külön elérhető, például nagyon népszerű egy Warhammer 40k csatorna, amely szintén a brit tudós hangját használja a borzalmakkal teli fantáziavilág bemutatására. A fejlesztők az API elérhetőségének köszönhetően az utóbbi időben elkezdtek kísérletezni a képességek kombinálásával, amivel olyan meglepő bemutatókat lehet létrehozni, mint ez a mostani. A demóvideó során, amikor Holtz felemel egy poharat és iszik, az Attenborough hangú narrátor azt mondja: "Á, természetes környezetében megfigyelhetjük a kifinomult Homo sapiens-t, amint a folyadékpótlás kritikus rituáléját végzi. Ez a hím egyed kiválasztott egy kis hengeres edényt, amely valószínűleg az életfenntartó H2O-val van megtöltve, és szakszerűen billenti azt a szívónyílásához. Micsoda kecsesség, micsoda tartás."
Egy másik, Pietro Schirano által az X-en közzétett demóban Steve Jobs klónozott hangja hallható, amint a Figma nevű tervezőalkalmazásban készített terveket kritizálja. Schirano hasonló technikát alkalmazott: egy képet API-n keresztül a GPT-4V-hez küldött, amely Jobs stílusában válaszolt, majd az eredményt az ElevenLabs Jobs hangjának klónjába táplálta.
A hangklónozási technológia etikai és jogi aggályokkal terhes, hiszen ma már egy szoftver olyan meggyőző mélyhamisítványokat tud létrehozni egy ember hangjáról, és olyan dolgokat "mond", amelyeket az igazi személy soha nem mondott. Ez jogi következményekkel jár a hírességek nyilvánossághoz fűződő jogait illetően, de használható átverésre is: belegondolni is borzasztó, hogy mennyivel megdobná a Magyarországon nagyon népszerű unokázós csalás sikerességét, ha a nagymamát felhívva az ő hangján kérnének sürgősen pénzt. Ugyan az ElevenLabs szolgáltatási feltételei megtiltják, hogy az emberek mások hangjának klónozásával "szellemi tulajdonjogokat, reklámjogokat és szerzői jogokat" sértő módon más emberek hangját klónozzák, de ezt a szabályt nehéz lehet betartatni.
A ChatGPT frissítése lehetővé teszi, hogy a mesterséges intelligencia "lásson, halljon és beszéljen" - írja az OpenAI. "Itt van a Homo sapiens egy figyelemre méltó példánya, akit ezüstszínű, kör alakú szemüvege és kócos, göndör fürtökből álló sörénye különböztet meg" - mondja az ál-Attenborough a demóban, miközben Holtz vigyorogva nézi. "Egy kéknek tűnő szövetborítást visel, amiről csak feltételezhetjük, hogy a párzási bemutatójának része. Nézze meg jól a szemöldökének finom ívét" - folytatja, mintha a BBC vadvilágról szóló dokumentumfilmjét mesélné. "Olyan, mintha a kíváncsiság vagy a szkepticizmus bonyolult rituáléja közepén lenne. A háttér egy védett élőhelyre utal, esetleg egy közös táplálkozóhelyre vagy itatóhelyre."
Működése egyszerű. A "narrátor" nevű Python-szkript öt másodpercenként készít egy fotót a Holtz webkamerája által mutatott videófolyamból, majd azt egy API-n keresztül elküldi a GPT-4V-nek, az OpenAI nyelvi modelljének képi bemeneteket feldolgozni képes változatának. Ezután az egy Attenborough narrációinak stílusában készült szöveget hoz létre, és ezt megkapja az ElevenLabs azon hangprofilja, amelyet Attenborough beszédének hangmintáin képeztek ki. Holtz a GitHubon közzétette a kódot, de működéséhez tokeneket kell venni az OpenAI és az ElevenLabs cégektől, azaz pénzbe kerül.
David Attenborough is now narrating my life
— Charlie Holtz (@charliebholtz) November 15, 2023
Here's a GPT-4-vision + @elevenlabsio python script so you can star in your own Planet Earth: pic.twitter.com/desTwTM7RS
Néhány ilyen képesség már egy ideje külön-külön elérhető, például nagyon népszerű egy Warhammer 40k csatorna, amely szintén a brit tudós hangját használja a borzalmakkal teli fantáziavilág bemutatására. A fejlesztők az API elérhetőségének köszönhetően az utóbbi időben elkezdtek kísérletezni a képességek kombinálásával, amivel olyan meglepő bemutatókat lehet létrehozni, mint ez a mostani. A demóvideó során, amikor Holtz felemel egy poharat és iszik, az Attenborough hangú narrátor azt mondja: "Á, természetes környezetében megfigyelhetjük a kifinomult Homo sapiens-t, amint a folyadékpótlás kritikus rituáléját végzi. Ez a hím egyed kiválasztott egy kis hengeres edényt, amely valószínűleg az életfenntartó H2O-val van megtöltve, és szakszerűen billenti azt a szívónyílásához. Micsoda kecsesség, micsoda tartás."
Egy másik, Pietro Schirano által az X-en közzétett demóban Steve Jobs klónozott hangja hallható, amint a Figma nevű tervezőalkalmazásban készített terveket kritizálja. Schirano hasonló technikát alkalmazott: egy képet API-n keresztül a GPT-4V-hez küldött, amely Jobs stílusában válaszolt, majd az eredményt az ElevenLabs Jobs hangjának klónjába táplálta.
Steve Jobs is now critiquing my designs directly in Figma!
— Pietro Schirano (@skirano) November 16, 2023
I've just made one of my biggest dreams come true, thanks to GPT-4 Vision + @elevenlabsio. ?
My Figma window is streamed to GPT, which then provides feedback on the fly.
Like on these new design for @everartai pic.twitter.com/BPX81MmhxH
A hangklónozási technológia etikai és jogi aggályokkal terhes, hiszen ma már egy szoftver olyan meggyőző mélyhamisítványokat tud létrehozni egy ember hangjáról, és olyan dolgokat "mond", amelyeket az igazi személy soha nem mondott. Ez jogi következményekkel jár a hírességek nyilvánossághoz fűződő jogait illetően, de használható átverésre is: belegondolni is borzasztó, hogy mennyivel megdobná a Magyarországon nagyon népszerű unokázós csalás sikerességét, ha a nagymamát felhívva az ő hangján kérnének sürgősen pénzt. Ugyan az ElevenLabs szolgáltatási feltételei megtiltják, hogy az emberek mások hangjának klónozásával "szellemi tulajdonjogokat, reklámjogokat és szerzői jogokat" sértő módon más emberek hangját klónozzák, de ezt a szabályt nehéz lehet betartatni.