SG.hu
Élesedik a verseny a videógeneráló MI-modelleknél
A Runway, egy filmes és képi tartalomkészítőknek szánt generatív MI-eszközöket fejlesztő vállalat bemutatta a Gen-3 Alpha-t. A vállalat legújabb MI-modellje szöveges leírásokból és állóképekből generál videoklipeket. A Runway szerint a modell "jelentős" javulást biztosít a generálás sebességében és hűségében a Runway előző zászlóshajó videomodelljéhez, a Gen-2-höz képest, valamint lehetővé teszi az általa létrehozott videók szerkezetének, stílusának és mozgásának finomhangolt ellenőrzését. A Gen-3 a következő napokban lesz elérhető a Runway előfizetői számára, beleértve a vállalati ügyfeleket és a Runway kreatív partnerprogramjában részt vevő alkotókat is.
"A Gen-3 Alpha kiválóan alkalmas kifejező emberi karakterek generálására, a cselekvések, gesztusok és érzelmek széles skálájával" - írja a Runway a blogján közzétett bejegyzésben. "Úgy tervezték, hogy a stílusok és filmes terminológiák széles skáláját értelmezze és lehetővé tegye a fantáziadús átmeneteket és a jelenet elemeinek pontos kulcskeretezését." Persze a Gen-3 Alfának megvannak a maga korlátai, többek között az, hogy a felvételei maximum 10 másodpercig tartanak. A Runway társalapítója, Anastasis Germanidis azonban azt ígéri, hogy a Gen-3 csak az első - és legkisebb - a számos videogeneráló modell közül, amelyek egy következő generációs, korszerűsített infrastruktúrán képzett modellcsaládban fognak megjelenni. "Ez a kezdeti bevezetés 5 és 10 másodperces, nagy felbontású anyagokat fog támogatni, a Gen-2-nél érezhetően gyorsabb generálási időkkel. Egy 5 másodperces klip generálása 45 másodpercet vesz igénybe, egy 10 másodperces klipé pedig 90 másodpercet" - mondta Germanidis.
Mint minden videógeneráló modell a Gen-3 Alpha is hatalmas mennyiségű videópéldán és képen lett betanítva, így megismerte a példák mintáit az új klipek generálásához. Hogy honnan származnak a képzési adatok? A Runway nem árulja el. Manapság kevés generatív mesterséges intelligenciát fejlesztő gyártó ad ki önként ilyen információkat, részben azért, mert a képzési adatokat versenyelőnynek tekintik, és ezért ezeket és az ezekkel kapcsolatos információkat nem adják ki a kezükből. "Van egy házon belüli kutatócsoportunk, amely felügyeli az összes képzésünket, és kurátori, belső adathalmazokat használunk a modelljeink képzéséhez" - mondta Germanidis.
Szintén visszatartó erő, hogy a képzési adatok részletei potenciális forrása a szellemi tulajdonnal kapcsolatos pereknek, főleg ha a gyártó nyilvános adatokat használ, beleértve a webről származó, szerzői jogvédett adatokat is. A bíróságok előtt folyamatban lévő számos ügyben a beadott keresetek elutasítják a gyártók tisztességes felhasználású képzési adatokkal kapcsolatos védekezését, azzal érvelve, hogy a generatív MI-eszközök a művészek engedélye nélkül másolják le a művészek stílusát, és lehetővé teszik bárki számára, hogy a művészek eredetijére hasonlító új műveket hozzanak létre, amelyekért a művészek nem kapnak fizetést.
A Runway annyit közölt a szerzői jogi kérdés kapcsán, hogy a modell kifejlesztése során konzultáltak művészekkel. (Mely művészekkel? Nem világos.) "Szorosan együttműködünk a művészekkel, hogy kitaláljuk, mik a legjobb megközelítések a probléma kezelésére" - mondta Germanidis. "Különböző adatpartnerségeket vizsgálunk, hogy tovább tudjunk növekedni és felépítsük a modellek következő generációját". A Runway azt is elmondta, hogy a Gen-3-at új biztosítékokkal tervezi kiadni, többek között egy moderációs rendszerrel, amely blokkolja a szerzői jogvédett képekből és a Runway szolgáltatási feltételeivel nem egyező tartalmakból történő videók létrehozására irányuló kísérleteket. A tervek között szerepel egy - a Microsoft, az Adobe, az OpenAI és mások által támogatott C2PA szabványnak megfelelő - eredetvédelmi rendszer is, amely azonosítja, hogy a videók a Gen-3-ból származnak.
"Az új és továbbfejlesztett házon belüli vizuális és szöveges moderációs rendszerünk automatikus felügyeletet alkalmaz a nem megfelelő vagy káros tartalmak kiszűrésére" - mondta Germanidis. "A C2PA hitelesítés ellenőrzi az összes Gen-3 modellel létrehozott média eredetét és hitelességét. Ahogy a modellek képességei és a nagyon valósághű tartalmak létrehozásának képessége növekszik, továbbra is jelentős beruházásokat fogunk eszközölni az összehangolási és biztonsági erőfeszítéseinkbe." A Runway azt is elárulta, hogy "vezető szórakoztatóipari és médiaszervezetekkel" társult és működött együtt, hogy a Gen-3 egyedi változatait hozzák létre, amelyek lehetővé teszik a "stilisztikailag ellenőrzött" és következetesebb karakterek létrehozását, megcélozva a "speciális művészeti és narratív követelményeket". A vállalat hozzáteszi: "Ez azt jelenti, hogy a generált karakterek, hátterek és elemek különböző jelenetekben is megőrizhetik koherens megjelenésüket és viselkedésüket".
A videógeneráló modellek egyik legnagyobb megoldatlan problémája az ellenőrzés, vagyis az, hogy a modell az alkotó művészi szándékainak megfelelő konzisztens videót generáljon. A hagyományos filmkészítésben egyszerű dolog, mint például a karakterek ruházatának színválasztása egy generatív modellnél nem valósítható meg könnyedén, mivel minden egyes felvétel a többitől függetlenül jön létre. Néha még a kerülő megoldások sem segítenek, így szerkesztőkre marad a hosszadalmas kézi munka.
A Runway eddig több mint 236,5 millió dollárt gyűjtött be befektetőktől, többek között a Google-től (tőlük felhőalapú számítási krediteket kaptak) és az Nvidia-tól, valamint olyan kockázati tőkebefektetőktől, mint az Amplify Partners, a Felicis és a Coatue. A Runway Studios szórakoztatóipari részleg a vállalati ügyfelek számára produkciós partnerként szolgál, és otthont ad az AI Film Festivalnak, az egyik első olyan rendezvénynek, amely a teljes egészében - vagy részben - MI által készített filmek bemutatására hivatott.
A verseny azonban egyre élesebb. A Luma generatív MI startup múlt héten jelentette be a Dream Machine-t, egy videogenerátort, amely mémek animálásában jártas, néhány hónappal ezelőtt pedig az Adobe fedte fel, hogy saját videogeneráló modellt fejleszt, amelyet az Adobe Stock médiatárában található tartalmakon képez ki. Nem szabad kihagyni a sorból az OpenAI-féle Sorát, amely továbbra is szigorúan zárt, de amelyet az OpenAI marketingügynökségekkel, valamint indie és hollywoodi filmrendezőkkel népszerűsít. (Mira Murati, az OpenAI technológiai igazgatója jelen volt a 2024-es cannes-i filmfesztiválon.) Az idei Tribeca Fesztiválon - amely szintén partnerségben áll a Runway-jel, hogy az MI-eszközökkel készült filmeket kurátorként kezelje - olyan rendezők Sora segítségével készített rövidfilmjeit mutatták be, akik korai hozzáférést kaptak a rendszer használatához. A Google a képgeneráló modelljét, a Veo-t kiválasztott alkotók, köztük Donald Glover (azaz Childish Gambino) és kreatív ügynöksége, a Gilga kezébe adta, miközben azon dolgozik, hogy a Veo-t beépítse az olyan termékekbe, mint a YouTube Shorts.
De bárhogy is alakulnak a különböző együttműködések, egy dolog világos: a generatív mesterséges intelligencia-videóeszközök azzal fenyegetnek, hogy felforgatják a jelenleg ismert film- és tévéipart. Tyler Perry filmkészítő nemrég azt nyilatkozta, hogy felfüggesztette produkciós stúdiójának tervezett 800 millió dolláros bővítését, miután meglátta, mire képes a Sora. Joe Russo - aki olyan Marvel-filmek rendezője, mint a Bosszúállók: Végjáték - azt jósolja, hogy a mesterséges intelligencia egy éven belül képes lesz egy teljes értékű film elkészítésére.
A hollywoodi animátorokat és rajzfilmeseket képviselő Animation Guild szakszervezet megbízásából készült tanulmány szerint a mesterséges intelligenciát alkalmazó filmgyártó cégek 75%-a csökkentette, összevonta vagy megszüntette a munkahelyeket a technológia használatának megkezdése után. A tanulmány becslése szerint 2026-ra több mint 100 000 amerikai szórakoztatóipari munkahelyet fog megzavarni a generatív mesterséges intelligencia. Nagyon erős munkajogi védelemre lesz szükség ahhoz, hogy a videogeneráló eszközök ne lépjenek más generatív MI-technológiák nyomdokaiba, és ne vezessenek a kreatív munka iránti kereslet meredek csökkenéséhez.
"A Gen-3 Alpha kiválóan alkalmas kifejező emberi karakterek generálására, a cselekvések, gesztusok és érzelmek széles skálájával" - írja a Runway a blogján közzétett bejegyzésben. "Úgy tervezték, hogy a stílusok és filmes terminológiák széles skáláját értelmezze és lehetővé tegye a fantáziadús átmeneteket és a jelenet elemeinek pontos kulcskeretezését." Persze a Gen-3 Alfának megvannak a maga korlátai, többek között az, hogy a felvételei maximum 10 másodpercig tartanak. A Runway társalapítója, Anastasis Germanidis azonban azt ígéri, hogy a Gen-3 csak az első - és legkisebb - a számos videogeneráló modell közül, amelyek egy következő generációs, korszerűsített infrastruktúrán képzett modellcsaládban fognak megjelenni. "Ez a kezdeti bevezetés 5 és 10 másodperces, nagy felbontású anyagokat fog támogatni, a Gen-2-nél érezhetően gyorsabb generálási időkkel. Egy 5 másodperces klip generálása 45 másodpercet vesz igénybe, egy 10 másodperces klipé pedig 90 másodpercet" - mondta Germanidis.
Mint minden videógeneráló modell a Gen-3 Alpha is hatalmas mennyiségű videópéldán és képen lett betanítva, így megismerte a példák mintáit az új klipek generálásához. Hogy honnan származnak a képzési adatok? A Runway nem árulja el. Manapság kevés generatív mesterséges intelligenciát fejlesztő gyártó ad ki önként ilyen információkat, részben azért, mert a képzési adatokat versenyelőnynek tekintik, és ezért ezeket és az ezekkel kapcsolatos információkat nem adják ki a kezükből. "Van egy házon belüli kutatócsoportunk, amely felügyeli az összes képzésünket, és kurátori, belső adathalmazokat használunk a modelljeink képzéséhez" - mondta Germanidis.
Szintén visszatartó erő, hogy a képzési adatok részletei potenciális forrása a szellemi tulajdonnal kapcsolatos pereknek, főleg ha a gyártó nyilvános adatokat használ, beleértve a webről származó, szerzői jogvédett adatokat is. A bíróságok előtt folyamatban lévő számos ügyben a beadott keresetek elutasítják a gyártók tisztességes felhasználású képzési adatokkal kapcsolatos védekezését, azzal érvelve, hogy a generatív MI-eszközök a művészek engedélye nélkül másolják le a művészek stílusát, és lehetővé teszik bárki számára, hogy a művészek eredetijére hasonlító új műveket hozzanak létre, amelyekért a művészek nem kapnak fizetést.
A Runway annyit közölt a szerzői jogi kérdés kapcsán, hogy a modell kifejlesztése során konzultáltak művészekkel. (Mely művészekkel? Nem világos.) "Szorosan együttműködünk a művészekkel, hogy kitaláljuk, mik a legjobb megközelítések a probléma kezelésére" - mondta Germanidis. "Különböző adatpartnerségeket vizsgálunk, hogy tovább tudjunk növekedni és felépítsük a modellek következő generációját". A Runway azt is elmondta, hogy a Gen-3-at új biztosítékokkal tervezi kiadni, többek között egy moderációs rendszerrel, amely blokkolja a szerzői jogvédett képekből és a Runway szolgáltatási feltételeivel nem egyező tartalmakból történő videók létrehozására irányuló kísérleteket. A tervek között szerepel egy - a Microsoft, az Adobe, az OpenAI és mások által támogatott C2PA szabványnak megfelelő - eredetvédelmi rendszer is, amely azonosítja, hogy a videók a Gen-3-ból származnak.
"Az új és továbbfejlesztett házon belüli vizuális és szöveges moderációs rendszerünk automatikus felügyeletet alkalmaz a nem megfelelő vagy káros tartalmak kiszűrésére" - mondta Germanidis. "A C2PA hitelesítés ellenőrzi az összes Gen-3 modellel létrehozott média eredetét és hitelességét. Ahogy a modellek képességei és a nagyon valósághű tartalmak létrehozásának képessége növekszik, továbbra is jelentős beruházásokat fogunk eszközölni az összehangolási és biztonsági erőfeszítéseinkbe." A Runway azt is elárulta, hogy "vezető szórakoztatóipari és médiaszervezetekkel" társult és működött együtt, hogy a Gen-3 egyedi változatait hozzák létre, amelyek lehetővé teszik a "stilisztikailag ellenőrzött" és következetesebb karakterek létrehozását, megcélozva a "speciális művészeti és narratív követelményeket". A vállalat hozzáteszi: "Ez azt jelenti, hogy a generált karakterek, hátterek és elemek különböző jelenetekben is megőrizhetik koherens megjelenésüket és viselkedésüket".
A videógeneráló modellek egyik legnagyobb megoldatlan problémája az ellenőrzés, vagyis az, hogy a modell az alkotó művészi szándékainak megfelelő konzisztens videót generáljon. A hagyományos filmkészítésben egyszerű dolog, mint például a karakterek ruházatának színválasztása egy generatív modellnél nem valósítható meg könnyedén, mivel minden egyes felvétel a többitől függetlenül jön létre. Néha még a kerülő megoldások sem segítenek, így szerkesztőkre marad a hosszadalmas kézi munka.
A Runway eddig több mint 236,5 millió dollárt gyűjtött be befektetőktől, többek között a Google-től (tőlük felhőalapú számítási krediteket kaptak) és az Nvidia-tól, valamint olyan kockázati tőkebefektetőktől, mint az Amplify Partners, a Felicis és a Coatue. A Runway Studios szórakoztatóipari részleg a vállalati ügyfelek számára produkciós partnerként szolgál, és otthont ad az AI Film Festivalnak, az egyik első olyan rendezvénynek, amely a teljes egészében - vagy részben - MI által készített filmek bemutatására hivatott.
A verseny azonban egyre élesebb. A Luma generatív MI startup múlt héten jelentette be a Dream Machine-t, egy videogenerátort, amely mémek animálásában jártas, néhány hónappal ezelőtt pedig az Adobe fedte fel, hogy saját videogeneráló modellt fejleszt, amelyet az Adobe Stock médiatárában található tartalmakon képez ki. Nem szabad kihagyni a sorból az OpenAI-féle Sorát, amely továbbra is szigorúan zárt, de amelyet az OpenAI marketingügynökségekkel, valamint indie és hollywoodi filmrendezőkkel népszerűsít. (Mira Murati, az OpenAI technológiai igazgatója jelen volt a 2024-es cannes-i filmfesztiválon.) Az idei Tribeca Fesztiválon - amely szintén partnerségben áll a Runway-jel, hogy az MI-eszközökkel készült filmeket kurátorként kezelje - olyan rendezők Sora segítségével készített rövidfilmjeit mutatták be, akik korai hozzáférést kaptak a rendszer használatához. A Google a képgeneráló modelljét, a Veo-t kiválasztott alkotók, köztük Donald Glover (azaz Childish Gambino) és kreatív ügynöksége, a Gilga kezébe adta, miközben azon dolgozik, hogy a Veo-t beépítse az olyan termékekbe, mint a YouTube Shorts.
De bárhogy is alakulnak a különböző együttműködések, egy dolog világos: a generatív mesterséges intelligencia-videóeszközök azzal fenyegetnek, hogy felforgatják a jelenleg ismert film- és tévéipart. Tyler Perry filmkészítő nemrég azt nyilatkozta, hogy felfüggesztette produkciós stúdiójának tervezett 800 millió dolláros bővítését, miután meglátta, mire képes a Sora. Joe Russo - aki olyan Marvel-filmek rendezője, mint a Bosszúállók: Végjáték - azt jósolja, hogy a mesterséges intelligencia egy éven belül képes lesz egy teljes értékű film elkészítésére.
A hollywoodi animátorokat és rajzfilmeseket képviselő Animation Guild szakszervezet megbízásából készült tanulmány szerint a mesterséges intelligenciát alkalmazó filmgyártó cégek 75%-a csökkentette, összevonta vagy megszüntette a munkahelyeket a technológia használatának megkezdése után. A tanulmány becslése szerint 2026-ra több mint 100 000 amerikai szórakoztatóipari munkahelyet fog megzavarni a generatív mesterséges intelligencia. Nagyon erős munkajogi védelemre lesz szükség ahhoz, hogy a videogeneráló eszközök ne lépjenek más generatív MI-technológiák nyomdokaiba, és ne vezessenek a kreatív munka iránti kereslet meredek csökkenéséhez.