SG.hu

Egy fotó alapján komplett videót gyárt a Meta új MI-rendszere

A Meta bejelentette a Movie Gen nevű új MI-modellcsomagot, amelyet videó, hang és kép létrehozására és manipulálására terveztek, beleértve egy személyről készült egyetlen fotóból valószerű videó létrehozását. A vállalat állítása szerint a modellek felülmúlják a többi videószintetizáló modell teljesítményét, és közelebb visznek minket ahhoz a jövőhöz, amikor bárki igény szerint bármilyen témáról teljes videót gyárthat.

A vállalatnak egyelőre nincsenek tervei arról, hogy mikor és hogyan fogja ezeket a képességeket a nyilvánosság elé tárni, de a Meta szerint a Movie Gen egy olyan eszköz, amely lehetővé teheti az emberek számára, hogy „fokozzák a bennük rejlő kreativitást”, nem pedig helyettesítik az emberi művészeket és animátorokat. A vállalat olyan jövőbeli alkalmazásokat képzel el, mint például egy egyszerű bemutató videó elkészítése és szerkesztése a közösségi médiaplatformok számára, vagy személyre szabott animált születésnapi üdvözletek generálása.

A Movie Gen a Meta korábbi videoszintézis terén végzett munkájára épül, a 2022-es Make-A-Scene videogenerátor és az Emu képszintetizáló modell örököse. A legújabb rendszer a szöveges útmutatásokat használva először képes egyedi, hangokkal ellátott videókat generálni, meglévő videókat szerkeszteni és változtatásokat beilleszteni, valamint emberekről készült képeket valósághű, személyre szabott videókká alakítani. A Meta közölte, hogy emberi preferencia tesztek során a Movie Gen kimenetei legyőzték az OpenAI Sora, a Runway Gen-3 és a kínai Kling videomodelljét.


A Movie Gen videógeneráló modellje 1080p-s, nagyfelbontású, akár 16 másodperces videókat tud létrehozni 16 képkocka/másodperc sebességgel szöveges leírásból vagy képi bemenetből. A Meta állítása szerint a modell képes kezelni az olyan összetett fogalmakat, mint a tárgyak mozgása, a tárgy-tárgy interakciók és a kameramozgások. Ennek ellenére, ahogyan azt a korábbi mesterséges intelligencia-videógenerátorok esetében is láthattuk, a Movie Gen képessége, hogy egy adott témában összefüggő jeleneteket generáljon a Meta által a videószintetizáló modell betanításához használt példavideókban található fogalmaktól függ. Érdemes szem előtt tartani, hogy a videogenerátorok által kiválasztott eredmények gyakran drámaian eltérnek a tipikus eredményektől, és a koherens eredmény elérése sok próbálkozást igényelhet.

Ha már a képzési adatoknál tartunk, a Meta azt mondja, hogy ezeket a modelleket „licencelt és nyilvánosan elérhető adathalmazok” kombinációján képezte ki, ami nagy valószínűséggel magában foglalja a Facebook és Instagram felhasználók által az évek során feltöltött videókat, bár ez csak spekuláció a Meta jelenlegi irányelvei és korábbi viselkedése alapján.


A Meta a Movie Gen egyik legfontosabb funkcióját „személyre szabott videókészítésnek” nevezi, de van egy másik fontos fogalom is, amely 2017 óta létezik: a mélyhamisítás, azaz a deepfake. A technológia riadalmat keltett egyes szakértők körében, mivel a hiteles kamerafelvételek szimulálására használható, és olyan dolgokat mutathat, amelyek valójában nem történtek meg. Egy deepfake létrehozása a Movie Gen segítségével nagyon egyszerűnek tűnik, elég egyetlen bemeneti képet megadni egy személyről, egy szöveges felszólítással együtt, amely leírja, hogy mit szeretne, hogy csináljon, vagy hol legyen a kész videóban. A rendszer ezután létrehoz egy mozgóképet, amelyben az adott személy szerepel, miközben beépíti a kérés részleteit.

Ezzel a technológiával számtalan módon vissza lehet élni, például embereket kompromittáló hamis helyzetekbe lehet helyezni, hamis történelmi kontextust gyártani, vagy pornográf anyagokat készíteni. Ez közelebb visz minket egy olyan kulturális szingularitáshoz, ahol az igazság és a fikció a valós idejű mesterséges intelligencia-média szintézisnek köszönhetően mélyebb kontextus nélkül egymástól megkülönböztethetetlen. Áprilisban a Microsoft bemutatta a VASA-1 nevű modellt, amely egyetlen fénykép és egyetlen hangsáv alapján képes fotórealisztikus videót készíteni egy beszélő személyről, de a Movie Gen egy lépéssel továbbmegy: egy mélyhamisított személyt helyez el egy mesterséges intelligencia által generált vagy más módon létrehozott videojelenetbe. A Movie Gen azonban a jelek szerint még nem képes beszédet generálni vagy szinkronizálni.


A Meta bemutatta a Movie Gen videószerkesztő komponensét is, amely lehetővé teszi a meglévő videók pontos módosítását szöveges utasítások alapján. A program képes szerkesztésre, például elemek hozzáadására vagy eltávolítására, valamint globális módosításokra, például a háttér vagy az általános stílus megváltoztatására. A Meta a hangszintézist egy külön hanggeneráló modellel adja hozzá a kész anyagokhoz. Ez képes a videótartalomhoz szinkronizált környezeti hangokat, hangeffektusokat és instrumentális háttérzenét előállítani szöveges utasítások alapján. A vállalat állítása szerint ez a modell bármilyen hosszúságú videókhoz képes hangot generálni, végig fenntartva a koherens hangzást.

Az előrelépések ellenére a Meta elismeri, hogy a jelenlegi modelleknek vannak korlátai. A vállalat azt tervezi, hogy a modellek méretezésével felgyorsítja a videók előállításának idejét és javítja az általános minőséget. A Meta azt is tervezi, hogy együttműködik a filmkészítőkkel és alkotókkal, hogy visszajelzéseiket beépítse a modell jövőbeli verzióiba. A SAG-AFTRA színészszakszervezet tavalyi figyelmeztetései és a videószintézisre adott megosztó reakciók után azonban elképzelhető, hogy nem minden visszajelzés lesz pozitív.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • militavia #11
    Nem említettem oldalakat. Láttam ukrajnás logóval is DCS-sel csinálni full nevetséges videókat. Csak az nem a kormány hivatalos oldala volt valami random hülyegyerek csinálhatta. (Vagy ki tudja, lehet, hogy orosz fenntartású szennyoldal, van abból annyi, mint a tenger.)

    Ellenben, amikor az orosz állami MH17 kapcsán egy felülnézetes DCS fekete-fehér screnshottal akarták bizonyítani, hogy ukrán Szu-27 lőtte le az gépet, akkor bocs, de szerintem kisebb lendülettel kéne az "oldalakról" ítélkezni.
  • reptile1313 #10
    "az emberek nagyresze sajnos mar nem tudja megkulonboztetni "
    Par honap, es a nagy reszet mar te sem fogod tudni megkulonboztetni. elvezd ki ezt az elonyt, amit abbol szereztel,hogy sok AI videot neztel meg, igy treningelve vagy arra,hogy meg tudd kulonboztetni hacsak nem ordit,hogy AI.

    De hamarosan senki sem fogja tudni megkulonboztetni csak az, aki csinalta.
  • reptile1313 #9
    De ugye tudod, hogy nem csak az egyik politikai oldal hasznal kamu propagandat, hanem kivetel nelkul mindegyik? Nyilvan azt meg te nem veszed eszre ergo sajat magadrol beszelsz,amikor azt mondod,hogy nem veszik eszre,hogy AI. De tudom asztmonta a mindig oszinte, okos, emberisegert es a szegenyekert kuzdo saint telex hogy a haboru igazabol a beke, es trumpika meg a gonosz, amiert beket akar. Es agymosott mindenki, aki beket akar. Jaja
    Utoljára szerkesztette: reptile1313, 2024.10.07. 13:53:23
  • barret #7
    Nem tudják mi megy a fronton,persze hogy elhiszik a videót. Főleg ha nem jártasak a számítógép generált képek/videók felismerésében.
  • militavia #6
    Az első igaz, sokkoló számomra, hogy hány ember nem ismeri fel, amikor totál gagyi repszimes videó van felhasználva az orosz-ukrán háború propira. De olyat is láttam, hogy egy FS videóban azt akarták bemutatni, hogy trumpika pilótája is tökös, mert filmes kaszkadőr szerű áthúzásokat csinál. Csont nélkül elhitte több száz kommentelő.

    Lássuk be, ha valaki olyan ostoba és féreggköcsög, hogy ilyet akarna hamisítani, akkor sanszosan úgysem ért hozzá, mert akinek megfelelő szakértelme van, az sanszosan nem ekkora féreg. Amúgy annyi mindent kéne aláhamisítani a hangtól és mástól kezdve, hogy totál reménytelen. Szerintem.
  • kvp #5
    "Ezek csak ilyen életérzés videók, de elsőre látszik, hogy MI."

    Politikai manipulaciohoz elegsegesek es az emberek nagyresze sajnos mar nem tudja megkulonboztetni az MI altal generalt tartalmat a valosagtol.

    "A fedélzeti kamerás videón az MI honnan a bánatból tudná, hogy a környezet PONTOSAN mi, ami hamisítania kéne? Nem tudja."

    Egyelore. Viszont ha egy birosagi szakertoi eljarast nem is tudna meghekkelni, de egy tetszoleges tomeg barmilyen iranyba torteno befolyasolasara elegseges lehet. Ez persze azt jelenti, hogy a media hack-eken kivul joreszt csak a nagytokesek tomeg befolyasolasi eszkoztarat boviti a technologia. Elnezve a feljeszto ceget, ez annyira nem meglepo.
  • militavia #2
    Annyira részletekbe menő és valóságosat nem tud. Ezek csak ilyen életérzés videók, de elsőre látszik, hogy MI.

    A fedélzeti kamerás videón az MI honnan a bánatból tudná, hogy a környezet PONTOSAN mi, ami hamisítania kéne? Nem tudja.
  • uwu2020 #3
    Fedélzeti kamerás neménvótam balesetes videót is hamisít? Azzal elég jól lehetne spórilni/kárt okozi/csalni/börtönt megúszni. Aki eddig csak nem merte, most vehet egy BMW-t, indulhat a gyökérkedés.
  • uwu2020 #2
    Hacsak nem a woke áradat indul meg igazán.
  • Kotomicuki #1
    ...akkor talán ezzel vége Hollywood gyászos leépülésének és végre esélyünk lesz újra minőségi filmeket kapni onnan... ;)