SG.hu

Szövegből generál videót az OpenAI új eszköze

A mesterséges intelligencia vezető vállalata, az OpenAI bemutatta a Sora nevű új MI-modellt, amely állítása szerint szöveges utasításokból 60 másodperces "valósághű" és "fantáziadús" videókat készít.

A mai blogbejegyzésben a vállalat azt írja, hogy a Sora képes akár 60 másodperces fotorealisztikus videókat is létrehozni szöveges utasításokból, és képes "összetett jelenetek létrehozására több szereplővel, meghatározott típusú mozgással, valamint a téma és a háttér pontos részleteivel". A vállalat azt is megjegyzi, hogy a modell képes megérteni, hogy a tárgyak "hogyan léteznek a fizikai világban", valamint "pontosan értelmezi a kellékeket és lenyűgöző karaktereket generál, amelyek élénk érzelmeket fejeznek ki". A modell nemcsak azt érti meg, hogy a felhasználó mit kért a promptban, hanem azt is, hogy ezek a dolgok hogyan léteznek a fizikai világban" - áll a blogbejegyzésben. Az OpenAI a mesterséges intelligenciamodellt úgy kívánja betanítani, hogy azok "segíthessenek az embereknek a valós világbeli interakciót igénylő problémák megoldásában".

A modell képes állókép alapján videót generálni, valamint egy meglévő videón hiányzó képkockákat kitölteni vagy bővíteni. Az OpenAI blogbejegyzésében szereplő, Sora által generált demók között szerepel többek között egy légi jelenet Kaliforniáról az aranyláz idején, és egy olyan videó, amely úgy néz ki, mintha egy tokiói vonat belsejéből vették volna fel. Sokukban felfedezhetőek a mesterséges intelligencia árulkodó jelei - például egy múzeumról készült videóban a gyanúsan mozgó padló -, és az OpenAI szerint a modell "küzdhet a komplex jelenetek fizikájának pontos szimulálásával", de az eredmények összességében elég lenyűgözőek.


A lépéssel a ChatGPT mögött álló cég bebizonyította, hogy továbbra is ők állnak a generatív MI mozgalom élén, mert bár a "multimodális modellek" nem újdonságok, és szöveg-videó modellek már léteznek, Reece Hayden, az ABI Research piackutató cég vezető elemzője szerint a Sora által készített anyagok hossza és pontossága egyedülálló. Hayden szerint az ilyen típusú MI-modellek nagy hatással lehetnek a digitális szórakoztatóipari piacokra az új, személyre szabott tartalmak létrehozásával. "Az egyik nyilvánvaló felhasználási terület a televíziózáson belül van; rövid jelenetek létrehozása a narratívák támogatására" - mondta Hayden. "A modell ugyan még korlátozott, de mutatja a piac irányát".


Az OpenAI kiemeli, hogy a Sora egy fejlesztés alatt álló eszköz, amelynek egyértelmű gyengeségei vannak, különösen, amikor egy felszólítás térbeli részleteiről van szó, például a bal és a jobb oldal összekeverése és az ok-okozatiság. Példaként a cég azt hozta fel, hogy lehet olyan videót lehet készíteni, amelyen valaki beleharap egy sütibe, de közvetlenül utána nincs harapásnyom. Az OpenAI üzenetei egyelőre továbbra is a biztonságra összpontosítanak: a vállalat egy szakértői csapattal teszteli a modellt, és alaposan megvizsgálja a különböző területeket, köztük a félretájékoztatást, a gyűlöletkeltő tartalmakat és az elfogultságot. A vállalat elmondta, hogy olyan eszközöket is fejleszt, amelyek segítenek a félrevezető információk felismerésében.

Néhány évvel ezelőtt a Midjourney-hez hasonló szöveg-kép generátorok voltak az élen, az utóbbi időben azonban a mozgókép is figyelemre méltó ütemben kezdett fejlődni: az olyan cégek, mint a Runway és a Pika saját, lenyűgöző szövegből videót készítő modelleket mutattak be, és a Google Lumiere-je az OpenAI egyik fő versenytársa lesz ezen a téren is. A Sora először a kiberbiztonsági szakértők számára lesz elérhető, akik értékelhetik a terméket ártalmak és kockázatok szempontjából. Emellett hozzáférést biztosít számos képzőművésznek, tervezőnek és filmkészítőnek, hogy visszajelzéseket gyűjtsenek arról, hogyan használhatnák a kreatív szakemberek.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • kvp #5
    Az a gond, hogy az elfogadhato eredmeny ellenere elegge random a tartalom es nagyon sokszor megfoghato az eredeti forrasanyagbol 1:1-ben atvett reszek. Ha atallnak a teljes volumetrikus 3D modellek generalasara, akkor legalabb a reszletek integritasa meglesz, kb. mint egy random generalt jatekvilagban, lasd roguelike-ok az 1980-as evek ota. (az egyik legismertebb ebbol a diablo sorozat)

    "A többség virtuális világban fog élni még jobban, mint most. A számítógép-generálta egyenéreszabott univerzumokban VR és egyéb technikákkal fognak barangolni/elveszni az emberek."

    Ok, de kozosseg nelkul csak egy single player minecraft vilagrol beszelunk. Erdekes, de azert hosszu tavon nagyon nagyon unalmas. Kozosseggel mar mas a helyzet, de attol ha valaki jatszik, meg a valodi vilagban nem tortenik semmi, marpedig ha mindenki abbahagyja a munkat, akkor jelenleg meg eleg hamar megall a vilagunk. (marmint a valodi) Ha meg egyszer nem lesz szukseg emberi munkara, akkor nem valoszinu, hogy a nagytokesek eletben hagyjak az emberiseg folosleges reszet. Az igavono lovakat sem tenyesztettek tovabb amikor levaltotta oket a gozgep es a tobbi talalmany. Valahol lennie kell egy egyensulynak, kulonben nem lesz stabil (eletkepes) a jelen gazdasagi/politikai rendszer.
  • Tetsuo #4
    A többség virtuális világban fog élni még jobban, mint most. A számítógép-generálta egyenéreszabott univerzumokban VR és egyéb technikákkal fognak barangolni/elveszni az emberek.
  • Seth #3
    Félelmetes. Eljön az idő, amikor már senkinek nem lesz munkája, ha fimről, zenéről van bármilyen art-ról legyen szó. Mindenki ezeket a fake cuccokat fogja nézni és ez elszomorító
  • MerlinW #2
    Olyan sokat azért nem kell válogatni. Próbáld ki az SVD-t, az ingyen van, csodálkozni fogsz milyen konzisztens megfelelő prompt esetén, és Sora két lépéssel előtte van.
  • Tetsuo #1
    A kaliforniai táj az aranyláz idején k*rvajól néz ki. Viszont ezek nem átlagosan a Sorából kiesett videók, hanem gondos válogatás eredménye.
    Nem véletlen, hogy a videók sokkal könnyebben hozzáférhetőbbek, mint maga a próbálkozás.