Sg.hu - A szöveg alapján generált videó a következő nagy technológiai ugrás

2023. április 06. 9:33, csütörtök

SG.hu

A szöveg alapján generált videó a következő nagy technológiai ugrás

Számos cég dolgozik azon, hogy az emberek néhány szó megadásával videókat generálhassanak.

Pár napja a közösségi médiaszolgáltatások hemzsegtek a Ferenc pápát fehér Balenciaga pufikabátban ábrázoló képektől - meglepően trendi öltözék egy 86 éves pápától. A képek azonban nem voltak valódiak. Egy 31 éves chicagói építőmunkás hozta azokat létre a Midjourney nevű mesterséges intelligencia eszközzel. Phillip Isola, a Massachusetts Institute of Technology professzora a mesterséges intelligenciára specializálódott, és éveket töltött az ilyen jellegű technológiák fejlesztésével és tesztelésével, mégis becsapták az éles, nagy felbontású, de teljesen hamis képek Ferenc pápáról. "Volt idő, amikor az emberek deepfake fotókat posztoltak és azok nem tudtak becsapni, mert annyira elrugaszkodottak voltak vagy nem voltak túl valósághűek" - mondta. "De most már nem vehetjük készpénznek az interneten látott képeket".

A Midjourney egyike a sok olyan szolgáltatásnak, amely képes egy rövid leírásból valósághű állóképeket generálni. A Stable Diffusion és a DALL-E egy évvel ezelőtti bemutatása elindította a fotógenerátorok hullámát. A Midjourney egy neurális hálózatra támaszkodik, amely hatalmas mennyiségű adat elemzése révén tesz szert a képességeire. Mintákat keres, miközben átfésüli a digitális képek millióit, valamint a képekhez mellékelt szöveges feliratokat. Amikor valaki leír egy képet a rendszer számára, a rendszer létrehoz egy listát azokról a jellemzőkről, amelyeket a kép tartalmazhat. Az egyik jellemző lehet egy kutya fülének tetején lévő ív. Egy másik lehet egy mobiltelefon széle. Ezután egy másik neurális hálózat, az úgynevezett diffúziós modell létrehozza a képet, kirajzolja a jellemzőkhöz szükséges pixeleket. Végül a pixeleket összefüggő képpé alakítja át.

"Egy videó nem más, mint képkockák - állóképek - sorozata, amelyeket úgy kombinálunk, hogy a mozgás illúzióját keltsük" - szögezi le Cristóbal Valenzuela, egy manhatteni startup, a Runway alapítója. "A trükk egy olyan modell betanításában rejlik, amely megérti az egyes képkockák közötti kapcsolatot és koherenciát." Ha a Runway nevű New York-i startup szoftverébe begépeljük, hogy "egy nyugodt folyó az erdőben", akkor pár perc múlva egy generált rövid videót láthatunk egy nyugodt folyóról egy erdőben.

A Runway a héten tervezi megnyitni szolgáltatását a tesztelők egy kis csoportja előtt, és ők csak egyike annak a számos vállalatnak, amelyek olyan mesterséges intelligencia technológiát fejlesztenek, amely hamarosan lehetővé teszi, hogy az emberek videókat generáljanak egyszerűen azzal, hogy néhány szót beírnak egy szövegdobozba a számítógép képernyőjén. A technológia következő nagy dobásáért zajló versenyben olyan óriások is részt vesznek, mint a Microsoft és a Google, de a sokkal kisebb startupok sincsenek leírva. Az általuk létrehozott újfajta mesterséges intelligencia-rendszerek egyesek szerint olyan fontosak, mint a webböngészők vagy az iPhone megjelenése volt.

Az új videógeneráló rendszerek felgyorsíthatják a filmesek és más digitális művészek munkáját, miközben új és gyors módját jelenthetik a nehezen felderíthető online félretájékoztatásnak, ami még nehezebbé teszi annak megállapítását mi a valóság. A Google és a Meta tavaly mutatta be az első videógeneráló rendszereit, de azokat nem osztották meg a nyilvánossággal, mert attól tartottak, hogy általuk újdonsült gyorsasággal és hatékonysággal dezinformációkat fognak terjeszteni. A Runway vezérigazgatója, Cristóbal Valenzuela azonban úgy véli, hogy a technológia túl fontos ahhoz, hogy a kockázatok ellenére egy kutatólaborban tartsák. "Ez az egyik leglenyűgözőbb technológia, amelyet az elmúlt száz évben építettünk" - mondta. "Szükség van arra, hogy az emberek ténylegesen használják."

A filmek szerkesztésének és manipulálásának képessége természetesen nem újdonság. A rendezők és vágók már több mint egy évszázada csinálják ezt. Az utóbbi években a kutatók és a digitális művészek különböző mesterséges intelligencia technológiákat és szoftverprogramokat használtak a deepfake videóknak nevezett anyagok létrehozására és szerkesztésére. A videók mindössze néhány másodperc hosszúak, és a mozgókép darabos és elmosódott. Néha a képek furcsák, torzak és zavaróak. Előfordul, hogy a rendszer összeolvaszt olyan állatokat, mint a kutya és macska olyan élettelen tárgyakkal, mint egy labda vagy egy mobiltelefon. De megfelelő parancsok hatására olyan videókat készít, hogy leesik tőle az ember álla. "Jelenleg, ha látok egy nagy felbontású videót, valószínűleg megbízom benne" - jelentette ki Phillip Isola. "De ez elég gyorsan meg fog változni".

Más generatív MI-technológiákhoz hasonlóan a Runway rendszere is digitális adatok - jelen esetben fényképek, videók és a képek tartalmát leíró feliratok - elemzésével tanul. Azáltal, hogy ezt a fajta technológiát egyre nagyobb adatmennyiségen képzik ki, a kutatók biztosak abban, hogy gyorsan javíthatják és bővíthetik a képességeit. A szakértők szerint hamarosan professzionálisnak tűnő minifilmeket fognak készíteni, zenével és párbeszéddel kiegészítve. Jelenleg nehéz meghatározni, hogy mit hoz létre a rendszer, hiszen nem egy állóképet, de nem is filmet látunk, hanem leginkább egy sok pixelből álló gyűjteményt, amelyet összevegyítettek, hogy egy valósághű videót hozzanak létre. A vállalat azt tervezi, hogy technológiáját más eszközökkel együtt kínálja majd, amelyekkel meggyőződése szerint felgyorsítja a profi művészek munkáját.

A ChatGPT miatt híressé vált OpenAI is hozott már ki hasonló technológiát, amely képes állóképeket generálni rövid kérésekből, az MI-generált fotók fejlődése pedig megmutatja merre tart az új videotechnológia. A Runway alapítói úgy vélik, hogy annak ellenére, hogy fennáll annak a veszélye, hogy a videók előállítására szolgáló technológia segít az álhírek terjesztésében, új mesterséges intelligenciájuk áldás lehet a filmkészítők számára. A Runway a Slack azonnali üzenetküldő szolgáltatáson keresztül kínálja technológiáját. A videók létrehozásához a felhasználók egyszerűen beírják a rövid leírást, mintha csak egy gyors jegyzetet írnának. A cég mindössze 40 alkalmazottat foglalkoztat és eddig 95,5 millió dollárt gyűjtött.

Az olyan eszközök korai változataihoz hasonlóan, mint a DALL-E és a Midjourney, a technológia néha furcsa módon kombinálja a fogalmakat és a képeket. Ha egy kosárlabdázó plüssmacit kérünk, a program egyfajta mutáns plüssállatot adhat, amelynek kosárlabda a keze. Ha egy mobiltelefonnal rendelkező kutyát kérsz a parkban, akkor lehet, hogy egy mobiltelefonnal hadonászó kölyökkutyát kapsz, amelynek teste furcsán emberi. A szakértők azonban úgy vélik, hogy ki tudják javítani a hibákat, ahogy egyre több és több adaton edzik a rendszerüket. A remények szerint a technológia végül olyan egyszerűvé teszi majd egy videó elkészítését, mint egy mondat megírását. "A régi időkben ahhoz, hogy bármi ilyesmit is csináljunk, kellett egy kamera. Kellékekre volt szükséged. Szükség volt egy helyszínre. Engedélyt kellett szerezned. Pénz kellett hozzá. Most már semmi ilyesmire nincs szükség. Csak leülsz és elképzeled."

Informatika és tudomány

A szöveg alapján generált videó a következő nagy technológiai ugrás

Hozzászólások

Bejelentkezés