SG.hu

Tíz hónappal bemutatása után az OpenAI hozzáférhetővé tette a Sora videógeneráló modellt

Az OpenAI kiadta a Sora Turbót, a szövegből videót generáló modelljének új verzióját, és egy külön erre a célra létrehozott weboldalon keresztül elérhetővé tette a ChatGPT Plus és Pro előfizetők számára. A modell akár 20 másodperces videókat generál akár 1080 p felbontásban szöveges vagy képi utasítások alapján.

Az Open AI bejelentette, hogy elérhetővé tette a Sora-t a ChatGPT Plus és Pro előfizetők számára az Egyesült Államokban és a világ számos részén - Európában még nem érhető el. Az OpenAI óvatosságból egyelőre korlátozza a Sora azon képességét, hogy emberekről készítsen videókat. Az induláskor az emberi alanyokat érintő feltöltések korlátozás alá esnek, amíg az OpenAI finomítja a deepfake megelőzési rendszereit. A platform blokkolja a gyerekpornó gyanús anyagokat és a szexuális deepfake-et tartalmazó tartalmakat is. Az OpenAI azt mondja, hogy aktív monitoring rendszert tart fenn, és teszteléseket végzett a potenciális visszaélési forgatókönyvek azonosítása érdekében a megjelenés előtt.

Februári bemutatásakor a Sora viszonylag jó minőségű kimenettel lepte meg a mesterséges intelligencia szakértőket, az azóta eltelt hónapokban azonban a versenytársak különböző videószintetizáló modelljei - például a Google Veo, a Runway Gen-3 Alpha, a Kling, a Minimax és a Hunyuan Video nevű, nemrég megjelent modell - elhalványították a Sora sikerét. Addig is, az OpenAI számára fontos mérföldkő, hogy végre publikussá tette a várva várt videomodelljét. A Sora lehetővé teszi a felhasználók számára, hogy többféle képarányban készítsenek videókat, és olyan funkciókat tartalmaz, amelyekkel a meglévő eszközök keverhetők az MI által generált tartalommal. Az OpenAI szerint a Sora Turbo gyorsabban dolgozza fel a videó-generálási kéréseket, mint a 2024 februárjában bemutatott kutatási verzió előzetese.

A ChatGPT Plus előfizetők (20 dollár/hó) havonta legfeljebb 50 videót hozhatnak létre 480p felbontásban, de lehetőség van kevesebb videó 720p minőségben történő létrehozására is. A Pro előfizetők (200 dollár/hó) kibővített képességeket kapnak, beleértve a nagyobb felbontási lehetőségeket és a hosszabb időtartamú videókat. Az OpenAI azt tervezi, hogy 2025 elején speciális árszinteket vezet be.


Az OpenAI fejlesztői bemutatták az új „Explore” felületet, amely lehetővé teszi, hogy az emberek mások által generált videók között böngészhessenek, hogy ösztönző ötleteket kapjanak. Az OpenAI szerint bárki ingyenesen élvezheti az „Explore” feed megtekintését, de a videók generálása előfizetést igényel. Bemutatták a „Storyboard” nevű új funkciót is, amely lehetővé teszi a felhasználók számára, hogy több műveletet tartalmazó videót rendezzenek képkockánként. Az OpenAI közzétette a Sora rendszerkártyáját is, mely technikai részleteket tartalmaz a modell működéséről és a biztonsági tesztekről, amelyeket a vállalat a kiadást megelőzően végzett.

„Míg az LLM-ek szöveges tokenekkel rendelkeznek, a Sora vizuális foltokkal rendelkezik” - írja az OpenAI, és az új képzési darabokat úgy jellemzi, mint ”a vizuális adatok modelljeinek hatékony reprezentációját. Magas szinten a videókat úgy alakítjuk foltokká, hogy először a videókat egy alacsonyabb dimenziós látens térbe tömörítjük, majd a reprezentációt időfoltokra bontjuk”. A Sora emellett egy - a DALL-E 3 képgenerálásában látott technikához hasonló - „feliratozási technikát” is alkalmaz, hogy „leíró feliratokat generáljon a vizuális képzési adatokhoz”. Ez lehetővé teszi, hogy a Sora „hűségesebben kövesse a felhasználó szöveges utasításait a generált videóban” - írja az OpenAI.


Az OpenAI több biztonsági intézkedést is bevezetett a kiadásban. A platform C2PA metaadatokat ágyaz be minden generált videóba az azonosítás és a származás ellenőrzése érdekében. A videók alapértelmezés szerint látható vízjeleket jelenítenek meg, az OpenAI pedig belső keresőeszközt fejlesztett ki a Sora által generált tartalmak ellenőrzésére.

A vállalat elismerte a jelenlegi kiadás technikai korlátait. „A Sora e korai verziója hibákat fog elkövetni, nem tökéletes” - mondta az egyik fejlesztő a bejelentés során A modell állítólag küszködik a fizika-szimulációkkal és a hosszabb ideig tartó, összetett akciókkal. A múltban már láttuk, hogy az ilyen típusú korlátok azon alapulnak, hogy milyen példavideókat használtak az MI-modellek betanításához. Az MI-videószintetizáló modellek jelenlegi generációja nehezen hoz létre igazán új dolgokat, de az alapul szolgáló architektúra kiválóan képes a meglévő fogalmak új bemutatókká alakítására.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
Nem érkezett még hozzászólás. Legyél Te az első!