SG.hu
Egy fotóból 3D jelenetet generál a World Labs mesterséges intelligenciája
A World Labs, a Fei-Fei Li, a mesterséges intelligencia úttörő által alapított startup bemutatta első projektjét: egy olyan mesterséges intelligencia rendszert, amely egyetlen képből videojáték-szerű, 3D-s jeleneteket képes generálni.
Rengeteg AI-rendszer képes egy fotót 3D-s modellekké és környezetekké alakítani. A World Labs jelenetei azonban egyedülállóak abban, hogy interaktívak - és módosíthatók. "A technológiánk lehetővé teszi, hogy bármelyik képbe belépjünk, és 3D-ben fedezzük fel azt” - írta a World Labs egy blogbejegyzésben. „A bemeneti képen túl minden generálódik”. A mesterséges intelligencia által generált jeleneteket bárki, aki rendelkezik billentyűzettel és egérrel, felfedezhet a World Labs weboldalán található demóban. Ezek lenyűgözően, habár kissé karikatúraszerűen néznek ki. Élőben renderelik őket a böngészőben, és vezérelhető kamerával rendelkeznek, állítható szimulált mélységélességgel (DoF). Minél erősebb a DoF-effektus, annál elmosódottabbnak tűnnek a háttérben lévő tárgyak.
A World Labs rendszere a mesterséges intelligencia egy feltörekvő kategóriájának, az úgynevezett „világmodelleknek” a része. Számos ilyen modell képes szimulálni a játékokat és a 3D-s környezeteket - de képi hibákkal és konzisztenciaproblémákkal. Például a Decart startup cég Minecraftot szimuláló világmodellje, az Oasis alacsony felbontású, és gyorsan „elfelejti” a szintek elrendezését. Ezzel szemben a World Labs megközelítése biztosítja, hogy a jelenetek változatlanok maradnak, ha egyszer már generálták őket, és hogy a fizika alapvető törvényeinek engedelmeskednek, vagyis szilárdságérzetük és mélységük van.
A World Labs rendszere interaktív effekteket és animációkat is képes alkalmazni a jelenetekre, például megváltoztathatja a tárgyak színét és dinamikusan megvilágíthatja a hátteret. "A legtöbb generatív MI-eszköz 2D-s tartalmakat, például képeket vagy videókat készít” - írja a World Labs. „A 3D-ben történő generálás ehelyett javítja az ellenőrzést és a következetességet. Ez meg fogja változtatni azt, ahogyan filmeket, játékokat, szimulátorokat és a fizikai világunk más digitális megnyilvánulásait készítjük.” "Már képesek vagyunk virtuális, interaktív világok létrehozására, de ez több száz millió dollárba és rengeteg fejlesztési időbe kerül” - mondta Justin Johnson, a World Labs társalapítója az a16z podcast egyik legutóbbi epizódjában. "A világmodellek lehetővé teszik, hogy ne csak egy képet vagy egy klipet adjunk ki, hanem egy teljesen szimulált, vibráló és interaktív 3D-s világot."
Nos, természetesen van még hova fejlődni. A World Labs jelenetei nem teljesen felfedezhetőek - a mozgásunk egy kis területre korlátozódik. (Próbálj meg azon kívül mozogni, és máris korlátokba ütközöl.) És néha előfordulnak renderelési hibák is, például olyan tárgyak, amelyek természetellenes módon keverednek össze. De a World Labs szerint ez csak egy „korai előzetes”. "Keményen dolgozunk a generált világaink méretének és hűségének javításán, és új módszerekkel kísérletezünk, hogy a felhasználók interakcióba léphessenek velük” - írja a startup a blogban.
Az év elején indult World Labs eddig 230 millió dollár kockázati tőkét gyűjtött be olyan befektetőktől, mint Andreessen Horowitz (a16z), Ashton Kutcher, az Intel Capital, az AMD Ventures és Eric Schmidt. A több mint 1 milliárd dollárra értékelt vállalat azt reméli, hogy 2025-re elkészül az első termékével. Az interaktív jeleneteken túl a World Labs olyan eszközök készítését tervezi, amelyek olyan szakemberek számára lehetnek hasznosak, mint a művészek, tervezők, fejlesztők, filmkészítők és mérnökök. A célközönség a videojáték-fejlesztőktől a filmstúdiókig terjed.
Rengeteg AI-rendszer képes egy fotót 3D-s modellekké és környezetekké alakítani. A World Labs jelenetei azonban egyedülállóak abban, hogy interaktívak - és módosíthatók. "A technológiánk lehetővé teszi, hogy bármelyik képbe belépjünk, és 3D-ben fedezzük fel azt” - írta a World Labs egy blogbejegyzésben. „A bemeneti képen túl minden generálódik”. A mesterséges intelligencia által generált jeleneteket bárki, aki rendelkezik billentyűzettel és egérrel, felfedezhet a World Labs weboldalán található demóban. Ezek lenyűgözően, habár kissé karikatúraszerűen néznek ki. Élőben renderelik őket a böngészőben, és vezérelhető kamerával rendelkeznek, állítható szimulált mélységélességgel (DoF). Minél erősebb a DoF-effektus, annál elmosódottabbnak tűnnek a háttérben lévő tárgyak.
A World Labs rendszere a mesterséges intelligencia egy feltörekvő kategóriájának, az úgynevezett „világmodelleknek” a része. Számos ilyen modell képes szimulálni a játékokat és a 3D-s környezeteket - de képi hibákkal és konzisztenciaproblémákkal. Például a Decart startup cég Minecraftot szimuláló világmodellje, az Oasis alacsony felbontású, és gyorsan „elfelejti” a szintek elrendezését. Ezzel szemben a World Labs megközelítése biztosítja, hogy a jelenetek változatlanok maradnak, ha egyszer már generálták őket, és hogy a fizika alapvető törvényeinek engedelmeskednek, vagyis szilárdságérzetük és mélységük van.
A World Labs rendszere interaktív effekteket és animációkat is képes alkalmazni a jelenetekre, például megváltoztathatja a tárgyak színét és dinamikusan megvilágíthatja a hátteret. "A legtöbb generatív MI-eszköz 2D-s tartalmakat, például képeket vagy videókat készít” - írja a World Labs. „A 3D-ben történő generálás ehelyett javítja az ellenőrzést és a következetességet. Ez meg fogja változtatni azt, ahogyan filmeket, játékokat, szimulátorokat és a fizikai világunk más digitális megnyilvánulásait készítjük.” "Már képesek vagyunk virtuális, interaktív világok létrehozására, de ez több száz millió dollárba és rengeteg fejlesztési időbe kerül” - mondta Justin Johnson, a World Labs társalapítója az a16z podcast egyik legutóbbi epizódjában. "A világmodellek lehetővé teszik, hogy ne csak egy képet vagy egy klipet adjunk ki, hanem egy teljesen szimulált, vibráló és interaktív 3D-s világot."
Nos, természetesen van még hova fejlődni. A World Labs jelenetei nem teljesen felfedezhetőek - a mozgásunk egy kis területre korlátozódik. (Próbálj meg azon kívül mozogni, és máris korlátokba ütközöl.) És néha előfordulnak renderelési hibák is, például olyan tárgyak, amelyek természetellenes módon keverednek össze. De a World Labs szerint ez csak egy „korai előzetes”. "Keményen dolgozunk a generált világaink méretének és hűségének javításán, és új módszerekkel kísérletezünk, hogy a felhasználók interakcióba léphessenek velük” - írja a startup a blogban.
Az év elején indult World Labs eddig 230 millió dollár kockázati tőkét gyűjtött be olyan befektetőktől, mint Andreessen Horowitz (a16z), Ashton Kutcher, az Intel Capital, az AMD Ventures és Eric Schmidt. A több mint 1 milliárd dollárra értékelt vállalat azt reméli, hogy 2025-re elkészül az első termékével. Az interaktív jeleneteken túl a World Labs olyan eszközök készítését tervezi, amelyek olyan szakemberek számára lehetnek hasznosak, mint a művészek, tervezők, fejlesztők, filmkészítők és mérnökök. A célközönség a videojáték-fejlesztőktől a filmstúdiókig terjed.