SG.hu
A világmodellek jelenthetik a következő nagy áttörést az MI fejlődésében
A mesterséges intelligencia fejlődése az elmúlt években a nyelvi modellek (LLM-ek) robbanásszerű terjedésével került a figyelem középpontjába. Az OpenAI, a Google vagy éppen Elon Musk xAI-ja által fejlesztett rendszerek képesek lettek szövegeket értelmezni és generálni, mégis egyre világosabb, hogy a növekedés üteme lassul. A technológiai világ vezető szereplői most új terület felé fordulnak: olyan „világmodellek” fejlesztéséhez, amelyek nemcsak szavakat és mondatokat értenek, hanem képesek a fizikai környezet megértésére és modellezésére is.
A Google DeepMind, a Meta és az Nvidia azok között a vállalatok között van, amelyek célja, hogy az MI-versenyben új szintre lépjenek. A nyelvi modellek korlátain túllépve videókból, robotikai adatokból és valós vagy szimulált környezetekből próbálják megtanítani a gépeket a világ működésére. Ez a törekvés nem csupán technológiai kíváncsiság: a piac potenciális értéke szinte akkora lehet, mint maga a globális gazdaság. Rev Lebaredian, az Nvidia Omniverse alelnöke szerint „lényegében 100 billió dollárnyi lehetőség rejlik abban, ha sikerül olyan intelligenciát létrehozni, amely képes megérteni a fizikai világot és abban működni.”
A világmodellek lényege, hogy a mesterséges intelligenciát ne csupán a digitális térben képezzék, hanem valóságközeli szimulációkban, amelyek hűen tükrözik a fizikai világ törvényszerűségeit. Ez teszi őket kulcsfontosságúvá az önvezető autók, a robotika vagy éppen a különféle MI-ügynökök fejlesztésében. Ugyanakkor komoly akadályokkal is szembe kell nézniük: a rendszerek tanításához óriási mennyiségű adat és elképesztő számítási kapacitás szükséges, így ma még megoldatlan technikai kihívásnak számítanak.
Az elmúlt hónapokban több áttörés is született. A Google DeepMind bemutatta a Genie 3-at, amely képes képkockáról képkockára videót generálni, miközben figyelembe veszi a korábbi interakciókat. Ez jelentős változás a korábbi modellekhez képest, amelyek egyszerre állították elő a teljes videót. "Az MI továbbra is nagyon korlátozott a digitális területen” - mondta Shlomi Fruchter, a projekt társvezetője. "De ha olyan környezetet építünk, amely hasonlóan viselkedik, mint a valós világ, sokkal skálázhatóbb módon képezhetjük a rendszert, anélkül, hogy a valóságban hibáznánk.”
A Meta más utat követ: azt próbálja modellezni, hogyan tanulnak a gyerekek a világ megfigyelésével. V-JEPA rendszerüket nyers videóanyagokkal képzik, így építve fel egyfajta vizuális tudást. Yann LeCun, a cég vezető MI-tudósa szerint az LLM-ek sosem lesznek képesek emberi szintű gondolkodásra és tervezésre. A Facebook AI Research laborban olyan hosszabb távú projekteken dolgoznak, amelyek új architektúrákat kísérleteznek ki - ezek közül a legújabbat robotokon is tesztelik. LeCun, akit gyakran az MI „keresztapjaként” emlegetnek, ennek az új iránynak az egyik legnagyobb szószólója.
A Meta vezére, Mark Zuckerberg eközben megerősítette a vállalat erőfeszítéseit: kiemelkedő tehetségeket toboroznak, hogy áttörést érjenek el a következő Llama modellekkel. Ennek részeként szerződtették Alexandr Wangot, a Scale AI alapítóját, aki most a cég összes MI-fejlesztését irányítja - és immár maga LeCun is neki jelent. A világmodellek közben már rövid távon is ígéretes alkalmazási területeket kínálnak, például a szórakoztatóiparban. Fei-Fei Li, az MI egyik legismertebb kutatója egy startup, a World Labs élén olyan rendszert fejleszt, amely egyetlen képből képes videojáték-szerű 3D-s környezetet generálni.
Egy másik példa a Runway, amely hollywoodi stúdiókkal - köztük a Lionsgate-tel - dolgozik együtt. Nemrég mutattak be egy olyan terméket, amely világmodelleket használ valós időben generált játékbeállítások, történetek és karakterek létrehozására. „A korábbi videógeneráló modellek pixelekből építkeztek, és csak imitálták a mozgást, de valójában nem értették, mi történik a jelenetben” - magyarázta Cristóbal Valenzuela, a Runway vezérigazgatója. Az új rendszerek viszont képesek a fizika törvényeinek figyelembevételével hiteles szimulációkat készíteni.
A világmodellekhez szükséges adatok megszerzésében is zajlik a verseny. A Niantic - a Pokémon Go fejlesztője - több mint tízmillió helyszínt térképezett fel, és a játék havi 30 millió felhasználójának aktivitásából gyűjt adatokat. Bár a céget időközben eladta a Scopelynek, a játékosok továbbra is névtelen adatokat szolgáltatnak közterületek beolvasásával, amelyek hozzájárulnak a világmodellek felépítéséhez. "Erősen indultunk a probléma megoldásában” - véli John Hanke, a cég vezérigazgatója.
Az Nvidia szintén élen jár ezen a téren. Omniverse platformjuk képes szimulációk létrehozására és futtatására, ezzel segítve a robotika fejlődését. Jensen Huang vezérigazgató szerint a vállalat következő nagy növekedési fázisa a „fizikai mesterséges intelligencia” eljöveteléhez kötődik, amely forradalmasíthatja az iparágat. Ugyanakkor LeCun óvatosságra int: szerinte akár egy évtized is eltelhet, mire a gépek emberi szintű intelligenciával működő világmodellekre támaszkodhatnak. Az MI új iránya tehát egyszerre ígér forradalmat és állít kihívásokat a kutatók elé. Ami biztos: a Google, a Meta, az Nvidia és társaik versenye nem csupán a digitális térben zajlik tovább, hanem a valóság törvényszerűségeinek meghódításáért is.
A Google DeepMind, a Meta és az Nvidia azok között a vállalatok között van, amelyek célja, hogy az MI-versenyben új szintre lépjenek. A nyelvi modellek korlátain túllépve videókból, robotikai adatokból és valós vagy szimulált környezetekből próbálják megtanítani a gépeket a világ működésére. Ez a törekvés nem csupán technológiai kíváncsiság: a piac potenciális értéke szinte akkora lehet, mint maga a globális gazdaság. Rev Lebaredian, az Nvidia Omniverse alelnöke szerint „lényegében 100 billió dollárnyi lehetőség rejlik abban, ha sikerül olyan intelligenciát létrehozni, amely képes megérteni a fizikai világot és abban működni.”
A világmodellek lényege, hogy a mesterséges intelligenciát ne csupán a digitális térben képezzék, hanem valóságközeli szimulációkban, amelyek hűen tükrözik a fizikai világ törvényszerűségeit. Ez teszi őket kulcsfontosságúvá az önvezető autók, a robotika vagy éppen a különféle MI-ügynökök fejlesztésében. Ugyanakkor komoly akadályokkal is szembe kell nézniük: a rendszerek tanításához óriási mennyiségű adat és elképesztő számítási kapacitás szükséges, így ma még megoldatlan technikai kihívásnak számítanak.
Az elmúlt hónapokban több áttörés is született. A Google DeepMind bemutatta a Genie 3-at, amely képes képkockáról képkockára videót generálni, miközben figyelembe veszi a korábbi interakciókat. Ez jelentős változás a korábbi modellekhez képest, amelyek egyszerre állították elő a teljes videót. "Az MI továbbra is nagyon korlátozott a digitális területen” - mondta Shlomi Fruchter, a projekt társvezetője. "De ha olyan környezetet építünk, amely hasonlóan viselkedik, mint a valós világ, sokkal skálázhatóbb módon képezhetjük a rendszert, anélkül, hogy a valóságban hibáznánk.”
A Meta más utat követ: azt próbálja modellezni, hogyan tanulnak a gyerekek a világ megfigyelésével. V-JEPA rendszerüket nyers videóanyagokkal képzik, így építve fel egyfajta vizuális tudást. Yann LeCun, a cég vezető MI-tudósa szerint az LLM-ek sosem lesznek képesek emberi szintű gondolkodásra és tervezésre. A Facebook AI Research laborban olyan hosszabb távú projekteken dolgoznak, amelyek új architektúrákat kísérleteznek ki - ezek közül a legújabbat robotokon is tesztelik. LeCun, akit gyakran az MI „keresztapjaként” emlegetnek, ennek az új iránynak az egyik legnagyobb szószólója.
A Meta vezére, Mark Zuckerberg eközben megerősítette a vállalat erőfeszítéseit: kiemelkedő tehetségeket toboroznak, hogy áttörést érjenek el a következő Llama modellekkel. Ennek részeként szerződtették Alexandr Wangot, a Scale AI alapítóját, aki most a cég összes MI-fejlesztését irányítja - és immár maga LeCun is neki jelent. A világmodellek közben már rövid távon is ígéretes alkalmazási területeket kínálnak, például a szórakoztatóiparban. Fei-Fei Li, az MI egyik legismertebb kutatója egy startup, a World Labs élén olyan rendszert fejleszt, amely egyetlen képből képes videojáték-szerű 3D-s környezetet generálni.
Egy másik példa a Runway, amely hollywoodi stúdiókkal - köztük a Lionsgate-tel - dolgozik együtt. Nemrég mutattak be egy olyan terméket, amely világmodelleket használ valós időben generált játékbeállítások, történetek és karakterek létrehozására. „A korábbi videógeneráló modellek pixelekből építkeztek, és csak imitálták a mozgást, de valójában nem értették, mi történik a jelenetben” - magyarázta Cristóbal Valenzuela, a Runway vezérigazgatója. Az új rendszerek viszont képesek a fizika törvényeinek figyelembevételével hiteles szimulációkat készíteni.
A világmodellekhez szükséges adatok megszerzésében is zajlik a verseny. A Niantic - a Pokémon Go fejlesztője - több mint tízmillió helyszínt térképezett fel, és a játék havi 30 millió felhasználójának aktivitásából gyűjt adatokat. Bár a céget időközben eladta a Scopelynek, a játékosok továbbra is névtelen adatokat szolgáltatnak közterületek beolvasásával, amelyek hozzájárulnak a világmodellek felépítéséhez. "Erősen indultunk a probléma megoldásában” - véli John Hanke, a cég vezérigazgatója.
Az Nvidia szintén élen jár ezen a téren. Omniverse platformjuk képes szimulációk létrehozására és futtatására, ezzel segítve a robotika fejlődését. Jensen Huang vezérigazgató szerint a vállalat következő nagy növekedési fázisa a „fizikai mesterséges intelligencia” eljöveteléhez kötődik, amely forradalmasíthatja az iparágat. Ugyanakkor LeCun óvatosságra int: szerinte akár egy évtized is eltelhet, mire a gépek emberi szintű intelligenciával működő világmodellekre támaszkodhatnak. Az MI új iránya tehát egyszerre ígér forradalmat és állít kihívásokat a kutatók elé. Ami biztos: a Google, a Meta, az Nvidia és társaik versenye nem csupán a digitális térben zajlik tovább, hanem a valóság törvényszerűségeinek meghódításáért is.