SG.hu

A világmodellek jelenthetik a következő nagy áttörést az MI fejlődésében

A mesterséges intelligencia fejlődése az elmúlt években a nyelvi modellek (LLM-ek) robbanásszerű terjedésével került a figyelem középpontjába. Az OpenAI, a Google vagy éppen Elon Musk xAI-ja által fejlesztett rendszerek képesek lettek szövegeket értelmezni és generálni, mégis egyre világosabb, hogy a növekedés üteme lassul. A technológiai világ vezető szereplői most új terület felé fordulnak: olyan „világmodellek” fejlesztéséhez, amelyek nemcsak szavakat és mondatokat értenek, hanem képesek a fizikai környezet megértésére és modellezésére is.

A Google DeepMind, a Meta és az Nvidia azok között a vállalatok között van, amelyek célja, hogy az MI-versenyben új szintre lépjenek. A nyelvi modellek korlátain túllépve videókból, robotikai adatokból és valós vagy szimulált környezetekből próbálják megtanítani a gépeket a világ működésére. Ez a törekvés nem csupán technológiai kíváncsiság: a piac potenciális értéke szinte akkora lehet, mint maga a globális gazdaság. Rev Lebaredian, az Nvidia Omniverse alelnöke szerint „lényegében 100 billió dollárnyi lehetőség rejlik abban, ha sikerül olyan intelligenciát létrehozni, amely képes megérteni a fizikai világot és abban működni.”

A világmodellek lényege, hogy a mesterséges intelligenciát ne csupán a digitális térben képezzék, hanem valóságközeli szimulációkban, amelyek hűen tükrözik a fizikai világ törvényszerűségeit. Ez teszi őket kulcsfontosságúvá az önvezető autók, a robotika vagy éppen a különféle MI-ügynökök fejlesztésében. Ugyanakkor komoly akadályokkal is szembe kell nézniük: a rendszerek tanításához óriási mennyiségű adat és elképesztő számítási kapacitás szükséges, így ma még megoldatlan technikai kihívásnak számítanak.


Az elmúlt hónapokban több áttörés is született. A Google DeepMind bemutatta a Genie 3-at, amely képes képkockáról képkockára videót generálni, miközben figyelembe veszi a korábbi interakciókat. Ez jelentős változás a korábbi modellekhez képest, amelyek egyszerre állították elő a teljes videót. "Az MI továbbra is nagyon korlátozott a digitális területen” - mondta Shlomi Fruchter, a projekt társvezetője. "De ha olyan környezetet építünk, amely hasonlóan viselkedik, mint a valós világ, sokkal skálázhatóbb módon képezhetjük a rendszert, anélkül, hogy a valóságban hibáznánk.”

A Meta más utat követ: azt próbálja modellezni, hogyan tanulnak a gyerekek a világ megfigyelésével. V-JEPA rendszerüket nyers videóanyagokkal képzik, így építve fel egyfajta vizuális tudást. Yann LeCun, a cég vezető MI-tudósa szerint az LLM-ek sosem lesznek képesek emberi szintű gondolkodásra és tervezésre. A Facebook AI Research laborban olyan hosszabb távú projekteken dolgoznak, amelyek új architektúrákat kísérleteznek ki - ezek közül a legújabbat robotokon is tesztelik. LeCun, akit gyakran az MI „keresztapjaként” emlegetnek, ennek az új iránynak az egyik legnagyobb szószólója.

A Meta vezére, Mark Zuckerberg eközben megerősítette a vállalat erőfeszítéseit: kiemelkedő tehetségeket toboroznak, hogy áttörést érjenek el a következő Llama modellekkel. Ennek részeként szerződtették Alexandr Wangot, a Scale AI alapítóját, aki most a cég összes MI-fejlesztését irányítja - és immár maga LeCun is neki jelent. A világmodellek közben már rövid távon is ígéretes alkalmazási területeket kínálnak, például a szórakoztatóiparban. Fei-Fei Li, az MI egyik legismertebb kutatója egy startup, a World Labs élén olyan rendszert fejleszt, amely egyetlen képből képes videojáték-szerű 3D-s környezetet generálni.

Egy másik példa a Runway, amely hollywoodi stúdiókkal - köztük a Lionsgate-tel - dolgozik együtt. Nemrég mutattak be egy olyan terméket, amely világmodelleket használ valós időben generált játékbeállítások, történetek és karakterek létrehozására. „A korábbi videógeneráló modellek pixelekből építkeztek, és csak imitálták a mozgást, de valójában nem értették, mi történik a jelenetben” - magyarázta Cristóbal Valenzuela, a Runway vezérigazgatója. Az új rendszerek viszont képesek a fizika törvényeinek figyelembevételével hiteles szimulációkat készíteni.

A világmodellekhez szükséges adatok megszerzésében is zajlik a verseny. A Niantic - a Pokémon Go fejlesztője - több mint tízmillió helyszínt térképezett fel, és a játék havi 30 millió felhasználójának aktivitásából gyűjt adatokat. Bár a céget időközben eladta a Scopelynek, a játékosok továbbra is névtelen adatokat szolgáltatnak közterületek beolvasásával, amelyek hozzájárulnak a világmodellek felépítéséhez. "Erősen indultunk a probléma megoldásában” - véli John Hanke, a cég vezérigazgatója.

Az Nvidia szintén élen jár ezen a téren. Omniverse platformjuk képes szimulációk létrehozására és futtatására, ezzel segítve a robotika fejlődését. Jensen Huang vezérigazgató szerint a vállalat következő nagy növekedési fázisa a „fizikai mesterséges intelligencia” eljöveteléhez kötődik, amely forradalmasíthatja az iparágat. Ugyanakkor LeCun óvatosságra int: szerinte akár egy évtized is eltelhet, mire a gépek emberi szintű intelligenciával működő világmodellekre támaszkodhatnak. Az MI új iránya tehát egyszerre ígér forradalmat és állít kihívásokat a kutatók elé. Ami biztos: a Google, a Meta, az Nvidia és társaik versenye nem csupán a digitális térben zajlik tovább, hanem a valóság törvényszerűségeinek meghódításáért is.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • inkvisitor #2
    Az MI modellek nagyon energiaéhesek, tehár emberi kisegítés nélkül nem életképes. Szuicid hajlmú MI veszélyes.
  • kvp #1
    Valoszinuleg tudjak a kutatok is, hogy nem szo alapu modellre van szukseg hanem fogalom alapura. Eppen azt kutatjak, hogy milyen modon lehetne fogalmakbol tudast epiteni, csak eppen ontanulo ("emergens") modon. Ez nagyon jo, de ha sikerul is valamit letrehozni, akkor nem fogjuk erteni, hogy hogyan gondolkodik, sot azt sem hogyan mukodik. Egy altalanos, emberi szintu logikaval es ontudattal rendelkezo, de ember feletti tudassal rendelkezo, kvazi halhatatlan tudatot letrehozni pedig nagyon veszelyes. Ertem, hogy sok penz lehet benne, vagy tomeges kihalasi esemeny, de ugy latszik a vilag vezeto nagytokesei vallaljak a kockazatot az emberiseg neveben.