A Google Gemini pánikba esett Pokémon játék közben

Az MI-vállalatok az iparágban való dominanciaért küzdenek, de néha Pokémon edzőtermekben is megmérkőznek egymással.

A Google és az Anthropic egyaránt vizsgálja hogyan navigálnak legújabb MI-modelleik a régi Pokémon-játékokban, és az eredmények ugyanolyan szórakoztatóak, mint tanulságosak. Ezúttal a Google DeepMind egy jelentésben azt írta le, hogy a Gemini 2.5 Pro pánikba esik, amikor Pokémonjai a halál közelébe kerülnek. A jelentés szerint az MI teljesítményében „minőségileg megfigyelhető romlást jelent meg a modell érvelési képességében”.

Az MI benchmarking - vagyis a különböző modellek teljesítményének összehasonlítása - egy kétes művészet, amely gyakran kevés kontextust nyújt egy adott modell tényleges képességeiről. De egyes kutatók úgy gondolják, hogy az MI modellek videojátékokkal való játékának tanulmányozása hasznos lehet (vagy legalábbis vicces). Az elmúlt néhány hónapban két, a Google-től és az Anthropic-tól független fejlesztő létrehozta a „Gemini Plays Pokémon” és a „Claude Plays Pokémon” nevű Twitch-csatornákat, ahol bárki valós időben nézheti, ahogy egy MI megpróbál végigjátszani egy több mint 25 éves videójátékot.

Mindkét stream megmutatja az MI „érvelési” folyamatát - vagyis annak természetes nyelvű lefordítását, hogy a modell hogyan értékeli a problémát és hogyan jut el a válaszhoz -, így betekintést nyerhetünk ezeknek a modelleknek a működésébe. Bár ezeknek az MI-modelleknek a fejlődése lenyűgöző, még mindig nem túl jók a Pokémon játékban. A Gemininek több száz órába telik, hogy "végigérveljen" egy játékot, amelyet egy gyermek jóval rövidebb idő alatt tudna teljesíteni.

Az MI Pokémon-játékban való navigálásának megfigyelése nem annyira a befejezés ideje miatt érdekes, hanem inkább az, hogy hogyan viselkedik közben. "A játék során a Gemini 2.5 Pro különböző helyzetekbe kerül, amelyek során a modell pánikot szimulált” - áll a jelentésben. Ez a „pánik” állapot a modell teljesítményének romlásához vezethet, mivel az MI hirtelen abbahagyhatja bizonyos eszközök használatát a játék egy szakaszában. Bár az MI nem gondolkodik és nem érez érzelmeket, cselekedetei utánozzák azt, ahogyan egy ember stresszhelyzetben rossz, elhamarkodott döntéseket hozhat - ez egy lenyűgöző, de nyugtalanító reakció. "Ez a viselkedés elég sok különálló esetben fordult elő ahhoz, hogy a Twitch chat tagjai észrevegyék, amikor bekövetkezik” - áll a jelentésben.

A Claude is furcsa viselkedést tanúsított néhányszor Kanto világában tett utazásai során. Egy esetben az MI felismerte azt a mintát, hogy amikor az összes Pokémonja életpontja elfogy, akkor a játékos karaktere meghal és visszatér a Pokémon Centerbe. Amikor Claude beszorult a Moon barlangba, tévesen azt feltételezte, hogy ha szándékosan elájultatja az összes Pokémonját, akkor a barlangon át a következő város Pokémon Centerébe kerül. A játék azonban nem így működik. Ha az összes Pokémon meghal, akkor a legutóbb használt Pokémon Centerbe tér vissza a játékos, nem pedig a földrajzilag legközelebbibe. A nézők rémülten nézték, ahogy az MI lényegében megpróbálta megölni magát a játékban.

Hátrányai ellenére az MI néhány tekintetben felülmúlja az emberi játékosokat. A Gemini 2.5 Pro megjelenése óta az MI lenyűgöző pontossággal képes megoldani a rejtvényeket. Némi emberi segítséggel olyan eszközöket hozott létre - a Gemini 2.5 Pro konkrét feladatokra szabott példányait -, amelyekkel megoldotta a játék szikla-rejtvényeit és hatékony útvonalakat talált a cél eléréséhez. "A szikla fizikáját leíró utasítás és az érvényes útvonal ellenőrzésének leírása alapján a Gemini 2.5 Pro képes egy lépésben megoldani ezeket a komplex rejtvényeket, amelyek a Victory Roadon való előrehaladáshoz szükségesek” - áll a jelentésben.

Mivel a Gemini 2.5 Pro ezeknek az eszközöknek a létrehozását nagy részben önállóan végezte, a Google azt feltételezi, hogy a jelenlegi modell emberi beavatkozás nélkül is képes lehet ezeket az eszközöket létrehozni. Ki tudja, talán a Gemini idővel képes lesz létrehozni egy „ne pánikolj” modult is.

A Google Gemini pánikba esett Pokémon játék közben

Kapcsolódó cikkek és linkek

Hozzászólások