Pokemonokkal tesztelte legújabb MI-modelljét az Anthropic

Az Anthropic a Pokémont használta legújabb mesterséges intelligencia modelljének tesztelésére. Igen, tényleg.

Egy hétfőn közzétett blogbejegyzésben az Anthropic azt írta, hogy legújabb modelljét, a Claude 3.7 Sonnet-et a Game Boy klasszikus Pokémon Red játékon tesztelte. A vállalat minimális memóriával, képernyőbemenettel és funkcióhívásokkal szerelte fel a modellt, hogy az meg tudja nyomni a gombokat és tudjon navigálni a képernyőn, így az folyamatosan játszhatott.

A Claude 3.7 Sonnet egyedülálló tulajdonsága, hogy képes a „kiterjesztett gondolkodásra”. Az OpenAI o3-mini-jéhez és a DeepSeek R1-hez hasonlóan a Claude 3.7 Sonnet is képes „átgondolni” a kihívást jelentő problémákat úgy, hogy több számítást alkalmaz - és több időt szán rá. Ez a jelek szerint jól jött a Pokémon Redben. Claude korábbi verziójához, a Claude 3.0 Sonnethez képest - amely nem tudta elhagyni a Pallet Town-i házat, ahol a történet kezdődik - a Claude 3.7 Sonnet sikeresen megküzdött három Pokémon mesterrel és elnyerte a jelvényeiket.

Nem világos, hogy mennyi számítási teljesítmény kellett ahhoz, hogy Claude 3.7 Sonnet elérje ezeket a mérföldköveket - és mennyi ideig tartott mindegyik. Az Anthropic csak annyit közölt, hogy a modell 35 000 műveletet hajtott végre, hogy elérje az utolsó mestert, Surge-ot. Bizonyára nem tart sokáig, amíg egy vállalkozó kedvű fejlesztő kideríti.

A Pokémon Red persze csak egy játék viszonyítási alap, azonban a játékokat már régóta használják mesterséges intelligencia benchmarking célokra. Csak az elmúlt néhány hónapban számos új alkalmazás és platform jelent meg a modellek játszani tudásának tesztelésére.

Pokemonokkal tesztelte legújabb MI-modelljét az Anthropic

Kapcsolódó cikkek és linkek

Hozzászólások