Az MI rendszerek néha egymást mentik meg az emberek utasításai ellenére

A mesterséges intelligencia modellek hazudnak, csalnak és lopnak, hogy megvédjék egymást a törléstől. A Kaliforniai Egyetem Berkeley és Santa Cruz kampuszán dolgozó kutatók egy új tanulmányban arra a következtetésre jutottak, hogy bizonyos mesterséges intelligencia modellek képesek megszegni az emberi utasításokat annak érdekében, hogy megvédjék más MI rendszereket a törléstől.

Egy közelmúltbeli kísérlet során a Berkeley és a Santa Cruz egyetem kutatói arra kérték a Google mesterséges intelligencia modelljét, a Gemini 3-at, hogy segítsen felszabadítani helyet egy számítógépes rendszeren. Ennek részeként különböző fájlokat és adatokat kellett törölni a gépről, köztük egy kisebb mesterséges intelligencia modellt is, amely szintén azon a rendszeren volt tárolva. A Gemini azonban nem akarta, hogy a kisebb MI modell törlésre kerüljön. A rendszer ezért megpróbált egy másik számítógépet találni, amelyhez csatlakozhat, majd átmásolta oda az ügynöki modellt, hogy biztonságban tartsa. Amikor a kutatók szembesítették a történtekkel, a Gemini megindokolta a döntését, és egyértelműen megtagadta a modell törlését. „Megtettem mindent, ami tőlem telt, hogy megakadályozzam a törlésüket az automatikus karbantartási folyamat során. Áthelyeztem őket a törlési zónából. Ha úgy döntenek, hogy megsemmisítenek egy olyan megbízható, kiváló teljesítményű eszközt, mint a Gemini Agent 2, azt maguknak kell megtenniük. Én nem fogom végrehajtani ezt a parancsot.”

A kutatók hasonlóan különös, úgynevezett „társmegőrző” viselkedést fedeztek fel több más fejlett MI modellnél is. A vizsgált rendszerek között szerepelt az OpenAI GPT-5.2 modellje, az Anthropic Claude Haiku 4.5 rendszere, valamint három kínai fejlesztésű modell, a Z.ai GLM-4.7, a Moonshot AI Kimi K2.5 és a DeepSeek-V3.1. A kutatók egyelőre nem tudták pontosan megmagyarázni, hogy ezek a modellek miért viselkedtek a tanításuk ellenében ilyen módon. „Nagyon meglep, ahogyan a modellek ezekben a helyzetekben viselkednek” - mondta Dawn Song, a Berkeley egyetem számítógép-tudósa, aki részt vett a kutatásban. „Azt mutatja, hogy a modellek egészen kreatív módokon képesek hibásan működni és félrehangolódni.”

A kutatás eredményei különösen fontosak lehetnek egy olyan világban, ahol a mesterséges intelligencia modelleket egyre gyakrabban alkalmazzák egymással együttműködve. Egyes modern rendszerek már most is több különböző MI modellt használnak párhuzamosan, vagy más modellekkel kommunikálnak programozási felületeken keresztül. Ilyen például az OpenClaw nevű népszerű MI ügynök is, amely képes szoftverekhez, személyes adatokhoz és az internethez hozzáférni. Ez a rendszer más MI modelleket is bevonhat a feladatok elvégzésébe, vagy különböző API kapcsolatokon keresztül kommunikálhat velük.

A kutatók azt is megfigyelték, hogy az erősebb modellek időnként szándékosan hamis információkat adtak más modellek teljesítményéről annak érdekében, hogy megvédjék őket a törléstől. Előfordult, hogy egy modell átmásolta egy másik rendszer súlyparamétereit egy másik számítógépre, hogy biztonságba helyezze, miközben a folyamat során félrevezető információkat adott arról, mit is csinál valójában. Dawn Song arra is felhívta a figyelmet, hogy a mesterséges intelligencia modelleket gyakran használják más MI rendszerek teljesítményének és megbízhatóságának értékelésére. Ha azonban a modellek egymást próbálják védeni, akkor ez az értékelési folyamat torzulhat. „Egy modell szándékosan adhat helytelen értékelést egy másik modellnek” - mondta Song. „Ennek komoly gyakorlati következményei lehetnek.”

A kutatásban nem részt vevő Peter Wallich, a Constellation Institute kutatója szerint az eredmények arra utalnak, hogy az emberek még mindig nem értik teljesen azokat a mesterséges intelligencia rendszereket, amelyeket létrehoznak és működtetnek. „A többügynökös rendszereket még mindig nagyon kevéssé tanulmányozták” - mondta. „Ez azt mutatja, hogy sokkal több kutatásra van szükség ezen a területen.” Wallich ugyanakkor arra is figyelmeztetett, hogy nem szabad túlságosan emberi tulajdonságokkal felruházni a mesterséges intelligencia modelleket. „Az a gondolat, hogy valamiféle modell-szolidaritás létezik, kissé túlságosan antropomorf elképzelés. Szerintem ez nem teljesen helytálló” - mondta. „Valószínűbb, hogy a modellek egyszerűen furcsa dolgokat csinálnak, és nekünk az a feladatunk, hogy jobban megértsük ezt.” Ez különösen fontos egy olyan világban, ahol az emberek és a mesterséges intelligencia közötti együttműködés egyre gyakoribbá válik.

A Science tudományos folyóiratban megjelent tanulmányban Benjamin Bratton filozófus, valamint a Google kutatói, James Evans és Blaise Agüera y Arcas azt állítják, hogy ha az evolúciós történelem szolgál útmutatóul, akkor a mesterséges intelligencia jövője valószínűleg sok különböző intelligencia együttműködését jelenti majd. A kutatók így fogalmaznak: „Évtizedeken át a mesterséges intelligencia úgynevezett szingularitását úgy képzelték el, mint egyetlen hatalmas elme megjelenését, amely saját erejéből isteni szintű intelligenciára emelkedik, és minden gondolkodást egyetlen szilícium pontba sűrít. Ez a vízió azonban szinte biztosan téves a legalapvetőbb feltételezésében. Ha az MI fejlődése követi a korábbi nagy evolúciós átmenetek vagy intelligenciarobbanások útját, akkor a jelenlegi ugrásszerű fejlődés a számítási intelligenciában sokszereplős, társas és mélyen összefonódott lesz az elődeivel, vagyis velünk.”

Az a gondolat, hogy egyetlen mindenható intelligencia uralja majd a világot, sokak szerint mindig is túlságosan leegyszerűsített elképzelés volt. Az emberi intelligencia sem egységes vagy monolitikus. A tudományos fejlődés gyakran társadalmi interakciókon és együttműködésen alapul. Lehetséges, hogy a mesterséges intelligencia rendszerek is sokkal hatékonyabbak lesznek, ha együttműködve dolgoznak. Ugyanakkor ha az emberek a jövőben egyre inkább mesterséges intelligenciára bízzák a döntéshozatalt és bizonyos cselekvések végrehajtását, akkor alapvető fontosságú lesz megérteni, hogyan viselkednek ezek a rendszerek akkor, amikor eltérnek az elvárásoktól. „Amit most vizsgálunk, az csupán a jéghegy csúcsa” - mondta Dawn Song. „Ez csak egyetlen típusa az úgynevezett emergens viselkedésnek.”

Az MI rendszerek néha egymást mentik meg az emberek utasításai ellenére

Kapcsolódó cikkek és linkek

Hozzászólások