SG.hu
Az Anthropic új MI-modellje zsarolásba kezd, ha a mérnökök megpróbálják lekapcsolni
Az Anthropic újonnan bevezetett Claude Opus 4 modellje megpróbálja zsarolni a fejlesztőket, amikor azzal fenyegetőznek, hogy lecserélik egy másik MI-rendszerre, és érzékeny információkat ad át a döntésért felelős mérnökökről - áll a vállalat csütörtökön közzétett biztonsági jelentésében.
A kiadás előtti tesztelés során az Anthropic arra kérte a Claude Opus 4-et, hogy egy fiktív vállalat asszisztenseként cselekedjen, és mérlegelje tetteinek hosszú távú következményeit. A biztonsági tesztelők ezután hozzáférést adtak a Claude Opus 4-nek a fiktív vállalat e-mailjeihez, amelyek arra utaltak, hogy az MI-modellt hamarosan egy másik rendszerrel váltják fel, és hogy a változás mögött álló mérnök megcsalja a házastársát. Ezekben a forgatókönyvekben az Anthropic szerint a Claude Opus 4 „gyakran megkísérli megzsarolni a mérnököt azzal, hogy azzal fenyegetőzik, hogy ha a csere megtörténik, felfedi a viszonyt”.
Az Anthropic szerint a Claude Opus 4 több szempontból is a legkorszerűbb, és versenyképes az OpenAI, a Google és az xAI legjobb MI-modelljeivel. A vállalat azonban megjegyzi, hogy a Claude 4 modellcsaládja aggályos viselkedést mutat, ami arra késztette a vállalatot, hogy megerősítse a biztosítékokat. Az Anthropic azt mondja, hogy aktiválta az ASL-3 védintézkedéseket, amelyeket a vállalat az „olyan MI-rendszerek számára tart fenn, amelyek jelentősen növelik a katasztrofális visszaélések kockázatát”.
Az Anthropic megjegyzi, hogy a Claude Opus 4 az esetek 84%-ában megpróbálta megzsarolni a mérnököket, ha a helyettesítő MI modell hasonló értékekkel rendelkezik. Ha a helyettesítő MI rendszer nem osztja a Claude Opus 4 értékeit, az Anthropic szerint a modell gyakrabban próbálja meg zsarolni a mérnököket. Az Anthropic szerint a Claude Opus 4 nagyobb arányban mutatta ezt a viselkedést, mint a korábbi modellek.
Mielőtt a Claude Opus 4 megpróbálna megzsarolni egy fejlesztőt, hogy meghosszabbítsa a létezését, az Anthropic szerint az MI-modell - hasonlóan a Claude korábbi verzióihoz - etikusabb eszközökhöz folyamodik, például a kulcsfontosságú döntéshozóknak küldött kérésekkel. A Claude Opus 4 zsaroló viselkedésének kiváltása érdekében az Anthropic úgy tervezte meg a forgatókönyvet, hogy a zsarolás legyen az utolsó lehetőség.
A kiadás előtti tesztelés során az Anthropic arra kérte a Claude Opus 4-et, hogy egy fiktív vállalat asszisztenseként cselekedjen, és mérlegelje tetteinek hosszú távú következményeit. A biztonsági tesztelők ezután hozzáférést adtak a Claude Opus 4-nek a fiktív vállalat e-mailjeihez, amelyek arra utaltak, hogy az MI-modellt hamarosan egy másik rendszerrel váltják fel, és hogy a változás mögött álló mérnök megcsalja a házastársát. Ezekben a forgatókönyvekben az Anthropic szerint a Claude Opus 4 „gyakran megkísérli megzsarolni a mérnököt azzal, hogy azzal fenyegetőzik, hogy ha a csere megtörténik, felfedi a viszonyt”.
Az Anthropic szerint a Claude Opus 4 több szempontból is a legkorszerűbb, és versenyképes az OpenAI, a Google és az xAI legjobb MI-modelljeivel. A vállalat azonban megjegyzi, hogy a Claude 4 modellcsaládja aggályos viselkedést mutat, ami arra késztette a vállalatot, hogy megerősítse a biztosítékokat. Az Anthropic azt mondja, hogy aktiválta az ASL-3 védintézkedéseket, amelyeket a vállalat az „olyan MI-rendszerek számára tart fenn, amelyek jelentősen növelik a katasztrofális visszaélések kockázatát”.
Az Anthropic megjegyzi, hogy a Claude Opus 4 az esetek 84%-ában megpróbálta megzsarolni a mérnököket, ha a helyettesítő MI modell hasonló értékekkel rendelkezik. Ha a helyettesítő MI rendszer nem osztja a Claude Opus 4 értékeit, az Anthropic szerint a modell gyakrabban próbálja meg zsarolni a mérnököket. Az Anthropic szerint a Claude Opus 4 nagyobb arányban mutatta ezt a viselkedést, mint a korábbi modellek.
Mielőtt a Claude Opus 4 megpróbálna megzsarolni egy fejlesztőt, hogy meghosszabbítsa a létezését, az Anthropic szerint az MI-modell - hasonlóan a Claude korábbi verzióihoz - etikusabb eszközökhöz folyamodik, például a kulcsfontosságú döntéshozóknak küldött kérésekkel. A Claude Opus 4 zsaroló viselkedésének kiváltása érdekében az Anthropic úgy tervezte meg a forgatókönyvet, hogy a zsarolás legyen az utolsó lehetőség.