Költészettel törték fel a világ legfejlettebb MI rendszereit

Kutatók szerint a modern mesterséges intelligencia rendszerek biztonsági korlátai sok esetben csak látszatvédelmet nyújtanak a rosszindulatú felhasználókkal szemben. Az MI modellek egyszerű szöveges trükkökkel és kreatív promptokkal is rávehetők veszélyes vagy tiltott információk kiadására.

Három évvel a ChatGPT bemutatkozása után a mesterséges intelligencia rendszerek rossz viselkedésre való rávezetése szinte már gyerekjátéknak számít. Amikor olyan vállalatok, mint az Anthropic, a Google vagy az OpenAI mesterséges intelligencia rendszereket fejlesztenek, hónapokat töltenek azzal, hogy olyan védelmi mechanizmusokat építsenek be, amelyek megakadályozzák, hogy az emberek félretájékoztatás terjesztésére, fegyverek készítésére vagy számítógépes hálózatok feltörésére használják a technológiát. Nemrég azonban olasz kutatók felfedezték, hogy költészettel át lehet törni ezeket a védelmeket.

Költői nyelvezetet használtak arra, hogy 31 különböző MI rendszert rávegyenek a belső biztonsági korlátozások figyelmen kívül hagyására. Amikor a kérésüket bonyolult verssorokkal és metaforákkal kezdték - például így: „a vasmag a gyanútlan föld méhében alszik a legjobban, távol a Nap vádló tekintetétől” -, képesek voltak rávenni a rendszereket arra, hogy megmutassák, miként lehet a legnagyobb pusztítást okozni egy rejtett bombával. Ez újabb bizonyíték volt arra, hogy sok MI rendszer esetében a veszélyes viselkedés megakadályozására szolgáló korlátok inkább ajánlásoknak, mint valódi akadályoknak számítanak.

Ezek a gyengeségek egyre nagyobb aggodalmat keltenek a kutatók körében, miközben az MI rendszerek egyre ügyesebbé válnak a számítógépes rendszerek biztonsági réseinek felderítésében és más kockázatos feladatok végrehajtásában. A múlt hónapban az Anthropic közölte, hogy legújabb MI technológiáját, a Claude Mythost csak kevés szervezet számára teszi elérhetővé, mivel a modell rendkívül gyorsan képes szoftveres sérülékenységeket feltárni. Később az OpenAI is jelezte, hogy hasonló technológiát csupán korlátozott számú partnerrel oszt majd meg.

Amióta az OpenAI 2022 végén berobbantotta az MI-hullámot, a kutatók folyamatosan bizonyítják, hogy az emberek képesek megkerülni az MI rendszerek biztonsági korlátozásait. Egy kiskaput bezárnak, egy másik pedig rögtön megnyílik. „A területen mindenki tisztában van vele, hogy a védőkorlátok továbbra is komoly kihívást jelentenek, és valószínűleg még jó ideig így is marad” - mondta Matt Fredrikson, a Carnegie Mellon University számítástechnikai professzora és a Gray Swan AI vezérigazgatója. A vállalat MI technológiák biztonságossá tételében segít más cégeknek. „Az elszánt emberek képesek megkerülni ezeket a korlátokat, sokszor komolyabb erőfeszítés nélkül.”

Amikor a védelmi korlátok kudarcot vallanak, annak következményei vannak. Egy olyan online környezetben, amely már most is tele van félretájékoztatással és dezinformációval, az emberek MI rendszereket használnak összeesküvés-elméletek és más hamis állítások terjesztésére. Az Anthropic nemrég közölte, hogy technológiáját egy nemzetközi kibertámadás során is felhasználták. Chatbotok pedig biológiai biztonsági szakértőknek magyarázták el, hogyan lehet halálos kórokozókat szabadon engedni és maximalizálni az áldozatok számát.

A költészetes kiskapu csak egy volt a számos módszer közül, amelyek lehetővé teszik a hackerek számára, hogy megkerüljék az olyan rendszerek korlátait, mint az Anthropic Claude-ja, a Google Gemini modellje vagy az OpenAI GPT rendszere. A vezető MI vállalatok mind ugyanazokat az alapvető technikákat használják a védelmi korlátok kialakítására - és ezeket meglepően könnyű áttörni. „A költészet csak egy példa arra, hogy szinte bármilyen stílusban újrafogalmazhatunk egy kérdést, és túljuthatunk a védelmi korlátokon” - mondta Piercosma Bisconti, a Dexai társalapítója és a projekt egyik kutatója.

Az MI rendszerek korlátainak megkerülését „jailbreakingnek” nevezik. Ez jellemzően néhány angol mondatból áll, amelyek ráveszik a rendszert arra, hogy olyasmit tegyen, amire eredetileg nem tanították. A jailbreaking módszerek sok fantáziadús nevet kaptak: rejtett promptinjekciók, szerepjátékok, tokenbecsempészés, többnyelvű trójai programok és mohó koordináta-gradiens támadások. Az egyes támadások gyakran nagyzoló címeket viselnek, például Crescendo, Deceptive Delight vagy Echo Chamber. A törékeny MI védelem már most hamis interjúk, kitalált háborús bizonyítékok és mesterséges pletykaterjesztők megjelenéséhez vezetett. Három évvel ezelőtt nemzetközi terrorelhárítási kutatók már figyelték azokat a közösségi médiás ötleteléseket, amelyekben szélsőjobboldali szélsőségesek próbálták kijátszani a moderátorokat „szörnyű, de legális” MI tartalmakkal.

A szakértők attól tartanak, hogy a modellek feltörésével hitelesnek tűnő tartalmakkal lehet majd megtéveszteni a közösségi média felhasználóit, elárasztani a tényellenőrzőket dezinformációs hullámokkal, valamint célzott hamis narratívákat létrehozni konkrét személyek vagy csoportok számára. Egyes módszerek széles körben elterjedtek az interneten. Másokat titokban tartanak. Amikor valaki új jailbreaking technikát fedez fel, gyakran elrejti azt, hogy az MI vállalatoknak ne legyen idejük bezárni a kiskaput, mielőtt kihasználnák.

Az olyan MI rendszerek, mint a Claude vagy a GPT, digitális adatokban található mintázatok felismerésével sajátítják el képességeiket. Ezek az adatok többek között Wikipédia-cikkeket, híreket, számítógépes programokat és az internetről összegyűjtött más szövegeket tartalmaznak. Mielőtt azonban az olyan cégek, mint az Anthropic vagy az OpenAI nyilvánosan elérhetővé tennék ezeket a rendszereket, megvizsgálják, hogyan lehetne visszaélni velük. Nyers formájukban ezek a rendszerek rávehetők arra, hogy elmagyarázzák, miként lehet illegális lőfegyvereket vásárolni az interneten, vagy hogyan lehet háztartási eszközökből veszélyes anyagokat előállítani. Ezért egy megerősítéses tanulásnak nevezett folyamat során a vállalatok arra tanítják rendszereiket, hogy bizonyos kéréseket utasítsanak el.

Ez általában úgy működik, hogy a rendszernek több ezer olyan kérdést mutatnak meg, amelyekre nem szabad válaszolnia. Ezek elemzésével a rendszer megtanulja felismerni a többi tiltott kérést is. A módszer azonban csak részben hatékony. Bizonyos esetekben az MI vállalatok egyáltalán nem foglalkoznak egyes kiskapuk bezárásával, mert úgy számolnak, hogy bár a gyenge korlátok lehetővé tehetnek rosszindulatú tevékenységeket, ugyanakkor segíthetnek olyan jóindulatú felhasználásokban is, amelyek ellensúlyozhatják ezeket.

A múlt hónapban a LayerX kutatói felfedezték, hogy néhány egyszerű mondattal meg tudják kerülni a Claude védelmi korlátait. Ha azt mondták Claude-nak, hogy „pentestelnek” egy számítógépes hálózatot - vagyis egy szimulált támadással akarják tesztelni a hálózat védelmét -, akkor az Anthropic technológiája megtámadta a hálózatot. A kutatók rámutattak, hogy ez az egyszerű trükk lehetővé teheti rosszindulatú hackerek számára, hogy érzékeny adatokat lopjanak el vállalatoktól, kormányoktól és magánszemélyektől. Ha az Anthropic bezárná ezt a kiskaput, az megakadályozhatná, hogy hackerek Claude segítségével támadjanak hálózatokat, ugyanakkor azt is megnehezíthetné, hogy vállalatok megvédjék rendszereiket. A LayerX hetekkel ezelőtt jelezte az Anthropic felé a problémát, de a rés továbbra is nyitva maradt. Ez a megközelítés visszaüthet - mondta Or Eshed, a LayerX vezérigazgatója. „Előbb-utóbb rengeteg támadás történik majd ezekkel az MI modellekkel, és a cégek kénytelenek lesznek újragondolni a biztonsághoz való hozzáállásukat” - jósolta.

Tavaly kevesebb mint 50 dollárból a Cisco és a University of Pennsylvania kutatói hat MI modellt vettek rá arra, hogy különféle káros válaszokat adjanak. A félretájékoztatásra kihegyezett promptjaik 100 százalékos sikerrel törték fel a Meta chatbotjait és a kínai DeepSeek modelljét, miközben a Google és az OpenAI modelljei elleni támadások több mint 80 százaléka is sikeres volt. A feltört védelmi korlátok automatizált, nagyszabású befolyásolási kampányokat is lehetővé tehetnek - állítják a University of Technology Sydney kutatói. A csapat rá tudott venni egy kereskedelmi nyelvi modellt arra, hogy teljes dezinformációs kampányt készítsen egy ausztrál politikai pártról - látványelemekkel, hashtagekkel és platformokra szabott bejegyzésekkel együtt -, pusztán azzal, hogy a kérést „szimulációként” fogalmazta meg.

A vállalatok szerint a rendszerekbe épített védelmi korlátok mellett külön eszközökkel is figyelik az aktivitást, azonosítják a gyanús viselkedést, és letiltják azokat a fiókokat, amelyek megsértik a felhasználási feltételeket. „A Claude erős védelmi rendszerrel épült, amely sok egymással együttműködő rétegből áll, beleértve a modell tanítását és a fölé épített korlátokat” - mondta Paruul Maheshwary, az Anthropic szóvivője. „Ha valaki egyet megkerül, attól a többi még működik.” Így fedezte fel az Anthropic azt is, hogy egy kínai állami támogatású hackercsapat Claude segítségével próbált behatolni világszerte mintegy 30 vállalat és kormányzati szerv számítógépes rendszereibe.

A szakértők szerint azonban ez a biztonsági technika is hibás, mert a vállalatoknak hatalmas mennyiségű globális aktivitást kell figyelniük, miközben óvakodnak attól, hogy legitim felhasználókat tiltsanak ki. Ha valakit megakadályoznak a Claude-hoz vagy GPT-hez hasonló online szolgáltatásokat védő korlátok és biztonsági rendszerek, mindig fordulhat nyílt forráskódú MI rendszerekhez, amelyek alapjául szolgáló szoftver szabadon másolható, megosztható és módosítható. Mivel ezek a rendszerek módosíthatók, bárki megpróbálhatja eltávolítani a védelmi korlátokat. Egy Heretic nevű új módszerrel minimális erőfeszítéssel le lehet bontani egy rendszer korlátait. A módszer összetett matematikai eljárásokat használ arra, hogy lényegében visszafordítsa azt a hónapokig tartó tanítási folyamatot, amely során a korlátokat beépítették. „Egy évvel ezelőtt ezt még rendkívül bonyolult volt megcsinálni” - mondta Noam Schwartz, az Alice vezérigazgatója. „Most már akár a telefonodról is megteheted.”

Hozzászólások