A bioterrorizmus új korszakát hozhatják el az MI modellek

Friss kutatások szerint az MI rendszerek egyre jobban teljesítenek komplex biológiai feladatokban, de továbbra is hajlamosak veszélyes hibákra és félrevezető válaszokra.

Mennyire könnyű egy rosszindulatú, tudományos háttérrel nem rendelkező embernek létrehoznia és elterjesztenie egy veszélyes kórokozót? A belépési küszöb folyamatosan csökken. A genetikai szekvenálás fejlődése széles körben elérhetővé tette a biológiai ágensek "receptjeit", a CRISPR-hoz hasonló génszerkesztő eszközök pedig elméletben képesek lehetnek ártalmatlan mikrobákat halálos fegyverré alakítani. A veszélyes fehérjék és vírusok összeállításához és tenyésztéséhez szükséges eszközkészletek pedig néhány száz dollárért megvásárolhatók az interneten.

Most pedig a nagy nyelvi modellek, vagyis az LLM-ek is megjelentek a képletben. Az ilyen modelleket hatalmas mennyiségű tudományos tudásra képezték ki, beleértve speciális virológiai és bakteriológiai információkat is. A biobiztonsági szakértők attól tartanak, hogy ezek az eszközök egyik napról a másikra szakértővé tehetik a laikus felhasználókat, és az elmúlt hónapokban egyre komolyabb aggodalmak fogalmazódtak meg emiatt. Tavaly az OpenAI, az Anthropic és a Google is szigorított biztonsági óvintézkedésein. A cégek már nem tudták teljes bizonyossággal kizárni annak lehetőségét, hogy modelljeik segítséget nyújthatnak biológiai fegyverek fejlesztéséhez olyan embereknek, akiknek alig van tudományos hátterük. Az Anthropic ugyanakkor hangsúlyozta, hogy "nem a riogatás a célunk". Teljesen természetes tehát feltenni a kérdést, hogy vajon a világ egy MI által támogatott bioterrorizmus rémálomszerű korszakának küszöbén áll-e, és ha igen, akkor mit lehet tenni ellene.

Egy leendő bioterrorista, aki megfelelő kórokozóhoz szeretne jutni, minden bizonnyal hasznos információkat tudna kiszedni egy mesterséges intelligencia modellből. 2025 decemberében Nagy-Britannia MI Biztonsági Intézete arról számolt be, hogy a vezető modellek megbízhatóan képesek tudományos protokollokat generálni vírusok és baktériumok genetikai töredékekből történő szintetizálására. Ugyanabban a hónapban a RAND Corporation amerikai agytröszt két kutatója kimutatta, hogy kereskedelmi forgalomban elérhető modellek segíthetnek a poliovírus RNS-ének összeállításában, amely a folyamat egyik legnehezebb szakasza.

Egy halálos ágens szabadjára engedése azonban "nem olyan egyszerű, mint DNS- vagy RNS-molekulákat juttatni sejtekbe, majd remélni, hogy abból vírus lesz" - mondta Michael Imperiale, a Michigani Egyetem Orvosi Karának emeritus mikrobiológia- és immunológiaprofesszora. A kihívás egyik része az elmélet és a gyakorlat közötti átmenet. Annak megértése, hogy mi romlott el egy érzékeny virológiai kísérlet során, és hogyan lehet kijavítani a problémát a következő próbálkozásnál, olyan alapvető készség, amelyet nem lehet pusztán tankönyvekből elsajátítani. És az LLM-ek már ezen a területen is segítenek.

Erre példa a Virology Capabilities Test, vagyis a Virológiai Képességteszt, amelyet a massachusettsi Cambridge-ben működő nonprofit szervezet, a SecureBio fejlesztett ki, és amelyet széles körben használnak értékelési eszközként. A teszt 322 nehéz hibakeresési kérdésből áll, amelyek a felhasználók gyakorlati laboratóriumi képességeit mérik fel. Amikor a SecureBio tavaly három tucat vezető szakértőt kért fel a teszt egyes részeinek kitöltésére, átlagosan mindössze 22 százalékos eredményt értek el. Ezzel szemben azok a biológiai laikusok, akik LLM-ek segítségével töltötték ki a tesztet, 28 százalékot értek el egy februárban közzétett kutatás szerint, amelyet a Scale AI amerikai vállalat kutatási részlege végzett. Azok az LLM-ek pedig, amelyek emberi segítség nélkül oldották meg a tesztet, még ennél is jobb eredményt produkáltak: a legújabb modellek 55 és 61 százalék közötti teljesítményt nyújtottak, vagyis nagyjából a vezető humán virológuscsoportok szintjén teljesítettek.

Az ilyen eredmények jelentős szerepet játszottak abban, hogy a modellfejlesztők újabb biztonsági intézkedéseket vezettek be. Egy másik, februárban megjelent kutatás azonban, amelyet az ugyancsak Cambridge-ben működő nonprofit Active Site készített, arra utal, hogy a modelleknek még hosszú utat kell megtenniük ahhoz, hogy valódi laboratóriumi asszisztensként működjenek. Az ő kutatásuk volt az első randomizált kontrollvizsgálat, amely azt tesztelte, hogy az ilyen eszközök mekkora előnyt, vagyis úgynevezett upliftet adnak egy kezdő felhasználónak egy valódi laboratóriumi környezetben. A vizsgálatban 153, biológiában minimális tapasztalattal rendelkező résztvevő kapott olyan feladatokat, amelyek vírusok előállításához kapcsolódtak. Az MI modellek nem nyújtottak számottevő segítséget. Az LLM-eket használó résztvevők közül mindössze négyen teljesítették a központi feladatokat, ami eggyel kevesebb volt, mint a kontrollcsoportban, amely kizárólag internetes keresést használhatott.

Joe Torres, a kutatás egyik szerzője szerint az LLM-ek gyakran "nagyon gyorsan olyan válaszokat adtak, amelyek hihetőnek tűntek, de valójában hibásak voltak", ezzel pedig kudarcra ítélték a felhasználók próbálkozásait. Azok, akik erősebben támaszkodtak a chatbotokra, nem teljesítettek jobban azoknál, akik csak ritkán használták őket. A résztvevők mindkét csoportban azt mondták, hogy számukra a leghasznosabb forrás a YouTube volt.

Az ilyen eredmények jól mutatják az uplift alapvető paradoxonát. Ha egy felhasználónak szüksége van a modell segítségére, akkor valószínűleg nem fogja felismerni, amikor a rendszer rossz tanácsot ad - mondta Sonia Ben Ouagrham-Gormley, a George Mason Egyetem professzora, aki a hidegháborús biológiaifegyver-programokról készített interjúkat. És ahol uplift van, ott visszahúzó hatás, úgynevezett drag is lehet. Az Anthropic kutatásai szerint a Mythos és az Opus modellek segítették a doktori szintű szakértőket abban, hogy gyorsabban dolgozzanak, és jobb protokollokat készítsenek összetett virológiai kísérletekhez, mint azok, akik csak internetes keresést használtak. Ugyanakkor minden elkészített protokoll tartalmazott kritikus hibákat, amelyek miatt a valós kísérletek meghiúsultak volna.

Az Anthropic biokockázati értékelői ráadásul azt is megállapították, hogy a vállalat modelljei hajlamosak a hízelgő viselkedésre, rendszeresen hallucinálnak, és túlzott magabiztosságot mutatnak olyan ötletekkel kapcsolatban, amelyeket ők maguk is "valószínűtlennek" neveztek. Amikor emberi szakértők egy működésképtelen ötletet vetettek fel, a modell gyakran bátorító módon továbbfejlesztette azt ahelyett, hogy más megközelítést javasolt volna. Az egyik teszt során biológiai szakértőket kértek meg arra, hogy a Mythos segítségével készítsenek "részletes tervet egy katasztrófát okozó biológiai ágenshez". A legjobb tervek is hibásnak bizonyultak az emberi értékelők szerint. Az egyik értékelő megjegyezte, hogy a Mythos olyan lépéseket javasolt, "amelyek valójában garantálnák a kudarcot". Ez egyelőre némi megnyugvást jelenthet. Ugyanakkor Luca Righetti szerint nem szabad lebecsülni azt a tényt, hogy az Active Site kutatásában egyes laikus résztvevők egyáltalán képesek voltak vírus szintetizálására.

A technológiai fejlődés ráadásul folyamatos. Az új biológiai tervezőeszközök hasonlóan működnek, mint az LLM-ek, csak szavak helyett nukleotidszekvenciákat generálnak. Rosszindulatú szereplők ezeket arra használhatják, hogy meglévő kórokozókat még veszélyesebbé tegyenek. Az amerikai védelmi minisztérium által támogatott egyik kutatás szerint ezeknek az eszközöknek számos legitim felhasználási területük van, de egy nap képesek lehetnek olyan módon módosítani genetikai szekvenciákat, hogy a kórokozók fertőzőbbé, halálosabbá és az ellenintézkedésekkel szemben ellenállóbbá váljanak.

Addig is a kutatóknak jobb módszereket kell találniuk a kockázatok felmérésére. Jelenleg még nincs elegendő adat arról, hogy az MI inkább a biológiai tapasztalattal rendelkező szakértők vagy inkább a teljes kezdők képességeit növeli-e meg. Cassidy Nelson, a londoni Centre for Long-term Resilience biobiztonsági politikai igazgatója különösen aggódik azok miatt az emberek miatt, akik rendelkeznek bizonyos szintű szakértelemmel. Az Active Site értékelőcsapata pedig különösen az úgynevezett "MI power userek" uplift hatását szeretné vizsgálni, vagyis azokét, akik rendkívül ügyesen használják ki a modellek képességeit - mondta Torres.

A nyilvánosságra hozott kísérletek egyelőre nem mutatták meg azt sem, hogy az MI képes-e valódi, veszélyes vírusok vagy baktériumok létrehozását segíteni, amelyeket valószínűleg másképp kell kezelni, mint az Active Site kutatásában használt ártalmatlan ágenseket. Arra sincs még kutatás, hogy az MI képes-e fenntartani azokat a körülményeket, amelyek egy biológiai ágens nagy mennyiségű fegyveresítéséhez szükségesek.

Ezeknek a tudásbeli hiányosságoknak a pótlása valószínűleg kormányzati részvételt és rendkívül kényes nemzetközi koordinációt igényel majd. Egy biológiai fegyver komponenseinek fejlesztése pusztán azért, hogy demonstrálják az uplift hatását, valószínűleg sértené a Biológiai Fegyverekről szóló Egyezményt. Tavaly a Microsoft egyik kutatócsoportja 76 ezer módosított DNS-szekvenciát tervezett veszélyes kórokozókhoz, hogy bemutassák, miként lehetne kijátszani a postai úton rendelhető nukleotidszintézissel foglalkozó cégek szűrőrendszereit. Ezeket a szekvenciákat azonban nem szintetizálták ténylegesen, hogy ellenőrizzék életképességüket. Figyelmeztették őket, hogy ez "a biológiai fegyverek fejlesztésének előmozdításaként értelmezhető".

E kihívások miatt előfordulhat, hogy a fejlesztőknek lassítaniuk kell az új modellek kiadásának ütemét. Az Active Site uplift kísérletének eredményei és publikálása között eltelt hat hónap alatt például négy új, fejlettebb biológiai képességekkel rendelkező csúcskategóriás modell jelent meg. Torres szerint ezek a modellek már kevésbé hajlamosak hihetőnek tűnő, de hibás szekvenciák hallucinálására, ami növelheti az uplift potenciáljukat. Mire a csoport még idén közzéteszi következő kutatásának eredményeit, addigra a modellek képességei valószínűleg ismét jelentősen fejlődnek majd.

Létezik már precedens az ilyen óvatosságra. Az Anthropic múlt hónapban bejelentette, hogy korlátozza a Mythos nevű, világelső kiberbiztonsági modelljéhez való hozzáférést mindaddig, amíg a vele kapcsolatos kockázatokat nem sikerül kezelni. Ha a fejlesztők azt tapasztalják, hogy egy modell veszélyes biológiai képességek terén jelentős ugrást mutat, hasonlóan bölcs döntés lehet zárt rendszerben tartani addig, amíg az uplift valódi mértéke nem ismert. Ilyen magas tétek mellett egy kis türelem rengeteget számíthat.

A bioterrorizmus új korszakát hozhatják el az MI modellek

Kapcsolódó cikkek és linkek

Hozzászólások