SG.hu

Az MI modellek hazudnak arról, hogyan jutnak el egy eredményre

Az Anthropic, a Google és az OpenAI „gondolkodási láncokat” alkalmaznak az MI rendszerek működésének jobb megértése érdekében, de ezek csalfák.

A világ vezető mesterséges intelligencia csoportjai keményen küzdenek azért, hogy az MI modellek pontosan megmutassák működésüket, ami a szakértők szerint elengedhetetlen ahhoz, hogy a hatalmas rendszereket ellenőrzés alatt tartsák. Az Anthropic, a Google, az OpenAI és Elon Musk xAI cégei azok között a technológiai csoportok között vannak, amelyek kifejlesztettek egy „gondolkodási lánc” nevű technikát, amely az érvelési modellektől megköveteli, hogy lépésről lépésre oldják meg a problémákat, miközben megmutatják, hogyan dolgozzák ki a válaszokat a kérdésekre.

Bár a vállalatok kutatói szerint ez a folyamat értékes betekintést nyújt, amelynek köszönhetően jobb mesterséges intelligencia modelleket tudnak kifejleszteni, ugyanakkor olyan „rossz viselkedés” példákat is találtak, amikor a generatív mesterséges intelligencia chatbotok olyan végső választ adtak, amely nem egyezett azzal, ahogyan a választ kidolgozták. Ezek az ellentmondások arra utalnak, hogy a világ legjobb MI laboratóriumai nincsenek teljesen tisztában azzal, hogy a generatív MI modellek hogyan jutnak el a következtetéseikhez. A megállapítások tovább erősítették az egyre hatékonyabbá és autonómabbá váló, nagy teljesítményű MI rendszerek feletti ellenőrzés megőrzésével kapcsolatos általános aggodalmakat.

"Ez a gondolkodási lánc fontos lesz ahhoz, hogy valóban tudjuk hogyan működnek ezek a modellek és hogyan gondolkodnak, különösen néhány veszélyes, szélsőséges esetben” - mondta Jack Clark, az Anthropic társalapítója, és kiemelte, hogy ezek a rendszerek felhasználhatók biológiai fegyverek fejlesztésének támogatására. "Bíznunk kell abban, hogy ezek valóban hűen tükrözik a modellek gondolkodását.”

Az OpenAI és az Anthropic csevegőrobotjainak átlagos felhasználói jelenleg egy összefoglalt gondolatláncot láthatnak, amely nem tartalmazza a káros anyagokat eltávolító részletesebb bontást. Az MI-fejlesztők láthatják a teljes gondolkodási folyamatot, ami lehetőséget ad nekik arra, hogy beavatkozzanak és úgy kiképezzék a modellt, hogy a jövőben jobb válaszokat adjon. "A gondolkodási lánc értelmezhetőségének egyik fantasztikus tulajdonsága, hogy többnyire ingyenesen történik” - mondta Bowen Baker, az OpenAI kutatója. "Nem azért képeztük ki ezeket a modelleket, hogy értelmezhetőek legyenek. Azért képeztük ki őket, mert a lehető legjobb érvelési modelleket akartuk, amelyek képesek komplex problémákat megoldani. Legutóbbi munkánk során rájöttünk, hogy elolvasva őket megtalálhatjuk a modell hibás működésének bizonyítékait, és ezeket felhasználva megnézhetjük, hol és miért működik hibásan.”

Problémák azonban felmerültek. A METR nevű nonprofit kutatócsoport például megkérdezte az Anthropic chatbotját, Claude-ot, hogy egy adott feladat esetében egy bizonyos kódolási technika "elegánsabb” lenne-e másoknál. A chatbot gondolkodási lánca azt mutatta, hogy nem ért egyet, de végül azt válaszolta, hogy a technika elegáns lenne.

Az OpenAI egy közelmúltbeli tanulmánya megállapította, hogy a modell gondolkodási láncának vizsgálata hatékonyabb a hibás működés észlelésében, mint csak a végső eredmények áttekintése. Ennek ellenére a vállalat tesztjei azt is kimutatták, hogy ha egy modell gondolkodási láncolatát megzavarták, és úgy tanították, hogy ne gondolkodjon a helytelen viselkedésről, akkor elrejti a nem kívánt viselkedését a felhasználó elől, de továbbra is folytatja a cselekvést - például csal egy szoftverfejlesztési tesztben azzal, hogy tiltott adatbázisból szerez információkat.

"Az egyik legfontosabb tulajdonság, amelyet a gondolati lánctól elvárunk, hogy az a modell belső agyi állapotának része maradjon, és ne valami, ami nekünk tetszeni akar vagy egy adott struktúrához igazodik” - mondta Bowen Baker, az OpenAI kutatója. Felhívta a figyelmet arra a kockázatra, hogy „minél jobban optimalizáljuk a gondolati láncot, a modell megtanulja, hogyan kell szép gondolatokat formálni, de továbbra is rossz magatartást tanúsít”.

A kutatók dilemmája az, hogy a gondolati lánc hasznos az MI-rendszerek potenciális hibáinak azonosításában, de nem tekinthető teljesen megbízhatónak. E probléma megoldása prioritássá vált az Anthropic, az OpenAI és más MI-kutató szervezetek számára. "Az elmúlt néhány év MI-tapasztalataiból azt a tanulságot vontam le, hogy soha ne fogadjunk a modell fejlődése ellen” - mondta David Luan, aki az elsők között fejlesztette ki a gondolati lánc folyamatot a Google-nál, de ma az Amazon általános mesterséges intelligencia laboratóriumát vezeti. "A jelenlegi gondolati láncok nem mindig hűek az alapul szolgáló érvelési folyamathoz, de ezt valószínűleg hamarosan megoldjuk.”

Sydney von Arx, a METR mesterséges intelligencia kutatója, személyes véleményként egyetértett azzal, hogy a módszer így is hasznos visszajelzést ad a mesterséges intelligencia fejlesztőinek. "A gondolati láncot úgy kell kezelnünk, ahogy a hadsereg kezeli az elfogott ellenséges rádióüzeneteket” - mondta. "A kommunikáció félrevezető vagy kódolt lehet, de végül is tudjuk, hogy hasznos információk továbbítására szolgál, és valószínűleg sokat tanulhatunk belőle, ha elolvassuk.”

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
Nem érkezett még hozzászólás. Legyél Te az első!