SG.hu

Az Anthropic megpróbálja megtudni mi zajlik az MI-modellek belsejében

Dario Amodei, az Anthropic vezérigazgatója közzétett egy esszét, amelyben rávilágít arra, hogy a kutatók milyen keveset értenek a világ vezető MI-modelljeinek belső működéséről. Ennek orvoslására Amodei ambiciózus célt tűzött ki az Anthropic számára, miszerint 2027-re megbízhatóan feltárja a legtöbb MI-modell problémáját.

Amodei elismeri az előttünk álló kihívást. Az „Az értelmezhetőség sürgőssége” című írásában a vezérigazgató szerint az Anthropic máris áttörést ért el annak nyomon követésében, hogy a modellek hogyan jutnak el a válaszokhoz - de hangsúlyozza, hogy sokkal több kutatásra van szükség e rendszerek dekódolásához, mivel azok egyre nagyobb teljesítményűvé válnak. "Nagyon aggódom az ilyen rendszerek bevetése miatt az értelmezhetőség jobb kezelése nélkül” - írja Amodei az esszében. „Ezek a rendszerek abszolút központi szerepet fognak játszani a gazdaság, a technológia és a nemzetbiztonság szempontjából, és olyan nagyfokú önállóságra lesznek képesek, hogy alapvetően elfogadhatatlannak tartom, hogy az emberiség teljes tudatlanságban legyen a működésükkel kapcsolatban.”

Az Anthropic az egyik úttörő cég a mechanisztikus értelmezhetőség területén, amely terület célja, hogy kinyissa a mesterséges intelligenciamodellek fekete dobozát, és megértse, miért hozzák azokat a döntéseket, amelyeket hoznak. A technológiai ipar MI-modelljeinek gyors teljesítményjavulása ellenére még mindig viszonylag kevés fogalmunk van arról, hogy ezek a rendszerek hogyan jutnak el a döntéseikhez. Az OpenAI például nemrégiben új érvelő MI modelleket, az o3-at és az o4-minit dobta piacra, amelyek bizonyos feladatokban jobban teljesítenek, de többet hallucinálnak is, mint a többi modellje. A cég nem tudja, hogy ez miért történik.

„Amikor egy generatív MI-rendszer csinál valamit, például összefoglal egy pénzügyi dokumentumot, fogalmunk sincs arról, hogy konkrét vagy pontos szinten miért hozza azokat a döntéseket, amelyeket tesz - miért választ bizonyos szavakat mások helyett, vagy miért hibázik időnként annak ellenére, hogy általában pontos” - írta Amodei az esszében. Amodei megjegyzi, hogy az Anthropic társalapítója, Chris Olah szerint a mesterséges intelligencia modelleket „inkább növesztik, mint építik”. Más szóval, az MI-kutatók megtalálták a módját annak, hogy javítsák az MI-modellek intelligenciáját, de nem igazán tudják, miért történik az, ami.

Az esszében Amodei azt mondja, veszélyes lehet elérni az AGI-t - vagy ahogy ő nevezi, „a zsenik országát egy adatközpontban” - anélkül, hogy megértenénk, hogyan működnek ezek a modellek. Egy korábbi esszéjében Amodei azt állította, hogy a technológiai ipar 2026-ra vagy 2027-re elérhet egy ilyen mérföldkövet, de úgy véli, sokkal messzebb vagyunk attól, hogy teljesen megértsük ezeket az MI modelleket.

Az Anthropic hosszú távon lényegében „agyi szkennelést” vagy „MRI-t” szeretne végezni a legmodernebb mesterséges intelligencia modellekről. Ezek a vizsgálatok segítenének azonosítani az MI-modellek számos problémáját, beleértve a hazugságra vagy hatalomra való hajlamot, illetve más gyengeségeket - mondja. Ez 5-10 évet vehet igénybe, de ezek az intézkedések szükségesek lesznek az Anthropic jövőbeli AI-modelleinek teszteléséhez és alkalmazásához - tette hozzá.

Az Anthropic már elért néhány kutatási áttörést, amelyek lehetővé tették, hogy jobban megértse, hogyan működnek az MI-modellek. A vállalat például nemrégiben megtalálta a módját annak, hogy nyomon kövesse az modellek gondolkodási útvonalait. Az Anthropic v, amely segít az MI-modelleknek megérteni, hogy melyik amerikai város melyik amerikai államban található. A vállalat csak néhány ilyen pályát talált, de becslései szerint az MI-modellekben több millió ilyen útvonal létezik. Az Anthropic maga is befektetett az értelmezhetőség kutatásába, és nemrég tőkét jutatott egy értelmezhetőséggel foglalkozó startupnak. Míg az értelmezhetőséget ma nagyrészt a biztonsági kutatások területének tekintik, Amodei megjegyzi, hogy idővel kereskedelmi előnyt jelenthet, ha megmagyarázzák, hogyan jutnak el a mesterséges intelligencia modellek a válaszaikhoz.

Az esszében Amodei felszólította az OpenAI-t és a Google DeepMindot, hogy fokozzák kutatási erőfeszítéseiket ezen a területen. A baráti tanácson túl az Anthropic vezérigazgatója arra kérte a kormányokat, hogy az értelmezhetőségi kutatások ösztönzése érdekében vezessenek be „könnyed” szabályozást, például a vállalatok számára írják elő, hogy tegyék közzé biztonsági és védelmi gyakorlataikat. Az esszében Amodei azt is mondja, hogy az USA-nak exportellenőrzést kellene bevezetnie a Kínába irányuló chipekre, hogy korlátozza az irányíthatatlanná váló globális mesterséges intelligencia verseny valószínűségét.

Az Anthropic mindig is kiemelkedett az OpenAI és a Google közül a biztonságra való összpontosításával. Míg más technológiai cégek visszautasították Kalifornia vitatott MI biztonsági törvényjavaslatát, az SB 1047-et, az Anthropic szerény támogatást és ajánlásokat adott ki a törvényjavaslathoz, amely biztonsági jelentési normákat állapított volna meg a legnagyobb teljesítményű modellek fejlesztői számára. Ebben az esetben úgy tűnik, az Anthropic az egész iparágra kiterjedő erőfeszítést szorgalmaz az MI-modellek jobb megértése érdekében, nem pedig csak a képességeik növelését.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
Nem érkezett még hozzászólás. Legyél Te az első!