SG.hu

Nem létező szoftvercsomagokra hivatkoznak a programozást segítő MI-k

A mesterséges intelligencia modellek továbbra is hallucinálnak. Amint arra két friss tanulmány is rámutat, ez a hajlam aláhúzza a korábbi figyelmeztetéseket, hogy ne hagyatkozzunk a mesterséges intelligencia tanácsaira semmilyen igazán fontos dologban.

A Lasso Security megállapította, hogy a nagy nyelvi modellek (LLM) a forráskódok generálásakor néha olyan szoftvercsomag-függőségek neveit találják ki, amelyek nem is léteznek. Ez ijesztő, mert bűnözők könnyen létrehozhatnak egy olyan csomagot, amely egy a MI-szolgáltatások által gyakran előállított nevet használ, és telepakolhatják rosszindulatú szoftverekkel. Ezután már csak várniuk kell, hogy egy szerencsétlen fejlesztő elfogadja a mesterséges intelligencia javaslatát, és belerak a programjába egy olyan mérgezett csomagot, amely tartalmazza az átvett, korrumpált függőséget.

A University of Texas at San Antonio, az Oklahomai Egyetem és a Virginia Tech kutatói 16 kódgenerálásra használt LLM-et vizsgáltak meg, hogy feltárják a csomagnevek kitalálására való hajlamukat. A "We Have a Package for You!” (Van egy csomagunk az Ön számára!) címmel megjelent tanulmányban a "A kódgeneráló LLM-ek által elkövetett csomaghallucinációk átfogó elemzése" alcím alatt a szerzők kifejtik, hogy a hallucinációk az LLM-ek megoldatlan hiányossága. Ez nem kerülte el azon ügyvédek figyelmét sem, akik tavaly MI-t használva nem létező bírósági ügyekre hivatkoztak jogi beadványaikban, majd bocsánatot kellett kérniük az érintett bíróságoktól. De azok számára, akik az LLM-eket valóban hasznosnak találják a kódolásban való segítséghez, ezt muszáj megismételni.

„A hallucinációk az LLM-ek által előállított olyan kimenetek, amelyek tényszerűen helytelenek, értelmetlenek vagy teljesen függetlenek a bemeneti feladattól” - írják a szerzők, Joseph Spracklen, Raveen Wijewickrama, Nazmus Sakib, Anindya Maiti, Bimal Viswanath és Murtuza Jadliwala. "A hallucinációk kritikus akadályt jelentenek az LLM-ek nyilvános alkalmazásokban való hatékony és biztonságos alkalmazása előtt, mivel pontatlan vagy félrevezető információkat generálhatnak.” Mindazonáltal LLM-eket már bevetettek nyilvános alkalmazásokban, köszönhetően az MI-boom lelkes marketingeseinek és a felhőszolgáltatóknak. A fejlesztők pedig - ahogy az MI-értékesítők mondják - imádják használni az MI-asszisztenseket, mert azok javítják a termelékenységet, és a programozók magabiztosabbak a munkájuk minőségét illetően.

Ennek ellenére a kutatók fel akarták mérni annak valószínűségét, hogy egy MI modell hamis csomagokat fabrikál. 16 népszerű, kereskedelmi és nyílt forráskódú LLM-et használtak, hogy 576 000 kódmintát generáljanak JavaScript és Python nyelven, amelyek az npm és PyPI csomagtárakra támaszkodnak. Az eredmények hagynak némi kívánnivalót maguk után. "Eredményeink azt mutatják, hogy a hallucinált csomagok átlagos aránya legalább 5,2 százalék a kereskedelmi modellek esetében és 21,7 százalék a nyílt forráskódú modellek esetében, beleértve a hallucinált csomagnevek megdöbbentő 205 474 darabszámát, ami még inkább aláhúzza ennek a fenyegetésnek a súlyosságát és elterjedtségét” - állítják a szerzők.

A kutatási célból futtatott 30 teszt 2,23 millió csomag létrehozását eredményezte - ezek mintegy 20 százalékáról (440 445) állapították meg, hogy hallucinációk. Ezek közül 205 474 egyedi, nem létező csomag volt, amelyeket nem lehetett megtalálni a PyPI-ben vagy az npm-ben. Ami még figyelemre méltó - túl azon a tényen, hogy a kereskedelmi modellek négyszer alacsonyabb valószínűséggel gyártanak csomagneveket, mint a nyílt forráskódú modellek -, hogy ezek az eredmények négyszer-hatszor kevesebb hallucinációt mutatnak, mint a Lasso Security GPT-3.5 (5,76 százalék vs. 24,2 százalék) és GPT-4 (4,05 százalék vs. 22,2 százalék) adatai. Ez már számít valamit.

A csomaghallucinációk valószínűsége csökkenthető, de ennek ára van. A DeepSeek Coder 6.7B és a CodeLlama 7B modelleknél a kutatók a Retrieval Augmented Generation (RAG) segítségével egy enyhítési stratégiát vezettek be, amely tartalmazza az érvényes csomagnevek listáját, hogy segítsen a válaszok irányításában, valamint finomhangolással kiszűrjék a kitalált csomagokat. Az eredmény a hallucináció csökkenése volt - a kódminőség rovására. "A finomhangolt modellek kódminősége jelentősen csökkent, -26,1 százalékkal, illetve -3,1 százalékkal a DeepSeek és a CodeLlama esetében, cserébe a csomagok hallucinációs arányának jelentős javulásáért” - írták a kutatók.

Egy másik, a mesterséges intelligencia hallucinációját vizsgáló tanulmányban José Hernández-Orallo és munkatársai a spanyolországi Valenciai Mesterséges Intelligencia Kutatóintézetből azt találták, hogy az LLM-ek a méretnövekedéssel egyre megbízhatatlanabbá válnak. A kutatók három modellcsaládot vizsgáltak: az OpenAI GPT, a Meta LLaMA és a BigScience nyílt forráskódú BLOOM modelljét. A különböző modelleket önmaguk felskálázott (több paraméterrel rendelkező) változataival tesztelték, összeadásra, szóanagrammákra, földrajzi ismeretekre, tudományra és információorientált átalakításokra vonatkozó kérdésekkel. Azt találták, hogy a nagyobb - finomhangolással és több paraméterrel megformált - modellek ugyan pontosabb válaszokat adnak, de kevésbé megbízhatóak.

Ez azért van így, mert a kisebb modellek elkerülnek néhány olyan kérést, amelyre nem tudnak válaszolni, míg a nagyobb modellek nagyobb valószínűséggel adnak hihető, de téves választ. Így a nem pontos válaszok aránya a helytelen válaszok nagyobb hányadából áll, és ezzel arányosan csökken az elkerült válaszok száma. Ezt a tendenciát különösen az OpenAI GPT-családja esetében vették észre. A kutatók azt találták, hogy a GPT-4 szinte mindenre válaszol, ahol a korábbi modellgenerációk megbízható előrejelzés hiányában kerülnék a válaszadást. Tovább súlyosbítva a problémát, a kutatók megállapították, hogy az emberek rosszul értékelik az LLM válaszokat - a helytelen válaszokat az esetek körülbelül 10-40 százalékában helyesnek minősítik. Megállapításaik alapján Hernández-Orallo és társszerzői úgy érvelnek, hogy „az emberi felügyeletre támaszkodni ezeknek a rendszereknek az esetében veszélyt jelent, különösen olyan területeken, ahol az igazság kritikus fontosságú”.

Ez egy hosszúra nyúlt megfogalmazása a Microsoft MI hitvallásának, amely arra figyelmeztet, hogy ne használjuk a mesterséges intelligenciát semmi fontosra. "A kezdeti modellek gyakran kikerülik a felhasználói kérdéseket, de a skálázott, formált modellek sokkal gyakrabban hajlamosak látszólag értelmes, mégis rossz választ adni, beleértve a nehéz kérdésekre adott hibákat is, amelyeket az emberi felügyelők gyakran figyelmen kívül hagynak” - állapítják meg a kutatók. "Ezek az eredmények rávilágítanak arra, hogy alapvető váltásra van szükség az általános célú mesterséges intelligencia tervezésében és fejlesztésében, különösen a nagy tétekkel járó területeken, ahol a hibák kiszámítható eloszlása kiemelkedően fontos.”

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • kvp #7
    "Az AI olyan, mintha kidobnank az osszes tankonyvet es oktatast."

    Ez volt az eljaras a betanitas soran. Beontottek mindent ami elerheto volt es arra tanitottak, hogy probaljon meg a hallgatonak minel tetszobb valaszt adni. Ezzel megrogzott hazudozasra tanitottak a modelleket, amiket betanitas kozben feltoltottek nagy aranyban hibas tudassal. Tehat eleg meggyozoen tud veletlenszeru hulyesegeket generalni, neha veletlenul igazat mondva. Az atlagos emberek meg nem ismerik fel (a 40%-os emberi hibaarany nagyon gaz). Bar lehet csak azok hasznalnak ilyen MI-t akik eleve hulyek es pont ezert szorulnak ra.

    "Ez ebben a formában hülyeség. Mérnökként elmondhatatlan sokszor az a válaszom, akárki kérdez, hogy "nem tudom"."

    Ha kiskorodtol arra tanitottak volna, hogy teljesen mindegy, hogy mit valaszolsz, csak minel meggyozobben allits valamit. Barmit. Akar azt is, hogy a valasz 42... Csak mondj valamit, barmit, akkor te is olyen lennel mint ezek az "MI"-k.

    ps: Nem hallucinalnak, csak ugy szamoltak, hogy a hulyeseg amit mondank lesz a legjobb adhato valasz az adott kerdesre. Tobbnyire akkor is hazudnak ha egyebkent bennuk van a helyes valasz is, csak az a belso meroszamaik alapjan az nem lenne olyan nepszeru. Ez azert alakult igy, mert a betanitast vegzo embereket iranyito donteshozok voltak nagyon cinikusak es szociopatak, azaz sikeres modern uzeletemberek. Lehetne jol csinalni, de akkor nem lenne ilyen latvanyos az elorehaladas es nagyon nem lenne politikailag korrekt az eredmeny ha mindig igazat es csak az igazat mondana egy MI. (pedig ha ugy allitjak be a betanitast, akkor ez siman is megoldhato)
  • Sequoyah #6
    Nem, ez arrol szol, hogy meg kellene tudni kulonboztetni a hivatalosan elismert forrasokat.
    Peldaul ha jogi tanacsot kerek, akkor nem eleg ha egy laikus szamara joginak hangzo valaszt ad, hanem a valos, adott helyen ervenyes torvenyekre kell hivatkoznia.

    Abbol hogy statisztikailag megjosolod az adott szovegkornyezetben legvaloszinubb kovetkezo szot, semmi nem fogja garantalni a pontossagot.

    Az AI olyan, mintha kidobnank az osszes tankonyvet es oktatast.
    Utoljára szerkesztette: Sequoyah, 2024.10.02. 22:11:07
  • repvez #5
  • M2 #4
    Nem tudom ki hogyan programoz AI támogatással, de én annyiban használom, hogy ha a sort, amit épp beírni akarok, jól tölti ki, akkor elfogadom. Néha egész metódusokat is eltalál, néha alap sorokat sem. De teljesen biztos, hogy teljes kontroll nélkül nem engedném dolgozni. Ott még nem tart.
  • militavia #3
    Ez ebben a formában hülyeség. Mérnökként elmondhatatlan sokszor az a válaszom, akárki kérdez, hogy "nem tudom". Csak én nem kezdek el valami láthatatlan algoritmus kapcsán hallucinálni.
  • reptile1313 #2
    " Az AI hallucinál."

    Az emberek meg mindig tobbet. Csak ok akkor is ha tudjak a valaszt, csak egobol nem valaszolnak. Sot ha tevednek akkor azt se ismerik el. Arrogansak, farasztoak. stbstb. Meg mindig gyorsabban lehet haladni egy Aival, mint egy arrogans emberrel. Azok az emberek pedig akik verik az AIt tobbe kerulnek. Itt a kozepes szintu programozok valtodnak le ill azok akik arrogansak es nem fejlodnek......

  • inkvisitor #1
    Más szóval, az MI-nek válaszolnia kell minden kérdésre és nem utasítja vissza a válaszadást akkor sem, ha nincs információja hogy mit kéne válaszolni.
    Egy ember ilyenkor hasraütéssel válaszol (lódít). Az MI " hallucinál".