SG.hu

Nem létező szoftvercsomagokra hivatkoznak a programozást segítő MI-k

A mesterséges intelligencia modellek továbbra is hallucinálnak. Amint arra két friss tanulmány is rámutat, ez a hajlam aláhúzza a korábbi figyelmeztetéseket, hogy ne hagyatkozzunk a mesterséges intelligencia tanácsaira semmilyen igazán fontos dologban.

A Lasso Security megállapította, hogy a nagy nyelvi modellek (LLM) a forráskódok generálásakor néha olyan szoftvercsomag-függőségek neveit találják ki, amelyek nem is léteznek. Ez ijesztő, mert bűnözők könnyen létrehozhatnak egy olyan csomagot, amely egy a MI-szolgáltatások által gyakran előállított nevet használ, és telepakolhatják rosszindulatú szoftverekkel. Ezután már csak várniuk kell, hogy egy szerencsétlen fejlesztő elfogadja a mesterséges intelligencia javaslatát, és belerak a programjába egy olyan mérgezett csomagot, amely tartalmazza az átvett, korrumpált függőséget.

A University of Texas at San Antonio, az Oklahomai Egyetem és a Virginia Tech kutatói 16 kódgenerálásra használt LLM-et vizsgáltak meg, hogy feltárják a csomagnevek kitalálására való hajlamukat. A "We Have a Package for You!” (Van egy csomagunk az Ön számára!) címmel megjelent tanulmányban a "A kódgeneráló LLM-ek által elkövetett csomaghallucinációk átfogó elemzése" alcím alatt a szerzők kifejtik, hogy a hallucinációk az LLM-ek megoldatlan hiányossága. Ez nem kerülte el azon ügyvédek figyelmét sem, akik tavaly MI-t használva nem létező bírósági ügyekre hivatkoztak jogi beadványaikban, majd bocsánatot kellett kérniük az érintett bíróságoktól. De azok számára, akik az LLM-eket valóban hasznosnak találják a kódolásban való segítséghez, ezt muszáj megismételni.

„A hallucinációk az LLM-ek által előállított olyan kimenetek, amelyek tényszerűen helytelenek, értelmetlenek vagy teljesen függetlenek a bemeneti feladattól” - írják a szerzők, Joseph Spracklen, Raveen Wijewickrama, Nazmus Sakib, Anindya Maiti, Bimal Viswanath és Murtuza Jadliwala. "A hallucinációk kritikus akadályt jelentenek az LLM-ek nyilvános alkalmazásokban való hatékony és biztonságos alkalmazása előtt, mivel pontatlan vagy félrevezető információkat generálhatnak.” Mindazonáltal LLM-eket már bevetettek nyilvános alkalmazásokban, köszönhetően az MI-boom lelkes marketingeseinek és a felhőszolgáltatóknak. A fejlesztők pedig - ahogy az MI-értékesítők mondják - imádják használni az MI-asszisztenseket, mert azok javítják a termelékenységet, és a programozók magabiztosabbak a munkájuk minőségét illetően.

Ennek ellenére a kutatók fel akarták mérni annak valószínűségét, hogy egy MI modell hamis csomagokat fabrikál. 16 népszerű, kereskedelmi és nyílt forráskódú LLM-et használtak, hogy 576 000 kódmintát generáljanak JavaScript és Python nyelven, amelyek az npm és PyPI csomagtárakra támaszkodnak. Az eredmények hagynak némi kívánnivalót maguk után. "Eredményeink azt mutatják, hogy a hallucinált csomagok átlagos aránya legalább 5,2 százalék a kereskedelmi modellek esetében és 21,7 százalék a nyílt forráskódú modellek esetében, beleértve a hallucinált csomagnevek megdöbbentő 205 474 darabszámát, ami még inkább aláhúzza ennek a fenyegetésnek a súlyosságát és elterjedtségét” - állítják a szerzők.

A kutatási célból futtatott 30 teszt 2,23 millió csomag létrehozását eredményezte - ezek mintegy 20 százalékáról (440 445) állapították meg, hogy hallucinációk. Ezek közül 205 474 egyedi, nem létező csomag volt, amelyeket nem lehetett megtalálni a PyPI-ben vagy az npm-ben. Ami még figyelemre méltó - túl azon a tényen, hogy a kereskedelmi modellek négyszer alacsonyabb valószínűséggel gyártanak csomagneveket, mint a nyílt forráskódú modellek -, hogy ezek az eredmények négyszer-hatszor kevesebb hallucinációt mutatnak, mint a Lasso Security GPT-3.5 (5,76 százalék vs. 24,2 százalék) és GPT-4 (4,05 százalék vs. 22,2 százalék) adatai. Ez már számít valamit.

A csomaghallucinációk valószínűsége csökkenthető, de ennek ára van. A DeepSeek Coder 6.7B és a CodeLlama 7B modelleknél a kutatók a Retrieval Augmented Generation (RAG) segítségével egy enyhítési stratégiát vezettek be, amely tartalmazza az érvényes csomagnevek listáját, hogy segítsen a válaszok irányításában, valamint finomhangolással kiszűrjék a kitalált csomagokat. Az eredmény a hallucináció csökkenése volt - a kódminőség rovására. "A finomhangolt modellek kódminősége jelentősen csökkent, -26,1 százalékkal, illetve -3,1 százalékkal a DeepSeek és a CodeLlama esetében, cserébe a csomagok hallucinációs arányának jelentős javulásáért” - írták a kutatók.

Egy másik, a mesterséges intelligencia hallucinációját vizsgáló tanulmányban José Hernández-Orallo és munkatársai a spanyolországi Valenciai Mesterséges Intelligencia Kutatóintézetből azt találták, hogy az LLM-ek a méretnövekedéssel egyre megbízhatatlanabbá válnak. A kutatók három modellcsaládot vizsgáltak: az OpenAI GPT, a Meta LLaMA és a BigScience nyílt forráskódú BLOOM modelljét. A különböző modelleket önmaguk felskálázott (több paraméterrel rendelkező) változataival tesztelték, összeadásra, szóanagrammákra, földrajzi ismeretekre, tudományra és információorientált átalakításokra vonatkozó kérdésekkel. Azt találták, hogy a nagyobb - finomhangolással és több paraméterrel megformált - modellek ugyan pontosabb válaszokat adnak, de kevésbé megbízhatóak.

Ez azért van így, mert a kisebb modellek elkerülnek néhány olyan kérést, amelyre nem tudnak válaszolni, míg a nagyobb modellek nagyobb valószínűséggel adnak hihető, de téves választ. Így a nem pontos válaszok aránya a helytelen válaszok nagyobb hányadából áll, és ezzel arányosan csökken az elkerült válaszok száma. Ezt a tendenciát különösen az OpenAI GPT-családja esetében vették észre. A kutatók azt találták, hogy a GPT-4 szinte mindenre válaszol, ahol a korábbi modellgenerációk megbízható előrejelzés hiányában kerülnék a válaszadást. Tovább súlyosbítva a problémát, a kutatók megállapították, hogy az emberek rosszul értékelik az LLM válaszokat - a helytelen válaszokat az esetek körülbelül 10-40 százalékában helyesnek minősítik. Megállapításaik alapján Hernández-Orallo és társszerzői úgy érvelnek, hogy „az emberi felügyeletre támaszkodni ezeknek a rendszereknek az esetében veszélyt jelent, különösen olyan területeken, ahol az igazság kritikus fontosságú”.

Ez egy hosszúra nyúlt megfogalmazása a Microsoft MI hitvallásának, amely arra figyelmeztet, hogy ne használjuk a mesterséges intelligenciát semmi fontosra. "A kezdeti modellek gyakran kikerülik a felhasználói kérdéseket, de a skálázott, formált modellek sokkal gyakrabban hajlamosak látszólag értelmes, mégis rossz választ adni, beleértve a nehéz kérdésekre adott hibákat is, amelyeket az emberi felügyelők gyakran figyelmen kívül hagynak” - állapítják meg a kutatók. "Ezek az eredmények rávilágítanak arra, hogy alapvető váltásra van szükség az általános célú mesterséges intelligencia tervezésében és fejlesztésében, különösen a nagy tétekkel járó területeken, ahol a hibák kiszámítható eloszlása kiemelkedően fontos.”

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • Palinko #17
    Nekem is hasonló a megélésem a dologgal kapcsolatban, bár nem ennyire jó azért. Nem értem azokat az embereket sem akik azt mondják hogy ez egy rakás szar semmire se jó, de azokat sem akik azt mondják hogy 5 éven belül mindent lecserél, valahol a kettő között vagyok. Én nagyon remélem hogy sokat fog javulni, de már most olyasmiket tudok 1 nap alatt megoldani amit korábban hetek kutatása sok nyűglődés esetleg dead endbe futások miatt feladás lett volna a vége és sok dolog ami eddig egyszerűen nem ért annyit most elvégezhető.
  • dyra #16
    Mindenre. De tényleg. Informatikával foglalkozom, napi munkám során scripteket írok, operációs rendszereket, switcheket, routereket, tűzfalakat konfigurálok. Ezen kívül például a Service-Now-ban megíratom vele a change requesteket. Dokumentációt készítek vele. Fordítok. Horoszkópokban is perfekt vagyok, a kolléganőknek jósolok. A DALL·E-val rajzolok. Termékeket hasonlítok össze. Sokszor előfordul, hogy a termékszám (product number) 1-2 karakterben eltér, és az interneten keresni sokszor rémálom. Megkérdezem a ChatGPT-t, és legtöbbször tudja a választ. Házfelújítással kapcsolatos kérdéseim vannak, például hogyan kell használni egy gépet, amit korábban még nem használtam. Kalkulációkat végzek, melyik megoldás éri meg jobban. Beírom a pro és kontra érveket, és segít értelmezni, kiszámolni. Szerződéstervezetet ír. Árajánlatot ír. Stb. Helyesírást javít. Zseniális cucc. Persze sokszor hülyeséget beszél. De még mindig egyszerűbb azt kiszúrni mintha mindennek magam járnék utána.
  • militavia #15
    Milyen feladatra használod?
  • dyra #14
    ChatGP-t használok. Eszméletlen megkönnyíti az életem. Igen! Sokszor beszél hülyeséget! Azt tudni kell kiszúrni de amúgy zseniális cucc.
    Utoljára szerkesztette: dyra, 2024.10.04. 10:32:45
  • M2 #13
    Magyart és angolt harmadik nyelvre fordításoknál használom kontroll végpontoknak.
    Például angol->francia ellenőrzése a francia->magyar. Aztán visszafelé.
  • militavia #12
    Akkor az a PM szar és ostoba barom, meg a megrendelő is. Egyeztetésen, ha valami ötlete támadt megrendelőnek, ami faszság / nem tudunk rá kapásból válaszolni akkor "utána nézünk / megvizsgáljuk2" a válasz. Majd szépen írásban közöltük az eredményt / NEM választ.
  • militavia #11
    Nagyjából a gépi fordítás is ilyen. De magyarról angolra kb. akkor csinálja kb. jó, ha eleve HUNglish módon írom meg. De még a chat GTP is néha a szezont keveri össze a fazonnal. A gépelési idő nagy részét képesek megspórolni, illetve egyes fordulatok és mondatszerkezet kapcsán adhat tippet, hogy hogyan legyen vagy ne legyen. De ettől a fordításhoz kell tudni angolul.

    Csak a chatgpt is annyira önfejű hülye, hogy csak fordításra kérem, de ehhez képest sokszor nekiáll hozzá költeni. Szinten én érzem magam szarul, hogy ráripakodok, hogy, "pls. CSAK fordíts". A fordítás közbeni hozzáköltés sokszor volt egetverő faszság.
  • inkvisitor #10
    Te most pontosan leírtad a manageri kommunikációt.
    Olyan válasz nincs, hogy nem tudom, de meggyőzően kell mondanod a rizsát melléje hogy a csúcsvezetők elhiggyék. Mire a crach beüt, te már úgyis másik pozícióban leszel, a mérnökök meg oldják meg a hagyatékodat.
  • wraithLord #9
    Igen, ezt rendszeresen csinálja, hogy kérdezel tőle valamit, válaszol... És amikor megkérdezed tőle, hogy ezt honnan szedte (vagy netán konkrét tudományos cikket kérsz róla), akkor kitalál valamit, ami nem létezik. Pl. hivatkozik egy nem létező cikkre. Vagy nincs olyan cikk, vagy nem az a szerzője, és nem egészen az a címe, és nincs benne az, amit a chatgpt állít. :D Weboldalak esetén meg pl. nem ír semmi olyat az oldal, amire a chatgpt hivatkozik. :D
  • Sequoyah #8
    Ez a baj, hogy mindent beleontottek, az alapanyag minosegere tekintet nelkul.

    A jobb AI-k ezt a problemat megoldani meg ugyan nem tudjak, de meg tudjak kerulni azzal, hogy megadjak a forrast ami alapjan a valaszt generaltak. Ha nincs forras, nem hiszek neki.

    A lenti peldat folytatva, ha jogi tanacsot kerek, akkor nem csak valaszt kellene adnia, hanem linkelnie a vonatkozo jogszabalyt, es hasonlo jogi/birosagi eseteket a multbol.