SG.hu

Nem létező szoftvercsomagokra hivatkoznak a programozást segítő MI-k

A mesterséges intelligencia modellek továbbra is hallucinálnak. Amint arra két friss tanulmány is rámutat, ez a hajlam aláhúzza a korábbi figyelmeztetéseket, hogy ne hagyatkozzunk a mesterséges intelligencia tanácsaira semmilyen igazán fontos dologban.

A Lasso Security megállapította, hogy a nagy nyelvi modellek (LLM) a forráskódok generálásakor néha olyan szoftvercsomag-függőségek neveit találják ki, amelyek nem is léteznek. Ez ijesztő, mert bűnözők könnyen létrehozhatnak egy olyan csomagot, amely egy a MI-szolgáltatások által gyakran előállított nevet használ, és telepakolhatják rosszindulatú szoftverekkel. Ezután már csak várniuk kell, hogy egy szerencsétlen fejlesztő elfogadja a mesterséges intelligencia javaslatát, és belerak a programjába egy olyan mérgezett csomagot, amely tartalmazza az átvett, korrumpált függőséget.

A University of Texas at San Antonio, az Oklahomai Egyetem és a Virginia Tech kutatói 16 kódgenerálásra használt LLM-et vizsgáltak meg, hogy feltárják a csomagnevek kitalálására való hajlamukat. A "We Have a Package for You!” (Van egy csomagunk az Ön számára!) címmel megjelent tanulmányban a "A kódgeneráló LLM-ek által elkövetett csomaghallucinációk átfogó elemzése" alcím alatt a szerzők kifejtik, hogy a hallucinációk az LLM-ek megoldatlan hiányossága. Ez nem kerülte el azon ügyvédek figyelmét sem, akik tavaly MI-t használva nem létező bírósági ügyekre hivatkoztak jogi beadványaikban, majd bocsánatot kellett kérniük az érintett bíróságoktól. De azok számára, akik az LLM-eket valóban hasznosnak találják a kódolásban való segítséghez, ezt muszáj megismételni.

„A hallucinációk az LLM-ek által előállított olyan kimenetek, amelyek tényszerűen helytelenek, értelmetlenek vagy teljesen függetlenek a bemeneti feladattól” - írják a szerzők, Joseph Spracklen, Raveen Wijewickrama, Nazmus Sakib, Anindya Maiti, Bimal Viswanath és Murtuza Jadliwala. "A hallucinációk kritikus akadályt jelentenek az LLM-ek nyilvános alkalmazásokban való hatékony és biztonságos alkalmazása előtt, mivel pontatlan vagy félrevezető információkat generálhatnak.” Mindazonáltal LLM-eket már bevetettek nyilvános alkalmazásokban, köszönhetően az MI-boom lelkes marketingeseinek és a felhőszolgáltatóknak. A fejlesztők pedig - ahogy az MI-értékesítők mondják - imádják használni az MI-asszisztenseket, mert azok javítják a termelékenységet, és a programozók magabiztosabbak a munkájuk minőségét illetően.

Ennek ellenére a kutatók fel akarták mérni annak valószínűségét, hogy egy MI modell hamis csomagokat fabrikál. 16 népszerű, kereskedelmi és nyílt forráskódú LLM-et használtak, hogy 576 000 kódmintát generáljanak JavaScript és Python nyelven, amelyek az npm és PyPI csomagtárakra támaszkodnak. Az eredmények hagynak némi kívánnivalót maguk után. "Eredményeink azt mutatják, hogy a hallucinált csomagok átlagos aránya legalább 5,2 százalék a kereskedelmi modellek esetében és 21,7 százalék a nyílt forráskódú modellek esetében, beleértve a hallucinált csomagnevek megdöbbentő 205 474 darabszámát, ami még inkább aláhúzza ennek a fenyegetésnek a súlyosságát és elterjedtségét” - állítják a szerzők.

A kutatási célból futtatott 30 teszt 2,23 millió csomag létrehozását eredményezte - ezek mintegy 20 százalékáról (440 445) állapították meg, hogy hallucinációk. Ezek közül 205 474 egyedi, nem létező csomag volt, amelyeket nem lehetett megtalálni a PyPI-ben vagy az npm-ben. Ami még figyelemre méltó - túl azon a tényen, hogy a kereskedelmi modellek négyszer alacsonyabb valószínűséggel gyártanak csomagneveket, mint a nyílt forráskódú modellek -, hogy ezek az eredmények négyszer-hatszor kevesebb hallucinációt mutatnak, mint a Lasso Security GPT-3.5 (5,76 százalék vs. 24,2 százalék) és GPT-4 (4,05 százalék vs. 22,2 százalék) adatai. Ez már számít valamit.

A csomaghallucinációk valószínűsége csökkenthető, de ennek ára van. A DeepSeek Coder 6.7B és a CodeLlama 7B modelleknél a kutatók a Retrieval Augmented Generation (RAG) segítségével egy enyhítési stratégiát vezettek be, amely tartalmazza az érvényes csomagnevek listáját, hogy segítsen a válaszok irányításában, valamint finomhangolással kiszűrjék a kitalált csomagokat. Az eredmény a hallucináció csökkenése volt - a kódminőség rovására. "A finomhangolt modellek kódminősége jelentősen csökkent, -26,1 százalékkal, illetve -3,1 százalékkal a DeepSeek és a CodeLlama esetében, cserébe a csomagok hallucinációs arányának jelentős javulásáért” - írták a kutatók.

Egy másik, a mesterséges intelligencia hallucinációját vizsgáló tanulmányban José Hernández-Orallo és munkatársai a spanyolországi Valenciai Mesterséges Intelligencia Kutatóintézetből azt találták, hogy az LLM-ek a méretnövekedéssel egyre megbízhatatlanabbá válnak. A kutatók három modellcsaládot vizsgáltak: az OpenAI GPT, a Meta LLaMA és a BigScience nyílt forráskódú BLOOM modelljét. A különböző modelleket önmaguk felskálázott (több paraméterrel rendelkező) változataival tesztelték, összeadásra, szóanagrammákra, földrajzi ismeretekre, tudományra és információorientált átalakításokra vonatkozó kérdésekkel. Azt találták, hogy a nagyobb - finomhangolással és több paraméterrel megformált - modellek ugyan pontosabb válaszokat adnak, de kevésbé megbízhatóak.

Ez azért van így, mert a kisebb modellek elkerülnek néhány olyan kérést, amelyre nem tudnak válaszolni, míg a nagyobb modellek nagyobb valószínűséggel adnak hihető, de téves választ. Így a nem pontos válaszok aránya a helytelen válaszok nagyobb hányadából áll, és ezzel arányosan csökken az elkerült válaszok száma. Ezt a tendenciát különösen az OpenAI GPT-családja esetében vették észre. A kutatók azt találták, hogy a GPT-4 szinte mindenre válaszol, ahol a korábbi modellgenerációk megbízható előrejelzés hiányában kerülnék a válaszadást. Tovább súlyosbítva a problémát, a kutatók megállapították, hogy az emberek rosszul értékelik az LLM válaszokat - a helytelen válaszokat az esetek körülbelül 10-40 százalékában helyesnek minősítik. Megállapításaik alapján Hernández-Orallo és társszerzői úgy érvelnek, hogy „az emberi felügyeletre támaszkodni ezeknek a rendszereknek az esetében veszélyt jelent, különösen olyan területeken, ahol az igazság kritikus fontosságú”.

Ez egy hosszúra nyúlt megfogalmazása a Microsoft MI hitvallásának, amely arra figyelmeztet, hogy ne használjuk a mesterséges intelligenciát semmi fontosra. "A kezdeti modellek gyakran kikerülik a felhasználói kérdéseket, de a skálázott, formált modellek sokkal gyakrabban hajlamosak látszólag értelmes, mégis rossz választ adni, beleértve a nehéz kérdésekre adott hibákat is, amelyeket az emberi felügyelők gyakran figyelmen kívül hagynak” - állapítják meg a kutatók. "Ezek az eredmények rávilágítanak arra, hogy alapvető váltásra van szükség az általános célú mesterséges intelligencia tervezésében és fejlesztésében, különösen a nagy tétekkel járó területeken, ahol a hibák kiszámítható eloszlása kiemelkedően fontos.”

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • militavia #20
    Jó, hát nekem tapasztalatom az, hogy a Chat GPT-re hagyatkozva adócsaló / balfasz lennék...
    A YT az haluzza, hogy HUN és US között van aktív adóegyezmény, amikor már nincs, de aszerint javasolja, hogy hogyan töltsem ki a W-8 BEN -t.

    Nagyjából ennyire érdemes bármi téren rábízni magam. Műszaki területen is csak rizsázott, a csatornámmal kapcsolatos mélységű haditechnikánál is csak rizs volt, 0 konkrétummal.

    KB. egy jobb fordító program és lehet, hogy programozni úgy, ahogy tud. Nekem 0 tudásom van ezen a téren, ezért nem tudom, hogy milyen kódot tud írni.
  • militavia #19
    "Már most tele a net MI tartalommal."
    Értem én, hogy az emberek által tartalomnak hívott szemét is sok volt, de az MI konkértan csak szemetet gyárt.
    Olyan tartalom, amit azt mondom, hogy valódi tartalom, arra az MI kétpelen.

    Régen a műszaki rajzokat n+1 rajzoló csinálta, ma meg a mérnök úr is maga rajzolgat gyorsan. Ettől még nem vált feleslegesség a mérnök úr...
    Ráadásul mindenki elfelejti azt, hogy ma az MI valódi költségét SENKI nem fizeti meg. Mi van, ha az ár / érték aránya annyira szar marad, hogy a világ 80%-án meg sem éri használni? Ezen felül az MI egyszer kúrjon csak el valamit látványosan, akkor annak kárigényét, ha ráháríják a MI gyártójára, akkor gyorsan földbe fog állni az angolszász precedensjogterületeken az egész.
  • dyra #18
    Szerintem viszont Waterloo lesz a munkaerőpiacon. És most pont a korábban magas hozzáadott értékű munkákra lehet majd veszélyes. Idő kérdése, mikor kapcsolják össze a nagyvállalatok a rendszereiket mesterséges intelligenciát használva. Könyvelés, logisztikai feladatok – de az IT-ban is megjelenik majd MI-alapú támogatás. Sőt, el tudom képzelni, hogy a konfigurációkat is MI-k fogják végezni. Persze sokáig szükség lesz még emberekre, csak éppen ahol eddig egy feladathoz 10 ember kellett, ezután 5, majd 3, végül 2 is elég lehet. Tartalomgyártás. Már most tele a net MI tartalommal. Brutális változásokat fog hozni.
  • Palinko #17
    Nekem is hasonló a megélésem a dologgal kapcsolatban, bár nem ennyire jó azért. Nem értem azokat az embereket sem akik azt mondják hogy ez egy rakás szar semmire se jó, de azokat sem akik azt mondják hogy 5 éven belül mindent lecserél, valahol a kettő között vagyok. Én nagyon remélem hogy sokat fog javulni, de már most olyasmiket tudok 1 nap alatt megoldani amit korábban hetek kutatása sok nyűglődés esetleg dead endbe futások miatt feladás lett volna a vége és sok dolog ami eddig egyszerűen nem ért annyit most elvégezhető.
  • dyra #16
    Mindenre. De tényleg. Informatikával foglalkozom, napi munkám során scripteket írok, operációs rendszereket, switcheket, routereket, tűzfalakat konfigurálok. Ezen kívül például a Service-Now-ban megíratom vele a change requesteket. Dokumentációt készítek vele. Fordítok. Horoszkópokban is perfekt vagyok, a kolléganőknek jósolok. A DALL·E-val rajzolok. Termékeket hasonlítok össze. Sokszor előfordul, hogy a termékszám (product number) 1-2 karakterben eltér, és az interneten keresni sokszor rémálom. Megkérdezem a ChatGPT-t, és legtöbbször tudja a választ. Házfelújítással kapcsolatos kérdéseim vannak, például hogyan kell használni egy gépet, amit korábban még nem használtam. Kalkulációkat végzek, melyik megoldás éri meg jobban. Beírom a pro és kontra érveket, és segít értelmezni, kiszámolni. Szerződéstervezetet ír. Árajánlatot ír. Stb. Helyesírást javít. Zseniális cucc. Persze sokszor hülyeséget beszél. De még mindig egyszerűbb azt kiszúrni mintha mindennek magam járnék utána.
  • militavia #15
    Milyen feladatra használod?
  • dyra #14
    ChatGP-t használok. Eszméletlen megkönnyíti az életem. Igen! Sokszor beszél hülyeséget! Azt tudni kell kiszúrni de amúgy zseniális cucc.
    Utoljára szerkesztette: dyra, 2024.10.04. 10:32:45
  • M2 #13
    Magyart és angolt harmadik nyelvre fordításoknál használom kontroll végpontoknak.
    Például angol->francia ellenőrzése a francia->magyar. Aztán visszafelé.
  • militavia #12
    Akkor az a PM szar és ostoba barom, meg a megrendelő is. Egyeztetésen, ha valami ötlete támadt megrendelőnek, ami faszság / nem tudunk rá kapásból válaszolni akkor "utána nézünk / megvizsgáljuk2" a válasz. Majd szépen írásban közöltük az eredményt / NEM választ.
  • militavia #11
    Nagyjából a gépi fordítás is ilyen. De magyarról angolra kb. akkor csinálja kb. jó, ha eleve HUNglish módon írom meg. De még a chat GTP is néha a szezont keveri össze a fazonnal. A gépelési idő nagy részét képesek megspórolni, illetve egyes fordulatok és mondatszerkezet kapcsán adhat tippet, hogy hogyan legyen vagy ne legyen. De ettől a fordításhoz kell tudni angolul.

    Csak a chatgpt is annyira önfejű hülye, hogy csak fordításra kérem, de ehhez képest sokszor nekiáll hozzá költeni. Szinten én érzem magam szarul, hogy ráripakodok, hogy, "pls. CSAK fordíts". A fordítás közbeni hozzáköltés sokszor volt egetverő faszság.