SG.hu
Nem létező szoftvercsomagokra hivatkoznak a programozást segítő MI-k
A mesterséges intelligencia modellek továbbra is hallucinálnak. Amint arra két friss tanulmány is rámutat, ez a hajlam aláhúzza a korábbi figyelmeztetéseket, hogy ne hagyatkozzunk a mesterséges intelligencia tanácsaira semmilyen igazán fontos dologban.
A Lasso Security megállapította, hogy a nagy nyelvi modellek (LLM) a forráskódok generálásakor néha olyan szoftvercsomag-függőségek neveit találják ki, amelyek nem is léteznek. Ez ijesztő, mert bűnözők könnyen létrehozhatnak egy olyan csomagot, amely egy a MI-szolgáltatások által gyakran előállított nevet használ, és telepakolhatják rosszindulatú szoftverekkel. Ezután már csak várniuk kell, hogy egy szerencsétlen fejlesztő elfogadja a mesterséges intelligencia javaslatát, és belerak a programjába egy olyan mérgezett csomagot, amely tartalmazza az átvett, korrumpált függőséget.
A University of Texas at San Antonio, az Oklahomai Egyetem és a Virginia Tech kutatói 16 kódgenerálásra használt LLM-et vizsgáltak meg, hogy feltárják a csomagnevek kitalálására való hajlamukat. A "We Have a Package for You!” (Van egy csomagunk az Ön számára!) címmel megjelent tanulmányban a "A kódgeneráló LLM-ek által elkövetett csomaghallucinációk átfogó elemzése" alcím alatt a szerzők kifejtik, hogy a hallucinációk az LLM-ek megoldatlan hiányossága. Ez nem kerülte el azon ügyvédek figyelmét sem, akik tavaly MI-t használva nem létező bírósági ügyekre hivatkoztak jogi beadványaikban, majd bocsánatot kellett kérniük az érintett bíróságoktól. De azok számára, akik az LLM-eket valóban hasznosnak találják a kódolásban való segítséghez, ezt muszáj megismételni.
„A hallucinációk az LLM-ek által előállított olyan kimenetek, amelyek tényszerűen helytelenek, értelmetlenek vagy teljesen függetlenek a bemeneti feladattól” - írják a szerzők, Joseph Spracklen, Raveen Wijewickrama, Nazmus Sakib, Anindya Maiti, Bimal Viswanath és Murtuza Jadliwala. "A hallucinációk kritikus akadályt jelentenek az LLM-ek nyilvános alkalmazásokban való hatékony és biztonságos alkalmazása előtt, mivel pontatlan vagy félrevezető információkat generálhatnak.” Mindazonáltal LLM-eket már bevetettek nyilvános alkalmazásokban, köszönhetően az MI-boom lelkes marketingeseinek és a felhőszolgáltatóknak. A fejlesztők pedig - ahogy az MI-értékesítők mondják - imádják használni az MI-asszisztenseket, mert azok javítják a termelékenységet, és a programozók magabiztosabbak a munkájuk minőségét illetően.
Ennek ellenére a kutatók fel akarták mérni annak valószínűségét, hogy egy MI modell hamis csomagokat fabrikál. 16 népszerű, kereskedelmi és nyílt forráskódú LLM-et használtak, hogy 576 000 kódmintát generáljanak JavaScript és Python nyelven, amelyek az npm és PyPI csomagtárakra támaszkodnak. Az eredmények hagynak némi kívánnivalót maguk után. "Eredményeink azt mutatják, hogy a hallucinált csomagok átlagos aránya legalább 5,2 százalék a kereskedelmi modellek esetében és 21,7 százalék a nyílt forráskódú modellek esetében, beleértve a hallucinált csomagnevek megdöbbentő 205 474 darabszámát, ami még inkább aláhúzza ennek a fenyegetésnek a súlyosságát és elterjedtségét” - állítják a szerzők.
A kutatási célból futtatott 30 teszt 2,23 millió csomag létrehozását eredményezte - ezek mintegy 20 százalékáról (440 445) állapították meg, hogy hallucinációk. Ezek közül 205 474 egyedi, nem létező csomag volt, amelyeket nem lehetett megtalálni a PyPI-ben vagy az npm-ben. Ami még figyelemre méltó - túl azon a tényen, hogy a kereskedelmi modellek négyszer alacsonyabb valószínűséggel gyártanak csomagneveket, mint a nyílt forráskódú modellek -, hogy ezek az eredmények négyszer-hatszor kevesebb hallucinációt mutatnak, mint a Lasso Security GPT-3.5 (5,76 százalék vs. 24,2 százalék) és GPT-4 (4,05 százalék vs. 22,2 százalék) adatai. Ez már számít valamit.
A csomaghallucinációk valószínűsége csökkenthető, de ennek ára van. A DeepSeek Coder 6.7B és a CodeLlama 7B modelleknél a kutatók a Retrieval Augmented Generation (RAG) segítségével egy enyhítési stratégiát vezettek be, amely tartalmazza az érvényes csomagnevek listáját, hogy segítsen a válaszok irányításában, valamint finomhangolással kiszűrjék a kitalált csomagokat. Az eredmény a hallucináció csökkenése volt - a kódminőség rovására. "A finomhangolt modellek kódminősége jelentősen csökkent, -26,1 százalékkal, illetve -3,1 százalékkal a DeepSeek és a CodeLlama esetében, cserébe a csomagok hallucinációs arányának jelentős javulásáért” - írták a kutatók.
Egy másik, a mesterséges intelligencia hallucinációját vizsgáló tanulmányban José Hernández-Orallo és munkatársai a spanyolországi Valenciai Mesterséges Intelligencia Kutatóintézetből azt találták, hogy az LLM-ek a méretnövekedéssel egyre megbízhatatlanabbá válnak. A kutatók három modellcsaládot vizsgáltak: az OpenAI GPT, a Meta LLaMA és a BigScience nyílt forráskódú BLOOM modelljét. A különböző modelleket önmaguk felskálázott (több paraméterrel rendelkező) változataival tesztelték, összeadásra, szóanagrammákra, földrajzi ismeretekre, tudományra és információorientált átalakításokra vonatkozó kérdésekkel. Azt találták, hogy a nagyobb - finomhangolással és több paraméterrel megformált - modellek ugyan pontosabb válaszokat adnak, de kevésbé megbízhatóak.
Ez azért van így, mert a kisebb modellek elkerülnek néhány olyan kérést, amelyre nem tudnak válaszolni, míg a nagyobb modellek nagyobb valószínűséggel adnak hihető, de téves választ. Így a nem pontos válaszok aránya a helytelen válaszok nagyobb hányadából áll, és ezzel arányosan csökken az elkerült válaszok száma. Ezt a tendenciát különösen az OpenAI GPT-családja esetében vették észre. A kutatók azt találták, hogy a GPT-4 szinte mindenre válaszol, ahol a korábbi modellgenerációk megbízható előrejelzés hiányában kerülnék a válaszadást. Tovább súlyosbítva a problémát, a kutatók megállapították, hogy az emberek rosszul értékelik az LLM válaszokat - a helytelen válaszokat az esetek körülbelül 10-40 százalékában helyesnek minősítik. Megállapításaik alapján Hernández-Orallo és társszerzői úgy érvelnek, hogy „az emberi felügyeletre támaszkodni ezeknek a rendszereknek az esetében veszélyt jelent, különösen olyan területeken, ahol az igazság kritikus fontosságú”.
Ez egy hosszúra nyúlt megfogalmazása a Microsoft MI hitvallásának, amely arra figyelmeztet, hogy ne használjuk a mesterséges intelligenciát semmi fontosra. "A kezdeti modellek gyakran kikerülik a felhasználói kérdéseket, de a skálázott, formált modellek sokkal gyakrabban hajlamosak látszólag értelmes, mégis rossz választ adni, beleértve a nehéz kérdésekre adott hibákat is, amelyeket az emberi felügyelők gyakran figyelmen kívül hagynak” - állapítják meg a kutatók. "Ezek az eredmények rávilágítanak arra, hogy alapvető váltásra van szükség az általános célú mesterséges intelligencia tervezésében és fejlesztésében, különösen a nagy tétekkel járó területeken, ahol a hibák kiszámítható eloszlása kiemelkedően fontos.”
A Lasso Security megállapította, hogy a nagy nyelvi modellek (LLM) a forráskódok generálásakor néha olyan szoftvercsomag-függőségek neveit találják ki, amelyek nem is léteznek. Ez ijesztő, mert bűnözők könnyen létrehozhatnak egy olyan csomagot, amely egy a MI-szolgáltatások által gyakran előállított nevet használ, és telepakolhatják rosszindulatú szoftverekkel. Ezután már csak várniuk kell, hogy egy szerencsétlen fejlesztő elfogadja a mesterséges intelligencia javaslatát, és belerak a programjába egy olyan mérgezett csomagot, amely tartalmazza az átvett, korrumpált függőséget.
A University of Texas at San Antonio, az Oklahomai Egyetem és a Virginia Tech kutatói 16 kódgenerálásra használt LLM-et vizsgáltak meg, hogy feltárják a csomagnevek kitalálására való hajlamukat. A "We Have a Package for You!” (Van egy csomagunk az Ön számára!) címmel megjelent tanulmányban a "A kódgeneráló LLM-ek által elkövetett csomaghallucinációk átfogó elemzése" alcím alatt a szerzők kifejtik, hogy a hallucinációk az LLM-ek megoldatlan hiányossága. Ez nem kerülte el azon ügyvédek figyelmét sem, akik tavaly MI-t használva nem létező bírósági ügyekre hivatkoztak jogi beadványaikban, majd bocsánatot kellett kérniük az érintett bíróságoktól. De azok számára, akik az LLM-eket valóban hasznosnak találják a kódolásban való segítséghez, ezt muszáj megismételni.
„A hallucinációk az LLM-ek által előállított olyan kimenetek, amelyek tényszerűen helytelenek, értelmetlenek vagy teljesen függetlenek a bemeneti feladattól” - írják a szerzők, Joseph Spracklen, Raveen Wijewickrama, Nazmus Sakib, Anindya Maiti, Bimal Viswanath és Murtuza Jadliwala. "A hallucinációk kritikus akadályt jelentenek az LLM-ek nyilvános alkalmazásokban való hatékony és biztonságos alkalmazása előtt, mivel pontatlan vagy félrevezető információkat generálhatnak.” Mindazonáltal LLM-eket már bevetettek nyilvános alkalmazásokban, köszönhetően az MI-boom lelkes marketingeseinek és a felhőszolgáltatóknak. A fejlesztők pedig - ahogy az MI-értékesítők mondják - imádják használni az MI-asszisztenseket, mert azok javítják a termelékenységet, és a programozók magabiztosabbak a munkájuk minőségét illetően.
Ennek ellenére a kutatók fel akarták mérni annak valószínűségét, hogy egy MI modell hamis csomagokat fabrikál. 16 népszerű, kereskedelmi és nyílt forráskódú LLM-et használtak, hogy 576 000 kódmintát generáljanak JavaScript és Python nyelven, amelyek az npm és PyPI csomagtárakra támaszkodnak. Az eredmények hagynak némi kívánnivalót maguk után. "Eredményeink azt mutatják, hogy a hallucinált csomagok átlagos aránya legalább 5,2 százalék a kereskedelmi modellek esetében és 21,7 százalék a nyílt forráskódú modellek esetében, beleértve a hallucinált csomagnevek megdöbbentő 205 474 darabszámát, ami még inkább aláhúzza ennek a fenyegetésnek a súlyosságát és elterjedtségét” - állítják a szerzők.
A kutatási célból futtatott 30 teszt 2,23 millió csomag létrehozását eredményezte - ezek mintegy 20 százalékáról (440 445) állapították meg, hogy hallucinációk. Ezek közül 205 474 egyedi, nem létező csomag volt, amelyeket nem lehetett megtalálni a PyPI-ben vagy az npm-ben. Ami még figyelemre méltó - túl azon a tényen, hogy a kereskedelmi modellek négyszer alacsonyabb valószínűséggel gyártanak csomagneveket, mint a nyílt forráskódú modellek -, hogy ezek az eredmények négyszer-hatszor kevesebb hallucinációt mutatnak, mint a Lasso Security GPT-3.5 (5,76 százalék vs. 24,2 százalék) és GPT-4 (4,05 százalék vs. 22,2 százalék) adatai. Ez már számít valamit.
A csomaghallucinációk valószínűsége csökkenthető, de ennek ára van. A DeepSeek Coder 6.7B és a CodeLlama 7B modelleknél a kutatók a Retrieval Augmented Generation (RAG) segítségével egy enyhítési stratégiát vezettek be, amely tartalmazza az érvényes csomagnevek listáját, hogy segítsen a válaszok irányításában, valamint finomhangolással kiszűrjék a kitalált csomagokat. Az eredmény a hallucináció csökkenése volt - a kódminőség rovására. "A finomhangolt modellek kódminősége jelentősen csökkent, -26,1 százalékkal, illetve -3,1 százalékkal a DeepSeek és a CodeLlama esetében, cserébe a csomagok hallucinációs arányának jelentős javulásáért” - írták a kutatók.
Egy másik, a mesterséges intelligencia hallucinációját vizsgáló tanulmányban José Hernández-Orallo és munkatársai a spanyolországi Valenciai Mesterséges Intelligencia Kutatóintézetből azt találták, hogy az LLM-ek a méretnövekedéssel egyre megbízhatatlanabbá válnak. A kutatók három modellcsaládot vizsgáltak: az OpenAI GPT, a Meta LLaMA és a BigScience nyílt forráskódú BLOOM modelljét. A különböző modelleket önmaguk felskálázott (több paraméterrel rendelkező) változataival tesztelték, összeadásra, szóanagrammákra, földrajzi ismeretekre, tudományra és információorientált átalakításokra vonatkozó kérdésekkel. Azt találták, hogy a nagyobb - finomhangolással és több paraméterrel megformált - modellek ugyan pontosabb válaszokat adnak, de kevésbé megbízhatóak.
Ez azért van így, mert a kisebb modellek elkerülnek néhány olyan kérést, amelyre nem tudnak válaszolni, míg a nagyobb modellek nagyobb valószínűséggel adnak hihető, de téves választ. Így a nem pontos válaszok aránya a helytelen válaszok nagyobb hányadából áll, és ezzel arányosan csökken az elkerült válaszok száma. Ezt a tendenciát különösen az OpenAI GPT-családja esetében vették észre. A kutatók azt találták, hogy a GPT-4 szinte mindenre válaszol, ahol a korábbi modellgenerációk megbízható előrejelzés hiányában kerülnék a válaszadást. Tovább súlyosbítva a problémát, a kutatók megállapították, hogy az emberek rosszul értékelik az LLM válaszokat - a helytelen válaszokat az esetek körülbelül 10-40 százalékában helyesnek minősítik. Megállapításaik alapján Hernández-Orallo és társszerzői úgy érvelnek, hogy „az emberi felügyeletre támaszkodni ezeknek a rendszereknek az esetében veszélyt jelent, különösen olyan területeken, ahol az igazság kritikus fontosságú”.
Ez egy hosszúra nyúlt megfogalmazása a Microsoft MI hitvallásának, amely arra figyelmeztet, hogy ne használjuk a mesterséges intelligenciát semmi fontosra. "A kezdeti modellek gyakran kikerülik a felhasználói kérdéseket, de a skálázott, formált modellek sokkal gyakrabban hajlamosak látszólag értelmes, mégis rossz választ adni, beleértve a nehéz kérdésekre adott hibákat is, amelyeket az emberi felügyelők gyakran figyelmen kívül hagynak” - állapítják meg a kutatók. "Ezek az eredmények rávilágítanak arra, hogy alapvető váltásra van szükség az általános célú mesterséges intelligencia tervezésében és fejlesztésében, különösen a nagy tétekkel járó területeken, ahol a hibák kiszámítható eloszlása kiemelkedően fontos.”