SG.hu
Csak porhintés az MI-modellek teszteredménye

A mesterséges intelligencia modellek készítői szeretik reklámozni a benchmark eredményeiket, de mennyire megbízhatóak ezek a számok? Mi van, ha maguk a tesztek manipuláltak, elfogultak vagy egyszerűen csak értelmetlenek?
Az OpenAI o3-as modellje azzal debütált, hogy a nyilvánosan elérhető ARC-AGI adathalmazon betanított LLM „áttörő, 75,7 százalékos” eredményt ért el annak számítási limitet alkalmazó, félig privát értékelő adathalmazán. A Google nemrégiben bemutatott Gemini 2.0 Proja - a webes titán állítása szerint - 79,1 százalékos eredményt ért el az MMLU-Pro-n - az eredeti MMLU teszt továbbfejlesztett változatán, amelyet a természetes nyelvi megértés tesztelésére terveztek. Eközben a Meta Llama-3 70B 82 százalékos eredményt ért el az MMLU 5-shot-on. Az „5-shot” a mesterséges intelligencia modellnek megadott példák számára utal. A tegnap bejelentett Grok 3 pedig megveri benchmarkokban a GPT-4o-t , beleértve az AIME-t (amely egy modell teljesítményét értékeli matematikai kérdésekből álló mintavételen) és a GPQA-t (amely a modelleket PhD-szintű fizikai, biológiai és kémiai problémák alapján értékeli).
Maguk a benchmarkok ugyanolyan alapos vizsgálatot érdemelnek, mint a modellek - állítja az Európai Bizottság Joint Research Centre hét kutatója a „Can We Trust AI Benchmarks?”, azaz megbízhatunk az MI tesztekben? című tanulmányában. A válaszuk az, hogy nem igazán. A szerzők az elmúlt tíz év 100 tanulmányának áttekintését végezték el, amelyekben a mennyiségi tesztelés gyakorlatát vizsgálták. Számos problémát találtak a benchmarkok tervezésével és alkalmazásával kapcsolatban, többek között a vonatkozó értékelési adathalmazok létrehozásának módjával kapcsolatos torzításokat, a dokumentáció hiányát, az adatok szennyeződését és a jel és a zaj szétválasztásának elmulasztását. Ez emlékeztet minket a hardvergyártókra, akik saját eszközeik teljesítményértékelését végzik, és az eredményeket a sajtónyilatkozatokban és a marketingben teszik közzé; mi sem bízunk meg egyikben sem.
Ezen túlmenően az európai kutatócsoport megállapította, hogy a tesztelési logika nem veszi figyelembe a multimodális modellhasználatot, amely sorozatos interakciót jelent az emberekkel és a műszaki rendszerekkel. "Áttekintésünk egy sor rendszerszintű hibára is rávilágít a jelenlegi benchmarking-gyakorlatokban, mint például a rosszul összehangolt ösztönzők, a konstrukció érvényességével kapcsolatos problémák, ismeretlen ismeretlenek és a benchmark-eredményekkel való játékkal kapcsolatos problémák” - állítják a szerzők a tanulmányukban. "A benchmarking-gyakorlatokat alapvetően kulturális, kereskedelmi és versenydinamikák alakítják, amelyek gyakran a teljesítményt helyezik előtérbe a szélesebb körű társadalmi szempontok rovására.”
A szerzők szerint azért fontosak ezek a pontszámok, mert gyakran a szabályozás alapját képezik. A mesterséges intelligencia referenciaértékek - érvelnek - nem szabványosítottak és nem egységesek, de központi szerepet játszanak a politikai döntéshozatalban, még akkor is, ha a különböző tudományágak akadémikusai egyre hangosabban fejezik ki aggodalmaikat a referenciaértékek változékonyságával és érvényességével kapcsolatban. Az EU mesterséges intelligenciáról szóló törvénye például különböző referenciaértékeket tartalmaz. Az Egyesült Államokban a nemrégiben közzétett Framework for Artificial Intelligence Diffusion (Mesterséges intelligencia terjesztésének keretrendszere) szintén felvázolja a benchmarkok szerepét a modellek értékelésében és osztályozásában.
A kutatók idézik a különböző területeken - többek között a kiberbiztonság, a nyelvészet, az informatika, a szociológia és a közgazdaságtan területén - megfogalmazott kritikákat, amelyek a benchmark-tesztelés kockázatait és korlátait tárgyalják. Kilenc általános problémát azonosítanak a benchmarkokkal kapcsolatban: Nem tudni, hogyan, mikor és kik készítették a benchmark-adatkészleteket.
Nem azt mérik, amit állítólag mérni akarnak.
A tesztek készítésének társadalmi, gazdasági és kulturális összefüggéseit nem tisztázzák.
Elmulasztják a különböző adathalmazokon végzett tesztelést.
Látványosságként tervezett tesztek, amelyek célja a mesterséges intelligencia reklámozása a befektetők számára.
A tesztek manipulálhatók.
Olyan tesztek, amelyek „bizonyos módszertanokat és kutatási célokat erősítenek” mások rovására.
Olyan tesztek, amelyek nem tartanak lépést a tudomány gyorsan változó állásaival.
Olyan tesztek, amelyek nem tartottak lépést a gyorsan változó technikai színvonallal.
A szerzők e kérdések mindegyikével kapcsolatban idéznek különböző más, a teljesítményértékeléssel kapcsolatos problémákat vizsgáló munkákat. Például a különböző adathalmazokon végzett teszteléssel kapcsolatban a szerzők megjegyzik, hogy a legtöbb benchmark a sikert teszteli, holott a kudarcra összpontosító benchmarkok hasznosabbak lennének. "Ugyan egyszerű a modellek rangsorolása egyetlen minőségi szám alapján, hiszen elég kiválasztani a lista élén álló modellt, mégis sokkal fontosabb megérteni, hogy mikor és miért buknak meg a modellek” - írják.”
Ami pedig a benchmark-eredmények kijátszását illeti, rámutatnak az úgynevezett „sandbagging”-re, amikor a modelleket úgy programozzák, hogy bizonyos teszteken (pl. az ideggázok készítésére vonatkozó kéréseknél) alulteljesítsenek, ami a manipulációval kapcsolatos aggályokat vet fel. Amikor a Volkswagen hasonló tesztmanipulációban vett részt, és úgy programozta az autókat, hogy észleljék mikor vannak tesztpadon, és csak ilyenkor aktiválják a kibocsátás-szabályozót, a felelősök börtönbe kerültek. Az a tény, hogy a mesterséges intelligenciával foglalkozó cégeknél nem történt semmi hasonló, megmutatja, hogy a technológiai ágazatot mennyire enyhén szabályozzák.
Mindenesetre a Joint Research Centre tudósai arra a következtetésre jutottak, hogy az, hogy miként mérjük a mesterséges intelligencia-modelleket a biztonság, az erkölcs, az igazság és a toxicitás szempontjából, széleskörű tudományos aggodalomra ad okot. "Röviden, a mesterséges intelligencia benchmarkokra ugyanazokat az átláthatósággal, igazságossággal és megmagyarázhatósággal kapcsolatos követelményeket kell alkalmazni, mint az algoritmikus rendszerekre és a mesterséges intelligencia modellekre” - állapítják meg a szerzők.
Az OpenAI o3-as modellje azzal debütált, hogy a nyilvánosan elérhető ARC-AGI adathalmazon betanított LLM „áttörő, 75,7 százalékos” eredményt ért el annak számítási limitet alkalmazó, félig privát értékelő adathalmazán. A Google nemrégiben bemutatott Gemini 2.0 Proja - a webes titán állítása szerint - 79,1 százalékos eredményt ért el az MMLU-Pro-n - az eredeti MMLU teszt továbbfejlesztett változatán, amelyet a természetes nyelvi megértés tesztelésére terveztek. Eközben a Meta Llama-3 70B 82 százalékos eredményt ért el az MMLU 5-shot-on. Az „5-shot” a mesterséges intelligencia modellnek megadott példák számára utal. A tegnap bejelentett Grok 3 pedig megveri benchmarkokban a GPT-4o-t , beleértve az AIME-t (amely egy modell teljesítményét értékeli matematikai kérdésekből álló mintavételen) és a GPQA-t (amely a modelleket PhD-szintű fizikai, biológiai és kémiai problémák alapján értékeli).
Maguk a benchmarkok ugyanolyan alapos vizsgálatot érdemelnek, mint a modellek - állítja az Európai Bizottság Joint Research Centre hét kutatója a „Can We Trust AI Benchmarks?”, azaz megbízhatunk az MI tesztekben? című tanulmányában. A válaszuk az, hogy nem igazán. A szerzők az elmúlt tíz év 100 tanulmányának áttekintését végezték el, amelyekben a mennyiségi tesztelés gyakorlatát vizsgálták. Számos problémát találtak a benchmarkok tervezésével és alkalmazásával kapcsolatban, többek között a vonatkozó értékelési adathalmazok létrehozásának módjával kapcsolatos torzításokat, a dokumentáció hiányát, az adatok szennyeződését és a jel és a zaj szétválasztásának elmulasztását. Ez emlékeztet minket a hardvergyártókra, akik saját eszközeik teljesítményértékelését végzik, és az eredményeket a sajtónyilatkozatokban és a marketingben teszik közzé; mi sem bízunk meg egyikben sem.
Ezen túlmenően az európai kutatócsoport megállapította, hogy a tesztelési logika nem veszi figyelembe a multimodális modellhasználatot, amely sorozatos interakciót jelent az emberekkel és a műszaki rendszerekkel. "Áttekintésünk egy sor rendszerszintű hibára is rávilágít a jelenlegi benchmarking-gyakorlatokban, mint például a rosszul összehangolt ösztönzők, a konstrukció érvényességével kapcsolatos problémák, ismeretlen ismeretlenek és a benchmark-eredményekkel való játékkal kapcsolatos problémák” - állítják a szerzők a tanulmányukban. "A benchmarking-gyakorlatokat alapvetően kulturális, kereskedelmi és versenydinamikák alakítják, amelyek gyakran a teljesítményt helyezik előtérbe a szélesebb körű társadalmi szempontok rovására.”
A szerzők szerint azért fontosak ezek a pontszámok, mert gyakran a szabályozás alapját képezik. A mesterséges intelligencia referenciaértékek - érvelnek - nem szabványosítottak és nem egységesek, de központi szerepet játszanak a politikai döntéshozatalban, még akkor is, ha a különböző tudományágak akadémikusai egyre hangosabban fejezik ki aggodalmaikat a referenciaértékek változékonyságával és érvényességével kapcsolatban. Az EU mesterséges intelligenciáról szóló törvénye például különböző referenciaértékeket tartalmaz. Az Egyesült Államokban a nemrégiben közzétett Framework for Artificial Intelligence Diffusion (Mesterséges intelligencia terjesztésének keretrendszere) szintén felvázolja a benchmarkok szerepét a modellek értékelésében és osztályozásában.
A kutatók idézik a különböző területeken - többek között a kiberbiztonság, a nyelvészet, az informatika, a szociológia és a közgazdaságtan területén - megfogalmazott kritikákat, amelyek a benchmark-tesztelés kockázatait és korlátait tárgyalják. Kilenc általános problémát azonosítanak a benchmarkokkal kapcsolatban:
A szerzők e kérdések mindegyikével kapcsolatban idéznek különböző más, a teljesítményértékeléssel kapcsolatos problémákat vizsgáló munkákat. Például a különböző adathalmazokon végzett teszteléssel kapcsolatban a szerzők megjegyzik, hogy a legtöbb benchmark a sikert teszteli, holott a kudarcra összpontosító benchmarkok hasznosabbak lennének. "Ugyan egyszerű a modellek rangsorolása egyetlen minőségi szám alapján, hiszen elég kiválasztani a lista élén álló modellt, mégis sokkal fontosabb megérteni, hogy mikor és miért buknak meg a modellek” - írják.”
Ami pedig a benchmark-eredmények kijátszását illeti, rámutatnak az úgynevezett „sandbagging”-re, amikor a modelleket úgy programozzák, hogy bizonyos teszteken (pl. az ideggázok készítésére vonatkozó kéréseknél) alulteljesítsenek, ami a manipulációval kapcsolatos aggályokat vet fel. Amikor a Volkswagen hasonló tesztmanipulációban vett részt, és úgy programozta az autókat, hogy észleljék mikor vannak tesztpadon, és csak ilyenkor aktiválják a kibocsátás-szabályozót, a felelősök börtönbe kerültek. Az a tény, hogy a mesterséges intelligenciával foglalkozó cégeknél nem történt semmi hasonló, megmutatja, hogy a technológiai ágazatot mennyire enyhén szabályozzák.
Mindenesetre a Joint Research Centre tudósai arra a következtetésre jutottak, hogy az, hogy miként mérjük a mesterséges intelligencia-modelleket a biztonság, az erkölcs, az igazság és a toxicitás szempontjából, széleskörű tudományos aggodalomra ad okot. "Röviden, a mesterséges intelligencia benchmarkokra ugyanazokat az átláthatósággal, igazságossággal és megmagyarázhatósággal kapcsolatos követelményeket kell alkalmazni, mint az algoritmikus rendszerekre és a mesterséges intelligencia modellekre” - állapítják meg a szerzők.