SG.hu

Nem sikerült jól az OpenAI új modelljének bevezetése, de az irány mindenkinél ez lesz

A GPT-5 múlt heti bejelentése diadalnak indult, bizonyítékul arra, hogy az OpenAI továbbra is vitathatatlanul vezető szerepet tölt be az MI területén, de mégsem így lett. A felhasználók heves ellenreakciója miatt a bevezetés több lett, mint egy PR-vihar: termék- és bizalmi válsággá vált. A felhasználók siratták kedvenc modelljeik elvesztését, amelyek terapeuták, barátok és romantikus partnerek szerepét is betöltötték. A fejlesztők a teljesítmény romlására panaszkodtak. Az iparági kritikus Gary Marcus "késedelmesnek, túlhype-oltnak és kiábrándítónak” nevezte a GPT-5-öt.

Sokan azt állították, hogy a bűnös nyilvánvaló: ez az új, valós idejű „router” modell, amely automatikusan eldönti, hogy a GPT-5 több változatából melyiket indítsa el az egyes feladatokhoz. Sok felhasználó azt hitte, hogy a GPT-5 egy egyetlen, a nulláról felépített modell, pedig valójában több modellből álló hálózat, amelyben vannak gyengébb és olcsóbb, valamint erősebb és drágább modellek. A szakértők szerint ez a megközelítés lehet a mesterséges intelligencia jövője, mivel a nagy nyelvi modellek fejlődnek és egyre több erőforrást igényelnek. A GPT-5 debütálásakor azonban az OpenAI bemutatta a megközelítés néhány velejáró kihívását, és fontos tanulságokat vont le arról, hogyan alakulnak a felhasználói elvárások a mesterséges intelligencia korszakában.

A modell-routing által ígért előnyök ellenére a GPT-5 sok felhasználója felháborodott azon, amit kontrollhiánynak érzékelt. Néhányan azt is sugallták, hogy az OpenAI szándékosan próbálja megtéveszteni őket. A GPT-5 körüli felháborodásra reagálva az OpenAI gyorsan visszahozta a korábbi fő modellt, a GPT-4o-t a profi felhasználók számára. Azt is közölte, hogy kijavította a hibás routingot, növelte a használati korlátokat, és folyamatos frissítéseket ígért a felhasználói bizalom és a stabilitás visszaszerzése érdekében.

Anand Chowdhary, a FirstQuadrant MI értékesítési platform társalapítója így foglalta össze a helyzetet: "Amikor az útválasztás működik, az olyan, mint a varázslat. Amikor nem működik, az olyan, mintha valami eltörne.” Jiaxuan You, az Illinois-i Egyetem informatika tanszékének adjunktusa elmondta, hogy laboratóriuma mind a modell útválasztás ígéretét, mind pedig következetlenségét tanulmányozta. A GPT-5 esetében úgy véli (bár nem tudja megerősíteni), hogy a modell útválasztó néha ugyanazon lekérdezés egyes részeit különböző modelleknek küldi el. Egy olcsóbb, gyorsabb modell ad egy választ, és egy lassabb, érvelésre összpontosító modell is ad egy másikat, és amikor a rendszer ezeket a válaszokat összerakja, finom ellentmondások csúsznak be.

A modellirányítás ötlete intuitív, magyarázta, de „azt valóban működőképessé tenni nagyon nem triviális feladat”. Hozzátette, hogy az útválasztó tökéletesítése ugyanolyan kihívást jelenthet, mint egy Amazon-szintű ajánló rendszer felépítése, amelynek finomítása évekig tart és sok szakértő bevonását igényli. „A GPT-5-öt valószínűleg több nagyságrenddel több erőforrással kell felépíteni” - magyarázta, rámutatva, hogy még ha az útválasztó egy kisebb modellt is választ, az nem eredményezhet ellentmondásos válaszokat.

You mégis úgy véli, hogy a routing maradni fog. "A közösség is úgy véli, hogy a modell-routing ígéretes” - mondta, rámutatva mind a technikai, mind a gazdasági okokra. Technikai szempontból az egyetlen modell teljesítménye úgy tűnik, hogy elérte a csúcsát. A gyakran idézett skálázási törvények szerint minél több adatunk és számítási kapacitásunk van, annál jobb lesz a modell. "De mindannyian tudjuk, hogy a modell nem lesz végtelenül jobb” - mondta. „Az elmúlt évben mindannyian tanúi lehettünk annak, hogy az egyetlen modell kapacitása valójában telítődik.”

Gazdasági szempontból a routing lehetővé teszi az MI-szolgáltatóknak, hogy tovább használják a régebbi modelleket, ahelyett, hogy eldobnák őket, amikor új modellek jelennek meg. A jelenlegi események gyakori frissítéseket igényelnek, de a statikus tények évekig pontosak maradnak. Bizonyos lekérdezések régebbi modellekhez való irányítása elkerüli a modellek képzésére fordított eddigi hatalmas idő-, számítási és pénzveszteséget. Vannak fizikai korlátok is. A GPU memória gátló tényezővé vált az egyre nagyobb modellek képzésében, és a chiptechnológia közeledik az egy chipre pakolható maximális memória méretéhez. A gyakorlatban ez azt jelenti, hogy a következő modell nem lehet tízszer nagyobb - magyarázta You.

William Falcon, a Lightning AI platform alapítója és vezérigazgatója rámutat, hogy a modellek együttesének használata nem új ötlet, az már 2018 óta létezik, és mivel az OpenAI modelljei fekete dobozok, nem tudjuk, hogy a GPT-4 nem használt-e valamilyen modellirányítási rendszert. "Szerintem most talán egyértelműbben fogalmaznak erről” - mondta. Akárhogy is, a GPT-5 bevezetése nagy felhajtást keltett, beleértve a modell útválasztó rendszert is. A modellt bemutató blogbejegyzés „az eddigi legokosabb, leggyorsabb és leghasznosabb modellnek” nevezte, amelybe beépített gondolkodási képesség is tartozik.

A hivatalos ChatGPT blogbejegyzésben az OpenAI megerősítette, hogy a ChatGPT-n belüli GPT-5 egy olyan modellekből álló rendszeren fut, amelyet egy háttérben működő útválasztó koordinál, és amely szükség esetén mélyebb érvelésre vált át. A GPT-5 rendszerkártya még tovább ment, és világosan felvázolta a többféle modellváltozatot: gpt-5-main és gpt-5-main-mini a sebesség érdekében, valamint van még a gpt-5-thinking, gpt-5-thinking-mini, plusz egy thinking-pro verzió, és leírták, hogyan irányítja a rendszer automatikusan a forgalmat közöttük.


Egy sajtótájékoztatón Sam Altman, az OpenAI vezérigazgatója a modellroutert olyan eszközként dicsérte, amely megoldást kínál a korábban nehezen értelmezhető modellek közül való választás problémájára. Altman a korábbi modellválasztó felületet „nagyon zavaros káosznak” nevezte. Falcon azonban szerint a fő probléma az volt, hogy a GPT-5 egyszerűen nem ugrásszerű fejlődés. "A GPT-1-től a 2-ig, a 3-ig és a 4-ig - minden alkalommal hatalmas ugrás volt. A 4-től az 5-ig nem volt észrevehető javulás. Ez az, ami miatt az emberek fel vannak háborodva.”

A modellirányításról szóló vita miatt egyesek felhívták a figyelmet a mesterséges általános intelligencia (vagy AGI) hamarosan történő kifejlesztésének lehetőségével kapcsolatos folyamatos felhajtásra. Az OpenAI hivatalosan úgy definiálja az AGI-t, mint „magas fokú autonóm rendszer, amely a legtöbb gazdasági szempontból értékes munkában felülmúlja az embereket”, de Altman a múlt héten kifejezetten kijelentette, hogy ez „nem egy különösebben hasznos kifejezés”.

„Mi van az ígért AGI-vel?” - írta Aiden Chaoyang He, MI-kutató és a TensorOpera társalapítója az X-en, kritizálva a GPT-5 bevezetését. „Még egy olyan hatalmas vállalatnak is, mint az OpenAI, nincs meg a képessége egy szupernagy modell kiképzésére, ezért kénytelenek a Real-time Model Router-hez folyamodni.” Robert Nishihara, az Anyscale MI-termelési platform vezérigazgatója szerint az MI-ban a méretezhetőség még mindig fejlődik, de az egyetlen, mindenre képes MI-modell továbbra is elérhetetlen. "Nehéz olyan modellt építeni, amely mindenben a legjobb” - mondta. Ezért a GPT-5 jelenleg egy routerrel összekapcsolt modellek hálózatán fut, nem pedig egyetlen monolitikus rendszeren. Az OpenAI azt mondta, hogy a jövőben ezeket egy modellbe szeretné egyesíteni, de Nishihara rámutat, hogy a hibrid rendszereknek valódi előnyeik vannak: egyenként lehet frissíteni őket anélkül, hogy a többit megzavarnák, és a teljes óriási modell újratréningezésének költségei és bonyolultsága nélkül élvezhetőek a legtöbb előnyök. Ennek eredményeként Nishihara úgy gondolja, hogy a routolás megmarad.

Aiden Chaoyang egyetért ezzel. Elméletileg a skálázási törvények továbbra is érvényesek - több adat és számítási kapacitás jobb modelleket eredményez -, de a gyakorlatban úgy véli, hogy a fejlesztés két megközelítés között fog „spirálisan” mozogni: a speciális modellek összekapcsolása, majd azok egyetlen modellbe történő összevonása. A döntő tényezők a mérnöki költségek, a számítási és energiahatárok, valamint az üzleti nyomás lesznek. A felkapott AGI-narrációt is módosítani kell. „Ha valaki AGI-hez közeli dolgot csinál, nem tudom, hogy szó szerint egy súlykészlet fogja-e ezt végrehajtani” - mondta Falcon, utalva az LLM-ek mögött álló „agyakra”. „Ha ez egy AGI-hez hasonló modellek gyűjteménye, akkor semmi baj. Itt senki sem purista.”

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
Nem érkezett még hozzászólás. Legyél Te az első!