SG.hu
Az MI cégek a DeepSeek példáját követve nekiálltak a legnagyobb modelleket másolgatni

A vezető mesterségesintelligencia-cégek - köztük az OpenAI, a Microsoft és a Meta - a "desztillációnak” nevezett eljáráshoz fordulnak a globális versenyben, hogy a fogyasztók és a vállalkozások számára olcsóbb MI-modelleket hozzanak létre. A technika azután keltett széles körű figyelmet, hogy a kínai DeepSeek a versenytársak, a Meta és az Alibaba által kiadott nyílt forráskódú rendszerek alapján nagy teljesítményű és hatékony MI-modelleket épített. Az áttörés megingatta a Szilícium-völgy vezetésébe vetett bizalmat, ami arra késztette a Wall Street-i befektetőket, hogy több milliárd dollárnyi tőkét vonjanak ki a nagy amerikai technológiai részvényekből.
A desztilláció során a vállalatok egy nagy nyelvi modellt használnak "tanárnak", mely modell adatokat generál, amelyek alapján aztán kiképeznek egy kisebb „tanuló” modellt, segítve a nagyobb modell tudásának és előrejelzéseinek gyors átadását a kisebb modellnek. Bár a desztillációt már évek óta széles körben használják, a közelmúltban elért eredmények miatt az iparági szakértők úgy vélik, hogy az eljárás inkább a startup cégek számára lesz előnyös, amelyek költséghatékony módon keresik a technológián alapuló alkalmazások létrehozásának lehetőségét. "A desztilláció egészen varázslatos” - mondta Olivier Godement, az OpenAI platform termékvezetője.
Az olyan nagy nyelvi modellek, mint az OpenAI GPT-4, a Google Gemini és a Meta Llama hatalmas mennyiségű adatot és számítási teljesítményt igényelnek a fejlesztéshez és fenntartáshoz. Bár a vállalatok nem közöltek pontos adatokat arról, hogy mennyibe kerül a nagy modellek képzése, valószínűleg több százmillió dollárról van szó. A desztillációnak köszönhetően a fejlesztők és a vállalkozások ezen ár töredékéért férhetnek hozzá e modellek képességeihez, így az alkalmazásfejlesztők az MI-modelleket átlagos laptopokon és okostelefonokon is futtatni tudják. A fejlesztők az OpenAI platformját használva a desztillációhoz a ChatGPT mögött álló nagyméretű nyelvi modellek előnyeit élvezhetik. Az OpenAI legnagyobb támogatója, a Microsoft a GPT-4-et használta a Phi nyelvi modellcsaládjának desztillálására egy kereskedelmi partnerség részeként, miután közel 14 milliárd dollárt fektetett a vállalatba. A San Francisco-i székhelyű startup szerint a DeepSeek az ő modelljeit desztillálva építette fel konkurenciáját - a DeepSeek nem kommentálta az állításokat.
Bár a desztillációval nagy teljesítményű modelleket lehet létrehozni, a szakértők hozzáteszik, hogy ezek tudása korlátozottabb. "A desztilláció érdekes kompromisszumot jelent: ha a modelleket kisebbé tesszük, elkerülhetetlenül csökkentjük a képességeiket” - mondta Ahmed Awadallah, a Microsoft Research munkatársa, aki szerint egy desztillált modellt meg lehet úgy megtervezni, hogy például nagyon jó legyen e-mailek összegzésében, de semmi másban nem lenne jó. David Cox, az IBM Research MI-modellekért felelős alelnöke szerint a legtöbb vállalkozásnak nincs szüksége masszív modellre a termékei futtatásához, és a desztillált modellek elég erősek olyan célokra, mint például az ügyfélszolgálati chatbotok, vagy kisebb eszközökön, például telefonokon való futtatáshoz. "Ha egy modellt olcsóbbá lehet tenni, és a kívánt teljesítményt nyújtja, nagyon kevés ok van arra, hogy ne ezt tegyük” - tette hozzá.
Ez kihívást jelent a vezető MI-cégek üzleti modellje számára. Még ha a fejlesztők olyan cégek desztillált modelljeit használják is, mint az OpenAI, ezek üzemeltetése sokkal kevesebbe kerül, kevésbé költséges az előállításuk, de kevesebb bevételt is termelnek. Az OpenAI-hoz hasonló modellkészítők azért kérnek kevesebbet a desztillált modellek használatáért, mivel azok kisebb számítási terhelést igényelnek. Az OpenAI mégis azzal érvel, hogy a nagy nyelvi modellekre továbbra is szükség lesz a „magas intelligenciájú és nagy tétekkel járó feladatokhoz”, ahol „a vállalkozások hajlandóak többet fizetni a magas szintű pontosságért és megbízhatóságért”. Szerintük a nagy modellekre az új képességek felfedezéséhez is szükség lesz, amelyeket aztán kisebbekké lehet desztillálni.
A vállalat célja mégis az, hogy megakadályozza, hogy nagy modelljeit egy versenytárs képzésére desztillálják. Az OpenAI-nak vannak olyan csapatai, amelyek figyelik a használatot, és meg tudják szüntetni a hozzáférést azoknál a felhasználóknál, akikről azt gyanítják, hogy hatalmas mennyiségű adatot generálnak riválisok exportálása és képzése céljából, ahogyan a jelek szerint tette ezt a DeepSeekhez kapcsolódó fiókokkal. Ennek az intézkedésnek a nagy része azonban visszamenőlegesen történik. "Az OpenAI már régóta próbál védekezni a lepárlás ellen, de ezt nagyon nehéz teljesen elkerülni” - mondta Douwe Kiela, a Contextual AI, a vállalatok számára információkereső eszközöket fejlesztő startup vezérigazgatója.
A lepárlás a nyílt modellek híveinek győzelmét is jelenti, amikor a technológiát szabadon hozzáférhetővé teszik a fejlesztők számára, hogy építhessenek rá. A DeepSeek a legújabb modelljeit szintén nyitottá tette a fejlesztők számára. "Használni fogjuk a desztillációt, és azonnal beépítjük a termékeinkbe” - mondta Yann LeCun, a Meta vezető mesterséges intelligencia kutatója. "Ez a nyílt forráskód egészének lényege. Mindenki és mindenki más fejlődéséből profitálsz, amíg ezek a folyamatok nyitottak.” A disztilláció azt is jelenti, hogy a modellgyártók dollármilliárdokat költhetnek az MI-rendszerek képességeinek fejlesztésére, de még mindig szembe kell nézniük a versenytársakkal, akik gyakran gyorsan felzárkóznak, ahogy azt a DeepSeek legutóbbi kiadásai is mutatják. Ez kérdéseket vet fel az LLM-ek építésében rejlő első lépcsőfok előnyével kapcsolatban, amikor azok képességei néhány hónap alatt megismételhetők. "Egy olyan világban, ahol a dolgok gyorsan mozognak, sok pénzt költhetsz, ha a nehezebb utat választod, és a mezőny többi tagja a sarkadban van” - mondta Cox az IBM-től. "Szóval ez egy érdekes és trükkös üzleti terep.”
A desztilláció során a vállalatok egy nagy nyelvi modellt használnak "tanárnak", mely modell adatokat generál, amelyek alapján aztán kiképeznek egy kisebb „tanuló” modellt, segítve a nagyobb modell tudásának és előrejelzéseinek gyors átadását a kisebb modellnek. Bár a desztillációt már évek óta széles körben használják, a közelmúltban elért eredmények miatt az iparági szakértők úgy vélik, hogy az eljárás inkább a startup cégek számára lesz előnyös, amelyek költséghatékony módon keresik a technológián alapuló alkalmazások létrehozásának lehetőségét. "A desztilláció egészen varázslatos” - mondta Olivier Godement, az OpenAI platform termékvezetője.
Az olyan nagy nyelvi modellek, mint az OpenAI GPT-4, a Google Gemini és a Meta Llama hatalmas mennyiségű adatot és számítási teljesítményt igényelnek a fejlesztéshez és fenntartáshoz. Bár a vállalatok nem közöltek pontos adatokat arról, hogy mennyibe kerül a nagy modellek képzése, valószínűleg több százmillió dollárról van szó. A desztillációnak köszönhetően a fejlesztők és a vállalkozások ezen ár töredékéért férhetnek hozzá e modellek képességeihez, így az alkalmazásfejlesztők az MI-modelleket átlagos laptopokon és okostelefonokon is futtatni tudják. A fejlesztők az OpenAI platformját használva a desztillációhoz a ChatGPT mögött álló nagyméretű nyelvi modellek előnyeit élvezhetik. Az OpenAI legnagyobb támogatója, a Microsoft a GPT-4-et használta a Phi nyelvi modellcsaládjának desztillálására egy kereskedelmi partnerség részeként, miután közel 14 milliárd dollárt fektetett a vállalatba. A San Francisco-i székhelyű startup szerint a DeepSeek az ő modelljeit desztillálva építette fel konkurenciáját - a DeepSeek nem kommentálta az állításokat.
Bár a desztillációval nagy teljesítményű modelleket lehet létrehozni, a szakértők hozzáteszik, hogy ezek tudása korlátozottabb. "A desztilláció érdekes kompromisszumot jelent: ha a modelleket kisebbé tesszük, elkerülhetetlenül csökkentjük a képességeiket” - mondta Ahmed Awadallah, a Microsoft Research munkatársa, aki szerint egy desztillált modellt meg lehet úgy megtervezni, hogy például nagyon jó legyen e-mailek összegzésében, de semmi másban nem lenne jó. David Cox, az IBM Research MI-modellekért felelős alelnöke szerint a legtöbb vállalkozásnak nincs szüksége masszív modellre a termékei futtatásához, és a desztillált modellek elég erősek olyan célokra, mint például az ügyfélszolgálati chatbotok, vagy kisebb eszközökön, például telefonokon való futtatáshoz. "Ha egy modellt olcsóbbá lehet tenni, és a kívánt teljesítményt nyújtja, nagyon kevés ok van arra, hogy ne ezt tegyük” - tette hozzá.
Ez kihívást jelent a vezető MI-cégek üzleti modellje számára. Még ha a fejlesztők olyan cégek desztillált modelljeit használják is, mint az OpenAI, ezek üzemeltetése sokkal kevesebbe kerül, kevésbé költséges az előállításuk, de kevesebb bevételt is termelnek. Az OpenAI-hoz hasonló modellkészítők azért kérnek kevesebbet a desztillált modellek használatáért, mivel azok kisebb számítási terhelést igényelnek. Az OpenAI mégis azzal érvel, hogy a nagy nyelvi modellekre továbbra is szükség lesz a „magas intelligenciájú és nagy tétekkel járó feladatokhoz”, ahol „a vállalkozások hajlandóak többet fizetni a magas szintű pontosságért és megbízhatóságért”. Szerintük a nagy modellekre az új képességek felfedezéséhez is szükség lesz, amelyeket aztán kisebbekké lehet desztillálni.
A vállalat célja mégis az, hogy megakadályozza, hogy nagy modelljeit egy versenytárs képzésére desztillálják. Az OpenAI-nak vannak olyan csapatai, amelyek figyelik a használatot, és meg tudják szüntetni a hozzáférést azoknál a felhasználóknál, akikről azt gyanítják, hogy hatalmas mennyiségű adatot generálnak riválisok exportálása és képzése céljából, ahogyan a jelek szerint tette ezt a DeepSeekhez kapcsolódó fiókokkal. Ennek az intézkedésnek a nagy része azonban visszamenőlegesen történik. "Az OpenAI már régóta próbál védekezni a lepárlás ellen, de ezt nagyon nehéz teljesen elkerülni” - mondta Douwe Kiela, a Contextual AI, a vállalatok számára információkereső eszközöket fejlesztő startup vezérigazgatója.
A lepárlás a nyílt modellek híveinek győzelmét is jelenti, amikor a technológiát szabadon hozzáférhetővé teszik a fejlesztők számára, hogy építhessenek rá. A DeepSeek a legújabb modelljeit szintén nyitottá tette a fejlesztők számára. "Használni fogjuk a desztillációt, és azonnal beépítjük a termékeinkbe” - mondta Yann LeCun, a Meta vezető mesterséges intelligencia kutatója. "Ez a nyílt forráskód egészének lényege. Mindenki és mindenki más fejlődéséből profitálsz, amíg ezek a folyamatok nyitottak.” A disztilláció azt is jelenti, hogy a modellgyártók dollármilliárdokat költhetnek az MI-rendszerek képességeinek fejlesztésére, de még mindig szembe kell nézniük a versenytársakkal, akik gyakran gyorsan felzárkóznak, ahogy azt a DeepSeek legutóbbi kiadásai is mutatják. Ez kérdéseket vet fel az LLM-ek építésében rejlő első lépcsőfok előnyével kapcsolatban, amikor azok képességei néhány hónap alatt megismételhetők. "Egy olyan világban, ahol a dolgok gyorsan mozognak, sok pénzt költhetsz, ha a nehezebb utat választod, és a mezőny többi tagja a sarkadban van” - mondta Cox az IBM-től. "Szóval ez egy érdekes és trükkös üzleti terep.”