SG.hu
Önfejlesztő MI-modellek fejlesztésén dolgozik a DeepSeek

A DeepSeek a Tsinghua Egyetemmel együttműködve azon dolgozik, hogy csökkentse a mesterséges intelligencia modelljeinek képzési igényét, és ezáltal csökkentse a működési költségeket.
A kínai startup, amely a januárban megjelent olcsó érvelési modelljével felborzolta a kedélyeket, a pekingi intézmény kutatóival együttműködve adott ki egy tanulmányt, amely a megerősítéses tanulás újszerű megközelítését részletezi a modellek hatékonyabbá tétele érdekében. Az új módszer célja, hogy a mesterséges intelligencia modellek jobban kövessék az emberi preferenciákat azáltal, hogy jutalmakat kínálnak a pontosabb és érthetőbb válaszokért - írták a kutatók.
A megerősítő tanulás szűk alkalmazásokban és szférákban már bizonyítottan hatékonyan gyorsítja a mesterséges intelligencia feladatait. Ennek kiterjesztése általánosabb alkalmazásokra azonban kihívásnak bizonyult. Ezt a problémát próbálja megoldani a DeepSeek csapata azzal, amit önelvű kritikai hangolásnak nevez. A stratégia több benchmark szerint felülmúlja a meglévő módszereket és modelleket, és az eredmény kevesebb számítási erőforrással is jobb teljesítményt mutatott - olvasható a tanulmányban.
A DeepSeek ezeket az új modelleket DeepSeek-GRM-nek nevezi - ez a „generalista jutalommodellezés” rövidítése - és nyílt forráskódú alapon fogja kiadni őket, közölte a vállalat. Más MI-fejlesztők, köztük a kínai technológiai óriás, az Alibaba és a San Franciscó-i székhelyű OpenAI szintén új dolgokkal próbálkoznak az érvelési és önfinomítási képességek javítására.
A kaliforniai Menlo Parkban működő Meta a hétvégén tette közzé legújabb MI-modellcsaládját, a Llama 4-et, és elsőként egy Mixture of Experts (MoE) architektúrát használó modellként jelölte meg. A DeepSeek modelljei jelentősen támaszkodnak a MoE-ra az erőforrások hatékonyabb kihasználása érdekében, és a Meta az új kiadást a Hangzhou-i székhelyű startuphoz hasonlította. A DeepSeek nem pontosította, hogy mikor adhatja ki a következő zászlóshajó modelljét.
A kínai startup, amely a januárban megjelent olcsó érvelési modelljével felborzolta a kedélyeket, a pekingi intézmény kutatóival együttműködve adott ki egy tanulmányt, amely a megerősítéses tanulás újszerű megközelítését részletezi a modellek hatékonyabbá tétele érdekében. Az új módszer célja, hogy a mesterséges intelligencia modellek jobban kövessék az emberi preferenciákat azáltal, hogy jutalmakat kínálnak a pontosabb és érthetőbb válaszokért - írták a kutatók.
A megerősítő tanulás szűk alkalmazásokban és szférákban már bizonyítottan hatékonyan gyorsítja a mesterséges intelligencia feladatait. Ennek kiterjesztése általánosabb alkalmazásokra azonban kihívásnak bizonyult. Ezt a problémát próbálja megoldani a DeepSeek csapata azzal, amit önelvű kritikai hangolásnak nevez. A stratégia több benchmark szerint felülmúlja a meglévő módszereket és modelleket, és az eredmény kevesebb számítási erőforrással is jobb teljesítményt mutatott - olvasható a tanulmányban.
A DeepSeek ezeket az új modelleket DeepSeek-GRM-nek nevezi - ez a „generalista jutalommodellezés” rövidítése - és nyílt forráskódú alapon fogja kiadni őket, közölte a vállalat. Más MI-fejlesztők, köztük a kínai technológiai óriás, az Alibaba és a San Franciscó-i székhelyű OpenAI szintén új dolgokkal próbálkoznak az érvelési és önfinomítási képességek javítására.
A kaliforniai Menlo Parkban működő Meta a hétvégén tette közzé legújabb MI-modellcsaládját, a Llama 4-et, és elsőként egy Mixture of Experts (MoE) architektúrát használó modellként jelölte meg. A DeepSeek modelljei jelentősen támaszkodnak a MoE-ra az erőforrások hatékonyabb kihasználása érdekében, és a Meta az új kiadást a Hangzhou-i székhelyű startuphoz hasonlította. A DeepSeek nem pontosította, hogy mikor adhatja ki a következő zászlóshajó modelljét.