SG.hu
Késik a DeepSeek új modellje, mert Kína mindenképpen Huawei chipen akarja látni azt
A kínai mesterséges intelligencia vállalat, a DeepSeek elhalasztotta új modelljének megjelenését, miután nem sikerült használatra bírnia azt a Huawei chipjeivel. Ez rávilágít Peking amerikai technológiát felváltó törekvéseinek korlátaira.
A DeepSeek-et a hatóságok az R1 modell januárban történt megjelenése után arra ösztönözte, hogy a Nvidia rendszerei helyett a Huawei Ascend processzorát alkalmazza. Azonban a kínai startup az Ascend chipek használatánál az R2 képzési folyamata során tartós technikai problémákba ütközött, ami arra késztette, hogy a képzéshez Nvidia chipeket, a következtetéshez pedig Huawei chipeket használjon. Ez a probléma voltak a fő oka annak, hogy a modell bevezetése nem történt meg májusban, és így a cég elvesztette előnyét a versenytársakkal szemben.
A képzés során a modell egy nagy adathalmazból tanul, míg a következtetés azt a lépést jelenti, amikor a kiképzett modellt felhasználják előrejelzések készítésére vagy válaszok generálására, például egy chatbot működtetésére. A DeepSeek nehézségei azt mutatják, hogy a kínai chipek még mindig lemaradnak amerikai riválisaiktól a kritikus feladatok terén, ami rávilágít a technológiai önellátásra törekvő Kína előtt álló kihívásokra. Ezt hatóságilag nehéz lesz megoldani, de a kínai kormány azért megpróbálja: nemrég Peking arra kötelezte a kínai technológiai vállalatokat, hogy indokolják meg az Nvidia H20 chip megrendeléseiket, ezzel ösztönözve őket a Huawei és a Cambricon által gyártott alternatívák népszerűsítésére.
Iparági szakértők szerint a kínai chipek stabilitási problémákkal, lassabb chipek közötti összeköttetéssel és a Nvidia termékeihez képest gyengébb szoftverekkel küszködnek. A Huawei mérnökökből álló csapatot küldött a DeepSeek irodájába, hogy segítsen a vállalatnak MI chipjének felhasználásával kifejleszteni az R2 modellt. Azonban a helyszínen lévő csapat ellenére a DeepSeek nem tudta sikeresen elvégezni az Ascend chip képzését. A DeepSeek továbbra is együttműködik a Huawei-jel, hogy a modell kompatibilis legyen az Ascenddel a következtetéshez.
Liang Wenfeng alapító belső körben elmondta, hogy elégedetlen az R2 fejlődésével, és arra törekszik, hogy több időt fordítsanak egy olyan fejlett modell kidolgozására, amely fenntarthatja a vállalat vezető pozícióját. Az R2 bevezetése azért is késett, mert a frissített modell adatcímkézése a vártnál hosszabb ideig tartott. Kínai médiaértesülések szerint a modell már a következő hetekben megjelenhet.
"A modellek könnyen cserélhető alkatrészek” - mondta Ritwik Gupta, a kaliforniai Berkeley Egyetem mesterséges intelligencia kutatója. "Sok fejlesztő használja az Alibaba Qwen3-ját, amely hatékony és rugalmas.” Gupta megjegyezte, hogy a Qwen3 átvette a DeepSeek alapvető koncepcióit, például a modell gondolkodóképességét biztosító képzési algoritmust, de hatékonyabbá tette azok használatát. Gupta - aki nyomon követi a Huawei mesterséges intelligencia ökoszisztémáját - elmondta, hogy a vállalat „növekedési problémákkal” küzd az Ascend képzésben való használata során, bár szerinte a kínai nemzeti bajnok végül alkalmazkodni fog. "Az, hogy ma még nem látunk vezető modelleket, amelyeket Huawei chipen képeztek ki, nem jelenti azt, hogy ez a jövőben sem fog megtörténni. Ez csak idő kérdése” - mondta.
Az Nvidia a Peking és Washington közötti geopolitikai harc középpontjában áll, ezért nemrég kénytelen volt beleegyezni abba, hogy bevételeinek egy részét átadja az amerikai kormánynak, hogy újraindíthassa H20 chipjeinek értékesítését Kínában. "A fejlesztők döntő szerepet fognak játszani a nyertes MI-ökoszisztéma kiépítésében” – nyilatkozta az Nvidia a chipjeit használó kínai vállalatokról. „Az egész piac és a fejlesztők feladása csak ártana az amerikai gazdaságnak és a nemzetbiztonságnak.”
A DeepSeek-et a hatóságok az R1 modell januárban történt megjelenése után arra ösztönözte, hogy a Nvidia rendszerei helyett a Huawei Ascend processzorát alkalmazza. Azonban a kínai startup az Ascend chipek használatánál az R2 képzési folyamata során tartós technikai problémákba ütközött, ami arra késztette, hogy a képzéshez Nvidia chipeket, a következtetéshez pedig Huawei chipeket használjon. Ez a probléma voltak a fő oka annak, hogy a modell bevezetése nem történt meg májusban, és így a cég elvesztette előnyét a versenytársakkal szemben.
A képzés során a modell egy nagy adathalmazból tanul, míg a következtetés azt a lépést jelenti, amikor a kiképzett modellt felhasználják előrejelzések készítésére vagy válaszok generálására, például egy chatbot működtetésére. A DeepSeek nehézségei azt mutatják, hogy a kínai chipek még mindig lemaradnak amerikai riválisaiktól a kritikus feladatok terén, ami rávilágít a technológiai önellátásra törekvő Kína előtt álló kihívásokra. Ezt hatóságilag nehéz lesz megoldani, de a kínai kormány azért megpróbálja: nemrég Peking arra kötelezte a kínai technológiai vállalatokat, hogy indokolják meg az Nvidia H20 chip megrendeléseiket, ezzel ösztönözve őket a Huawei és a Cambricon által gyártott alternatívák népszerűsítésére.
Iparági szakértők szerint a kínai chipek stabilitási problémákkal, lassabb chipek közötti összeköttetéssel és a Nvidia termékeihez képest gyengébb szoftverekkel küszködnek. A Huawei mérnökökből álló csapatot küldött a DeepSeek irodájába, hogy segítsen a vállalatnak MI chipjének felhasználásával kifejleszteni az R2 modellt. Azonban a helyszínen lévő csapat ellenére a DeepSeek nem tudta sikeresen elvégezni az Ascend chip képzését. A DeepSeek továbbra is együttműködik a Huawei-jel, hogy a modell kompatibilis legyen az Ascenddel a következtetéshez.
Liang Wenfeng alapító belső körben elmondta, hogy elégedetlen az R2 fejlődésével, és arra törekszik, hogy több időt fordítsanak egy olyan fejlett modell kidolgozására, amely fenntarthatja a vállalat vezető pozícióját. Az R2 bevezetése azért is késett, mert a frissített modell adatcímkézése a vártnál hosszabb ideig tartott. Kínai médiaértesülések szerint a modell már a következő hetekben megjelenhet.
"A modellek könnyen cserélhető alkatrészek” - mondta Ritwik Gupta, a kaliforniai Berkeley Egyetem mesterséges intelligencia kutatója. "Sok fejlesztő használja az Alibaba Qwen3-ját, amely hatékony és rugalmas.” Gupta megjegyezte, hogy a Qwen3 átvette a DeepSeek alapvető koncepcióit, például a modell gondolkodóképességét biztosító képzési algoritmust, de hatékonyabbá tette azok használatát. Gupta - aki nyomon követi a Huawei mesterséges intelligencia ökoszisztémáját - elmondta, hogy a vállalat „növekedési problémákkal” küzd az Ascend képzésben való használata során, bár szerinte a kínai nemzeti bajnok végül alkalmazkodni fog. "Az, hogy ma még nem látunk vezető modelleket, amelyeket Huawei chipen képeztek ki, nem jelenti azt, hogy ez a jövőben sem fog megtörténni. Ez csak idő kérdése” - mondta.
Az Nvidia a Peking és Washington közötti geopolitikai harc középpontjában áll, ezért nemrég kénytelen volt beleegyezni abba, hogy bevételeinek egy részét átadja az amerikai kormánynak, hogy újraindíthassa H20 chipjeinek értékesítését Kínában. "A fejlesztők döntő szerepet fognak játszani a nyertes MI-ökoszisztéma kiépítésében” – nyilatkozta az Nvidia a chipjeit használó kínai vállalatokról. „Az egész piac és a fejlesztők feladása csak ártana az amerikai gazdaságnak és a nemzetbiztonságnak.”