SG.hu
Jobb MI-modellt készített a kínai DeepSeek, mint a Szilícium-völgy óriásai

A vállalat olcsóbb, versenyképes chatbotot épített kevesebb csúcskategóriás számítógépes chip felhasználásával, mint az olyan amerikai óriáscégek, mint a Google és az OpenAI, megmutatva a chipek exportellenőrzésének határait.
Karácsony másnapján egy DeepSeek nevű kis kínai startup bemutatott egy új mesterséges intelligencia-modellt, amely felveszi a versenyt az olyan cégek, mint az OpenAI és a Google legmodernebb chatbotjainak képességeivel. Ez önmagában is mérföldkőnek számított volna, de a DeepSeek-V3 nevű rendszer mögött álló csapat azonban még ennél is nagyobb lépést tett. A DeepSeek mérnökei egy kutatási dokumentumban - amelyben elmagyarázzák, hogyan építették fel a technológiát - azt írják, hogy csak töredék mennyiséget használtak azokból a magasan specializált számítógépes chipekből, amelyekre a vezető MI-cégek támaszkodnak a rendszereik betanításához.
Ezek a chipek az Egyesült Államok és Kína közötti feszült technológiai verseny középpontjában állnak. Miközben az amerikai kormány azon dolgozik, hogy megőrizze az ország vezető helyét a globális MI-versenyben, megpróbálja korlátozni a Kínának és más riválisoknak eladható nagy teljesítményű chipek számát, például az Nvidia által gyártottakat. A DeepSeek modell teljesítménye azonban kérdéseket vet fel az amerikai kormány kereskedelmi korlátozásainak nem szándékolt következményeivel kapcsolatban. Az ellenőrzések arra kényszerítették a kínai kutatókat, hogy az interneten szabadon hozzáférhető eszközök széles skálájával kreatívkodjanak.
A DeepSeek chatbot az amerikai MI-vállalatok által használt összehasonlító tesztek szerint ugyanolyan jól válaszol a kérdésekre, old meg logikai problémákat és ír saját számítógépes programokat, mint bármi, ami már a piacon van. Ráadásul olcsón készült, megkérdőjelezve azt az uralkodó elképzelést, hogy csak a technológiai ipar legnagyobb vállalatai - amelyek mindegyike az Egyesült Államokban székel - engedhetik meg maguknak, hogy lefejlesszék a legfejlettebb MI-rendszereket.
A kínai mérnökök elmondták, hogy mindössze 6 millió dollárnyi nyers számítási teljesítményre volt szükségük az új rendszerük betanításához. Ez körülbelül tízszer kevesebb, mint amennyit a Meta technológiai óriás a legújabb MI-technológiájának megalkotására költött. "Azon vállalatok száma, amelyek 6 millió dollárt költhetnek, jóval nagyobb, mint azon vállalatok száma, amelyek 100 millió vagy 1 milliárd dollárt költhetnek” - mondta Chris V. Nicholson, a Page One Ventures kockázati tőkecég befektetője.
Amióta az OpenAI 2022-ben a ChatGPT megjelenésével elindította az MI-boomot, sok szakértő és befektető arra a következtetésre jutott, hogy egyetlen vállalat sem tud versenyezni a piacvezető cégekkel anélkül, hogy több százmillió dollárt költene speciális chipekre. A világ vezető MI-cégei olyan szuperszámítógépekkel képzik chatbotjaikat, amelyek több tízezer, vagy akár még több chipet használnak. A DeepSeek mérnökei ezzel szemben azt írják, hogy nekik csak körülbelül 2000 speciális számítógépes chipre volt szükségük az Nvidia-tól. A Kínában a chipekre vonatkozó korlátok arra kényszerítették a DeepSeek mérnökeit, hogy "hatékonyabban dolgozzanak, hogy még mindig versenyképes maradhasson” - mondta Jeffrey Ding, a George Washington Egyetem adjunktusa, aki a feltörekvő technológiákra és a nemzetközi kapcsolatokra specializálódott.
A hónap elején a Biden-kormányzat új szabályokat tett közzé, amelyek célja, hogy Kína más országokon keresztül se juthasson fejlett MI chipekhez. A szabályok a korábbi korlátozások több körére épülnek, amelyek megakadályozzák, hogy kínai vállalatok csúcstechnológiájú számítógépes chipeket vásároljanak vagy gyártsanak. Trump elnök még nem jelezte, hogy megtartja-e a szabályokat, vagy visszavonja azokat. Az amerikai kormány régóta igyekszik megakadályozni, hogy fejlett chipek a kínai vállalatok kezébe kerüljenek, mivel aggályosnak tartja, hogy azokat katonai célokra használhatják fel. Válaszul egyes kínai cégek több ezer chipet halmoztak fel, míg mások a csempészek virágzó földalatti piacáról szerezték be azokat.
A DeepSeek-et a High Flyer nevű kvantitatív tőzsdei brókercég működteti. A cég a 2021-es nyereségét több ezer Nvidia chip beszerzésére fordította, amelyeket modelljei betanításához használt. A DeepSeek nem készít termékeket a fogyasztók számára, így mérnökei teljes mértékben a kutatásra koncentrálhatnak. Ez azt jelenti, hogy technológiáját nem korlátozza a kínai mesterséges intelligenciára vonatkozó legszigorúbb kínai szabályozás, amely előírja, hogy a fogyasztóknak szánt technológiának meg kell felelnie a kormány által az információkra vonatkozó ellenőrzéseknek.
A vállalat Kínában arról vált ismertté, hogy a legjobb egyetemekről frissen kikerülő tehetségeket magas fizetések ígéretével és azzal a lehetőséggel vonzza magához, hogy a leginkább felkapott kutatási területekkel foglalkozhatnak. Zihan Wang - egy számítógépes mérnök, aki egy korábbi DeepSeek-modellen dolgozott - elmondta, hogy a cég olyan embereket is felvesz, akiknek nincs informatikai hátterük, hogy segítsenek megérteni a technológiát, és képesek legyenek például verseket generálni.
Ennek a gyorsan változó globális piacnak fontos része egy régi eszme: a nyílt forráskódú szoftver. Sok más vállalathoz hasonlóan a DeepSeek is nyílt forráskódúvá tette legújabb mesterséges intelligencia rendszerét, ami azt jelenti, hogy az alapjául szolgáló kódot megosztotta más vállalatokkal és kutatókkal. Ez lehetővé teszi mások számára, hogy saját termékeiket ugyanazon technológiák felhasználásával készítsék el és terjesszék. Míg a nagy kínai technológiai cégek alkalmazottai csak a kollégáikkal működhetnek együtt, "ha nyílt forráskóddal dolgozol, akkor a világ minden tájáról származó tehetségekkel kooperálhatsz” - mondta Yineng Zhang, a San Franciscó-i Baseten vezető szoftvermérnöke, aki a nyílt forráskódú SGLang projektben dolgozik. Ő segít más embereknek és cégeknek a DeepSeek rendszerét használó termékek létrehozásában.
Az MI nyílt forráskódú ökoszisztémája 2023-ban lendült fel, amikor a Meta szabadon megosztotta a LLama nevű MI-modellt. Sokan feltételezték, hogy ez a közösség csak akkor fog virágozni, ha a Metához hasonló vállalatok - a speciális chipekkel teli hatalmas adatközpontokkal rendelkező technológiai óriások - továbbra is nyílt forráskódúvá teszik technológiáikat. A DeepSeek és mások azonban megmutatták, hogy ők is képesek megtámogatni a nyílt forráskódú technológiákat.
Sok vezető és szakértő azzal érvel, hogy a nagy amerikai vállalatoknak nem szabadna megnyitniuk technológiáik forráskódját, mert azokat dezinformáció terjesztésére vagy más súlyos károk okozására használhatják. Néhány amerikai törvényhozó már vizsgálta a gyakorlat megakadályozásának vagy korlátozásának lehetőségét. Mások azonban azzal érvelnek, hogy ha a szabályozók megfojtják a nyílt forráskódú technológia fejlődését az Egyesült Államokban, Kína jelentős előnyre tesz szert. Érvelésük szerint ha a legjobb nyílt forráskódú technológiák Kínából származnak, akkor a fejlesztők ezekre a technológiákra fogják építeni rendszereiket. Hosszú távon ez Kínát az MI kutatás és fejlesztés középpontjába helyezheti.
"A nyílt forráskódú közösség súlypontja Kínába helyeződött át” - mondta Ion Stoica, a Berkeley-i Kaliforniai Egyetem informatika professzora. "Ez óriási veszélyt jelenthet az USA számára”, mert lehetővé teszi Kína számára, hogy felgyorsítsa az új technológiák fejlesztését. Dr. Stoica és diákjai nemrég készítettek egy Sky-T1 nevű mesterséges intelligencia modellt, amely bizonyos benchmark teszteken vetekszik az OpenAI legújabb, OpenAI o1 nevű rendszerének teljesítményével. Mindössze 450 dollárnyi számítási teljesítményre volt szükségük.
Ezt úgy érték el, hogy a kínai technológiai óriás, az Alibaba által kiadott két nyílt forráskódú technológiára építettek. Az ő 450 dolláros rendszerük nem olyan erős, mint az OpenAI technológiája vagy a DeepSeek új rendszere. Az általuk alkalmazott technikák pedig nem valószínű, hogy olyan rendszereket eredményeznek, amelyek meghaladják a vezető technológiák teljesítményét. A projekt azonban megmutatta, hogy okos emberek még a csekély erőforrásokkal is képesek versenyképes rendszereket építeni.
Reuven Cohen, egy torontói technológiai tanácsadó december vége óta használja a DeepSeek-V3-at. Elmondása szerint az az OpenAI, a Google és a San Francisco-i Anthropic startup cég legújabb rendszereihez hasonlítható - és sokkal olcsóbb a használata. "A DeepSeek számomra egy módja annak, hogy pénzt takarítsak meg” - mondta. "Ez az a fajta technológia, amelyet a magamfajták használni akarnak."
Karácsony másnapján egy DeepSeek nevű kis kínai startup bemutatott egy új mesterséges intelligencia-modellt, amely felveszi a versenyt az olyan cégek, mint az OpenAI és a Google legmodernebb chatbotjainak képességeivel. Ez önmagában is mérföldkőnek számított volna, de a DeepSeek-V3 nevű rendszer mögött álló csapat azonban még ennél is nagyobb lépést tett. A DeepSeek mérnökei egy kutatási dokumentumban - amelyben elmagyarázzák, hogyan építették fel a technológiát - azt írják, hogy csak töredék mennyiséget használtak azokból a magasan specializált számítógépes chipekből, amelyekre a vezető MI-cégek támaszkodnak a rendszereik betanításához.
Ezek a chipek az Egyesült Államok és Kína közötti feszült technológiai verseny középpontjában állnak. Miközben az amerikai kormány azon dolgozik, hogy megőrizze az ország vezető helyét a globális MI-versenyben, megpróbálja korlátozni a Kínának és más riválisoknak eladható nagy teljesítményű chipek számát, például az Nvidia által gyártottakat. A DeepSeek modell teljesítménye azonban kérdéseket vet fel az amerikai kormány kereskedelmi korlátozásainak nem szándékolt következményeivel kapcsolatban. Az ellenőrzések arra kényszerítették a kínai kutatókat, hogy az interneten szabadon hozzáférhető eszközök széles skálájával kreatívkodjanak.
A DeepSeek chatbot az amerikai MI-vállalatok által használt összehasonlító tesztek szerint ugyanolyan jól válaszol a kérdésekre, old meg logikai problémákat és ír saját számítógépes programokat, mint bármi, ami már a piacon van. Ráadásul olcsón készült, megkérdőjelezve azt az uralkodó elképzelést, hogy csak a technológiai ipar legnagyobb vállalatai - amelyek mindegyike az Egyesült Államokban székel - engedhetik meg maguknak, hogy lefejlesszék a legfejlettebb MI-rendszereket.
A kínai mérnökök elmondták, hogy mindössze 6 millió dollárnyi nyers számítási teljesítményre volt szükségük az új rendszerük betanításához. Ez körülbelül tízszer kevesebb, mint amennyit a Meta technológiai óriás a legújabb MI-technológiájának megalkotására költött. "Azon vállalatok száma, amelyek 6 millió dollárt költhetnek, jóval nagyobb, mint azon vállalatok száma, amelyek 100 millió vagy 1 milliárd dollárt költhetnek” - mondta Chris V. Nicholson, a Page One Ventures kockázati tőkecég befektetője.
Amióta az OpenAI 2022-ben a ChatGPT megjelenésével elindította az MI-boomot, sok szakértő és befektető arra a következtetésre jutott, hogy egyetlen vállalat sem tud versenyezni a piacvezető cégekkel anélkül, hogy több százmillió dollárt költene speciális chipekre. A világ vezető MI-cégei olyan szuperszámítógépekkel képzik chatbotjaikat, amelyek több tízezer, vagy akár még több chipet használnak. A DeepSeek mérnökei ezzel szemben azt írják, hogy nekik csak körülbelül 2000 speciális számítógépes chipre volt szükségük az Nvidia-tól. A Kínában a chipekre vonatkozó korlátok arra kényszerítették a DeepSeek mérnökeit, hogy "hatékonyabban dolgozzanak, hogy még mindig versenyképes maradhasson” - mondta Jeffrey Ding, a George Washington Egyetem adjunktusa, aki a feltörekvő technológiákra és a nemzetközi kapcsolatokra specializálódott.
A hónap elején a Biden-kormányzat új szabályokat tett közzé, amelyek célja, hogy Kína más országokon keresztül se juthasson fejlett MI chipekhez. A szabályok a korábbi korlátozások több körére épülnek, amelyek megakadályozzák, hogy kínai vállalatok csúcstechnológiájú számítógépes chipeket vásároljanak vagy gyártsanak. Trump elnök még nem jelezte, hogy megtartja-e a szabályokat, vagy visszavonja azokat. Az amerikai kormány régóta igyekszik megakadályozni, hogy fejlett chipek a kínai vállalatok kezébe kerüljenek, mivel aggályosnak tartja, hogy azokat katonai célokra használhatják fel. Válaszul egyes kínai cégek több ezer chipet halmoztak fel, míg mások a csempészek virágzó földalatti piacáról szerezték be azokat.

A DeepSeek-et a High Flyer nevű kvantitatív tőzsdei brókercég működteti. A cég a 2021-es nyereségét több ezer Nvidia chip beszerzésére fordította, amelyeket modelljei betanításához használt. A DeepSeek nem készít termékeket a fogyasztók számára, így mérnökei teljes mértékben a kutatásra koncentrálhatnak. Ez azt jelenti, hogy technológiáját nem korlátozza a kínai mesterséges intelligenciára vonatkozó legszigorúbb kínai szabályozás, amely előírja, hogy a fogyasztóknak szánt technológiának meg kell felelnie a kormány által az információkra vonatkozó ellenőrzéseknek.
A vállalat Kínában arról vált ismertté, hogy a legjobb egyetemekről frissen kikerülő tehetségeket magas fizetések ígéretével és azzal a lehetőséggel vonzza magához, hogy a leginkább felkapott kutatási területekkel foglalkozhatnak. Zihan Wang - egy számítógépes mérnök, aki egy korábbi DeepSeek-modellen dolgozott - elmondta, hogy a cég olyan embereket is felvesz, akiknek nincs informatikai hátterük, hogy segítsenek megérteni a technológiát, és képesek legyenek például verseket generálni.
Ennek a gyorsan változó globális piacnak fontos része egy régi eszme: a nyílt forráskódú szoftver. Sok más vállalathoz hasonlóan a DeepSeek is nyílt forráskódúvá tette legújabb mesterséges intelligencia rendszerét, ami azt jelenti, hogy az alapjául szolgáló kódot megosztotta más vállalatokkal és kutatókkal. Ez lehetővé teszi mások számára, hogy saját termékeiket ugyanazon technológiák felhasználásával készítsék el és terjesszék. Míg a nagy kínai technológiai cégek alkalmazottai csak a kollégáikkal működhetnek együtt, "ha nyílt forráskóddal dolgozol, akkor a világ minden tájáról származó tehetségekkel kooperálhatsz” - mondta Yineng Zhang, a San Franciscó-i Baseten vezető szoftvermérnöke, aki a nyílt forráskódú SGLang projektben dolgozik. Ő segít más embereknek és cégeknek a DeepSeek rendszerét használó termékek létrehozásában.
Az MI nyílt forráskódú ökoszisztémája 2023-ban lendült fel, amikor a Meta szabadon megosztotta a LLama nevű MI-modellt. Sokan feltételezték, hogy ez a közösség csak akkor fog virágozni, ha a Metához hasonló vállalatok - a speciális chipekkel teli hatalmas adatközpontokkal rendelkező technológiai óriások - továbbra is nyílt forráskódúvá teszik technológiáikat. A DeepSeek és mások azonban megmutatták, hogy ők is képesek megtámogatni a nyílt forráskódú technológiákat.
Sok vezető és szakértő azzal érvel, hogy a nagy amerikai vállalatoknak nem szabadna megnyitniuk technológiáik forráskódját, mert azokat dezinformáció terjesztésére vagy más súlyos károk okozására használhatják. Néhány amerikai törvényhozó már vizsgálta a gyakorlat megakadályozásának vagy korlátozásának lehetőségét. Mások azonban azzal érvelnek, hogy ha a szabályozók megfojtják a nyílt forráskódú technológia fejlődését az Egyesült Államokban, Kína jelentős előnyre tesz szert. Érvelésük szerint ha a legjobb nyílt forráskódú technológiák Kínából származnak, akkor a fejlesztők ezekre a technológiákra fogják építeni rendszereiket. Hosszú távon ez Kínát az MI kutatás és fejlesztés középpontjába helyezheti.
"A nyílt forráskódú közösség súlypontja Kínába helyeződött át” - mondta Ion Stoica, a Berkeley-i Kaliforniai Egyetem informatika professzora. "Ez óriási veszélyt jelenthet az USA számára”, mert lehetővé teszi Kína számára, hogy felgyorsítsa az új technológiák fejlesztését. Dr. Stoica és diákjai nemrég készítettek egy Sky-T1 nevű mesterséges intelligencia modellt, amely bizonyos benchmark teszteken vetekszik az OpenAI legújabb, OpenAI o1 nevű rendszerének teljesítményével. Mindössze 450 dollárnyi számítási teljesítményre volt szükségük.
Ezt úgy érték el, hogy a kínai technológiai óriás, az Alibaba által kiadott két nyílt forráskódú technológiára építettek. Az ő 450 dolláros rendszerük nem olyan erős, mint az OpenAI technológiája vagy a DeepSeek új rendszere. Az általuk alkalmazott technikák pedig nem valószínű, hogy olyan rendszereket eredményeznek, amelyek meghaladják a vezető technológiák teljesítményét. A projekt azonban megmutatta, hogy okos emberek még a csekély erőforrásokkal is képesek versenyképes rendszereket építeni.
Reuven Cohen, egy torontói technológiai tanácsadó december vége óta használja a DeepSeek-V3-at. Elmondása szerint az az OpenAI, a Google és a San Francisco-i Anthropic startup cég legújabb rendszereihez hasonlítható - és sokkal olcsóbb a használata. "A DeepSeek számomra egy módja annak, hogy pénzt takarítsak meg” - mondta. "Ez az a fajta technológia, amelyet a magamfajták használni akarnak."