SG.hu
Hogyan készítette el a DeepSeek a világverő MI-modelljét?

A kínai startup több trükköt is bevetett, többek között a „szakértők keverése” nevű módszert, hogy jelentősen csökkentse a technológia kiépítésének költségeit.
A múlt hónapban az amerikai pénzügyi piacok megzuhantak, miután a DeepSeek nevű kínai startup cég közölte, hogy a világ egyik legerősebb mesterséges intelligencia rendszerét sokkal kevesebb számítógépes chip felhasználásával építette meg, mint azt sok szakértő lehetségesnek tartotta. A mesterséges intelligenciával foglalkozó cégek általában több tízezer, vagy még egy nagyságrenddel több speciális chippel megpakolt szuperszámítógépek segítségével képzik chatbotjaikat. A DeepSeek szerint azonban csak körülbelül 2000 ilyenre volt szüksége.
Amint azt a DeepSeek mérnökei egy karácsony után közzétett kutatási dokumentumban részletezték, a startup több technológiai trükköt is bevetett, hogy jelentősen csökkentse rendszere kiépítésének költségeit. Mérnökeinek mindössze 6 millió dollár nyers számítási teljesítményre volt szükségük, ami nagyjából a tizede annak, amit a Meta költött a legújabb mesterséges intelligencia technológiájának megépítésére. De mit is csinált pontosan a DeepSeek?
A vezető MI-technológiák a tudósok által neurális hálózatoknak nevezett matematikai rendszereken alapulnak, amelyek hatalmas mennyiségű adat elemzése révén tesznek szert képességeikre. A legerősebb rendszerek hónapokig elemzik az interneten található összes angol nyelvű szöveget, valamint számos képet, hangot és egyéb multimédiát. Ehhez hatalmas mennyiségű számítási teljesítményre van szükség.
Körülbelül 15 évvel ezelőtt a mesterséges intelligencia kutatói rájöttek, hogy a grafikus feldolgozó egységek (GPU-k nagyon hatékonyan képesek az ilyen típusú adatelemzésre. Az olyan vállalatok, mint a szilícium-völgyi Nvidia eredetileg a számítógépes videojátékok grafikai megjelenítésére tervezték ezeket a chipeket. Azonban kiderült, hogy a GPU-k a neurális hálózatokat működtető matematikai feladatok elvégzésében is jártasak. Ahogy a vállalatok egyre több GPU-t építettek be számítógépes adatközpontjaikba, a mesterséges intelligencia rendszereik egyre több adatot tudtak elemezni. A legjobb GPU-k ma már 40 000 dollár körüli összegbe kerülnek, és hatalmas mennyiségű energiára van szükségük. Ráadásul az adatok chipek közötti továbbítása több elektromos energiát használhat fel, mint maguknak a chipeknek a működtetése.
A DeepSeek a költségek csökkentésére a "szakértők keverése” nevű módszert alkalmazta. A vállalatok általában egyetlen neurális hálózatot hoztak létre, amely az interneten található összes adat összes mintáját megtanulta. Ez drága, mert hatalmas mennyiségű adatot kell a GPU-chipek között továbbítani. Ha az egyik chip megtanult verset költeni, egy másik pedig számítógépes programot írni, akkor is beszélniük kellett egymással, hátha a költészet és a programozás között átfedés van.
A szakértők keverése módszerrel a kutatók ezt a problémát úgy próbálták megoldani, hogy a rendszert sok neurális hálózatra osztották fel: egy a költészetre, egy a számítógépes programozásra, egy a biológiára, egy a fizikára és így tovább. Ilyen kisebb „szakértői” rendszerekből akár 100 is lehet. Minden egyes szakértő a saját területére koncentrál. Sok cég próbálkozott ezzel a módszerrel, de a DeepSeek oldotta meg a legjobban. A trükkje az volt, hogy ezeket a kisebb „szakértői” rendszereket egy „generalista” rendszerrel párosította.
A szakértőknek továbbra is szükségük volt arra, hogy bizonyos információkat cseréljenek egymással, és az általánosító rendszer - amely megfelelő, de nem részletes ismeretekkel rendelkezett az egyes témákról - segíthetett a szakértők közötti interakciók koordinálásában. Kicsit olyan ez, mintha egy szerkesztő felügyelne egy szakértő riporterekkel teli szerkesztőséget. De nem ez az egyetlen dolog, amit a DeepSeek csinált. Egy egyszerű, tizedesjegyekkel kapcsolatos trükköt is elsajátított, amelyet bárki megérthet, aki emlékszik az általános iskolai matematikaórákra.
A pí egy olyan szám, amely a végtelenségig folytatható: 3.14159265358979... stb. Segítségével hasznos számításokat lehet végezni, például meghatározni egy kör kerületét. Ilyenkor a pít néhány tizedesjegyre rövidítjük, általában elég 3,14. Ezt az egyszerűbb számot használva is elég jó becslést kapunk a kör kerületére. A DeepSeek valami hasonlót csinált - de sokkal nagyobb léptékben - az MI technológiájának kiképzése során.
A matematika, amely lehetővé teszi, hogy egy neurális hálózat mintákat azonosítson a szövegben, valójában nem más, mint szorzás. Sok, sok, sok, sok szorzás. Hónapokig tartó szorzásról beszélünk, több ezer számítógépes chipen keresztül. A chipek jellemzően olyan számokat szoroznak, amelyek 16 bitnyi memóriában elférnek. A DeepSeek azonban minden egyes számot mindössze 8 bit memóriába - a hely felébe - préselt. Lényegében minden számból több tizedesjegyet levágott. Ez azt jelenti, hogy minden számítás kevésbé volt pontos. De ez nem számít, a számítások elég pontosak voltak ahhoz, hogy egy igazán erős neurális hálózatot hozzanak létre.
Ezután hozzáadtak még egy trükköt: miután minden egyes számot 8 bit memóriába szorítottak, a DeepSeek más utat választott, amikor ezeket a számokat összeszorozta. Amikor meghatározta a választ az egyes szorzási feladatokra egy kulcsfontosságú számítást végzett, amely segített eldönteni, hogyan fog működni a neurális hálózat. A választ 32 bitnyi memóriára terítették ki, más szóval, sokkal több tizedesjegyet tartottak meg, ezáltal pontosabbá tették a választ.
Persze ezt nem tudta volna bármely középiskolás diák megcsinálni. A DeepSeek mérnökei a dolgozatukban leírják, hogy nagyon jól értenek azon nagyon bonyolult számítógépes kód megírásához is, amely megmondja a GPU-knak, hogy mit csináljanak. Tudták, hogyan lehet még nagyobb hatékonyságot kipréselni ezekből a chipekből. Kevés embernek van ilyen képessége, de a komoly MI-laborok rendelkeznek a DeepSeek teljesítményéhez szükséges tehetséges mérnökökkel.
Néhány MI laboratórium talán már most is alkalmaz legalább néhány hasonló trükköt. Az OpenAI-hoz hasonló cégek nem mindig fedik fel, hogy mit csinálnak zárt ajtók mögött. Másokat azonban egyértelműen meglepett a DeepSeek munkája. Nem könnyű megcsinálni azt, amit a startup csinált. Az ilyen áttörés megtalálásához szükséges kísérletezés dollármilliókba kerülő elektromos energiával jár. Más szóval, óriási kockázatot igényel. "Rengeteg pénzt kell kockára tenni, hogy új dolgokat próbáljunk ki - és gyakran kudarcot vallunk” - mondta Tim Dettmers, a seattle-i Allen Institute for Artificial Intelligence kutatója, aki hatékony MI rendszerek építésére specializálódott, és korábban a Meta MI kutatójaként dolgozott. "Ezért nem látunk sok innovációt: Az emberek félnek sok milliót veszíteni, csak azért, hogy kipróbáljanak valamit, ami nem működik” - tette hozzá.
Sok szakértő rámutatott, hogy a DeepSeek 6 millió dollárja csak azt fedezte, amit a startup a rendszer végleges változatának kiképzése során költött. A DeepSeek mérnökei a tanulmányukban azt állították, hogy a végső betanítás előtt további pénzeket költöttek kutatásra és kísérletezésre. De ugyanez igaz bármelyik élvonalbeli MI projektre. A DeepSeek kísérletezett, és ez kifizetődött. Most, hogy a kínai startup cég megosztotta módszereit más MI-kutatókkal, technológiai trükkjei jelentősen csökkenthetik az MI építésének költségeit.
A múlt hónapban az amerikai pénzügyi piacok megzuhantak, miután a DeepSeek nevű kínai startup cég közölte, hogy a világ egyik legerősebb mesterséges intelligencia rendszerét sokkal kevesebb számítógépes chip felhasználásával építette meg, mint azt sok szakértő lehetségesnek tartotta. A mesterséges intelligenciával foglalkozó cégek általában több tízezer, vagy még egy nagyságrenddel több speciális chippel megpakolt szuperszámítógépek segítségével képzik chatbotjaikat. A DeepSeek szerint azonban csak körülbelül 2000 ilyenre volt szüksége.
Amint azt a DeepSeek mérnökei egy karácsony után közzétett kutatási dokumentumban részletezték, a startup több technológiai trükköt is bevetett, hogy jelentősen csökkentse rendszere kiépítésének költségeit. Mérnökeinek mindössze 6 millió dollár nyers számítási teljesítményre volt szükségük, ami nagyjából a tizede annak, amit a Meta költött a legújabb mesterséges intelligencia technológiájának megépítésére. De mit is csinált pontosan a DeepSeek?
A vezető MI-technológiák a tudósok által neurális hálózatoknak nevezett matematikai rendszereken alapulnak, amelyek hatalmas mennyiségű adat elemzése révén tesznek szert képességeikre. A legerősebb rendszerek hónapokig elemzik az interneten található összes angol nyelvű szöveget, valamint számos képet, hangot és egyéb multimédiát. Ehhez hatalmas mennyiségű számítási teljesítményre van szükség.
Körülbelül 15 évvel ezelőtt a mesterséges intelligencia kutatói rájöttek, hogy a grafikus feldolgozó egységek (GPU-k nagyon hatékonyan képesek az ilyen típusú adatelemzésre. Az olyan vállalatok, mint a szilícium-völgyi Nvidia eredetileg a számítógépes videojátékok grafikai megjelenítésére tervezték ezeket a chipeket. Azonban kiderült, hogy a GPU-k a neurális hálózatokat működtető matematikai feladatok elvégzésében is jártasak. Ahogy a vállalatok egyre több GPU-t építettek be számítógépes adatközpontjaikba, a mesterséges intelligencia rendszereik egyre több adatot tudtak elemezni. A legjobb GPU-k ma már 40 000 dollár körüli összegbe kerülnek, és hatalmas mennyiségű energiára van szükségük. Ráadásul az adatok chipek közötti továbbítása több elektromos energiát használhat fel, mint maguknak a chipeknek a működtetése.
A DeepSeek a költségek csökkentésére a "szakértők keverése” nevű módszert alkalmazta. A vállalatok általában egyetlen neurális hálózatot hoztak létre, amely az interneten található összes adat összes mintáját megtanulta. Ez drága, mert hatalmas mennyiségű adatot kell a GPU-chipek között továbbítani. Ha az egyik chip megtanult verset költeni, egy másik pedig számítógépes programot írni, akkor is beszélniük kellett egymással, hátha a költészet és a programozás között átfedés van.
A szakértők keverése módszerrel a kutatók ezt a problémát úgy próbálták megoldani, hogy a rendszert sok neurális hálózatra osztották fel: egy a költészetre, egy a számítógépes programozásra, egy a biológiára, egy a fizikára és így tovább. Ilyen kisebb „szakértői” rendszerekből akár 100 is lehet. Minden egyes szakértő a saját területére koncentrál. Sok cég próbálkozott ezzel a módszerrel, de a DeepSeek oldotta meg a legjobban. A trükkje az volt, hogy ezeket a kisebb „szakértői” rendszereket egy „generalista” rendszerrel párosította.
A szakértőknek továbbra is szükségük volt arra, hogy bizonyos információkat cseréljenek egymással, és az általánosító rendszer - amely megfelelő, de nem részletes ismeretekkel rendelkezett az egyes témákról - segíthetett a szakértők közötti interakciók koordinálásában. Kicsit olyan ez, mintha egy szerkesztő felügyelne egy szakértő riporterekkel teli szerkesztőséget. De nem ez az egyetlen dolog, amit a DeepSeek csinált. Egy egyszerű, tizedesjegyekkel kapcsolatos trükköt is elsajátított, amelyet bárki megérthet, aki emlékszik az általános iskolai matematikaórákra.

A pí egy olyan szám, amely a végtelenségig folytatható: 3.14159265358979... stb. Segítségével hasznos számításokat lehet végezni, például meghatározni egy kör kerületét. Ilyenkor a pít néhány tizedesjegyre rövidítjük, általában elég 3,14. Ezt az egyszerűbb számot használva is elég jó becslést kapunk a kör kerületére. A DeepSeek valami hasonlót csinált - de sokkal nagyobb léptékben - az MI technológiájának kiképzése során.
A matematika, amely lehetővé teszi, hogy egy neurális hálózat mintákat azonosítson a szövegben, valójában nem más, mint szorzás. Sok, sok, sok, sok szorzás. Hónapokig tartó szorzásról beszélünk, több ezer számítógépes chipen keresztül. A chipek jellemzően olyan számokat szoroznak, amelyek 16 bitnyi memóriában elférnek. A DeepSeek azonban minden egyes számot mindössze 8 bit memóriába - a hely felébe - préselt. Lényegében minden számból több tizedesjegyet levágott. Ez azt jelenti, hogy minden számítás kevésbé volt pontos. De ez nem számít, a számítások elég pontosak voltak ahhoz, hogy egy igazán erős neurális hálózatot hozzanak létre.
Ezután hozzáadtak még egy trükköt: miután minden egyes számot 8 bit memóriába szorítottak, a DeepSeek más utat választott, amikor ezeket a számokat összeszorozta. Amikor meghatározta a választ az egyes szorzási feladatokra egy kulcsfontosságú számítást végzett, amely segített eldönteni, hogyan fog működni a neurális hálózat. A választ 32 bitnyi memóriára terítették ki, más szóval, sokkal több tizedesjegyet tartottak meg, ezáltal pontosabbá tették a választ.
Persze ezt nem tudta volna bármely középiskolás diák megcsinálni. A DeepSeek mérnökei a dolgozatukban leírják, hogy nagyon jól értenek azon nagyon bonyolult számítógépes kód megírásához is, amely megmondja a GPU-knak, hogy mit csináljanak. Tudták, hogyan lehet még nagyobb hatékonyságot kipréselni ezekből a chipekből. Kevés embernek van ilyen képessége, de a komoly MI-laborok rendelkeznek a DeepSeek teljesítményéhez szükséges tehetséges mérnökökkel.
Néhány MI laboratórium talán már most is alkalmaz legalább néhány hasonló trükköt. Az OpenAI-hoz hasonló cégek nem mindig fedik fel, hogy mit csinálnak zárt ajtók mögött. Másokat azonban egyértelműen meglepett a DeepSeek munkája. Nem könnyű megcsinálni azt, amit a startup csinált. Az ilyen áttörés megtalálásához szükséges kísérletezés dollármilliókba kerülő elektromos energiával jár. Más szóval, óriási kockázatot igényel. "Rengeteg pénzt kell kockára tenni, hogy új dolgokat próbáljunk ki - és gyakran kudarcot vallunk” - mondta Tim Dettmers, a seattle-i Allen Institute for Artificial Intelligence kutatója, aki hatékony MI rendszerek építésére specializálódott, és korábban a Meta MI kutatójaként dolgozott. "Ezért nem látunk sok innovációt: Az emberek félnek sok milliót veszíteni, csak azért, hogy kipróbáljanak valamit, ami nem működik” - tette hozzá.
Sok szakértő rámutatott, hogy a DeepSeek 6 millió dollárja csak azt fedezte, amit a startup a rendszer végleges változatának kiképzése során költött. A DeepSeek mérnökei a tanulmányukban azt állították, hogy a végső betanítás előtt további pénzeket költöttek kutatásra és kísérletezésre. De ugyanez igaz bármelyik élvonalbeli MI projektre. A DeepSeek kísérletezett, és ez kifizetődött. Most, hogy a kínai startup cég megosztotta módszereit más MI-kutatókkal, technológiai trükkjei jelentősen csökkenthetik az MI építésének költségeit.