SG.hu
Gyengül az Istenhez hasonló nagy nyelvi modellekbe vetett hit
Amikor a technológiai szakemberek a nagy nyelvi modellek (LLM) lassú fejlődéséről beszélnek, gyakran hoznak fel analógiát a okostelefonokkal. Az OpenAI ChatGPT-jének kezdeti napjai ugyanolyan forradalmiak voltak, mint az Apple iPhone 2007-es piacra dobása. De a mesterséges intelligencia területén elért fejlődés inkább unalmas telefonfrissítésekhez hasonlít, mint valódi áttörésekhez. Az OpenAI legújabb modellje, a GPT-5 jó példa erre. Hasonló kollektív vállrándítást váltott ki, mint az Apple szeptember 9-i iPhone 17 bemutatója, amely egy „Air” nevű ultravékony modellt is tartalmaz.
A generatív MI legújabb fejlesztéseinek lassuló üteme egy jel arra, hogy az LLM-ek nem felelnek meg a velük kapcsolatos nagy várakozásoknak. Vitathatatlanul fontosabb jelzés a kisebb, fürgébb alternatívák megjelenése, amelyek egyre népszerűbbek a vállalati világban. Sok cég inkább az egyedi igényeikhez igazítható, testreszabott modelleket részesíti előnyben. Ezek az úgynevezett kis nyelvi modellek (SLM-ek) olcsóbbak, mint az univerzális LLM-ek, amelyek istenhez hasonló intelligenciája feleslegesnek tűnhet. Ahogy David Cox, az IBM technológiai vállalat MI-modellekkel foglalkozó kutatásának vezetője fogalmaz: „A HR-chatbotnak nem kell ismernie a fejlett fizikát.”
Az SLM-ek nemcsak ugyanolyan könnyen futtathatók a vállalatok belső IT-rendszerein, mint egy felhőszolgáltatón keresztül, hanem hasznosabbak is lehetnek az MI-ügynökök számára, amelyek munkával kapcsolatos feladatokat végeznek az emberek mellett vagy helyett. Az SLM-ek a kisebb méretük miatt különösen alkalmasak okostelefonok, önvezető autók, robotok és más olyan eszközök mesterséges intelligenciájához, ahol az energiahatékonyság és a sebesség kiemelten fontos. Ha továbbra is növekszik a megbízhatóságuk, igazolhatják az Apple és más eszközgyártók döntését, akik nem követik a többséget, és nem fektetnek be hatalmas összegeket a felhőalapú LLM-ekbe.
Nincs pontos meghatározása annak, hogy mi minősül kicsi és mi nagy nyelvi modellnek. A különbség a paraméterek számában rejlik, azaz abban, hogy hány numerikus beállítás van a modell agyában, amely segít neki értelmezni az adatokat. Az LLM-ek paramétereinek száma több száz milliárd. Az SLM-ek 40 milliárd vagy annál kevesebb paraméterrel is betaníthatók, a legkisebbek esetében akár 1 milliárd alatt is.
Az SLM-ek képzésének fejlesztései segítettek nekik felzárkózni az LLM-ek képességeihez. A kis modelleket egyre inkább a nagyobbak „tanítják”, ahelyett, hogy maguknak kellene átkutatniuk az internetet a tanuláshoz. Az Artificial Analysis benchmarking cég szerint különböző tesztek során egy 9 milliárd paraméterű modell, az Nvidia Nemotron Nano - amelyet nemrégiben dobott piacra a chipgyártó cég - felülmúlja a Meta, a közösségi média óriás áprilisban kiadott Llama modelljét, amely 40-szer nagyobb. A felzárkózás egyre könnyebb. "A mai kisebb modellek sokkal többre képesebbek, mint a tavalyi nagyobb modellek” - mondja Mohit Agrawal, a Counterpoint technológiai piackutató cég munkatársa.
A jobb teljesítmény vonzza az üzleti ügyfeleket. A Gartner IT-előrejelző cég szerint az LLM-ek jól ismert hibái, például a hallucinációk, „felhasználói fáradtságot” okoznak. Ehelyett a vállalkozások inkább speciálisabb, az iparágra szabott modelleket szeretnének. Idén a vállalati kereslet ezek iránt várhatóan kétszer olyan gyorsan fog növekedni, mint az LLM-ek iránti, bár sokkal alacsonyabb bázisról indul. A Gartner szerint idővel egyre több ilyen speciális modellt fognak a vállalatok házon belül fejleszteni.
Az SLM-ek növekvő népszerűségének másik oka a gazdaságosság. A vállalatok elmozdultak a generatív MI korai szakaszában alkalmazott „bármennyibe is kerül” megközelítéstől, és nagyobb hangsúlyt fektetnek a befektetés megtérülésére. Bár sok feladat elvégzéséhez továbbra is LLM-eket használnak, pénzt takaríthatnak meg azzal, hogy az SLM-ekkel különálló, megismételhető feladatokat végeznek. Ahogy egy kockázati tőke nagyágyúja fogalmazott: San Franciscóból Pekingbe repüléshez szükség lehet egy Boeing 777-esre, de San Franciscóból Los Angelesbe repüléshez nem. "Nincs értelme minden problémára a legerősebb modelleket alkalmazni” - mondja.
A gazdaságosság illusztrálására Cox, az IBM munkatársa egy Docling nevű, a vállalata által kifejlesztett termékre mutat rá, amely PDF-dokumentumokat, például nyugtákat tárolható adatokká alakít át. Ez egy apró modellel működik, amely körülbelül 250 millió paraméterrel rendelkezik. Cox hasznos eszköznek tartja, de úgy véli, hogy LLM-mel nem lenne költséghatékony. A kis modellek olcsóbb chipekkel is működhetnek. A legkisebb modellek CPU-kat használhatnak, amelyek az általános számítástechnika munkáslovai, ahelyett, hogy grafikus feldolgozóegységeket (GPU-kat) használnának, melyek az Nvidia-t a világ legértékesebb vállalatává tették. Ez fontos értékesítési érv.
Az SLM-ek még vonzóbbá válhatnak, ahogy a vállalkozások egyre több MI-ügynököt alkalmaznak. Az Nvidia Research kutató részleg által júniusban publikált, kevés figyelmet kapott tanulmány merészen kijelenti, hogy "nem a nagy, hanem a kis nyelvi modellek jelentik az ügynöki mesterséges intelligencia jövőjét”. Megjegyzik, hogy jelenleg a legtöbb ügynök LLM-ekkel működik, amelyeket felhőszolgáltatók futtatnak. Az MI-hez kapcsolódó felhőinfrastruktúrába ömlő beruházások arra utalnak, hogy a piac azt feltételezi, hogy az LLM-ek továbbra is az ügynöki mesterséges intelligencia motorjai maradnak.
A tanulmány vitatja ezt a feltételezést, azzal érvelve, hogy az SLM-ek elég erősek ahhoz, hogy ügynöki feladatokat lássanak el, és gazdaságosabbak is (például egy 7 milliárd paraméteres modell tíz-harmincszor olcsóbban üzemeltethető, mint egy 25-ször nagyobb modell). A tanulmány szerint az SLM-ek „Lego-szerű” megközelítést eredményezhetnek az ügynökök építésében, azaz a cégek kis, specializált szakértőket alkalmaznak majd, ahelyett, hogy egyetlen monolitikus LLM-intelligenciát használnának.
A tanulmány, amely kérdéseket vet fel a felhőalapú ügynöki infrastruktúrába ömlő pénzzel kapcsolatban, nem tükrözi az Nvidia stratégiai gondolkodását, állítja Kari Briski, az Nvidia egyik vezetője. Szerinte az üzleti ügyfelek „mindenféle formájú és méretű” modelleket akarnak. A legnagyobb modellek jobbak a legnehezebb feladatok kezelésében, mint a kicsik. Ráadásul szerinte továbbra is fontos az LLM-ek határainak feszegetése, mert így azok jobb tanárok lesznek az SLM-ek számára. Függetlenül attól, hogy az SLM-ek végül kiszorítják-e az LLM-eket, a heterogenitás egyre növekszik. A mindentudó LLM-ek továbbra is fontosak maradnak az OpenAI ChatGPT-hez hasonló fogyasztói alkalmazások számára. Még az OpenAI is változtat a fókuszán: a GPT-5 különböző méretű és erősségű belső modellekkel rendelkezik, amelyeket a feladat komplexitásától függően használ.
Ahogy az SLM-ek egyre ügyesebbé válnak, javíthatják az emberek kezében található MI hírnevét is. Az Apple tavaly csalódást okozott a befektetőknek, amikor piacra dobta „Apple Intelligence” nevű MI-termékét, mert az nem működött jól. Részvényei szeptember 9-én, az iPhone 17 piacra dobása után zuhantak, részben azért, mert nem volt hír az Apple Intelligence fejlődéséről. De a cég megközelítése, miszerint SLM-eket használnak bizonyos feladatok elvégzésére az iPhone-on, míg a nehezebb feladatokat a felhőre bízzák, a jövőbeni trendet is meghatározza, mondja Agrawal a Counterpointtól. Az Apple befolyása olyan nagy, hogy még ha „le is maradt a hajóról” az MI-verseny korai szakaszában, „mindig felszállhat a következőre”, mondja.
Jelenleg a figyelem középpontjában továbbra is az LLM-ek állnak. Bár a felhőalapú óriások, mint a Microsoft és a Google rendkívül kicsi modelleket építettek, a status quo fennmaradásába vetett hit segített igazolni azokat a hatalmas összegeket, amelyeket adatközpontokra költenek a legnagyobb modellek képzésére és tárolására. Ez azonban rövidlátó lehet. Az SLM-ek relatív előnyeit figyelembe véve az Apple lassú tempójú megközelítése hosszú távon igazolódhat.
A generatív MI legújabb fejlesztéseinek lassuló üteme egy jel arra, hogy az LLM-ek nem felelnek meg a velük kapcsolatos nagy várakozásoknak. Vitathatatlanul fontosabb jelzés a kisebb, fürgébb alternatívák megjelenése, amelyek egyre népszerűbbek a vállalati világban. Sok cég inkább az egyedi igényeikhez igazítható, testreszabott modelleket részesíti előnyben. Ezek az úgynevezett kis nyelvi modellek (SLM-ek) olcsóbbak, mint az univerzális LLM-ek, amelyek istenhez hasonló intelligenciája feleslegesnek tűnhet. Ahogy David Cox, az IBM technológiai vállalat MI-modellekkel foglalkozó kutatásának vezetője fogalmaz: „A HR-chatbotnak nem kell ismernie a fejlett fizikát.”
Az SLM-ek nemcsak ugyanolyan könnyen futtathatók a vállalatok belső IT-rendszerein, mint egy felhőszolgáltatón keresztül, hanem hasznosabbak is lehetnek az MI-ügynökök számára, amelyek munkával kapcsolatos feladatokat végeznek az emberek mellett vagy helyett. Az SLM-ek a kisebb méretük miatt különösen alkalmasak okostelefonok, önvezető autók, robotok és más olyan eszközök mesterséges intelligenciájához, ahol az energiahatékonyság és a sebesség kiemelten fontos. Ha továbbra is növekszik a megbízhatóságuk, igazolhatják az Apple és más eszközgyártók döntését, akik nem követik a többséget, és nem fektetnek be hatalmas összegeket a felhőalapú LLM-ekbe.
Nincs pontos meghatározása annak, hogy mi minősül kicsi és mi nagy nyelvi modellnek. A különbség a paraméterek számában rejlik, azaz abban, hogy hány numerikus beállítás van a modell agyában, amely segít neki értelmezni az adatokat. Az LLM-ek paramétereinek száma több száz milliárd. Az SLM-ek 40 milliárd vagy annál kevesebb paraméterrel is betaníthatók, a legkisebbek esetében akár 1 milliárd alatt is.
Az SLM-ek képzésének fejlesztései segítettek nekik felzárkózni az LLM-ek képességeihez. A kis modelleket egyre inkább a nagyobbak „tanítják”, ahelyett, hogy maguknak kellene átkutatniuk az internetet a tanuláshoz. Az Artificial Analysis benchmarking cég szerint különböző tesztek során egy 9 milliárd paraméterű modell, az Nvidia Nemotron Nano - amelyet nemrégiben dobott piacra a chipgyártó cég - felülmúlja a Meta, a közösségi média óriás áprilisban kiadott Llama modelljét, amely 40-szer nagyobb. A felzárkózás egyre könnyebb. "A mai kisebb modellek sokkal többre képesebbek, mint a tavalyi nagyobb modellek” - mondja Mohit Agrawal, a Counterpoint technológiai piackutató cég munkatársa.
A jobb teljesítmény vonzza az üzleti ügyfeleket. A Gartner IT-előrejelző cég szerint az LLM-ek jól ismert hibái, például a hallucinációk, „felhasználói fáradtságot” okoznak. Ehelyett a vállalkozások inkább speciálisabb, az iparágra szabott modelleket szeretnének. Idén a vállalati kereslet ezek iránt várhatóan kétszer olyan gyorsan fog növekedni, mint az LLM-ek iránti, bár sokkal alacsonyabb bázisról indul. A Gartner szerint idővel egyre több ilyen speciális modellt fognak a vállalatok házon belül fejleszteni.
Az SLM-ek növekvő népszerűségének másik oka a gazdaságosság. A vállalatok elmozdultak a generatív MI korai szakaszában alkalmazott „bármennyibe is kerül” megközelítéstől, és nagyobb hangsúlyt fektetnek a befektetés megtérülésére. Bár sok feladat elvégzéséhez továbbra is LLM-eket használnak, pénzt takaríthatnak meg azzal, hogy az SLM-ekkel különálló, megismételhető feladatokat végeznek. Ahogy egy kockázati tőke nagyágyúja fogalmazott: San Franciscóból Pekingbe repüléshez szükség lehet egy Boeing 777-esre, de San Franciscóból Los Angelesbe repüléshez nem. "Nincs értelme minden problémára a legerősebb modelleket alkalmazni” - mondja.
A gazdaságosság illusztrálására Cox, az IBM munkatársa egy Docling nevű, a vállalata által kifejlesztett termékre mutat rá, amely PDF-dokumentumokat, például nyugtákat tárolható adatokká alakít át. Ez egy apró modellel működik, amely körülbelül 250 millió paraméterrel rendelkezik. Cox hasznos eszköznek tartja, de úgy véli, hogy LLM-mel nem lenne költséghatékony. A kis modellek olcsóbb chipekkel is működhetnek. A legkisebb modellek CPU-kat használhatnak, amelyek az általános számítástechnika munkáslovai, ahelyett, hogy grafikus feldolgozóegységeket (GPU-kat) használnának, melyek az Nvidia-t a világ legértékesebb vállalatává tették. Ez fontos értékesítési érv.
Az SLM-ek még vonzóbbá válhatnak, ahogy a vállalkozások egyre több MI-ügynököt alkalmaznak. Az Nvidia Research kutató részleg által júniusban publikált, kevés figyelmet kapott tanulmány merészen kijelenti, hogy "nem a nagy, hanem a kis nyelvi modellek jelentik az ügynöki mesterséges intelligencia jövőjét”. Megjegyzik, hogy jelenleg a legtöbb ügynök LLM-ekkel működik, amelyeket felhőszolgáltatók futtatnak. Az MI-hez kapcsolódó felhőinfrastruktúrába ömlő beruházások arra utalnak, hogy a piac azt feltételezi, hogy az LLM-ek továbbra is az ügynöki mesterséges intelligencia motorjai maradnak.
A tanulmány vitatja ezt a feltételezést, azzal érvelve, hogy az SLM-ek elég erősek ahhoz, hogy ügynöki feladatokat lássanak el, és gazdaságosabbak is (például egy 7 milliárd paraméteres modell tíz-harmincszor olcsóbban üzemeltethető, mint egy 25-ször nagyobb modell). A tanulmány szerint az SLM-ek „Lego-szerű” megközelítést eredményezhetnek az ügynökök építésében, azaz a cégek kis, specializált szakértőket alkalmaznak majd, ahelyett, hogy egyetlen monolitikus LLM-intelligenciát használnának.
A tanulmány, amely kérdéseket vet fel a felhőalapú ügynöki infrastruktúrába ömlő pénzzel kapcsolatban, nem tükrözi az Nvidia stratégiai gondolkodását, állítja Kari Briski, az Nvidia egyik vezetője. Szerinte az üzleti ügyfelek „mindenféle formájú és méretű” modelleket akarnak. A legnagyobb modellek jobbak a legnehezebb feladatok kezelésében, mint a kicsik. Ráadásul szerinte továbbra is fontos az LLM-ek határainak feszegetése, mert így azok jobb tanárok lesznek az SLM-ek számára. Függetlenül attól, hogy az SLM-ek végül kiszorítják-e az LLM-eket, a heterogenitás egyre növekszik. A mindentudó LLM-ek továbbra is fontosak maradnak az OpenAI ChatGPT-hez hasonló fogyasztói alkalmazások számára. Még az OpenAI is változtat a fókuszán: a GPT-5 különböző méretű és erősségű belső modellekkel rendelkezik, amelyeket a feladat komplexitásától függően használ.
Ahogy az SLM-ek egyre ügyesebbé válnak, javíthatják az emberek kezében található MI hírnevét is. Az Apple tavaly csalódást okozott a befektetőknek, amikor piacra dobta „Apple Intelligence” nevű MI-termékét, mert az nem működött jól. Részvényei szeptember 9-én, az iPhone 17 piacra dobása után zuhantak, részben azért, mert nem volt hír az Apple Intelligence fejlődéséről. De a cég megközelítése, miszerint SLM-eket használnak bizonyos feladatok elvégzésére az iPhone-on, míg a nehezebb feladatokat a felhőre bízzák, a jövőbeni trendet is meghatározza, mondja Agrawal a Counterpointtól. Az Apple befolyása olyan nagy, hogy még ha „le is maradt a hajóról” az MI-verseny korai szakaszában, „mindig felszállhat a következőre”, mondja.
Jelenleg a figyelem középpontjában továbbra is az LLM-ek állnak. Bár a felhőalapú óriások, mint a Microsoft és a Google rendkívül kicsi modelleket építettek, a status quo fennmaradásába vetett hit segített igazolni azokat a hatalmas összegeket, amelyeket adatközpontokra költenek a legnagyobb modellek képzésére és tárolására. Ez azonban rövidlátó lehet. Az SLM-ek relatív előnyeit figyelembe véve az Apple lassú tempójú megközelítése hosszú távon igazolódhat.