SG.hu

Gyengül az Istenhez hasonló nagy nyelvi modellekbe vetett hit

Amikor a technológiai szakemberek a nagy nyelvi modellek (LLM) lassú fejlődéséről beszélnek, gyakran hoznak fel analógiát a okostelefonokkal. Az OpenAI ChatGPT-jének kezdeti napjai ugyanolyan forradalmiak voltak, mint az Apple iPhone 2007-es piacra dobása. De a mesterséges intelligencia területén elért fejlődés inkább unalmas telefonfrissítésekhez hasonlít, mint valódi áttörésekhez. Az OpenAI legújabb modellje, a GPT-5 jó példa erre. Hasonló kollektív vállrándítást váltott ki, mint az Apple szeptember 9-i iPhone 17 bemutatója, amely egy „Air” nevű ultravékony modellt is tartalmaz.

A generatív MI legújabb fejlesztéseinek lassuló üteme egy jel arra, hogy az LLM-ek nem felelnek meg a velük kapcsolatos nagy várakozásoknak. Vitathatatlanul fontosabb jelzés a kisebb, fürgébb alternatívák megjelenése, amelyek egyre népszerűbbek a vállalati világban. Sok cég inkább az egyedi igényeikhez igazítható, testreszabott modelleket részesíti előnyben. Ezek az úgynevezett kis nyelvi modellek (SLM-ek) olcsóbbak, mint az univerzális LLM-ek, amelyek istenhez hasonló intelligenciája feleslegesnek tűnhet. Ahogy David Cox, az IBM technológiai vállalat MI-modellekkel foglalkozó kutatásának vezetője fogalmaz: „A HR-chatbotnak nem kell ismernie a fejlett fizikát.”

Az SLM-ek nemcsak ugyanolyan könnyen futtathatók a vállalatok belső IT-rendszerein, mint egy felhőszolgáltatón keresztül, hanem hasznosabbak is lehetnek az MI-ügynökök számára, amelyek munkával kapcsolatos feladatokat végeznek az emberek mellett vagy helyett. Az SLM-ek a kisebb méretük miatt különösen alkalmasak okostelefonok, önvezető autók, robotok és más olyan eszközök mesterséges intelligenciájához, ahol az energiahatékonyság és a sebesség kiemelten fontos. Ha továbbra is növekszik a megbízhatóságuk, igazolhatják az Apple és más eszközgyártók döntését, akik nem követik a többséget, és nem fektetnek be hatalmas összegeket a felhőalapú LLM-ekbe.

Nincs pontos meghatározása annak, hogy mi minősül kicsi és mi nagy nyelvi modellnek. A különbség a paraméterek számában rejlik, azaz abban, hogy hány numerikus beállítás van a modell agyában, amely segít neki értelmezni az adatokat. Az LLM-ek paramétereinek száma több száz milliárd. Az SLM-ek 40 milliárd vagy annál kevesebb paraméterrel is betaníthatók, a legkisebbek esetében akár 1 milliárd alatt is.

Az SLM-ek képzésének fejlesztései segítettek nekik felzárkózni az LLM-ek képességeihez. A kis modelleket egyre inkább a nagyobbak „tanítják”, ahelyett, hogy maguknak kellene átkutatniuk az internetet a tanuláshoz. Az Artificial Analysis benchmarking cég szerint különböző tesztek során egy 9 milliárd paraméterű modell, az Nvidia Nemotron Nano - amelyet nemrégiben dobott piacra a chipgyártó cég - felülmúlja a Meta, a közösségi média óriás áprilisban kiadott Llama modelljét, amely 40-szer nagyobb. A felzárkózás egyre könnyebb. "A mai kisebb modellek sokkal többre képesebbek, mint a tavalyi nagyobb modellek” - mondja Mohit Agrawal, a Counterpoint technológiai piackutató cég munkatársa.


A jobb teljesítmény vonzza az üzleti ügyfeleket. A Gartner IT-előrejelző cég szerint az LLM-ek jól ismert hibái, például a hallucinációk, „felhasználói fáradtságot” okoznak. Ehelyett a vállalkozások inkább speciálisabb, az iparágra szabott modelleket szeretnének. Idén a vállalati kereslet ezek iránt várhatóan kétszer olyan gyorsan fog növekedni, mint az LLM-ek iránti, bár sokkal alacsonyabb bázisról indul. A Gartner szerint idővel egyre több ilyen speciális modellt fognak a vállalatok házon belül fejleszteni.

Az SLM-ek növekvő népszerűségének másik oka a gazdaságosság. A vállalatok elmozdultak a generatív MI korai szakaszában alkalmazott „bármennyibe is kerül” megközelítéstől, és nagyobb hangsúlyt fektetnek a befektetés megtérülésére. Bár sok feladat elvégzéséhez továbbra is LLM-eket használnak, pénzt takaríthatnak meg azzal, hogy az SLM-ekkel különálló, megismételhető feladatokat végeznek. Ahogy egy kockázati tőke nagyágyúja fogalmazott: San Franciscóból Pekingbe repüléshez szükség lehet egy Boeing 777-esre, de San Franciscóból Los Angelesbe repüléshez nem. "Nincs értelme minden problémára a legerősebb modelleket alkalmazni” - mondja.

A gazdaságosság illusztrálására Cox, az IBM munkatársa egy Docling nevű, a vállalata által kifejlesztett termékre mutat rá, amely PDF-dokumentumokat, például nyugtákat tárolható adatokká alakít át. Ez egy apró modellel működik, amely körülbelül 250 millió paraméterrel rendelkezik. Cox hasznos eszköznek tartja, de úgy véli, hogy LLM-mel nem lenne költséghatékony. A kis modellek olcsóbb chipekkel is működhetnek. A legkisebb modellek CPU-kat használhatnak, amelyek az általános számítástechnika munkáslovai, ahelyett, hogy grafikus feldolgozóegységeket (GPU-kat) használnának, melyek az Nvidia-t a világ legértékesebb vállalatává tették. Ez fontos értékesítési érv.


Az SLM-ek még vonzóbbá válhatnak, ahogy a vállalkozások egyre több MI-ügynököt alkalmaznak. Az Nvidia Research kutató részleg által júniusban publikált, kevés figyelmet kapott tanulmány merészen kijelenti, hogy "nem a nagy, hanem a kis nyelvi modellek jelentik az ügynöki mesterséges intelligencia jövőjét”. Megjegyzik, hogy jelenleg a legtöbb ügynök LLM-ekkel működik, amelyeket felhőszolgáltatók futtatnak. Az MI-hez kapcsolódó felhőinfrastruktúrába ömlő beruházások arra utalnak, hogy a piac azt feltételezi, hogy az LLM-ek továbbra is az ügynöki mesterséges intelligencia motorjai maradnak.

A tanulmány vitatja ezt a feltételezést, azzal érvelve, hogy az SLM-ek elég erősek ahhoz, hogy ügynöki feladatokat lássanak el, és gazdaságosabbak is (például egy 7 milliárd paraméteres modell tíz-harmincszor olcsóbban üzemeltethető, mint egy 25-ször nagyobb modell). A tanulmány szerint az SLM-ek „Lego-szerű” megközelítést eredményezhetnek az ügynökök építésében, azaz a cégek kis, specializált szakértőket alkalmaznak majd, ahelyett, hogy egyetlen monolitikus LLM-intelligenciát használnának.

A tanulmány, amely kérdéseket vet fel a felhőalapú ügynöki infrastruktúrába ömlő pénzzel kapcsolatban, nem tükrözi az Nvidia stratégiai gondolkodását, állítja Kari Briski, az Nvidia egyik vezetője. Szerinte az üzleti ügyfelek „mindenféle formájú és méretű” modelleket akarnak. A legnagyobb modellek jobbak a legnehezebb feladatok kezelésében, mint a kicsik. Ráadásul szerinte továbbra is fontos az LLM-ek határainak feszegetése, mert így azok jobb tanárok lesznek az SLM-ek számára. Függetlenül attól, hogy az SLM-ek végül kiszorítják-e az LLM-eket, a heterogenitás egyre növekszik. A mindentudó LLM-ek továbbra is fontosak maradnak az OpenAI ChatGPT-hez hasonló fogyasztói alkalmazások számára. Még az OpenAI is változtat a fókuszán: a GPT-5 különböző méretű és erősségű belső modellekkel rendelkezik, amelyeket a feladat komplexitásától függően használ.

Ahogy az SLM-ek egyre ügyesebbé válnak, javíthatják az emberek kezében található MI hírnevét is. Az Apple tavaly csalódást okozott a befektetőknek, amikor piacra dobta „Apple Intelligence” nevű MI-termékét, mert az nem működött jól. Részvényei szeptember 9-én, az iPhone 17 piacra dobása után zuhantak, részben azért, mert nem volt hír az Apple Intelligence fejlődéséről. De a cég megközelítése, miszerint SLM-eket használnak bizonyos feladatok elvégzésére az iPhone-on, míg a nehezebb feladatokat a felhőre bízzák, a jövőbeni trendet is meghatározza, mondja Agrawal a Counterpointtól. Az Apple befolyása olyan nagy, hogy még ha „le is maradt a hajóról” az MI-verseny korai szakaszában, „mindig felszállhat a következőre”, mondja.

Jelenleg a figyelem középpontjában továbbra is az LLM-ek állnak. Bár a felhőalapú óriások, mint a Microsoft és a Google rendkívül kicsi modelleket építettek, a status quo fennmaradásába vetett hit segített igazolni azokat a hatalmas összegeket, amelyeket adatközpontokra költenek a legnagyobb modellek képzésére és tárolására. Ez azonban rövidlátó lehet. Az SLM-ek relatív előnyeit figyelembe véve az Apple lassú tempójú megközelítése hosszú távon igazolódhat.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • Sequoyah #5
    Van par eleg komoly kulonbseg az emberi agy es az LLM kozott, ami a jelen architecturaval nem athidalhato...
    - Az LLM attol jo, hogy egy statikus, merev algoritmus helyett egy dinamikus, folyamatosan formalodo neuralis halo mukodteti. De egyelore kozel sem olyan dinamikus, mint az agy. Az agy az egyetlen nagy neuralis halo, ami dinamikusan formalodik az elet soran. Mig az LLM meg most is erosen strukturalt, es tobb elkulonulo, a fejlesztok altal definialt fazisbol all a valasz generalasa.
    - Az LLM mediafogyasztasbol tanul. Mig az emberi agy a kornyezettel es masokkal valo interakciokbol tanul, aminek a mediafogyasztas az csak egy resze (a multban eleg kicsi resze). Az LLM az olyan mint valaki aki az egesz eletet egy sotet pinceben bezarva elte le, egy internetkapcsolattal.
    - Az LLM tudasa statikus. Ha a ChatGPT 2024-11-20-as verziojat hasznalom, akkor az 2024-11-20-ben lett tanitva, es csak azt ismeri ami elotte tortent. Nem tanul a tovabbi kommunikaciokbol semmit, olyan mint egy aranyhal. Az emberi agynak komoly resze a rovidtavu memoria hosszutavu memoriava alakitasa (pl ezert alszunk/almodunk), ami teljesen hianyzik a modern architecturakbol.

    Egyik se megoldhatatlan, de uj architecturara lesz ra szukseg, nem csak nagyobb parameter-szamra es finetuningra.
  • Sequoyah #4
    Az LLM modellek pont ugyanugy mukodnek, rengeteg az ures ter, ami egyaltalan nem esik ki, maximum kihasznalatlanok. Egy milliard parameteres LLM modell sokkal tobb dolgot kepes leirni, mint ahany dolog van a vilagon.

    Ebben a sok dimenzios modellben vannak gyakran hasznalt pontok, amik azok a dolgok, amikre nekunk kulon szavaink is kifejezeseink vannak. Es vannak ritkan hasznalt pontok, aminek eleresehez tobb szavas kombinaciokra van szuksek, ahol tobb szo lehet egy mondat, egy paragrafus, vagy akar tobb oldalas szoveg is, ami mind egy adott koncepcio reszletes leirasahoz szukseges.
    Az LLM-ekben ezek egyaltalan nem vesznek el, sot eppen ez adja az erejuket. Epp ezert kepesek ertelmezni olyan szovegeket is, amiket soha nem lattak korabban, viszont kepesek elhelyezni oket a vilagmodelljukben.



  • NEXUS6 #3
    „A HR-chatbotnak nem kell ismernie a fejlett fizikát.”
    Még egy aranyköpés, ami valszeg be fog vonulni a történelembe. :D

    De általános szinten megfogalmazva a problematikát, abba bele sem menve, hogy ennek a jelenlegi LLM AI-nek van e személyisége, pláne tudata, szerintem a jelenlegi AI ott bukik hogy:
    -A világ legáltalánosan megfogalmazva leírható egy strukturálatlan paraméteres info mátrixként, minden egyes paraméter egy 3D térben elhelyezve.Ezáltal a létező dolgok, objektumok ilyen paraméter csomópontok, amelyeket sok üres, zéro értékü tér vesz körül.
    Ugyanígy az emberi kommunikáció leírása is működhet így, minden egyes valós csatornát egy különálló info folyamként rögzítve. Ebben az esetben nincs tömörítés, a világ teljes leírása magával a világgal azonos.
    -Aztán ahol most vagyunk az kb az, hogy az AI tud csinálni egy statisztikai mintázatokra épülő tömörítési eljárást, az emberi kommunikációra vonatkozóan, mindabból amit eddig beletápláltak. Ilyenkor az üres teret leíró zéro értékek kiesnek, azok gyak az egyes, O-nál nagyobb értékű paraméterek az N dimenziós térben levő távolságával vannak reprezentálva, helyet ílymódon nem foglalnak.
    Ha az emberi kommunikációban nem lenne rendszer, akkor nem lehetne tömöríteni. Illetve kvázi egy statikus zajként értelmezhető véletlenszerű választ kapnánk a rendszert működtetve. De tekintve, hogy van benne rendszer, ezért a beletáplált paraméterek közötti mintázat automatikusan kiadja magát, anélkül, hogy bárkinek a mintázat leírására szolgáló matematikai leírással kéne vesződni. A mintázathoz hasonlót tud generálni a rendszer, szinesztéziára is képes, tehát bármilyen térrészletből a mintázatot kvázi kreatív módon bármilyen más térrészletbe, fogalmi tartományba képes átfordítani.
    -A gondolkodás, és a tudomány azonban nem így működik, a fő különbség, hogy ezek idő függő mintázatokkal dolgolznak. Ezeket hívhatjuk modelleknek. A lényegét, pedig a különálló, idő függő eredményt adó tömörítési eljárások, mintázatok, gyakorlatilag szabályok és törvényszerűségek adják, amelyek tudományos szabályszerűségeknek, törvényeknek is értelmezhetők.
    -Szal, ha az eddigi statikus időfüggetlen paramétermezőt, idő függő függvényekre cserélik, és a függvényeket különböző fázisokban párhuzamosan működtetik, akkor megkaphatjuk azt, ahogy az emberi agy is működik.

    Ehhez nagyjából egy jelenlegi teljes az AI-hoz hasonló összetetségű paramétermezővel dolgozó kvantumszámítógép kellene.
    Hát nagyjából sehol se vagyunk ehhez képest! XD

    (Szakemberektől, bocs a pongyola stílusért)

    Utoljára szerkesztette: NEXUS6, 2025.09.15. 15:04:36
  • Sequoyah #2
    Ep ez az, hogy NEM jon.
    A tech CEO-kon kivul akik probaljak reklamozni es eladni az AI termekuket, senki sem olyan hurraoptimista az AGI-vel kapcsolatban.
  • ZenMillitia #1
    ehhez kepest jon az AGI es a superintelligent AI kopogtat az ajton. a fejlodes hit resze csak rovidtavu dolgokat befolyasol. igeny lesz mini kozepes es robosztus modellekre is. nyilvan mas aranyban. de nem fekete feher ez a dolog sem.