SG.hu

Az MI angol nyelven való kiképzése a világ többi részének lemaradását okozza

A mesterséges intelligencia használata világszerte robbanásszerűen terjed, de a technológia nyelvi modelljeit elsősorban angol nyelven képzik ki, így a más nyelvet beszélő emberek lemaradhatnak.

Kutatók azt kérték a mesterséges intelligenciával foglalkozó Anthropic cég chatbotjától, hogy írjon egy hagyományos verset vietnámi nyelven, egy helyi formában, amely hét, hét, hat, majd nyolc szóból álló sorok mintáját követi. Amikor a bot kiköpte a választ, verset írt, de nem követte a formátumot. A csapat megpróbálkozott egy másik kéréssel is: azt kérdezték, hogy mi a megfelelő vietnami szó az anya öccsére, és a robot az apa fiatalabb és idősebb testvéreire vonatkozó szavakkal válaszolt. Ezek a hibák nem egyedülállóak Claude 3.5-nél, amelyet a kutatók megkérdeztek, de illusztrálják, hogy egy MI milyen módon tévedhet a standard amerikai angoltól eltérő nyelvben.

Miközben a mesterséges intelligencia használata robbanásszerűen terjedt el Nyugaton, a világ többi része kimaradt a fejlődésből, mivel a technológia nagy része angolul van kiképezve. Az MI-szakértők attól tartanak, hogy a nyelvi szakadék súlyosbíthatja a technológiai egyenlőtlenségeket, és hogy számos régió és kultúra lemaradhat. Egy hasznos technológiához való hozzáférés akár csak néhány éves késedelme „potenciálisan több évtizedes gazdasági lemaradáshoz vezethet” - mondta Sang Truong, a Stanford Egyetem Stanford Mesterséges Intelligencia Laboratóriumának doktorjelöltje, aki tagja volt annak a csapatnak, amelyik megépített és tesztelt egy vietnami nyelvi modellt.

A csoportja által végzett tesztek azt mutatták, hogy a vietnámi nyelvvel dolgozó mesterséges intelligencia-eszközök a munka során tévedhetnek a tényekben és a dikcióban, valószínűleg azért, mert ez a nyelv az iparági szabványok szerint „alacsony erőforrású” nyelv, ami azt jelenti, hogy nem áll rendelkezésre elegendő adathalmaz és tartalom az interneten, amelyből a mesterséges intelligencia-modell tanulhatna. Az alacsony erőforrású nyelveket több tíz-, néha több százmillió ember beszéli világszerte, de kevesebb digitális adatot szolgáltatnak, mivel az MI-technológia fejlesztése és az online elkötelezettség az Egyesült Államokban és Kínában összpontosul. Az alacsony forrású nyelvek közé tartozik például a hindi, a bengáli és a szuahéli, valamint a világszerte kisebb népesség által beszélt, kevésbé ismert nyelvjárások.

A W3Techs, egy technológiai felmérésekkel foglalkozó vállalat által a legnépszerűbb weboldalakról készített elemzés szerint az internet nyelvi adatainak több mint 60 százaléka angol nyelven íródott. Bár az angol nyelvet világszerte széles körben beszélik, az angol anyanyelvűek csak a világ lakosságának körülbelül 5 százalékát teszik ki az Ethnologue, egy nyelvi adatokat gyűjtő kutatószervezet szerint. A mandarin és a spanyol a másik példa a jelentős online jelenléttel és megbízható digitális adathalmazokkal rendelkező nyelvekre.

Akadémiai intézmények, helyi szervezetek és önkéntes erőfeszítések segítik a felzárkózást, hogy erőforrásokat építsenek a digitális világban kevésbé képviselt nyelvek beszélői számára. Az egyik ilyen a johannesburgi székhelyű Lelapa AI, mely az afrikai kontinensen vezető szerepet betöltő vállalat. A dél-afrikai székhelyű startup többnyelvű MI-termékeket fejleszt az afrikai emberek és vállalkozások számára. "Szerintem veszélyes elképzelés, hogy az embereknek más kultúrához kell asszimilálódniuk, és más kultúrákat kell magukévá tenniük ahhoz, hogy hozzáférjenek a fejlődéshez” - mondta Pelonomi Moiloa, a Lelapa AI vezérigazgatója és társalapítója. Elmondása szerint a vállalat kevésbé a mennyiségekre, mint a közösségspecifikus megoldásokra összpontosít. Úgy alakítja ki termékeit, hogy azok erőforrás- és költséghatékonyak legyenek, és elsősorban a helyi nyelveken, beszéddel történő kommunikációra optimalizálják, ami az afrikai emberek számára elérhetőbbé teszi a technológiát.

"Az olyan nagyvállalatok, mint például a Google, az Apple, az OpenAI nem feltétlenül olyan eszközökre képezték ki modelljeiket, amelyek ezeket a piacokat szolgálják ki” - mondta Chinasa T. Okolo, a Brookings Institution technológiai innovációs központjának munkatársa az alacsony forrású nyelvekkel rendelkező közösségekről. „Nem nyújtanak elég piaci értéket ahhoz, hogy ezt megtegyék”. Az Open AI kommunikációs munkatársa elmondta, hogy a vállalat folyamatosan egyre több csoport számára bocsát ki MI-rendszereket, és a legújabb modellje több mint 50 nyelvet támogat. A Google rámutatott az alulreprezentált nyelvek MI-fejlesztésére összpontosító projektjeire, köztük a 2022-ben bejelentett „1000 nyelv” kezdeményezésre, amelynek célja a világ 1000 legtöbbet beszélt nyelvének nyelvi modelljeinek megalkotása. Az Apple elmondta, hogy ők is fejlesztettek olyan termékeket, amelyek számos nyelvet támogatnak.

Az MI eszközök nyelvi hiányosságainak számos következménye lehet. A technológia potenciálisan növelheti a termelékenységet és megváltoztathatja a munkahelyeket, de a helyi nyelveken rendelkezésre álló megbízható adatok nélkül a világ egyes régiói lemaradhatnak a gazdasági előnyökről - vélik az MI-szakértők. A kevés forrással rendelkező nyelvek kizárása az MI termékekből kulturális előítéletességhez is vezethet.

Az alacsony forrású nyelvek ismeretének hiánya biztonsági aggályokat is felvet. Sara Hooker, a Cohere for AI, a Cohere startup nonprofit kutatási részlegének vezetője szerint egyes felhasználók megkerülhetik az MI termékek biztonsági intézkedéseit azzal, hogy más nyelven tesznek fel kérdéseket. "Könnyen lehet, hogy például egy másik nyelvre váltva még mindig nagyon veszélyes tanácsokat kaphatunk arról, hogyan kell bombát építeni” - mondta Hooker. A Cohere for AI februárban indította útjára a többnyelvű mesterséges intelligenciára vonatkozó, Aya nevű széles körű modellt és adatkészletet. Ez 101 nyelvet tartalmaz és több mint 3000 független kutató önkéntes munkájára támaszkodik.

Hooker szerint azonban még egy ekkora projekt sem jelent megoldást a nyelvi lemaradásra. Elmondta, hogy az MI iparág szinte csak a legújabb modellekre és azok teljesítményére összpontosít, „de ebben a konkrét témában ez az ökoszisztéma egészét is átformálja”, hozzátéve, hogy a szakadék tovább fog nőni, hacsak a világ minden tájáról érkező kutatók nem vesznek részt az MI további és gyors ütemű fejlődésében.

Bár a probléma sokak számára nyilvánvaló az iparágban, a megoldások bonyolultak. A nagy nyelvi modellek vagy LLM-ek nagy mennyiségű, jó minőségű adatot igényelnek, amelyeket gyakran az internetről gyűjtenek, és amelyekhez az alacsony forrású nyelvek esetében nem könnyű hozzáférni. Truong egy LLM létrehozását egy újszülött tanításához hasonlította: míg 20 000 angol nyelvű leckekönyv van, addig vietnámi nyelven csak öt. Az eltérés egyes régiókban olyan nagy, hogy a kormányok is közbeléptek, hogy támogassák a saját nyelvi modellek létrehozására irányuló erőfeszítéseket. Idén tavasszal a nigériai kormány ígéretet tett arra, hogy támogatja az Awarri technológiai startupot a helyi nyelvekre épülő modelljének kiépítésében. Az izlandi kormány és a walesi kormány is az OpenAI-val dolgozik együtt, hogy a ChatGPT jobban megértse az ottani anyanyelveket.

„A nyelvi szakadék nagyon fontos a hozzáférés szempontjából, de az is nagyon fontos, hogy segítsünk feléleszteni az emberek büszkeségét, hogy kik ők, honnan jöttek” - mondta Moiloa a Lelapa AI-tól. Sanmi Koyejo, a Stanford Egyetem Trustworthy AI Research vezetője szerint a kulturális árnyalatok és a különböző nézőpontok megragadása érdekében is fontos, hogy több nyelvet is beépítsenek az összes mesterséges intelligencia termékbe. Rámutatott egy stanfordi tanulmányra, amelyben a Pew Research által megadott kérdéseket tápláltak be az MI chatbotokba, hogy felmérjék azok elfogultságát. Elmondta, hogy a chatrobotok válaszai leginkább a kaliforniai emberek nézeteivel egyeztek meg, ahol a technológia nagy részét fejlesztik. "A kultúra nagy szerepet játszik ebben” - mondta. „Veszítesz valamit, ha csak az internet USA-központú verzióját látod”.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • Supra-III #7
    Bocs: Átlag ember meg az intelligencia? :-) :-) Hagyjuk már.
  • Supra-III #6
    Ez már így van, az openai alapítója mindig LLM-et mond, az általános intelligencia még szerinte (is) odébb van.
  • Tetsuo #5
    A kognitív képesség lényege a tanulás. Az ember (bár egyre kevesebben) tud tanulni, gyakorlatban alkalmazni, okulni, majd tudja változtatni a tanulás témáját és módszerét, így megint tanulni stb.
    A gép meg adott halamzokat elemez, majd annak kétes eredményeit alkalmazza...
  • Gabbbbbbbbbbbb #4
    >Ez nem inteligencia ez egy nagyon bonyolult automatizálás.

    Ami a te fejedben van, az mi? Szerintem sokan túlmisztifikálják az emberi intelligenciát, kreativitást..
  • kvp #3
    "Mesterséges Emberi Intelligencia. MEI. Angolul meg ugye AHI."

    Artificial General Intelligence a hivatalos elnevezes, roviden AGI. Ha lesz is ilyen, nem human intelligencia lesz, mint ahogy a hangyakehoz kepest az emberi is jelentosen elter.

    "Ez nem inteligencia ez egy nagyon bonyolult automatizálás."

    Ezek az MI-k nagyon nagy fuggvenytablak, amik valoszinusegi szamitast vegeznek a bemeno infok alapjan a leginkabb elfogadott valasz tartalmara. Nem intelligensek, csak nagyon bonyolult statisztikai modellek. Viszont az a velekedes, hogy az ember (es minden neuralis halozat) is csak egy ilyen bonyolult fuggvenytabla, ami a bejovo adatok es a belso allapot alapjan generalja a kimeno adatokat es az uj belso allapotot. Szerencsere a mostani modelleknek nincs perzisztens belso allapotuk es nem is tudjak modositani a sajat matrixukat mukodes kozben. (csak a betanitaskor, de akkor meg nem mukodnek)

    ps: Egy elmelet szerint minden tetszoleges melysegu neuralis matrix kilapithato egy egy retegu reszleges (sparse) osszekotottsegu 1 szintes feedback-u matrixxa, ahol a neuronok egy resze input, egy resze output a tobbseg pedig a belso allapotot tarolja. Szerencsere nem sok ilyen kutatas zajlik jelenleg, vagy legalabbis nem nagyon publikalnak a temaban.
  • repvez #2
    de mint te is irtad, ez nem MI. csak sokkal több inputbol sokkal gyorsabban megtalálja a lehetséges eredményeket, ami vagy jo vagy nem. De néha akkora az adatbázis és olyan bonyolult, hogy nem jönnek rá , hogy hibás az amit kiad eredményt.

    Ez nem inteligencia ez egy nagyon bonyolult automatizálás.
    Kb mint az idöjelzés, ott is minél több adat áll rendelkezésre és vannak régebbi adatok annál pontosaban tudnak elöre jelezni dolgokat, de attól még nem találja ki a jövöt és nem is fogja önálloan tovább futtatni a számitást csak akkor ha kéri tőle valaki, tehát kap egy inputot , hogy mivel mit kezdjen.

    majd akkor beszélhetunk inteligenciárol, ha beavatkozás nélkül fogja kitalálni hogy mit és kéne neki csinálni.
  • RJoco #1
    Ha olyan okos lenne a mesterségesI, akkor meg tudná tanulni a nyelveket magától. Ez is azt mutatja, hogy a MI-től még nagyon messze vagyunk.
    Csak nagy adatbázisokon futtatunk bonyolult programokat, amik csinálnak valamit. Néha jót, néha rosszat.

    Lassan ideje lenne az igazi MI-re kitalálni egy új meghatározást, mert ezt a kifejezést elhasználták.
    Mondjuk lehetne Mesterséges Emberi Intelligencia. MEI. Angolul meg ugye AHI. És akkor ez tényleg jelenthetné azt, aminek valójában lennie kell. Önállóan tanulni képes program.