SG.hu
Az MI angol nyelven való kiképzése a világ többi részének lemaradását okozza
A mesterséges intelligencia használata világszerte robbanásszerűen terjed, de a technológia nyelvi modelljeit elsősorban angol nyelven képzik ki, így a más nyelvet beszélő emberek lemaradhatnak.
Kutatók azt kérték a mesterséges intelligenciával foglalkozó Anthropic cég chatbotjától, hogy írjon egy hagyományos verset vietnámi nyelven, egy helyi formában, amely hét, hét, hat, majd nyolc szóból álló sorok mintáját követi. Amikor a bot kiköpte a választ, verset írt, de nem követte a formátumot. A csapat megpróbálkozott egy másik kéréssel is: azt kérdezték, hogy mi a megfelelő vietnami szó az anya öccsére, és a robot az apa fiatalabb és idősebb testvéreire vonatkozó szavakkal válaszolt. Ezek a hibák nem egyedülállóak Claude 3.5-nél, amelyet a kutatók megkérdeztek, de illusztrálják, hogy egy MI milyen módon tévedhet a standard amerikai angoltól eltérő nyelvben.
Miközben a mesterséges intelligencia használata robbanásszerűen terjedt el Nyugaton, a világ többi része kimaradt a fejlődésből, mivel a technológia nagy része angolul van kiképezve. Az MI-szakértők attól tartanak, hogy a nyelvi szakadék súlyosbíthatja a technológiai egyenlőtlenségeket, és hogy számos régió és kultúra lemaradhat. Egy hasznos technológiához való hozzáférés akár csak néhány éves késedelme „potenciálisan több évtizedes gazdasági lemaradáshoz vezethet” - mondta Sang Truong, a Stanford Egyetem Stanford Mesterséges Intelligencia Laboratóriumának doktorjelöltje, aki tagja volt annak a csapatnak, amelyik megépített és tesztelt egy vietnami nyelvi modellt.
A csoportja által végzett tesztek azt mutatták, hogy a vietnámi nyelvvel dolgozó mesterséges intelligencia-eszközök a munka során tévedhetnek a tényekben és a dikcióban, valószínűleg azért, mert ez a nyelv az iparági szabványok szerint „alacsony erőforrású” nyelv, ami azt jelenti, hogy nem áll rendelkezésre elegendő adathalmaz és tartalom az interneten, amelyből a mesterséges intelligencia-modell tanulhatna. Az alacsony erőforrású nyelveket több tíz-, néha több százmillió ember beszéli világszerte, de kevesebb digitális adatot szolgáltatnak, mivel az MI-technológia fejlesztése és az online elkötelezettség az Egyesült Államokban és Kínában összpontosul. Az alacsony forrású nyelvek közé tartozik például a hindi, a bengáli és a szuahéli, valamint a világszerte kisebb népesség által beszélt, kevésbé ismert nyelvjárások.
A W3Techs, egy technológiai felmérésekkel foglalkozó vállalat által a legnépszerűbb weboldalakról készített elemzés szerint az internet nyelvi adatainak több mint 60 százaléka angol nyelven íródott. Bár az angol nyelvet világszerte széles körben beszélik, az angol anyanyelvűek csak a világ lakosságának körülbelül 5 százalékát teszik ki az Ethnologue, egy nyelvi adatokat gyűjtő kutatószervezet szerint. A mandarin és a spanyol a másik példa a jelentős online jelenléttel és megbízható digitális adathalmazokkal rendelkező nyelvekre.
Akadémiai intézmények, helyi szervezetek és önkéntes erőfeszítések segítik a felzárkózást, hogy erőforrásokat építsenek a digitális világban kevésbé képviselt nyelvek beszélői számára. Az egyik ilyen a johannesburgi székhelyű Lelapa AI, mely az afrikai kontinensen vezető szerepet betöltő vállalat. A dél-afrikai székhelyű startup többnyelvű MI-termékeket fejleszt az afrikai emberek és vállalkozások számára. "Szerintem veszélyes elképzelés, hogy az embereknek más kultúrához kell asszimilálódniuk, és más kultúrákat kell magukévá tenniük ahhoz, hogy hozzáférjenek a fejlődéshez” - mondta Pelonomi Moiloa, a Lelapa AI vezérigazgatója és társalapítója. Elmondása szerint a vállalat kevésbé a mennyiségekre, mint a közösségspecifikus megoldásokra összpontosít. Úgy alakítja ki termékeit, hogy azok erőforrás- és költséghatékonyak legyenek, és elsősorban a helyi nyelveken, beszéddel történő kommunikációra optimalizálják, ami az afrikai emberek számára elérhetőbbé teszi a technológiát.
"Az olyan nagyvállalatok, mint például a Google, az Apple, az OpenAI nem feltétlenül olyan eszközökre képezték ki modelljeiket, amelyek ezeket a piacokat szolgálják ki” - mondta Chinasa T. Okolo, a Brookings Institution technológiai innovációs központjának munkatársa az alacsony forrású nyelvekkel rendelkező közösségekről. „Nem nyújtanak elég piaci értéket ahhoz, hogy ezt megtegyék”. Az Open AI kommunikációs munkatársa elmondta, hogy a vállalat folyamatosan egyre több csoport számára bocsát ki MI-rendszereket, és a legújabb modellje több mint 50 nyelvet támogat. A Google rámutatott az alulreprezentált nyelvek MI-fejlesztésére összpontosító projektjeire, köztük a 2022-ben bejelentett „1000 nyelv” kezdeményezésre, amelynek célja a világ 1000 legtöbbet beszélt nyelvének nyelvi modelljeinek megalkotása. Az Apple elmondta, hogy ők is fejlesztettek olyan termékeket, amelyek számos nyelvet támogatnak.
Az MI eszközök nyelvi hiányosságainak számos következménye lehet. A technológia potenciálisan növelheti a termelékenységet és megváltoztathatja a munkahelyeket, de a helyi nyelveken rendelkezésre álló megbízható adatok nélkül a világ egyes régiói lemaradhatnak a gazdasági előnyökről - vélik az MI-szakértők. A kevés forrással rendelkező nyelvek kizárása az MI termékekből kulturális előítéletességhez is vezethet.
Az alacsony forrású nyelvek ismeretének hiánya biztonsági aggályokat is felvet. Sara Hooker, a Cohere for AI, a Cohere startup nonprofit kutatási részlegének vezetője szerint egyes felhasználók megkerülhetik az MI termékek biztonsági intézkedéseit azzal, hogy más nyelven tesznek fel kérdéseket. "Könnyen lehet, hogy például egy másik nyelvre váltva még mindig nagyon veszélyes tanácsokat kaphatunk arról, hogyan kell bombát építeni” - mondta Hooker. A Cohere for AI februárban indította útjára a többnyelvű mesterséges intelligenciára vonatkozó, Aya nevű széles körű modellt és adatkészletet. Ez 101 nyelvet tartalmaz és több mint 3000 független kutató önkéntes munkájára támaszkodik.
Hooker szerint azonban még egy ekkora projekt sem jelent megoldást a nyelvi lemaradásra. Elmondta, hogy az MI iparág szinte csak a legújabb modellekre és azok teljesítményére összpontosít, „de ebben a konkrét témában ez az ökoszisztéma egészét is átformálja”, hozzátéve, hogy a szakadék tovább fog nőni, hacsak a világ minden tájáról érkező kutatók nem vesznek részt az MI további és gyors ütemű fejlődésében.
Bár a probléma sokak számára nyilvánvaló az iparágban, a megoldások bonyolultak. A nagy nyelvi modellek vagy LLM-ek nagy mennyiségű, jó minőségű adatot igényelnek, amelyeket gyakran az internetről gyűjtenek, és amelyekhez az alacsony forrású nyelvek esetében nem könnyű hozzáférni. Truong egy LLM létrehozását egy újszülött tanításához hasonlította: míg 20 000 angol nyelvű leckekönyv van, addig vietnámi nyelven csak öt. Az eltérés egyes régiókban olyan nagy, hogy a kormányok is közbeléptek, hogy támogassák a saját nyelvi modellek létrehozására irányuló erőfeszítéseket. Idén tavasszal a nigériai kormány ígéretet tett arra, hogy támogatja az Awarri technológiai startupot a helyi nyelvekre épülő modelljének kiépítésében. Az izlandi kormány és a walesi kormány is az OpenAI-val dolgozik együtt, hogy a ChatGPT jobban megértse az ottani anyanyelveket.
„A nyelvi szakadék nagyon fontos a hozzáférés szempontjából, de az is nagyon fontos, hogy segítsünk feléleszteni az emberek büszkeségét, hogy kik ők, honnan jöttek” - mondta Moiloa a Lelapa AI-tól. Sanmi Koyejo, a Stanford Egyetem Trustworthy AI Research vezetője szerint a kulturális árnyalatok és a különböző nézőpontok megragadása érdekében is fontos, hogy több nyelvet is beépítsenek az összes mesterséges intelligencia termékbe. Rámutatott egy stanfordi tanulmányra, amelyben a Pew Research által megadott kérdéseket tápláltak be az MI chatbotokba, hogy felmérjék azok elfogultságát. Elmondta, hogy a chatrobotok válaszai leginkább a kaliforniai emberek nézeteivel egyeztek meg, ahol a technológia nagy részét fejlesztik. "A kultúra nagy szerepet játszik ebben” - mondta. „Veszítesz valamit, ha csak az internet USA-központú verzióját látod”.
Kutatók azt kérték a mesterséges intelligenciával foglalkozó Anthropic cég chatbotjától, hogy írjon egy hagyományos verset vietnámi nyelven, egy helyi formában, amely hét, hét, hat, majd nyolc szóból álló sorok mintáját követi. Amikor a bot kiköpte a választ, verset írt, de nem követte a formátumot. A csapat megpróbálkozott egy másik kéréssel is: azt kérdezték, hogy mi a megfelelő vietnami szó az anya öccsére, és a robot az apa fiatalabb és idősebb testvéreire vonatkozó szavakkal válaszolt. Ezek a hibák nem egyedülállóak Claude 3.5-nél, amelyet a kutatók megkérdeztek, de illusztrálják, hogy egy MI milyen módon tévedhet a standard amerikai angoltól eltérő nyelvben.
Miközben a mesterséges intelligencia használata robbanásszerűen terjedt el Nyugaton, a világ többi része kimaradt a fejlődésből, mivel a technológia nagy része angolul van kiképezve. Az MI-szakértők attól tartanak, hogy a nyelvi szakadék súlyosbíthatja a technológiai egyenlőtlenségeket, és hogy számos régió és kultúra lemaradhat. Egy hasznos technológiához való hozzáférés akár csak néhány éves késedelme „potenciálisan több évtizedes gazdasági lemaradáshoz vezethet” - mondta Sang Truong, a Stanford Egyetem Stanford Mesterséges Intelligencia Laboratóriumának doktorjelöltje, aki tagja volt annak a csapatnak, amelyik megépített és tesztelt egy vietnami nyelvi modellt.
A csoportja által végzett tesztek azt mutatták, hogy a vietnámi nyelvvel dolgozó mesterséges intelligencia-eszközök a munka során tévedhetnek a tényekben és a dikcióban, valószínűleg azért, mert ez a nyelv az iparági szabványok szerint „alacsony erőforrású” nyelv, ami azt jelenti, hogy nem áll rendelkezésre elegendő adathalmaz és tartalom az interneten, amelyből a mesterséges intelligencia-modell tanulhatna. Az alacsony erőforrású nyelveket több tíz-, néha több százmillió ember beszéli világszerte, de kevesebb digitális adatot szolgáltatnak, mivel az MI-technológia fejlesztése és az online elkötelezettség az Egyesült Államokban és Kínában összpontosul. Az alacsony forrású nyelvek közé tartozik például a hindi, a bengáli és a szuahéli, valamint a világszerte kisebb népesség által beszélt, kevésbé ismert nyelvjárások.
A W3Techs, egy technológiai felmérésekkel foglalkozó vállalat által a legnépszerűbb weboldalakról készített elemzés szerint az internet nyelvi adatainak több mint 60 százaléka angol nyelven íródott. Bár az angol nyelvet világszerte széles körben beszélik, az angol anyanyelvűek csak a világ lakosságának körülbelül 5 százalékát teszik ki az Ethnologue, egy nyelvi adatokat gyűjtő kutatószervezet szerint. A mandarin és a spanyol a másik példa a jelentős online jelenléttel és megbízható digitális adathalmazokkal rendelkező nyelvekre.
Akadémiai intézmények, helyi szervezetek és önkéntes erőfeszítések segítik a felzárkózást, hogy erőforrásokat építsenek a digitális világban kevésbé képviselt nyelvek beszélői számára. Az egyik ilyen a johannesburgi székhelyű Lelapa AI, mely az afrikai kontinensen vezető szerepet betöltő vállalat. A dél-afrikai székhelyű startup többnyelvű MI-termékeket fejleszt az afrikai emberek és vállalkozások számára. "Szerintem veszélyes elképzelés, hogy az embereknek más kultúrához kell asszimilálódniuk, és más kultúrákat kell magukévá tenniük ahhoz, hogy hozzáférjenek a fejlődéshez” - mondta Pelonomi Moiloa, a Lelapa AI vezérigazgatója és társalapítója. Elmondása szerint a vállalat kevésbé a mennyiségekre, mint a közösségspecifikus megoldásokra összpontosít. Úgy alakítja ki termékeit, hogy azok erőforrás- és költséghatékonyak legyenek, és elsősorban a helyi nyelveken, beszéddel történő kommunikációra optimalizálják, ami az afrikai emberek számára elérhetőbbé teszi a technológiát.
"Az olyan nagyvállalatok, mint például a Google, az Apple, az OpenAI nem feltétlenül olyan eszközökre képezték ki modelljeiket, amelyek ezeket a piacokat szolgálják ki” - mondta Chinasa T. Okolo, a Brookings Institution technológiai innovációs központjának munkatársa az alacsony forrású nyelvekkel rendelkező közösségekről. „Nem nyújtanak elég piaci értéket ahhoz, hogy ezt megtegyék”. Az Open AI kommunikációs munkatársa elmondta, hogy a vállalat folyamatosan egyre több csoport számára bocsát ki MI-rendszereket, és a legújabb modellje több mint 50 nyelvet támogat. A Google rámutatott az alulreprezentált nyelvek MI-fejlesztésére összpontosító projektjeire, köztük a 2022-ben bejelentett „1000 nyelv” kezdeményezésre, amelynek célja a világ 1000 legtöbbet beszélt nyelvének nyelvi modelljeinek megalkotása. Az Apple elmondta, hogy ők is fejlesztettek olyan termékeket, amelyek számos nyelvet támogatnak.
Az MI eszközök nyelvi hiányosságainak számos következménye lehet. A technológia potenciálisan növelheti a termelékenységet és megváltoztathatja a munkahelyeket, de a helyi nyelveken rendelkezésre álló megbízható adatok nélkül a világ egyes régiói lemaradhatnak a gazdasági előnyökről - vélik az MI-szakértők. A kevés forrással rendelkező nyelvek kizárása az MI termékekből kulturális előítéletességhez is vezethet.
Az alacsony forrású nyelvek ismeretének hiánya biztonsági aggályokat is felvet. Sara Hooker, a Cohere for AI, a Cohere startup nonprofit kutatási részlegének vezetője szerint egyes felhasználók megkerülhetik az MI termékek biztonsági intézkedéseit azzal, hogy más nyelven tesznek fel kérdéseket. "Könnyen lehet, hogy például egy másik nyelvre váltva még mindig nagyon veszélyes tanácsokat kaphatunk arról, hogyan kell bombát építeni” - mondta Hooker. A Cohere for AI februárban indította útjára a többnyelvű mesterséges intelligenciára vonatkozó, Aya nevű széles körű modellt és adatkészletet. Ez 101 nyelvet tartalmaz és több mint 3000 független kutató önkéntes munkájára támaszkodik.
Hooker szerint azonban még egy ekkora projekt sem jelent megoldást a nyelvi lemaradásra. Elmondta, hogy az MI iparág szinte csak a legújabb modellekre és azok teljesítményére összpontosít, „de ebben a konkrét témában ez az ökoszisztéma egészét is átformálja”, hozzátéve, hogy a szakadék tovább fog nőni, hacsak a világ minden tájáról érkező kutatók nem vesznek részt az MI további és gyors ütemű fejlődésében.
Bár a probléma sokak számára nyilvánvaló az iparágban, a megoldások bonyolultak. A nagy nyelvi modellek vagy LLM-ek nagy mennyiségű, jó minőségű adatot igényelnek, amelyeket gyakran az internetről gyűjtenek, és amelyekhez az alacsony forrású nyelvek esetében nem könnyű hozzáférni. Truong egy LLM létrehozását egy újszülött tanításához hasonlította: míg 20 000 angol nyelvű leckekönyv van, addig vietnámi nyelven csak öt. Az eltérés egyes régiókban olyan nagy, hogy a kormányok is közbeléptek, hogy támogassák a saját nyelvi modellek létrehozására irányuló erőfeszítéseket. Idén tavasszal a nigériai kormány ígéretet tett arra, hogy támogatja az Awarri technológiai startupot a helyi nyelvekre épülő modelljének kiépítésében. Az izlandi kormány és a walesi kormány is az OpenAI-val dolgozik együtt, hogy a ChatGPT jobban megértse az ottani anyanyelveket.
„A nyelvi szakadék nagyon fontos a hozzáférés szempontjából, de az is nagyon fontos, hogy segítsünk feléleszteni az emberek büszkeségét, hogy kik ők, honnan jöttek” - mondta Moiloa a Lelapa AI-tól. Sanmi Koyejo, a Stanford Egyetem Trustworthy AI Research vezetője szerint a kulturális árnyalatok és a különböző nézőpontok megragadása érdekében is fontos, hogy több nyelvet is beépítsenek az összes mesterséges intelligencia termékbe. Rámutatott egy stanfordi tanulmányra, amelyben a Pew Research által megadott kérdéseket tápláltak be az MI chatbotokba, hogy felmérjék azok elfogultságát. Elmondta, hogy a chatrobotok válaszai leginkább a kaliforniai emberek nézeteivel egyeztek meg, ahol a technológia nagy részét fejlesztik. "A kultúra nagy szerepet játszik ebben” - mondta. „Veszítesz valamit, ha csak az internet USA-központú verzióját látod”.