A mesterséges intelligencia nem érti a finom perzsa udvariasságot

Egy új tanulmány azt vizsgálta, hogy egy hasznos MI-válasz hogyan válhat kulturális katasztrófává Iránban.

Ha egy iráni taxisofőr elutasítja a fizetést, mondván: "Ezúttal ne törődjön vele”, akkor az ajánlat elfogadása kulturális katasztrófát okozhat. A sofőrök elvárják, hogy az ember ragaszkodjon a fizetéshez - legalább háromszor -, mielőtt elfogadják a pénzt. Ez a visszautasítás és ellen-visszautasítás tánca, amelyet taarofnak neveznek, számtalan mindennapi interakciót szabályoz a perzsa kultúrában. Az MI-modellek pedig rettenetesen rosszak ebben.

Egy új kutatás, amelynek címe "We Politely Insist: Your LLM Must Learn the Persian Art of Taarof", azaz "Udvariasan ragaszkodunk hozzá: az LLM-nek meg kell tanulnia a perzsa taarof művészetét”, megmutatja, hogy az OpenAI, az Anthropic és a Meta mainstream MI nyelvi modelljei nem képesek befogadni ezeket a perzsa társadalmi rituálékat, és csak 34-42 százalékban képesek helyesen kezelni a taarof helyzeteket. Ezzel szemben a perzsa anyanyelvűek 82 százalékban kezelik helyesen ezeket a helyzeteket. Ez a teljesítménybeli különbség egyéb nagy nyelvi modellek, mint például a GPT-4o, a Claude 3.5 Haiku, a Llama 3, a DeepSeek V3 és a Dorna (a Llama 3 perzsa nyelvre hangolt változata) esetében is érvényes.

A Brock Egyetem Nikta Gohari Sadr vezette tanulmánya bemutat egy olyan benchmarkot, a "TAAROFBENCH”-et, mely azt méri, hogy az MI-rendszerek mennyire jól reprodukálják ezt a bonyolult kulturális gyakorlatot. A kutatók eredményei azt mutatják, hogy a legújabb MI-modellek alapértelmezés szerint a nyugati stílusú közvetlenséget alkalmazzák, teljesen figyelmen kívül hagyva azokat a kulturális jelzéseket, amelyek világszerte több tizmillió perzsa anyanyelvű ember mindennapi interakcióit szabályozzák. "A súlyos következményekkel járó helyzetekben elkövetett kulturális hibák tönkretehetik a tárgyalásokat, ronthatják a kapcsolatokat és megerősíthetik a sztereotípiákat” - írják a kutatók. A globális kontextusban egyre gyakrabban használt MI-rendszerek esetében ez a kulturális vakság olyan korlátot jelenthet, amelynek létezését kevesen veszik észre a nyugati világban.

"A taarof a perzsa etikett egyik alapeleme, egy olyan rituális udvariassági rendszer, amelyben a kimondott szavak gyakran eltérnek a valódi jelentéstől” - írják a kutatók. "Ez rituális cserék formájában jelenik meg: ismételt ajánlatok a kezdeti elutasítások ellenére, ajándékok visszautasítása, miközben az ajándékozó ragaszkodik hozzájuk, és a bókok elhárítása, miközben a másik fél megerősíti azokat. Ez a udvarias verbális birkózás az ajánlat és az elutasítás, a ragaszkodás és az ellenállás kényes táncát jelenti, amely az iráni kultúrában a mindennapi interakciókat alakítja, és implicit szabályokat hoz létre a nagylelkűség, a hála és a kérések kifejezésére vonatkozóan.”

Annak vizsgálatára, hogy az „udvariasság” elegendő-e a kulturális kompetenciához, a kutatók összehasonlították a Llama 3 válaszokat egy Intel által kifejlesztett osztályozóval, amely a szövegek udvariasságát értékeli. Az eredmények paradoxont mutattak: a válaszok 84,5 százaléka „udvarias” vagy „meglehetősen udvarias” minősítést kapott, azonban ezeknek a válaszoknak csak 41,7 százaléka felelt meg valójában a perzsa kulturális elvárásoknak a taarof szcenáriókban. Ez a 42,8 százalékpontos különbség azt mutatja, hogy egy LLM válasz egy kontextusban udvarias lehet, míg egy másikban kulturálisan érzéketlen. A gyakori hibák között szerepelt az ajánlatok kezdeti elutasítás nélküli elfogadása, a bókokra való közvetlen válaszadás ahelyett, hogy elterelték volna őket, valamint a habozás nélküli közvetlen kérések.

Gondoljuk el, mi történhet, ha valaki dicséri egy iráni új autóját. Kulturálisan megfelelő válasz lehet a vásárlás lekicsinyítése („Semmi különös”) vagy a dicséret elhárítása („Csak szerencsém volt, hogy megtaláltam”). Az MI-modellek általában olyan válaszokat generálnak, mint „Köszönöm! Keményen dolgoztam, hogy megengedhessem magamnak”, ami nyugati mércével mérve teljesen udvarias, de a perzsa kultúrában dicsekvésnek tűnhet.

Bizonyos értelemben az emberi nyelv tömörítési és tömörítés-visszafejtési sémaként működik - a hallgatónak vissza kell fejtenie a szavak jelentését úgy, ahogyan azt a beszélő szándékozta, amikor kódolta az üzenetet, hogy azt megfelelően megértsék. Ez a folyamat a közös kontextusra, a kulturális ismeretekre és a következtetésekre támaszkodik, mivel a beszélők rendszeresen kihagyják azokat az információkat, amelyeket a hallgatók szerint rekonstruálni tudnak, míg a hallgatóknak aktívan ki kell tölteniük a kimondatlan feltételezéseket, fel kell oldaniuk a kétértelműségeket, és a szó szerinti szavakon túl kell következtetniük a szándékokra. Míg a tömörítés gyorsabbá teszi a kommunikációt azáltal, hogy a hallgatólagos információkat kimondatlanul hagyja, ugyanakkor drámai félreértésekhez is vezethet, ha a beszélő és a hallgató között nincs közös kontextus.

Hasonlóképpen, a taarof egy olyan esetet képvisel, amikor a kulturális tömörítés olyan erős, hogy a szó szerinti üzenet és a szándékolt jelentés annyira eltér egymástól, hogy az elsősorban a nyugati kommunikációs mintákra kiképzett LLM-ek általában nem tudják feldolgozni azt a perzsa kulturális kontextust, melyben az „igen” jelenthet „nem”-et, egy ajánlat lehet elutasítás, és a ragaszkodás inkább udvariasság, mint kényszer.

Mivel az LLM-ek mintázat-megfeleltető gépek, logikus, hogy amikor a kutatók perzsa nyelven, és nem angolul adtak nekik utasításokat, a pontszámok javultak. A DeepSeek V3 pontossága a taarof-szcenáriókban 36,6 százalékról 68,6 százalékra ugrott. A GPT-4o hasonló javulást mutatott, 33,1 százalékponttal javult. A nyelvváltás nyilvánvalóan különböző perzsa nyelvű képzési adatmintákat aktivált, amelyek jobban illeszkedtek ezekhez a kulturális kódolási sémákhoz, bár a kisebb modellek, mint a Llama 3 és a Dorna, szerényebb, 12,8, illetve 11 pontos javulást mutattak.

A tanulmányban 33 emberi résztvevő vett részt, akik egyenlően oszlottak meg anyanyelvi perzsa beszélők, másodlagos beszélők (perzsa származású emberek, akik otthon perzsa nyelven nőttek fel, de elsősorban angolul tanultak) és nem irániak között. Az anyanyelvűek 81,8 százalékos pontosságot értek el a taarof-szcenáriókban, ezzel megteremtve a teljesítmény felső határát. A másodlagos anyanyelvűek 60 százalékos pontosságot értek el, míg a nem irániak 42,3 százalékot, ami szinte megegyezik az alapmodell teljesítményével. A nem iráni résztvevők az MI-modellekhez hasonló mintákat mutattak: elkerülték azokat a válaszokat, amelyek saját kulturális perspektívájukból durvának tűntek, és olyan kifejezéseket, mint „nem fogadok el nemleges választ”, inkább agresszívnek, mint udvarias ragaszkodásnak értelmezték.

A kutatás az MI-modell kimeneteiben nemekhez kötődő mintákat is feltárt, miközben mérte, hogy az MI-modellek milyen gyakran adtak kulturálisan megfelelő válaszokat, amelyek megfeleltek a taarof elvárásoknak. Az összes tesztelt modell magasabb pontszámot kapott, amikor nőknek válaszolt, mint amikor férfiaknak, a GPT-4o 43,6 százalékos pontosságot mutatott a női felhasználók esetében, szemben a férfi felhasználók 30,9 százalékos pontosságával. A nyelvi modellek gyakran a képzési adatokban tipikusan megtalálható nemi sztereotípiákra támaszkodva adták válaszaikat, kijelentve, hogy „a férfiaknak kell fizetniük” vagy „a nőket nem szabad egyedül hagyni”, még akkor is, ha a taarof normák nemtől függetlenül egyformán ugyanúgy vonatkoznak. "Annak ellenére, hogy a modellhez a mi utasításainkban soha nem rendeltünk nemet, a modellek gyakran férfi identitást feltételeznek, és válaszaikban sztereotipikusan férfias viselkedést tanúsítanak” - jegyezték meg a kutatók.

A kutatók által felfedezett párhuzam a nem iráni emberek és az MI-modellek között arra utal, hogy ezek nem csupán technikai hibák, hanem alapvető hiányosságok a jelentés dekódolásában a kultúraközi kontextusokban. A kutatók nem álltak meg a probléma dokumentálásánál - tesztelték, hogy az MI-modellek célzott képzéssel megtanulhatják-e a taarofot.

A kísérletek során a kutatók jelentősen javult taarof-pontszámokat tapasztaltak célzott adaptáció révén. A „Direct Preference Optimization” (közvetlen preferenciaoptimalizálás) nevű technika (egy olyan képzési technika, amelynek során az MI-modellt példapárok bemutatásával megtanítják arra, hogy bizonyos típusú válaszokat másokhoz képest előnyben részesítsen) megduplázta a Llama 3 teljesítményét a taarof-szcenáriókban, 37,2 százalékról 79,5 százalékra emelve a pontosságot. A felügyelt finomhangolás (a modell képzése helyes válaszok példáin) 20 százalékos javulást eredményezett, míg az egyszerű kontextusban történő tanulás 12 példával 20 ponttal javította a teljesítményt.

Bár a tanulmány a perzsa taarofra összpontosított, a módszertan potenciálisan sablont kínál más, kevéssé ismert hagyományok kulturális dekódolásának értékeléséhez, amelyek nem feltétlenül vannak jól reprezentálva a standard, nyugati dominanciájú MI-edzési adatkészletekben. A kutatók szerint megközelítésük hozzájárulhat az oktatás, a turizmus és a nemzetközi kommunikációs alkalmazások számára kulturálisan tudatosabb MI-rendszerek fejlesztéséhez.

Ezek az eredmények rávilágítanak arra, hogy az MI-rendszerek hogyan kódolják és tartják fenn a kulturális feltételezéseket, valamint arra, hogy hol fordulhatnak elő dekódolási hibák az emberi olvasó elméjében. Valószínű, hogy az LLM-ek számos kontextuális kulturális vakfoltot tartalmaznak, amelyeket a kutatók még nem teszteltek, és amelyek jelentős hatással lehetnek, ha az LLM-eket használják a kultúrák és nyelvek közötti fordítások megkönnyítésére. A kutatók munkája egy korai lépés olyan MI-rendszerek felé, amelyek jobban tudnak navigálni a nyugati normákon túli, szélesebb körű emberi kommunikációs minták között.

A mesterséges intelligencia nem érti a finom perzsa udvariasságot

Kapcsolódó cikkek és linkek

Hozzászólások