SG.hu
A kínai tévé MI-vel fordította jelnyelvre adását, nem sült el jól
A kínai televízió mesterséges intelligenciát használ a műsorok jelnyelvre történő fordításához. Ez nem működik jól. A termék fejlesztésén dolgozó siket professzor szerint a fejlesztők nem hallgatnak a visszajelzésekre – sem a termékeikkel, sem a technológiai szokásaikkal kapcsolatban.
A Pekingi Normál Egyetem Oktatási Karának professzora szerint kudarcot vallanak Kína erőfeszítései, hogy mesterséges intelligenciát alkalmazzon a siket lakosság médiahozzáférésének javítására. A Sixth Tone nevű médiumban Zheng Xuan professzor megjegyzi, hogy Kínában 20,5 millió hallássérült ember él, és hogy az ország kormánya ösztönzi az avatarok és virtuális műsorvezetők használatát egyes televíziós műsorok valós idejű fordításához. Ezek az erőfeszítések a 2022-es pekingi téli olimpiai játékokon kezdődtek, amelyeket Zheng tanulmányozott, hogy értékelje a jelnyelvi fordítások minőségét – és nem volt lenyűgözve.
"Leírtuk és visszafordítottuk az avatarok által létrehozott jelnyelvet, majd összehasonlítottuk az eredményeket az eredeti hanganyaggal, és megállapítottuk, hogy az MI által generált változatban jelentős mennyiségű fontos információ veszett el vagy torzult” – írta. "Alaposabb vizsgálat során kiderült, hogy az avatarok mozdulatai jelentősen eltértek a mindennapi jelnyelvtől a kéz alakja, pozíciója, iránya és mozgása tekintetében. Más problémák még szembetűnőbbek voltak: az avatarok arckifejezései és testbeszéde nem volt megfelelő, és szájmozgásuk torz volt.” – írta.
Az interjúkban a nézők arról számoltak be, hogy „általában nem értették az avatarok mozdulatait, és megjegyezték, hogy azok szókincse korlátozottnak tűnt, miközben nehezen boldogultak a több jelentésű szavakkal”. Zheng szerint az MI-k azért teljesítettek rosszul, mert „a kínai jelnyelv gesztusainak 50 százalékában kifejezett jelentésekhez nem találhatók kínai szavak”. A fejlesztők figyelmen kívül hagyták „a jelnyelv és a beszélt nyelv közötti különbséget. Különösen sokan a jelnyelvre a beszélt nyelv kiegészítőjeként tekintenek, vagy úgy vélik, hogy a kettő közötti fordítás hasonló két beszélt nyelv közötti fordításhoz.”
"De a beszélt nyelv és a jelnyelv módszerei meglehetősen különbözőek” – írta. "Az előbbi egy szóbeli-hallási nyelv, míg az utóbbi egy vizuális-gesztusos vagy vizuális-térbeli nyelv. A „gesztus” kifejezés egy viszonylag tág fogalom, amely nemcsak a kézmozdulatokat, hanem az arckifejezéseket és a testbeszédet is magában foglalja. A test térbeli teljes kihasználása lehetővé teszi a jelnyelv használói számára, hogy egyetlen mozdulattal kifejezzék egy egész mondat jelentését – például „egy személy besétál egy szobába”.
A kínai jelnyelv sokszínűsége is problémát jelent. Zheng kiemeli, hogy a kínai jelnyelv magában foglalja a „természetes jelnyelvet”, amely a siketek mindennapi életéből származik, és a „jelekkel kifejezett kínai nyelvet”, amely a kínai írásjelek jelekkel való kifejezése. "A legtöbb kínai siket ember által használt nyelv valahol a kettő között helyezkedik el” – írta, hozzátéve, hogy a jelnyelv dialektusai további bonyodalmat jelentenek a fejlesztők számára. Olyan fordító avatár létrehozása, amely képes kezelni ezeket a finom árnyalatokat, nehéz feladat, amelyet még nehezebbé tesz az AI-k számára hasznos adatok szűkössége.
Zheng kritizálta a kínai technológiai vállalatokat is, amelyek szerinte „nem vonták be mélyrehatóan a jelnyelv-nyelvészeket vagy a siket embereket. Még azokban az esetekben is, amikor jelnyelvi tanárok vagy tolmácsok is részt vesznek a munkában, a fejlesztők gyakran csak támogató szerepet szánnak nekik, ahelyett, hogy a siket felhasználók véleményét figyelembe vennék a termékek hatékonyságának végső megítélésében.” Ez komoly kritika, tekintve hogy Zheng egy fordító avatarokkal foglalkozó csapat tanácsadójaként dolgozott, és úgy találta, hogy azok nem rendelkeznek a feladat elvégzéséhez szükséges eszközökkel.
"Úgy tűnt, hogy alábecsülték a feladat nehézségét, túlbecsülték a technológia problémamegoldó képességét, és nem rendelkeztek a szükséges tapasztalattal, erőforrásokkal és képességekkel ahhoz, hogy megítéljék a harmadik felek által elvégzett munka minőségét” – írta. „Mire csatlakoztam a projekthez, ezek a hiányosságok már nyilvánvalóvá váltak. Bár a fejlesztőcsapat örömmel fogadta a részvételemet, úgy éreztem, hogy ez inkább az egyetemi professzorként szerzett technikai tudásomnak, mint siket személyiségemnek köszönhető.”
Zheng elmondta, hogy amikor rámutatott, hogy a termék nem fogja kielégíteni a felhasználókat, „visszajelzésemet nem fogadták el, a fejlesztők úgy tűnt, hogy nem tudják teljes mértékben megérteni a frusztrációmat”. Most úgy érzi, hogy „alapvető problémák vannak azzal, ahogyan a technológia megközelíti a jelnyelvi fordítás problémáját”, mert „a technológiai cégek megszokták, hogy először egy sok hibát tartalmazó verziót dobnak piacra, majd azt a felhasználók visszajelzései alapján optimalizálják”. De az általa látott termékek annyira rosszak voltak, hogy attól tart, ártanak a siket közösség technológiai megoldásokba vetett hitének.
"Egyes cégek ráadásul félrevezetik a felhasználókat azzal, hogy avatarok helyett valódi emberekkel reklámozzák termékeiket, majd kiadnak egy éretlen generatív MI-változatot” - írta. "A techno-optimisták hihetik, hogy ezek a hibák idővel mind megoldódnak, de nem szabad figyelmen kívül hagynunk a visszafordíthatatlan etikai károkat: ha a siket felhasználók valós igényeire nem reagálnak, úgy fogják érezni, hogy kísérleti nyulakként kezelik őket.”
A Pekingi Normál Egyetem Oktatási Karának professzora szerint kudarcot vallanak Kína erőfeszítései, hogy mesterséges intelligenciát alkalmazzon a siket lakosság médiahozzáférésének javítására. A Sixth Tone nevű médiumban Zheng Xuan professzor megjegyzi, hogy Kínában 20,5 millió hallássérült ember él, és hogy az ország kormánya ösztönzi az avatarok és virtuális műsorvezetők használatát egyes televíziós műsorok valós idejű fordításához. Ezek az erőfeszítések a 2022-es pekingi téli olimpiai játékokon kezdődtek, amelyeket Zheng tanulmányozott, hogy értékelje a jelnyelvi fordítások minőségét – és nem volt lenyűgözve.
"Leírtuk és visszafordítottuk az avatarok által létrehozott jelnyelvet, majd összehasonlítottuk az eredményeket az eredeti hanganyaggal, és megállapítottuk, hogy az MI által generált változatban jelentős mennyiségű fontos információ veszett el vagy torzult” – írta. "Alaposabb vizsgálat során kiderült, hogy az avatarok mozdulatai jelentősen eltértek a mindennapi jelnyelvtől a kéz alakja, pozíciója, iránya és mozgása tekintetében. Más problémák még szembetűnőbbek voltak: az avatarok arckifejezései és testbeszéde nem volt megfelelő, és szájmozgásuk torz volt.” – írta.
Az interjúkban a nézők arról számoltak be, hogy „általában nem értették az avatarok mozdulatait, és megjegyezték, hogy azok szókincse korlátozottnak tűnt, miközben nehezen boldogultak a több jelentésű szavakkal”. Zheng szerint az MI-k azért teljesítettek rosszul, mert „a kínai jelnyelv gesztusainak 50 százalékában kifejezett jelentésekhez nem találhatók kínai szavak”. A fejlesztők figyelmen kívül hagyták „a jelnyelv és a beszélt nyelv közötti különbséget. Különösen sokan a jelnyelvre a beszélt nyelv kiegészítőjeként tekintenek, vagy úgy vélik, hogy a kettő közötti fordítás hasonló két beszélt nyelv közötti fordításhoz.”
"De a beszélt nyelv és a jelnyelv módszerei meglehetősen különbözőek” – írta. "Az előbbi egy szóbeli-hallási nyelv, míg az utóbbi egy vizuális-gesztusos vagy vizuális-térbeli nyelv. A „gesztus” kifejezés egy viszonylag tág fogalom, amely nemcsak a kézmozdulatokat, hanem az arckifejezéseket és a testbeszédet is magában foglalja. A test térbeli teljes kihasználása lehetővé teszi a jelnyelv használói számára, hogy egyetlen mozdulattal kifejezzék egy egész mondat jelentését – például „egy személy besétál egy szobába”.
A kínai jelnyelv sokszínűsége is problémát jelent. Zheng kiemeli, hogy a kínai jelnyelv magában foglalja a „természetes jelnyelvet”, amely a siketek mindennapi életéből származik, és a „jelekkel kifejezett kínai nyelvet”, amely a kínai írásjelek jelekkel való kifejezése. "A legtöbb kínai siket ember által használt nyelv valahol a kettő között helyezkedik el” – írta, hozzátéve, hogy a jelnyelv dialektusai további bonyodalmat jelentenek a fejlesztők számára. Olyan fordító avatár létrehozása, amely képes kezelni ezeket a finom árnyalatokat, nehéz feladat, amelyet még nehezebbé tesz az AI-k számára hasznos adatok szűkössége.
Zheng kritizálta a kínai technológiai vállalatokat is, amelyek szerinte „nem vonták be mélyrehatóan a jelnyelv-nyelvészeket vagy a siket embereket. Még azokban az esetekben is, amikor jelnyelvi tanárok vagy tolmácsok is részt vesznek a munkában, a fejlesztők gyakran csak támogató szerepet szánnak nekik, ahelyett, hogy a siket felhasználók véleményét figyelembe vennék a termékek hatékonyságának végső megítélésében.” Ez komoly kritika, tekintve hogy Zheng egy fordító avatarokkal foglalkozó csapat tanácsadójaként dolgozott, és úgy találta, hogy azok nem rendelkeznek a feladat elvégzéséhez szükséges eszközökkel.
"Úgy tűnt, hogy alábecsülték a feladat nehézségét, túlbecsülték a technológia problémamegoldó képességét, és nem rendelkeztek a szükséges tapasztalattal, erőforrásokkal és képességekkel ahhoz, hogy megítéljék a harmadik felek által elvégzett munka minőségét” – írta. „Mire csatlakoztam a projekthez, ezek a hiányosságok már nyilvánvalóvá váltak. Bár a fejlesztőcsapat örömmel fogadta a részvételemet, úgy éreztem, hogy ez inkább az egyetemi professzorként szerzett technikai tudásomnak, mint siket személyiségemnek köszönhető.”
Zheng elmondta, hogy amikor rámutatott, hogy a termék nem fogja kielégíteni a felhasználókat, „visszajelzésemet nem fogadták el, a fejlesztők úgy tűnt, hogy nem tudják teljes mértékben megérteni a frusztrációmat”. Most úgy érzi, hogy „alapvető problémák vannak azzal, ahogyan a technológia megközelíti a jelnyelvi fordítás problémáját”, mert „a technológiai cégek megszokták, hogy először egy sok hibát tartalmazó verziót dobnak piacra, majd azt a felhasználók visszajelzései alapján optimalizálják”. De az általa látott termékek annyira rosszak voltak, hogy attól tart, ártanak a siket közösség technológiai megoldásokba vetett hitének.
"Egyes cégek ráadásul félrevezetik a felhasználókat azzal, hogy avatarok helyett valódi emberekkel reklámozzák termékeiket, majd kiadnak egy éretlen generatív MI-változatot” - írta. "A techno-optimisták hihetik, hogy ezek a hibák idővel mind megoldódnak, de nem szabad figyelmen kívül hagynunk a visszafordíthatatlan etikai károkat: ha a siket felhasználók valós igényeire nem reagálnak, úgy fogják érezni, hogy kísérleti nyulakként kezelik őket.”