SG.hu
Nyelvhalál a digitális korban
Prof. Kornai András írása a tudományos világ talán legtekintélyesebb online folyóiratában, a PLOS ONE-ban jelent meg az MTA SZTAKI vezette nemzetközi kutatásról.
A magyar köztudatban Kazinczy és Verseghy óta erősen él a Herderi jóslat, "hogy nyelvünk a föld szinérül kevés üdő múlva elenyészik". A digitális korban természetesen ami egyszer kikerült a webre az többé nem vész el, és elsősorban az ellenkező folyamatra látunk példákat, ahogy a klasszikus kínai, a szanszkrit, az ógörög és sok más már rég kihalt nyelv lassanként megjelenik a weben. Ugyanakkor egyre több nyelvről tudunk, amiket közvetlenül fenyeget a kihalás veszélye, a www.endangeredlanguages.com már 3,200 ilyet sorol fel, a világ kb. 8,000 nyelvének (a pontos számot senki nem ismeri) kb. 40%-át.
Hogy valójában mi a helyzet, azt tárja fel Kornai András a tudományos világ leg¬tekin-télyesebb online folyóiratában, a PLOS ONE-ban megjelent cikke, a "Digital language death" (Digitális nyelv¬halál). Ebben a szerző először a nyelvek életképességének hagyományos kritériumait gondolja újra a digitális térben: a nyelvet beszélők száma helyett a nyelvet a hálózaton használók számára figyel. Az olyan, hagyományos értelemben kihalással egyáltalán nem fenyegetett nyelvek esetében mint a mandinka, (melyet Alex Haley Gyökerek c. regényéből és az ebből készült tévésorozatból a magyar közönség is jól ismer) ez hatalmas különbséget jelent, hiszen a sokmillió beszélőt számláló nyelvet kevesebb, mint a lakosság 1%-a tudja írni is. Hiába hivatalos nyelv a mandinka ma két országban is, Szenegálban és Gambiában, hiába van Mandinka nyelven rádió- és TV-adás, a digitális térben egyszerűen nincsenek jelen.
"Hatalmas mennyíségű adatot gyűjtöttünk (ebben és az adatok elemzésében nagy segítségemre voltak munkatársaim az MTA SZTAKI-ban, Zséder Attila és Pajkossy Katalin) a webről hogy e kritériumokat számszerűsíteni tudjuk: minden nyelvet több mint harminc dimenzió mentén vizsgáltunk. Négy csoportra bontottuk a nyelveket: digitálisan mozdulatlan, örökségi, élő, és viruló nyelveket különböztetünk meg, nagyjából a szerint, hogy mennyi digitális kommunikáció zajlik azon a nyelven: a mozdulatlanokon gyakorlatilag semmi, a virulókon naponta több milliárd szónyi új anyag válik digitálisan elérhetővé. Az örökségi nyelvek, mint a latin vagy az ógörög azért érdekesek, mert ezek hatalmas kulturális örökséget közvetítenek, de akik ezt felviszik a webre azok nem anyanyelvi beszélők. Büszkén vallhatja valaki, hogy ő mandinka, vagy lengyel, vagy magyar, de senki nem mondhatja: én latin vagyok. Ettől még lelkesen szerkesztheti a latin wikipédiát. Amikor egy-egy nyelvet megmentünk a digitális nyelvhaláltól, akkor sajnos nem digitálisan élő, hanem örökségi nyelvek jönnek létre."
"Módszerünk lényege az, hogy nagyon világos és egyértelmű példákat választottunk az egyes csoportokból, majd olyan matematikai modelleket állítottunk fel, amik megtanulják melyik nyelv melyik osztályba esik. Ezek a modellek, mint kiderült, nem is használják a rendelkezésükre álló 35 dimenziót, ezekből mindössze 6-8-at tartottak fontosnak. Ennek ellenére, a különboző példákon és különböző paraméterhalmazokkal tanított modellek lényegében mind egyetértenek egymással amikor az eredeti példáktól eltérő nyelvekre alkalmazzuk őket: a ma ismert nyelvek és nyelvjárás több mint 95%-a digitálisan halott. Nem arról van szó, hogy egyszer majd, talán, valamikor ki fog halni: a mozdulatlan tetemek itt fekszenek előttünk."
De hát ez borzasztó, mit lehet tenni? Két dolgot is. Egyrészt a digitálisan halott nyelvek döntő többsége a hagyományos értelemben mégcsak nem is veszélyeztetett: biztosak lehetünk benne, hogy mandinka vagy nynorsk (ez a norvég egy változata) anyanyelvű beszélőket még száz év múlva is fogunk találni. Ezek a nyelvek örökségi nyelvvé tehetők, sokan dolgoznak ezen. Másrészt itt van még az a négyszáz-valahány nyelv aminek még van esélye. Ezekkel ma kevesebbet foglalkoznak, pedig nem mindegy, hogy a kibertérbe magunkkal visszük-e őket. A magyar, ezt világosan le kell szögezni, nincs veszélyben digitálisan sem. Amíg épül a magyar wikipédia (jelenleg nagyságra a 24.-edik, tehát nemhogy az életképes 4-5%-ban, de még a felső 0.5%-ban is bennvan), magyarul csetelnek az ifjú párok, magyarul írnak a fészbukra, virágzó blog- és portálkultúra van, addig nagy baj nem lehet.
Erről nagyon hasonló témáról beszélt tavaly Brüsszelben Amit tavaly a METAforum rendezvényen (a Multilingual European Technology Alliance azaz Többnyelvű Európai Technológiai Szövetség fórumán) előadtam az csak arról a párszáz nyelvről szólt, amin már van wikipédia, most az összes nyelvet vizsgáltuk, beleértve a már kihaltakat is és azokat is amiket a nagy nyelvkatalógusok sem tartanak számon. Tényleg, vannak ilyenek is? Igen, elsősorban délkeletázsiában, de gyakran szolgálnak meglepetéssel azok a nyelvek is, amiket egy-egy misszionárius már a harmincas vagy a hatvanas években leírt, ilyen pl. a manapság annyi vitát kiváltó Pirahã. Akkor a magyarral minden rendben? Nem, ezt azért nem lehet így elmondani. A magyar gépi fordítást legjobban a Google, a magyar beszédfelismerést legjobban a Nuance csinálja. Autót már tudunk gyártani, minőségi nyelvtechnológiát sajnos nem, pedig meglenne a szellemi tőke hozzá.
Ezek a szoftverek nagyok és bonyolultak, fejlesztésükön egyszerre sok tucatnyi ember dolgozik. Audi és Mercedes, de még Suzuki sem lenne hazai tőkéből. Az autókkal ellentétben, amiket külföldön is el lehet adni, a magyar nyelvtechnológia igazából csak magyaroknak kell, de ezt a kis piacot is megfojtja, hogy a Google ingyen adja. Még ha nem is olyan nagyszerű a Google Translate, nem sokan adnának pénzt valami jobbért. A Magyar Nyelv- és Beszédtechnológiai Platformot jobban ismerik Brüsszelben mint itt¬hon. A magyar kultúrörökség digitalizálására, nagyon helyesen, volt eddig némi állami támogatás, mint ahogy a kisebb finnugor közösségek nyelvtechnológiai támogatására is. De ezek a kicsi, néhány tizmilliós projektek csak az örökségi státusz felé visznek - ha azt akarjuk, hogy a magyar nyelv necsak túléljen hanem viruljon is a digitális korszakban, akkor nagyobb léptékben kell gondolkodni.
A magyar köztudatban Kazinczy és Verseghy óta erősen él a Herderi jóslat, "hogy nyelvünk a föld szinérül kevés üdő múlva elenyészik". A digitális korban természetesen ami egyszer kikerült a webre az többé nem vész el, és elsősorban az ellenkező folyamatra látunk példákat, ahogy a klasszikus kínai, a szanszkrit, az ógörög és sok más már rég kihalt nyelv lassanként megjelenik a weben. Ugyanakkor egyre több nyelvről tudunk, amiket közvetlenül fenyeget a kihalás veszélye, a www.endangeredlanguages.com már 3,200 ilyet sorol fel, a világ kb. 8,000 nyelvének (a pontos számot senki nem ismeri) kb. 40%-át.
Hogy valójában mi a helyzet, azt tárja fel Kornai András a tudományos világ leg¬tekin-télyesebb online folyóiratában, a PLOS ONE-ban megjelent cikke, a "Digital language death" (Digitális nyelv¬halál). Ebben a szerző először a nyelvek életképességének hagyományos kritériumait gondolja újra a digitális térben: a nyelvet beszélők száma helyett a nyelvet a hálózaton használók számára figyel. Az olyan, hagyományos értelemben kihalással egyáltalán nem fenyegetett nyelvek esetében mint a mandinka, (melyet Alex Haley Gyökerek c. regényéből és az ebből készült tévésorozatból a magyar közönség is jól ismer) ez hatalmas különbséget jelent, hiszen a sokmillió beszélőt számláló nyelvet kevesebb, mint a lakosság 1%-a tudja írni is. Hiába hivatalos nyelv a mandinka ma két országban is, Szenegálban és Gambiában, hiába van Mandinka nyelven rádió- és TV-adás, a digitális térben egyszerűen nincsenek jelen.
"Hatalmas mennyíségű adatot gyűjtöttünk (ebben és az adatok elemzésében nagy segítségemre voltak munkatársaim az MTA SZTAKI-ban, Zséder Attila és Pajkossy Katalin) a webről hogy e kritériumokat számszerűsíteni tudjuk: minden nyelvet több mint harminc dimenzió mentén vizsgáltunk. Négy csoportra bontottuk a nyelveket: digitálisan mozdulatlan, örökségi, élő, és viruló nyelveket különböztetünk meg, nagyjából a szerint, hogy mennyi digitális kommunikáció zajlik azon a nyelven: a mozdulatlanokon gyakorlatilag semmi, a virulókon naponta több milliárd szónyi új anyag válik digitálisan elérhetővé. Az örökségi nyelvek, mint a latin vagy az ógörög azért érdekesek, mert ezek hatalmas kulturális örökséget közvetítenek, de akik ezt felviszik a webre azok nem anyanyelvi beszélők. Büszkén vallhatja valaki, hogy ő mandinka, vagy lengyel, vagy magyar, de senki nem mondhatja: én latin vagyok. Ettől még lelkesen szerkesztheti a latin wikipédiát. Amikor egy-egy nyelvet megmentünk a digitális nyelvhaláltól, akkor sajnos nem digitálisan élő, hanem örökségi nyelvek jönnek létre."
"Módszerünk lényege az, hogy nagyon világos és egyértelmű példákat választottunk az egyes csoportokból, majd olyan matematikai modelleket állítottunk fel, amik megtanulják melyik nyelv melyik osztályba esik. Ezek a modellek, mint kiderült, nem is használják a rendelkezésükre álló 35 dimenziót, ezekből mindössze 6-8-at tartottak fontosnak. Ennek ellenére, a különboző példákon és különböző paraméterhalmazokkal tanított modellek lényegében mind egyetértenek egymással amikor az eredeti példáktól eltérő nyelvekre alkalmazzuk őket: a ma ismert nyelvek és nyelvjárás több mint 95%-a digitálisan halott. Nem arról van szó, hogy egyszer majd, talán, valamikor ki fog halni: a mozdulatlan tetemek itt fekszenek előttünk."
De hát ez borzasztó, mit lehet tenni? Két dolgot is. Egyrészt a digitálisan halott nyelvek döntő többsége a hagyományos értelemben mégcsak nem is veszélyeztetett: biztosak lehetünk benne, hogy mandinka vagy nynorsk (ez a norvég egy változata) anyanyelvű beszélőket még száz év múlva is fogunk találni. Ezek a nyelvek örökségi nyelvvé tehetők, sokan dolgoznak ezen. Másrészt itt van még az a négyszáz-valahány nyelv aminek még van esélye. Ezekkel ma kevesebbet foglalkoznak, pedig nem mindegy, hogy a kibertérbe magunkkal visszük-e őket. A magyar, ezt világosan le kell szögezni, nincs veszélyben digitálisan sem. Amíg épül a magyar wikipédia (jelenleg nagyságra a 24.-edik, tehát nemhogy az életképes 4-5%-ban, de még a felső 0.5%-ban is bennvan), magyarul csetelnek az ifjú párok, magyarul írnak a fészbukra, virágzó blog- és portálkultúra van, addig nagy baj nem lehet.
Erről nagyon hasonló témáról beszélt tavaly Brüsszelben Amit tavaly a METAforum rendezvényen (a Multilingual European Technology Alliance azaz Többnyelvű Európai Technológiai Szövetség fórumán) előadtam az csak arról a párszáz nyelvről szólt, amin már van wikipédia, most az összes nyelvet vizsgáltuk, beleértve a már kihaltakat is és azokat is amiket a nagy nyelvkatalógusok sem tartanak számon. Tényleg, vannak ilyenek is? Igen, elsősorban délkeletázsiában, de gyakran szolgálnak meglepetéssel azok a nyelvek is, amiket egy-egy misszionárius már a harmincas vagy a hatvanas években leírt, ilyen pl. a manapság annyi vitát kiváltó Pirahã. Akkor a magyarral minden rendben? Nem, ezt azért nem lehet így elmondani. A magyar gépi fordítást legjobban a Google, a magyar beszédfelismerést legjobban a Nuance csinálja. Autót már tudunk gyártani, minőségi nyelvtechnológiát sajnos nem, pedig meglenne a szellemi tőke hozzá.
Ezek a szoftverek nagyok és bonyolultak, fejlesztésükön egyszerre sok tucatnyi ember dolgozik. Audi és Mercedes, de még Suzuki sem lenne hazai tőkéből. Az autókkal ellentétben, amiket külföldön is el lehet adni, a magyar nyelvtechnológia igazából csak magyaroknak kell, de ezt a kis piacot is megfojtja, hogy a Google ingyen adja. Még ha nem is olyan nagyszerű a Google Translate, nem sokan adnának pénzt valami jobbért. A Magyar Nyelv- és Beszédtechnológiai Platformot jobban ismerik Brüsszelben mint itt¬hon. A magyar kultúrörökség digitalizálására, nagyon helyesen, volt eddig némi állami támogatás, mint ahogy a kisebb finnugor közösségek nyelvtechnológiai támogatására is. De ezek a kicsi, néhány tizmilliós projektek csak az örökségi státusz felé visznek - ha azt akarjuk, hogy a magyar nyelv necsak túléljen hanem viruljon is a digitális korszakban, akkor nagyobb léptékben kell gondolkodni.