Berta Sándor

Sok gondot megoldana az Absztrakt Wikipédia

A világ legnépszerűbb online lexikona egyetlen nyelvet használva sokkal frissebb és bővebb lehetne.

20 éves a Wikipédia, amelynek a rendszerében jelenleg több mint 50 millió cikk található. Amennyiben az egyes nyelvi változatokat összesítenék és egyetlen nyelvűre fordítanák le, akkor az enciklopédia még nagyobb lehetne. Zdenko "Denny" Vrandecic informatikus és filozófus ezen dolgozik, gyakorlatilag az univerzális nyelvnek számító Absztrakt Wikipédiát fejleszti, amely a lexikon 300 kiadása között tenné lehetővé az automatikus fordítást. A 42 éves szakember a Karlsruhei Technológiai Intézetben végzett, majd megalapította a horvát Wikipédiát és a Wikidata projektet, tavaly óta pedig Berkeley városából dolgozik a Wikimédia Alapítványnak.

"Összehasonlítottam a különböző Wikipédiáikat és arra a kérdésre kerestem a választ, hogy ki San Francisco polgármestere. A találatok teljesen eltérők voltak, és csak kevés kiadásban szerepelt az aktuális városvezető. A legtöbb verzió ugyanakkor legalább egy polgármestert megnevezett a múltból. Számos információ elavult volt, nem politikai okokból, hanem egyszerűen azért, mert a frissítés plusz munkát jelentett volna. Ebben segíthetne a fordítási projektünk."

"Ideális esetben az ellentmondásokat nem automatikusan módosítanánk, hanem láthatóvá tennénk, hogy azokat a közösség könnyebben szerkeszthesse. Az első fordítási eredmények 2022-ben vagy 2023-ban várhatók. Úgy akarjuk megfogalmazni az egyes bejegyzéseket, hogy egy konkrét természetes nyelvtől függetlenek legyenek. Az absztrakt tartalom mindig ugyanaz lesz, függetlenül a célnyelvtől."

"Biztos komoly vita lesz erről a témáról, de ez így jó. A közösséggel együtt kell megbeszélnünk, hogy miként tudjuk a legjobban használni az új technológiákat. Egy szabályokon és funkciókon alapuló rendszer megalkotásán dolgozunk, amelyben a készítőknél van a tartalmakkal és az azok megjelenésével kapcsolatos teljes ellenőrzés, s nem kötődnek a nyelvi előítéletekhez. Emellett szükség lenne egy egyszerűbb, világosabb Wikipédiára és lehet, hogy a projektünk ehhez is hozzájárulhat" - jelentette ki Zdenko Vrandecic.

Az informatikus és filozófus hozzátette, hogy a legtöbb gépi tanulási program a hatalmas szövegmennyiségekre épít, amely ugyan olcsó, de nagy hibaszázalékú megoldás. A neurális hálózatok néha teljesen értelmetlen szövegeket készítenek, mert rosszul értelmezik a mondatokat. Az Absztrakt Wikipédia rendszere ezzel szemben a pontosságra épít, a működési elve pedig a Rule Based Natural Language Generation, amit először a Xerox alkalmazott az eszközei használati útmutatóihoz.

A szakember végül elmondta, hogy a projekt eredetileg a Google égisze alatt zajlott, amely nagyon nagy segítséget jelentett, de később kiderült, hogy a fejlesztés a Wikimédia Alapítványnál jobb kezekben van.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • M2 #2
    Az univerzális virtuális digitális nyelv megalkotása még várat magára. Lehet a mesterséges intelligencia fogja majd magának megalkotni és ember számára érthetetlen lesz a működési mechanizmusa.

    De amit soha nem fog tudni semmilyen fordító kezelni, azok a kreatív nyelvi változások. Mikor mondjuk egy költői vagy szövegírói metafora elterjed és a nyelv része lesz. Ilyen esetekben ha a kiinduló alap helyi kultúrához kötött, az új nyelvi forma le sem fordítható más nyelvekre.
    "Álljunk össze, mint két kicsi legó" - amit ovis és felnőtt is énekelgetett, de teljesen más járt a fejükben, pedig egy nyelv, egy kultúra, csak eltérő korosztály.
    Utoljára szerkesztette: M2, 2021.01.28. 00:04:43
  • kvp #1
    Ehhez kellene egy altalanos leironyelv, ami kepes a vilag osszes nyelven leirt mondatstrukturakat egy grafban osszesiteni (parse tree). Ennek szerkesztese linearis szovegszerkesztokkel eleg nehezkes lenne, leginkabb mivel a szavak nem olvashato formatumban, hanem szotari azonositok (sorszamok) formajaban lennenek benne es a graf osszekoto elemei hataroznak meg a mondatszerkezetet.

    A vallalkozas nem lehetetlen, de nagyon nehezen bovitheto/modosithato emberek szamara, viszont egy hasznalhato MI nyelvet jelentene. (gyakorlatilag egy MI sokkal konnyebben es gyorsabban tudna beolvasni es beepiteni a sajat tudasbazisaba, mert nem kell az emberi nyelvet feldolgoznia, annak pontatlansagaival es ketertelmusegeivel egyutt) Plusz ha egy ilyen nyelvet hasznalnak forditaskor mint koztes nyelvet (a jelenlegi angol helyett), akkor a google fordito klasszikus hibai konnyebben kikuszobolhetoek lennenek.