Berta Sándor
Sok gondot megoldana az Absztrakt Wikipédia
A világ legnépszerűbb online lexikona egyetlen nyelvet használva sokkal frissebb és bővebb lehetne.
20 éves a Wikipédia, amelynek a rendszerében jelenleg több mint 50 millió cikk található. Amennyiben az egyes nyelvi változatokat összesítenék és egyetlen nyelvűre fordítanák le, akkor az enciklopédia még nagyobb lehetne. Zdenko "Denny" Vrandecic informatikus és filozófus ezen dolgozik, gyakorlatilag az univerzális nyelvnek számító Absztrakt Wikipédiát fejleszti, amely a lexikon 300 kiadása között tenné lehetővé az automatikus fordítást. A 42 éves szakember a Karlsruhei Technológiai Intézetben végzett, majd megalapította a horvát Wikipédiát és a Wikidata projektet, tavaly óta pedig Berkeley városából dolgozik a Wikimédia Alapítványnak.
"Összehasonlítottam a különböző Wikipédiáikat és arra a kérdésre kerestem a választ, hogy ki San Francisco polgármestere. A találatok teljesen eltérők voltak, és csak kevés kiadásban szerepelt az aktuális városvezető. A legtöbb verzió ugyanakkor legalább egy polgármestert megnevezett a múltból. Számos információ elavult volt, nem politikai okokból, hanem egyszerűen azért, mert a frissítés plusz munkát jelentett volna. Ebben segíthetne a fordítási projektünk."
"Ideális esetben az ellentmondásokat nem automatikusan módosítanánk, hanem láthatóvá tennénk, hogy azokat a közösség könnyebben szerkeszthesse. Az első fordítási eredmények 2022-ben vagy 2023-ban várhatók. Úgy akarjuk megfogalmazni az egyes bejegyzéseket, hogy egy konkrét természetes nyelvtől függetlenek legyenek. Az absztrakt tartalom mindig ugyanaz lesz, függetlenül a célnyelvtől."
"Biztos komoly vita lesz erről a témáról, de ez így jó. A közösséggel együtt kell megbeszélnünk, hogy miként tudjuk a legjobban használni az új technológiákat. Egy szabályokon és funkciókon alapuló rendszer megalkotásán dolgozunk, amelyben a készítőknél van a tartalmakkal és az azok megjelenésével kapcsolatos teljes ellenőrzés, s nem kötődnek a nyelvi előítéletekhez. Emellett szükség lenne egy egyszerűbb, világosabb Wikipédiára és lehet, hogy a projektünk ehhez is hozzájárulhat" - jelentette ki Zdenko Vrandecic.
Az informatikus és filozófus hozzátette, hogy a legtöbb gépi tanulási program a hatalmas szövegmennyiségekre épít, amely ugyan olcsó, de nagy hibaszázalékú megoldás. A neurális hálózatok néha teljesen értelmetlen szövegeket készítenek, mert rosszul értelmezik a mondatokat. Az Absztrakt Wikipédia rendszere ezzel szemben a pontosságra épít, a működési elve pedig a Rule Based Natural Language Generation, amit először a Xerox alkalmazott az eszközei használati útmutatóihoz.
A szakember végül elmondta, hogy a projekt eredetileg a Google égisze alatt zajlott, amely nagyon nagy segítséget jelentett, de később kiderült, hogy a fejlesztés a Wikimédia Alapítványnál jobb kezekben van.
20 éves a Wikipédia, amelynek a rendszerében jelenleg több mint 50 millió cikk található. Amennyiben az egyes nyelvi változatokat összesítenék és egyetlen nyelvűre fordítanák le, akkor az enciklopédia még nagyobb lehetne. Zdenko "Denny" Vrandecic informatikus és filozófus ezen dolgozik, gyakorlatilag az univerzális nyelvnek számító Absztrakt Wikipédiát fejleszti, amely a lexikon 300 kiadása között tenné lehetővé az automatikus fordítást. A 42 éves szakember a Karlsruhei Technológiai Intézetben végzett, majd megalapította a horvát Wikipédiát és a Wikidata projektet, tavaly óta pedig Berkeley városából dolgozik a Wikimédia Alapítványnak.
"Összehasonlítottam a különböző Wikipédiáikat és arra a kérdésre kerestem a választ, hogy ki San Francisco polgármestere. A találatok teljesen eltérők voltak, és csak kevés kiadásban szerepelt az aktuális városvezető. A legtöbb verzió ugyanakkor legalább egy polgármestert megnevezett a múltból. Számos információ elavult volt, nem politikai okokból, hanem egyszerűen azért, mert a frissítés plusz munkát jelentett volna. Ebben segíthetne a fordítási projektünk."
"Ideális esetben az ellentmondásokat nem automatikusan módosítanánk, hanem láthatóvá tennénk, hogy azokat a közösség könnyebben szerkeszthesse. Az első fordítási eredmények 2022-ben vagy 2023-ban várhatók. Úgy akarjuk megfogalmazni az egyes bejegyzéseket, hogy egy konkrét természetes nyelvtől függetlenek legyenek. Az absztrakt tartalom mindig ugyanaz lesz, függetlenül a célnyelvtől."
"Biztos komoly vita lesz erről a témáról, de ez így jó. A közösséggel együtt kell megbeszélnünk, hogy miként tudjuk a legjobban használni az új technológiákat. Egy szabályokon és funkciókon alapuló rendszer megalkotásán dolgozunk, amelyben a készítőknél van a tartalmakkal és az azok megjelenésével kapcsolatos teljes ellenőrzés, s nem kötődnek a nyelvi előítéletekhez. Emellett szükség lenne egy egyszerűbb, világosabb Wikipédiára és lehet, hogy a projektünk ehhez is hozzájárulhat" - jelentette ki Zdenko Vrandecic.
Az informatikus és filozófus hozzátette, hogy a legtöbb gépi tanulási program a hatalmas szövegmennyiségekre épít, amely ugyan olcsó, de nagy hibaszázalékú megoldás. A neurális hálózatok néha teljesen értelmetlen szövegeket készítenek, mert rosszul értelmezik a mondatokat. Az Absztrakt Wikipédia rendszere ezzel szemben a pontosságra épít, a működési elve pedig a Rule Based Natural Language Generation, amit először a Xerox alkalmazott az eszközei használati útmutatóihoz.
A szakember végül elmondta, hogy a projekt eredetileg a Google égisze alatt zajlott, amely nagyon nagy segítséget jelentett, de később kiderült, hogy a fejlesztés a Wikimédia Alapítványnál jobb kezekben van.