Berta Sándor
Szoftver azonosítja a középkori szövegek íróit
Mesterséges intelligenciával próbálják meghatározni, hogy mely szövegeket írta azonos kéz.
A középkorban a nem vallásos szövegeket kézzel sokszorosították az írószobákban. Ezek az úgynevezett scriptoriumok többnyire kolostorokban voltak megtalálhatók. Az egyetemekkel és a könyvek iránti megnövekedett kereslettel együtt a 14. és 15. században polgári íróműhelyek is létrejöttek. A kolostori scriptoriumokban végzett munkát aztán szinte teljesen felváltotta a mozgatható betűkkel való nyomtatás feltalálása.
A kolostorok még ma is nagy középkori kéziratgyűjteményekkel rendelkeznek. Az írásmódokat a paleográfusok egyedileg elemzik. "A paleográfia egy történeti segédtudomány, amelynek segítségével az írnokok és a könyvek helyének esetleges változásaira vonatkozó nyomokat nyerhetünk" - magyarázta Markus Seidl kutató, a St. Pölteni Műszaki Egyetem Kreatív\Média/Technológiai Intézetének munkatársa. A paleográfiai munka sok időt és tapasztalatot igényel. A szakembereknek sok részletre kell figyelniük, különösen azért, mert a könyvek vizuálisan nagyon hasonlók. Sok kérdés eddig nagyrészt megválaszolatlan maradt, például az, hogy hogyan szervezték meg az írástudók hivatalát vagy hogy hány írástudó dolgozott egy kolostorban. A szakértőknek általában megalapozott véleményük van arról, hogy mely oldalakat írta ugyanaz a kéz.
A Seidl által vezetett kutatócsoport a Scribe ID AI nevű projekt keretében középkori kéziratokat elemez mesterséges intelligencia segítségével. A 12. századi kéziratok az alsó-ausztriai Klosterneuburg apátság könyvtárából származnak, amelyeket digitalizáltak. A cél az, hogy a kézírás stilisztikai jellemzői alapján azonosítsák az adott írnokokat és ezáltal többet tudjanak meg az írószobákról. A cél nem az egyes írnokok személyének azonosítása, hanem annak megállapítása, hogy a különböző szövegek ugyanattól az írnoktól vagy különböző szerzőktől származnak-e.
Ahhoz, hogy a gépi tanuláson alapuló rendszer egyáltalán működőképes legyen, először különböző adatokkal kellett betáplálni. "Az első körben, amely már lezárult, a klosterneuburgi könyvtárakban található kéziratokról már meglévő ismeretekre támaszkodtunk. Alois Haidinger és Franz Lackner paleográfusok életüket ezeknek a kéziratoknak és írástudóiknak szentelték" - nyilatkozta Seidl. A klasszikus gépi tanulás mellett egy felhasználói felületet is építettek, hogy tetszőlegesen lehessen könyveket betölteni a rendszerbe. "A gép javaslatot tesz az író személyére. A szakértők átnézhetik, hogy van-e kiugró példány, mely nem az ismert írók egyike" - mutatott rá Seidl.
A szakemberek azokat az írásos adatokat vették fel, amelyek írói hovatartozása a meglévő hipotézisek alapján már ismert volt. Ezt követően ezeket az adatokat felcímkézték, és a mesterséges intelligencia rendszert betanították a segítségükkel. "A második lépésben a betanított modelleket az ismeretlenbe akartuk küldeni, és olyan több száz levelet tartalmazó kéziratokat elemeztünk, amelyekről nem volt pontosan világos, hogy kitől származnak, és hogy bizonyos írástudók hol dolgoztak" - taglalta a tudós. Ezt követte a nagy mennyiségű kézirat, amelyeket még senki sem elemzett.
A pontosságot tekintve a mesterséges intelligencia rendszer messze meghaladja a 90 százalékos értéket. A modell azonban továbbképezhető és javítható a kutatók értékelése révén. "Az adatokból tudjuk, hogy a kézváltás nem történik meg négy sor alatt. Ez azt jelenti, hogy nagy szakaszok származnak ugyanabból a kézből. Így egy kicsit jobban ki lehet simítani az eredményeket, és így 99 százalékos pontosságot lehet elérni. Ilyen gépi eljárások már léteznek, de nem alkalmazhatók nagy szöveggyűjteményekre. Más a helyzet az új módszerrel, amelyet nagy mennyiségű kéziratra terveztek" - hangsúlyozta a St. Pölteni Műszaki Egyetem munkatársa.
A középkorban a nem vallásos szövegeket kézzel sokszorosították az írószobákban. Ezek az úgynevezett scriptoriumok többnyire kolostorokban voltak megtalálhatók. Az egyetemekkel és a könyvek iránti megnövekedett kereslettel együtt a 14. és 15. században polgári íróműhelyek is létrejöttek. A kolostori scriptoriumokban végzett munkát aztán szinte teljesen felváltotta a mozgatható betűkkel való nyomtatás feltalálása.
A kolostorok még ma is nagy középkori kéziratgyűjteményekkel rendelkeznek. Az írásmódokat a paleográfusok egyedileg elemzik. "A paleográfia egy történeti segédtudomány, amelynek segítségével az írnokok és a könyvek helyének esetleges változásaira vonatkozó nyomokat nyerhetünk" - magyarázta Markus Seidl kutató, a St. Pölteni Műszaki Egyetem Kreatív\Média/Technológiai Intézetének munkatársa. A paleográfiai munka sok időt és tapasztalatot igényel. A szakembereknek sok részletre kell figyelniük, különösen azért, mert a könyvek vizuálisan nagyon hasonlók. Sok kérdés eddig nagyrészt megválaszolatlan maradt, például az, hogy hogyan szervezték meg az írástudók hivatalát vagy hogy hány írástudó dolgozott egy kolostorban. A szakértőknek általában megalapozott véleményük van arról, hogy mely oldalakat írta ugyanaz a kéz.
A Seidl által vezetett kutatócsoport a Scribe ID AI nevű projekt keretében középkori kéziratokat elemez mesterséges intelligencia segítségével. A 12. századi kéziratok az alsó-ausztriai Klosterneuburg apátság könyvtárából származnak, amelyeket digitalizáltak. A cél az, hogy a kézírás stilisztikai jellemzői alapján azonosítsák az adott írnokokat és ezáltal többet tudjanak meg az írószobákról. A cél nem az egyes írnokok személyének azonosítása, hanem annak megállapítása, hogy a különböző szövegek ugyanattól az írnoktól vagy különböző szerzőktől származnak-e.
Ahhoz, hogy a gépi tanuláson alapuló rendszer egyáltalán működőképes legyen, először különböző adatokkal kellett betáplálni. "Az első körben, amely már lezárult, a klosterneuburgi könyvtárakban található kéziratokról már meglévő ismeretekre támaszkodtunk. Alois Haidinger és Franz Lackner paleográfusok életüket ezeknek a kéziratoknak és írástudóiknak szentelték" - nyilatkozta Seidl. A klasszikus gépi tanulás mellett egy felhasználói felületet is építettek, hogy tetszőlegesen lehessen könyveket betölteni a rendszerbe. "A gép javaslatot tesz az író személyére. A szakértők átnézhetik, hogy van-e kiugró példány, mely nem az ismert írók egyike" - mutatott rá Seidl.
A szakemberek azokat az írásos adatokat vették fel, amelyek írói hovatartozása a meglévő hipotézisek alapján már ismert volt. Ezt követően ezeket az adatokat felcímkézték, és a mesterséges intelligencia rendszert betanították a segítségükkel. "A második lépésben a betanított modelleket az ismeretlenbe akartuk küldeni, és olyan több száz levelet tartalmazó kéziratokat elemeztünk, amelyekről nem volt pontosan világos, hogy kitől származnak, és hogy bizonyos írástudók hol dolgoztak" - taglalta a tudós. Ezt követte a nagy mennyiségű kézirat, amelyeket még senki sem elemzett.
A pontosságot tekintve a mesterséges intelligencia rendszer messze meghaladja a 90 százalékos értéket. A modell azonban továbbképezhető és javítható a kutatók értékelése révén. "Az adatokból tudjuk, hogy a kézváltás nem történik meg négy sor alatt. Ez azt jelenti, hogy nagy szakaszok származnak ugyanabból a kézből. Így egy kicsit jobban ki lehet simítani az eredményeket, és így 99 százalékos pontosságot lehet elérni. Ilyen gépi eljárások már léteznek, de nem alkalmazhatók nagy szöveggyűjteményekre. Más a helyzet az új módszerrel, amelyet nagy mennyiségű kéziratra terveztek" - hangsúlyozta a St. Pölteni Műszaki Egyetem munkatársa.