Berta Sándor
Intelligens képkatalogizáló szoftver a Xeroxtól
A program a digitális fotókat a vizuális ismertetőjegyeik alapján azonosítja. Az alkalmazás ezenkívül többek között képes arra is, hogy a képeket osztályozza, illetve kiegészítésekkel lássa el.
Ezek a dokumentumok például tartalmazhatják az egyes digitális fotók azonosításához szükséges ismertetőjegyek, motívumok jellemzőit, leírásait is. A képek feldolgozásához a Xerox által kifejlesztett szoftvernek csupán négy lépésre van szüksége. Először a program megkeresi az adott digitális fotó markáns motívumait, ismertetőjegyeit, azonosítási pontként szóba jöhető részeit. Ezeket a pontokat a szoftver egy vizuális szótárprogrammal hasonlítja össze. Így jönnek létre ugyanis az úgynevezett vizuális szavak, amelyeket a Xerox a képek központi elemeiként azonosít.
Egy autót ábrázoló digitális fotó esetében ezek az azonosítópontok, illetve vizuális szavak a kerekek és a fényszórók. A harmadik lépésben a szoftver kiszámolja, hogy milyen gyakran jelenik meg a fotón minden egyes vizuális szó. Az így létrejövő hisztogramokat végül az előre meghatározott képkategóriákba rendszerezik.
A piros kör jelzi a felismert motívumokat, melyet egy adatbázissal hasonlít össze
Az mindenképpen a Xerox fejlesztőmérnökeinek a munkáját dicséri, hogy a program nem hagyja magát megzavarni például a nem szokványos szögű objektumok vagy a részben eltakart motívumok miatt. Az alkalmazás pontosságára jellemző, hogy kategóriánként száz képből legalább nyolcvanat szinte mindig eltalál, de a szótár bővülésével nem ritka a 99 százalékos eredményesség sem.
A Xerox tájékoztatása szerint a kutatók most a vizuális szótár kibővítésén, továbbfejlesztésén dolgoznak, azért, hogy a képkatalogizáló szoftver végérvényesen piacéretté váljon. Ezenkívül tervezik azt is, hogy az alkalmazott technológiát a jövőben felhasználják majd például a videók katalogizálására is.
Ezek a dokumentumok például tartalmazhatják az egyes digitális fotók azonosításához szükséges ismertetőjegyek, motívumok jellemzőit, leírásait is. A képek feldolgozásához a Xerox által kifejlesztett szoftvernek csupán négy lépésre van szüksége. Először a program megkeresi az adott digitális fotó markáns motívumait, ismertetőjegyeit, azonosítási pontként szóba jöhető részeit. Ezeket a pontokat a szoftver egy vizuális szótárprogrammal hasonlítja össze. Így jönnek létre ugyanis az úgynevezett vizuális szavak, amelyeket a Xerox a képek központi elemeiként azonosít.
Egy autót ábrázoló digitális fotó esetében ezek az azonosítópontok, illetve vizuális szavak a kerekek és a fényszórók. A harmadik lépésben a szoftver kiszámolja, hogy milyen gyakran jelenik meg a fotón minden egyes vizuális szó. Az így létrejövő hisztogramokat végül az előre meghatározott képkategóriákba rendszerezik.
A piros kör jelzi a felismert motívumokat, melyet egy adatbázissal hasonlít össze
Az mindenképpen a Xerox fejlesztőmérnökeinek a munkáját dicséri, hogy a program nem hagyja magát megzavarni például a nem szokványos szögű objektumok vagy a részben eltakart motívumok miatt. Az alkalmazás pontosságára jellemző, hogy kategóriánként száz képből legalább nyolcvanat szinte mindig eltalál, de a szótár bővülésével nem ritka a 99 százalékos eredményesség sem.
A Xerox tájékoztatása szerint a kutatók most a vizuális szótár kibővítésén, továbbfejlesztésén dolgoznak, azért, hogy a képkatalogizáló szoftver végérvényesen piacéretté váljon. Ezenkívül tervezik azt is, hogy az alkalmazott technológiát a jövőben felhasználják majd például a videók katalogizálására is.