Berta Sándor
Lehetővé vált a videókban lévő szövegekre keresés
Egyre több az internetre feltöltött videó, de ezek tartalma a keresők számára láthatatlan. Most olyan mechanizmusok váltak elérhetővé, amelyek lehetővé teszik a felvételekben való szövegfelismerést.
Az elmúlt tíz évben a videoplatformok egyre népszerűbbé váltak. A világhálón minden eddiginél egyszerűbb lett a felvételek automatikus elkészítése és feltöltése, ez pedig a nagy multimédiás adatmennyiségek rendkívül gyors elterjedéséhez vezetett. Éppen emiatt vált az is fontossá, hogy hatékonyan lehessen keresni a videókban.
A Hasso Plattner Intézet (HPI) különböző keresési mechanizmusokat fejlesztett ki. A videókban lévő szövegek felismerése komoly kutatási kihívást jelent a szakemberek számára, mert az anyagokban különbséget kell tenni az utólag elhelyezett feliratok és már a felvétel rögzítésekor szereplő szövegek között. A szövegek pozíciója is változhat és vannak más tényezők (kontraszt, gyors mozgások stb.) is, amelyek befolyásolhatják a megjelenítésüket.
Az internetes videók gyakran csak kis felbontásban elérhetők, emiatt előfordulnak tömörítési és egyéb hibák, amelyek befolyásolják a megjelenített szöveg minőségét és ezáltal akadályozzák annak jó felismerését. A szakembereknek mindezeket figyelembe kell venniük. A HPI munkatársai egy úgynevezett neurális hálózatot (Convolutional Neural Networksm, CNN) alkottak meg a szövegek felismerésére, amelynek először több millió digitális képet kellett tanulmányoznia, hogy így javítsák a pontosságát. A kész megoldás valós időben is pontos és a reakcióideje az emberéhez hasonló, így a rendszer akár interaktív helyzetekben, például egy webkamerán keresztüli valós idejű azonosítás során is működőképes.
Az új mechanizmusok segítségével a közeljövőben tartalomalapú videokeresők készíthetők, a vezetőket segítő rendszereknél is lehetővé válhat a szövegek felismerése, valamint a felvételek automatikusan kategorizálhatók lesznek.
Az elmúlt tíz évben a videoplatformok egyre népszerűbbé váltak. A világhálón minden eddiginél egyszerűbb lett a felvételek automatikus elkészítése és feltöltése, ez pedig a nagy multimédiás adatmennyiségek rendkívül gyors elterjedéséhez vezetett. Éppen emiatt vált az is fontossá, hogy hatékonyan lehessen keresni a videókban.
A Hasso Plattner Intézet (HPI) különböző keresési mechanizmusokat fejlesztett ki. A videókban lévő szövegek felismerése komoly kutatási kihívást jelent a szakemberek számára, mert az anyagokban különbséget kell tenni az utólag elhelyezett feliratok és már a felvétel rögzítésekor szereplő szövegek között. A szövegek pozíciója is változhat és vannak más tényezők (kontraszt, gyors mozgások stb.) is, amelyek befolyásolhatják a megjelenítésüket.
Az internetes videók gyakran csak kis felbontásban elérhetők, emiatt előfordulnak tömörítési és egyéb hibák, amelyek befolyásolják a megjelenített szöveg minőségét és ezáltal akadályozzák annak jó felismerését. A szakembereknek mindezeket figyelembe kell venniük. A HPI munkatársai egy úgynevezett neurális hálózatot (Convolutional Neural Networksm, CNN) alkottak meg a szövegek felismerésére, amelynek először több millió digitális képet kellett tanulmányoznia, hogy így javítsák a pontosságát. A kész megoldás valós időben is pontos és a reakcióideje az emberéhez hasonló, így a rendszer akár interaktív helyzetekben, például egy webkamerán keresztüli valós idejű azonosítás során is működőképes.
Az új mechanizmusok segítségével a közeljövőben tartalomalapú videokeresők készíthetők, a vezetőket segítő rendszereknél is lehetővé válhat a szövegek felismerése, valamint a felvételek automatikusan kategorizálhatók lesznek.