Berta Sándor
Karakterfelismerő programot készíttet a Google
A vállalat megbízásából a Képmegértés és Mintafelismerés nevet viselő munkacsoport egy új optikai karakterfelismerő szoftvert fejleszt, amelynek most elkészült az első előzetes verziója.
A csoportot Dr. Thomas Breuel professzor, a Német Mesterséges Intelligencia Kutatóközpont munkatársa vezeti. Az alkalmazás hivatalosan az OCRopus nevet kapta. A projekt célja egy olyan optikai karakterfelismerő program megalkotása, amelyet egyaránt használhatnak az elektronikus könyvtárak létrehozói, képes kielemezni a történelmi könyveket és a dokumentumokat, valamint támogatja a vakok és gyengénlátók számára készült művek digitális beolvasását is. Az OCRopus ráadásul testre szabható, így bármilyen más területen is jól használható.
A program motorja két korábbi kutatási projekten alapul. Az egyik a Tesseract kézírás-felismerő szoftver, amit az amerikai statisztikai hivatal alkalmaz, a másik pedig egy a könyvek és más anyagok külső elemzésére képes eljárás. A Tesseractot a Hewlett-Packard fejlesztette ki 1985 és 1995 között és csupán egy motor, vagyis eredetileg nem készült hozzá felhasználói felület. Miután a HP kivonult az OCR-piacról a Nevadai Egyetemmel nyílt forráskódú programmá alakította át a Tesseractot, Google pedig úgy került képbe, hogy az egyetem a cég segítségét kérte a felmerülő hibák kijavításához.
A mostani program három évig tart. Az első változat már letölthető, azonban kizárólag angol nyelvű alkotásokhoz használható. Érdekesség, hogy az OCRopust az Ubuntu Linux alá készítették és készítik, de természetesen más Linux disztribúciók alatt is futtatható. A későbbiekben az optikai karakterfelismerő szoftver más nyelveket is támogatni fog. Készülni fog belőle egy Gnome alatt futtatható változat is, sőt a szövegfelismerési funkciót integrálni fogják a Gnome asztali keresőjébe.
A csoportot Dr. Thomas Breuel professzor, a Német Mesterséges Intelligencia Kutatóközpont munkatársa vezeti. Az alkalmazás hivatalosan az OCRopus nevet kapta. A projekt célja egy olyan optikai karakterfelismerő program megalkotása, amelyet egyaránt használhatnak az elektronikus könyvtárak létrehozói, képes kielemezni a történelmi könyveket és a dokumentumokat, valamint támogatja a vakok és gyengénlátók számára készült művek digitális beolvasását is. Az OCRopus ráadásul testre szabható, így bármilyen más területen is jól használható.
A program motorja két korábbi kutatási projekten alapul. Az egyik a Tesseract kézírás-felismerő szoftver, amit az amerikai statisztikai hivatal alkalmaz, a másik pedig egy a könyvek és más anyagok külső elemzésére képes eljárás. A Tesseractot a Hewlett-Packard fejlesztette ki 1985 és 1995 között és csupán egy motor, vagyis eredetileg nem készült hozzá felhasználói felület. Miután a HP kivonult az OCR-piacról a Nevadai Egyetemmel nyílt forráskódú programmá alakította át a Tesseractot, Google pedig úgy került képbe, hogy az egyetem a cég segítségét kérte a felmerülő hibák kijavításához.
A mostani program három évig tart. Az első változat már letölthető, azonban kizárólag angol nyelvű alkotásokhoz használható. Érdekesség, hogy az OCRopust az Ubuntu Linux alá készítették és készítik, de természetesen más Linux disztribúciók alatt is futtatható. A későbbiekben az optikai karakterfelismerő szoftver más nyelveket is támogatni fog. Készülni fog belőle egy Gnome alatt futtatható változat is, sőt a szövegfelismerési funkciót integrálni fogják a Gnome asztali keresőjébe.