Berta Sándor

Megvásárolja a reCAPTCHA-t a Google

Eldőlt, hogy a webes konszern tulajdonába kerül a Carnegie Mellon Egyetem által létrehozott reCAPTCHA vállalkozás. A technika a könyvek digitalizálásában segíthet.

A szervezet felvásárlásáról Luis von Ahn, a reCAPTCHA társalapítója és Will Cathcart, a Google termékmenedzsere közös bejegyzésben számolt be a konszern blogjában. A CAPTCHA név a Completely Automated Public Turing test to tell Computers and Humans Apart fogalmat takarja. Az eljárás célja, hogy nehezen felismerhető, véletlenszerűen egymást követő betűkkel védjék egy tartalomhoz vagy szolgáltatáshoz való hozzáférést. A megoldást elsősorban honlapok spamekkel szembeni védelmi mechanizmusaként alkalmazzák.

A reCAPTCHA viszont nem véletlenszerűen egymás után elhelyezett betűket, hanem olyan beszkennelt szövegeket használ, amelyeknél az optikai karakterfelismerő (OCR) programok is csődöt mondtak. A digitalizált szövegeket a Nyílt Tartalom Szövetség (OCA) keretében működő Internet Archívum biztosítja. Ahhoz, hogy a beszkennelt anyagokban keresni is lehessen, először OCR szoftverekkel fel kell ismertetni a szövegrészeket, de ez nem mindig működik tökéletesen. Ezért ezt a feladatot a jövőben emberek végzik majd, akiknek egyszerre mindig két szót mutatnak meg: az egyik, amit már felismert a rendszer és ami ellenőrzési célokat szolgál, hogy vajon a felhasználó is képes-e azonosítani, míg a másik a még a rendszer által nem értelmezett vagy felismert szó. Az egyes szavakat több felhasználónak is megmutatják, hogy így biztosítsák a pontos felismerést.

A reCAPTCHA-t 2007 májusában indították és jelenleg már több mint 100 000 honlapon használják. Csak az első évben világszerte a felhasználók több mint 1,2 milliárd reCAPTCHA-feladványt oldottak meg, valamint megfejtettek 440 millió, a számítógépek számára olvashatatlan szót is. Mindez egy 17 600 könyvet tartalmazó könyvtár teljes szövegállományának felel meg. A megfejtett reCAPTCHA-k száma egyébként naponta kereken 30 millióval nő.

A Google a jövőben a technológiát a könyvek digitalizálása során használná fel. Első lépésként az eredeti csapattal együtt továbbfejlesztenék a rendszert, amely ezután - a felhasználókkal kiegészülve - alkalmas lenne a beszkennelt művek olvashatatlan részeinek megfejtésére.

Szintén fontos szempont, hogy a webes konszern így egy megbízhatóbb megoldással válthatja fel például a Google Mail nem túl acélos CAPTCHA-rendszerét, amit már tavaly februárban feltörtek.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
Nem érkezett még hozzászólás. Legyél Te az első!