Gyurkity Péter
reCAPTCHA: tartsd távol a spamet, segítsd a könyvdigitalizálást
A reCAPTCHA projekt elindítói két eltérő területet kötnének össze, a felhasználók néhány szabad másodpercének lefoglalásával. A spam kiszűrésére használt rövid képfelismerést problémás szavakkal egészítik ki, amelyek felismerése a mi feladatunk.
Bizonyára mindenki számára ismerős az oldalunkon is alkalmazott, kéretlen üzeneteket terjesztő botok, automaták kiszűrésére alkalmazott megoldás, amelynek keretében rövid szavakat, számsorokat kell felismernünk és helyesen bepötyögnünk ahhoz, hogy hozzászólásunk, véleményünk megjelenjen az adott oldalon.
A Captcha (Completely Automated Public Turing test to tell Computers and Humans Apart) névre keresztelt fejlesztés célja, hogy kizárólag valós személyek regisztráljanak az adott fórumokon, szóljanak hozzá a témákhoz, vagy jelezzék részvételi szándékukat egyes internetes kezdeményezésekben. Most a reCAPTCHA keretében kibővült a program, összekötve kellemest a hasznossal.
A program kialakítói azzal érvelnek, hogy bár az átlag felhasználó alig néhány másodpercet tölt el a regisztráció, vagy a hozzászólás megerősítésével, vagyis a helyes szó, betű- vagy számsor felismerésével, minden egyes nap mintegy 60 millió alkalommal kerül erre sor a világhálón, ami már nem kis szám. Ezt az időt egyéb hasznos tevékenységgel is eltölthetnénk, mintegy kiegészítve az eredeti funkciót valami olyasmivel, ami egyéb kezdeményezések sikerét segíti elő. Éppen ezért a Captcha által megadott kis képecskét egy másodikkal toldják meg, amelyet azonban a számítógép nem tudott felismerni, ezért nekünk kell megadnunk a helyes információt.
Hogy hol jöhet mindez jól? A válasz egyszerű: a könyvek digitalizálásánál, ami manapság szintén automatikusan, többnyire az Optical Character Recognition (OCR) eljárás keretében történik. Itt az algoritmus igyekszik önmagától, minden külső segítség nélkül felismerni a könyvek eredeti nyomtatott szövegét, ám a megoldás nem tökéletes, amit a reCAPTCHA oldalán közzétett példa is jól mutat.
A problémás szavakat, kifejezéseket ezért a megszokott megerősítések mellett jelenítenék meg, vagyis egy kép helyett kettőt kellene felismerünk, igaz továbbra is csak az első szolgálna az eredeti tevékenység megerősítéséül. A másodikat a megfelelő helyre továbbítják és három azonos tartalmú felismerés esetén végleges változatként fogadják el, ezzel gyorsítva, kiegészítve a digitalizálási folyamatot. Az elkészült művek az Internet Archive oldalán kapnak majd helyet, a csoport pedig további archívumok létrehozását tervezi.
Bizonyára mindenki számára ismerős az oldalunkon is alkalmazott, kéretlen üzeneteket terjesztő botok, automaták kiszűrésére alkalmazott megoldás, amelynek keretében rövid szavakat, számsorokat kell felismernünk és helyesen bepötyögnünk ahhoz, hogy hozzászólásunk, véleményünk megjelenjen az adott oldalon.
A Captcha (Completely Automated Public Turing test to tell Computers and Humans Apart) névre keresztelt fejlesztés célja, hogy kizárólag valós személyek regisztráljanak az adott fórumokon, szóljanak hozzá a témákhoz, vagy jelezzék részvételi szándékukat egyes internetes kezdeményezésekben. Most a reCAPTCHA keretében kibővült a program, összekötve kellemest a hasznossal.
A program kialakítói azzal érvelnek, hogy bár az átlag felhasználó alig néhány másodpercet tölt el a regisztráció, vagy a hozzászólás megerősítésével, vagyis a helyes szó, betű- vagy számsor felismerésével, minden egyes nap mintegy 60 millió alkalommal kerül erre sor a világhálón, ami már nem kis szám. Ezt az időt egyéb hasznos tevékenységgel is eltölthetnénk, mintegy kiegészítve az eredeti funkciót valami olyasmivel, ami egyéb kezdeményezések sikerét segíti elő. Éppen ezért a Captcha által megadott kis képecskét egy másodikkal toldják meg, amelyet azonban a számítógép nem tudott felismerni, ezért nekünk kell megadnunk a helyes információt.
Hogy hol jöhet mindez jól? A válasz egyszerű: a könyvek digitalizálásánál, ami manapság szintén automatikusan, többnyire az Optical Character Recognition (OCR) eljárás keretében történik. Itt az algoritmus igyekszik önmagától, minden külső segítség nélkül felismerni a könyvek eredeti nyomtatott szövegét, ám a megoldás nem tökéletes, amit a reCAPTCHA oldalán közzétett példa is jól mutat.
A problémás szavakat, kifejezéseket ezért a megszokott megerősítések mellett jelenítenék meg, vagyis egy kép helyett kettőt kellene felismerünk, igaz továbbra is csak az első szolgálna az eredeti tevékenység megerősítéséül. A másodikat a megfelelő helyre továbbítják és három azonos tartalmú felismerés esetén végleges változatként fogadják el, ezzel gyorsítva, kiegészítve a digitalizálási folyamatot. Az elkészült művek az Internet Archive oldalán kapnak majd helyet, a csoport pedig további archívumok létrehozását tervezi.