Gyurkity Péter

reCAPTCHA: tartsd távol a spamet, segítsd a könyvdigitalizálást

A reCAPTCHA projekt elindítói két eltérő területet kötnének össze, a felhasználók néhány szabad másodpercének lefoglalásával. A spam kiszűrésére használt rövid képfelismerést problémás szavakkal egészítik ki, amelyek felismerése a mi feladatunk.

Bizonyára mindenki számára ismerős az oldalunkon is alkalmazott, kéretlen üzeneteket terjesztő botok, automaták kiszűrésére alkalmazott megoldás, amelynek keretében rövid szavakat, számsorokat kell felismernünk és helyesen bepötyögnünk ahhoz, hogy hozzászólásunk, véleményünk megjelenjen az adott oldalon.

A Captcha (Completely Automated Public Turing test to tell Computers and Humans Apart) névre keresztelt fejlesztés célja, hogy kizárólag valós személyek regisztráljanak az adott fórumokon, szóljanak hozzá a témákhoz, vagy jelezzék részvételi szándékukat egyes internetes kezdeményezésekben. Most a reCAPTCHA keretében kibővült a program, összekötve kellemest a hasznossal.

A program kialakítói azzal érvelnek, hogy bár az átlag felhasználó alig néhány másodpercet tölt el a regisztráció, vagy a hozzászólás megerősítésével, vagyis a helyes szó, betű- vagy számsor felismerésével, minden egyes nap mintegy 60 millió alkalommal kerül erre sor a világhálón, ami már nem kis szám. Ezt az időt egyéb hasznos tevékenységgel is eltölthetnénk, mintegy kiegészítve az eredeti funkciót valami olyasmivel, ami egyéb kezdeményezések sikerét segíti elő. Éppen ezért a Captcha által megadott kis képecskét egy másodikkal toldják meg, amelyet azonban a számítógép nem tudott felismerni, ezért nekünk kell megadnunk a helyes információt.

Hogy hol jöhet mindez jól? A válasz egyszerű: a könyvek digitalizálásánál, ami manapság szintén automatikusan, többnyire az Optical Character Recognition (OCR) eljárás keretében történik. Itt az algoritmus igyekszik önmagától, minden külső segítség nélkül felismerni a könyvek eredeti nyomtatott szövegét, ám a megoldás nem tökéletes, amit a reCAPTCHA oldalán közzétett példa is jól mutat.

A problémás szavakat, kifejezéseket ezért a megszokott megerősítések mellett jelenítenék meg, vagyis egy kép helyett kettőt kellene felismerünk, igaz továbbra is csak az első szolgálna az eredeti tevékenység megerősítéséül. A másodikat a megfelelő helyre továbbítják és három azonos tartalmú felismerés esetén végleges változatként fogadják el, ezzel gyorsítva, kiegészítve a digitalizálási folyamatot. Az elkészült művek az Internet Archive oldalán kapnak majd helyet, a csoport pedig további archívumok létrehozását tervezi.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • stremix #10
    Aki ezt nem érti annak mondok egy egyszerűbb példát, a felirat grebbelését DVD-ről. Na erről már tudja minden PC-Guru h miről van szó... a felirat ugyanis kép formátumban jelenik meg a dvdn, és ha le akarjuk szedni egy arra való progival akkor először meg kell tanítani "olvasni" a progit, és a tizedik feliratnál már erőteljesen érezni a lendületet ahogy egyre gyorsabban ismeri fel az újabb feliratokat mivel egyre több ismerős betűvel találkozik, de néha megakad és teljes szavakat v mondatokat kell begépelnünk pl azért mert félrecsúszott valamerre a kép és máshol látja a határokat v egyszerűen csak pixeles a kép.
    Ez könyveknél is így megy, csak ott óriási mennyiségben és a cikkben említett program ezentúl nem kéri h írjuk be a fel nem ismert szavakat hanem automatikusan külön gyűjti őket és megjeleníti a szavakat egy reglapon, pl ha regisztrál vki akkor csak pár másodperccel többet kell gépelnie, a könyveket digitalizáló emberek helyett akiknek rengeteg plusz munkaóra minden apróság kijavítása. Itt máris több millió felhasználóra osztják szét a munkát és ezért külön-külön csak kis időt fog elvenni mindenkitől.
  • Tetsuo #9
    nincs időm mindent Lolvasni, erre az oldalra kb 1 percem volt ;)
    3 azonos találat? akkor valszeg többet kell kitölteni, hisz az első 2-vel még nem tud dönteni.. sok embernek nics ideje ennyit szarakodni :)
  • Myron #8
    akarom mondani f-betűs szót
  • Myron #7
    már látom h mindenki azt a bizonyos f-betűt fogja beírni már csak poénból is. vagy csak simán asdf.
  • kiisb #6
    Hát úgy, ahogy ez a naaaaaaaaaaaaagyon hosszú cikk is írja. Ha három azonos találat érkezik, akkor elfogadja véglegesnek. A botok meg ritkán tévednek hárman egyformát.

    Amúgy miért nem olvasod el? Sokkal rövidebb, mint a Harry Potter, és sokkal érdekesebb, mint a haverjaid csupa kisbetűs, agyon rövidített sms-ei. Esetleg az anyanyelveden való írás-olvasási képességeddel vannak nehézségeid? Mert akkor a könyvtár téma nagyon személyesen érinthet.
  • Tetsuo #5
    bocs h nem olvasom L a cikket, de hogyan szűri így ki a rendszer, h 1 bot "ütött a hasára", v 1 ember télleg eltalálja a szót??
  • Cat #4
    Annyi, hogy sokmillió embert lehet így bevonni a könyvtárdigitalizálási projektekbe. Amelyik szót nem tudja felismerni az automata könyvdigitalizáló gépek szövegfelismerő rendszere, azt berakják egy adatbázisba, abból válogat a CAPTCHA rendszere, kiajánlja egy éppen valahova regisztrálni kívánó emberkének, az beírja hogy milyen betüket lát a képen, meggyorsítva azt, hogy a könyvtárak anyagai a neten is elérhetőek legyenek.
  • TheZsenyka #3
    Szerintem is meglehetősen körülményes a cikk. Persze lehet, hogy az eredeti is ilyen. Egyébként nem sikerült levágnom, hogy mi a fő vonulata ennek az egész mutatványnak.
  • Cat #2
    Ha neked félóráig tart hogy elolvasd ezt a pár mondatot, akkor nem a cikkel van a baj :)
  • csorfab #1
    Was? Miért nem lehet egy bekezdést arra áldozni, hogy EGYÉRTELMŰEN le legyen írva, mi a program funkciója? Így tulajdonképpen az egész cikk értelmezhetetlen, és az emberek 99%-ának nincs kedve fél órát bogarászni, mire kiveszi a lényeget...