SG.hu·2007. május 29.

reCAPTCHA: tartsd távol a spamet, segítsd a könyvdigitalizálást

A reCAPTCHA projekt elindítói két eltérő területet kötnének össze, a felhasználók néhány szabad másodpercének lefoglalásával. A spam kiszűrésére használt rövid képfelismerést problémás szavakkal egészítik ki, amelyek felismerése a mi feladatunk.

Bizonyára mindenki számára ismerős az oldalunkon is alkalmazott, kéretlen üzeneteket terjesztő botok, automaták kiszűrésére alkalmazott megoldás, amelynek keretében rövid szavakat, számsorokat kell felismernünk és helyesen bepötyögnünk ahhoz, hogy hozzászólásunk, véleményünk megjelenjen az adott oldalon.

A Captcha (Completely Automated Public Turing test to tell Computers and Humans Apart) névre keresztelt fejlesztés célja, hogy kizárólag valós személyek regisztráljanak az adott fórumokon, szóljanak hozzá a témákhoz, vagy jelezzék részvételi szándékukat egyes internetes kezdeményezésekben. Most a reCAPTCHA keretében kibővült a program, összekötve kellemest a hasznossal.

A program kialakítói azzal érvelnek, hogy bár az átlag felhasználó alig néhány másodpercet tölt el a regisztráció, vagy a hozzászólás megerősítésével, vagyis a helyes szó, betű- vagy számsor felismerésével, minden egyes nap mintegy 60 millió alkalommal kerül erre sor a világhálón, ami már nem kis szám. Ezt az időt egyéb hasznos tevékenységgel is eltölthetnénk, mintegy kiegészítve az eredeti funkciót valami olyasmivel, ami egyéb kezdeményezések sikerét segíti elő. Éppen ezért a Captcha által megadott kis képecskét egy másodikkal toldják meg, amelyet azonban a számítógép nem tudott felismerni, ezért nekünk kell megadnunk a helyes információt.

Hogy hol jöhet mindez jól? A válasz egyszerű: a könyvek digitalizálásánál, ami manapság szintén automatikusan, többnyire az Optical Character Recognition (OCR) eljárás keretében történik. Itt az algoritmus igyekszik önmagától, minden külső segítség nélkül felismerni a könyvek eredeti nyomtatott szövegét, ám a megoldás nem tökéletes, amit a reCAPTCHA oldalán közzétett példa is jól mutat.

A problémás szavakat, kifejezéseket ezért a megszokott megerősítések mellett jelenítenék meg, vagyis egy kép helyett kettőt kellene felismerünk, igaz továbbra is csak az első szolgálna az eredeti tevékenység megerősítéséül. A másodikat a megfelelő helyre továbbítják és három azonos tartalmú felismerés esetén végleges változatként fogadják el, ezzel gyorsítva, kiegészítve a digitalizálási folyamatot. Az elkészült művek az Internet Archive oldalán kapnak majd helyet, a csoport pedig további archívumok létrehozását tervezi.

Kapcsolódó cikkek és linkek

Az Amazon leállítja a régi Kindle készülékek támogatását Az Internet Archive túlélt két szerzői jogi pert, de félmillió könyvet veszített Cory Doctorow szavakból kovácsolt fegyvert a nagy technológiai cégek ellen Az MI zűrzavart kelt a fanfiction-ök világában Az Amazon eltünteti a könyvek számítógépre történő letöltésének funkcióját Négy új Kindle olvasót jelentett be az Amazon, köztük az első színes verziót Elveszítjük digitális történelmünket Nem kölcsönözhet online könyveket az Internet Archive

Hozzászólások

Jelentkezz be a hozzászóláshoz.

Aki ezt nem érti annak mondok egy egyszerûbb példát, a felirat grebbelését DVD-rõl. Na errõl már tudja minden PC-Guru h mirõl van szó... a felirat ugyanis kép formátumban jelenik meg a dvdn, és ha le akarjuk szedni egy arra való progival akkor elõször meg kell tanítani "olvasni" a progit, és a tizedik feliratnál már erõteljesen érezni a lendületet ahogy egyre gyorsabban ismeri fel az újabb feliratokat mivel egyre több ismerõs betûvel találkozik, de néha megakad és teljes szavakat v mondatokat kell begépelnünk pl azért mert félrecsúszott valamerre a kép és máshol látja a határokat v egyszerûen csak pixeles a kép.
Ez könyveknél is így megy, csak ott óriási mennyiségben és a cikkben említett program ezentúl nem kéri h írjuk be a fel nem ismert szavakat hanem automatikusan külön gyûjti õket és megjeleníti a szavakat egy reglapon, pl ha regisztrál vki akkor csak pár másodperccel többet kell gépelnie, a könyveket digitalizáló emberek helyett akiknek rengeteg plusz munkaóra minden apróság kijavítása. Itt máris több millió felhasználóra osztják szét a munkát és ezért külön-külön csak kis idõt fog elvenni mindenkitõl.

nincs idõm mindent Lolvasni, erre az oldalra kb 1 percem volt 😉
3 azonos találat? akkor valszeg többet kell kitölteni, hisz az elsõ 2-vel még nem tud dönteni.. sok embernek nics ideje ennyit szarakodni 😊

akarom mondani f-betûs szót

már látom h mindenki azt a bizonyos f-betût fogja beírni már csak poénból is. vagy csak simán asdf.

Hát úgy, ahogy ez a naaaaaaaaaaaaagyon hosszú cikk is írja. Ha három azonos találat érkezik, akkor elfogadja véglegesnek. A botok meg ritkán tévednek hárman egyformát.

Amúgy miért nem olvasod el? Sokkal rövidebb, mint a Harry Potter, és sokkal érdekesebb, mint a haverjaid csupa kisbetûs, agyon rövidített sms-ei. Esetleg az anyanyelveden való írás-olvasási képességeddel vannak nehézségeid? Mert akkor a könyvtár téma nagyon személyesen érinthet.

bocs h nem olvasom L a cikket, de hogyan szûri így ki a rendszer, h 1 bot "ütött a hasára", v 1 ember télleg eltalálja a szót??

Annyi, hogy sokmillió embert lehet így bevonni a könyvtárdigitalizálási projektekbe. Amelyik szót nem tudja felismerni az automata könyvdigitalizáló gépek szövegfelismerõ rendszere, azt berakják egy adatbázisba, abból válogat a CAPTCHA rendszere, kiajánlja egy éppen valahova regisztrálni kívánó emberkének, az beírja hogy milyen betüket lát a képen, meggyorsítva azt, hogy a könyvtárak anyagai a neten is elérhetõek legyenek.

Szerintem is meglehetõsen körülményes a cikk. Persze lehet, hogy az eredeti is ilyen. Egyébként nem sikerült levágnom, hogy mi a fõ vonulata ennek az egész mutatványnak.

Ha neked félóráig tart hogy elolvasd ezt a pár mondatot, akkor nem a cikkel van a baj 😊

Was? Miért nem lehet egy bekezdést arra áldozni, hogy EGYÉRTELMÛEN le legyen írva, mi a program funkciója? Így tulajdonképpen az egész cikk értelmezhetetlen, és az emberek 99%-ának nincs kedve fél órát bogarászni, mire kiveszi a lényeget...