20
-
Epikurosz #20 Distributed Proofreaders:
beszkennelsz egy könyvet, majd beküldöd lektorálásra. Több lépcsőben, önkéntesek ellenőrzik a szöveget.t, majd a könyv bekerül a Gutenberg projektbe.
Szerintem a magyar része még nem igazán működik, valszeg kevés az önkéntes. -
Epikurosz #19 Épp beszkenneltem elég sok oldalt, és FineReaderrel OCR-eztem. A kilencessel. Ez már butális! Lényegében egyetlen hibát sem ejt a bestia, csak ott téved, ahol a papíron valami folt van, vagy gyűrődött. Pedig a könyv betűkészlete nem most volt papírra vetve, hisz kb. 28 éves könyvről van szó. A sorvégeknél található elválasztójelek kiszedését kellett kézileg megoldanom, de szerintem ezt is be lehet állítani valahol. -
#18 ijjjjj -
Epikurosz #17 nem. tudós körökben ezt hívjUk evolúciónak. -
exac #16 na ilyen amikor a hülyeség szorgalommal párosul -
Epikurosz #15 Na, ilyen lett a szkennerem fedőlapjának belseje:
(Apropó, ez is felhasználható háttérképként :-) -
Epikurosz #14 Van egy rossz, egy jó és egy nagyon jó hírem:
Nekiestem a szkenner belső fedelén lévő hófehér kartonlapnak, és filctollal sötétkékre festettem (épp nem volt fekete filcem).
Ilyen lett:
(Akár háttérképnek is beállíthatod! :-)
Hülyeség volt, mert macerás, helyette venni kell egy fekete papírlapot, és felragasztani.
A nagyon jó hírem az, hogy nem kell min. 65k ft-ért dokumentumszkennert venni, mert azoknál a multifunkciós nyomtatóknál, amelyeknél feltüntetik, hogy a szkenner tudja az ADF-et, 20 lapot automatikusan adagol a beolvasó. -
#13 ben gurion véletlenül nem az egyik legbrutálisabb zsidó terrorista volt aki később elnök lett? :D -
Epikurosz #12 A fineReadernek is van szótára.
Jonah:
Nekem tényleg nagy a mellényem.
És igenis ez egy jelentős oldal, mert különben nem jönnél ide. Bummm!
Itt egyébként a hosszú élet titka meleltt tudomást szerezhetsz az ufókról, a következő magyar kormány politikai összetételéről, a relativitás elmélet mellett a húrelméletről és a villanyautóról is.
Ha neked ez nem tetszik, lehet menni a zIndex szemétdombjára.
Én amióta idejárok, a koleszterinszintem csökkent 50 százalékponttal, őszülő hajszálaim visszanyerték serdülőkori színüket, és elmúlt a lábkörömgombám is. -
Jonah #11 Már írtam...
a karakter felismerés viszont más téma mint a feltételvizsgálat. Dehát te okos vagy, biztos ezt is tudod, ha már mindenkit ilyen nagy mellénnyel leosztasz.. én csak erre próbáltalak rávezetni iróniával. De ahogy elnézem, túl komolyra veszed a szereped egy jelentéktelen oldalon.
üdv.
-
kvp #10 "Egy if (x>threshold) feltételvizsgálatot nem neveznék algoritmusnak..."
Pedig errol van szo, annyival kiegeszitve, hogy:
-feher: x>threshold1
-fekete: x<=threshold1 && x>=threshold2
-kerdeses: x<threshold2
ahol threshold1/2-t ugy kell megvalsztani, hogy maximalis kontrasztot kapjunk (akar mind a 256 ertekre vegig lehet probaltatni a programmal es ami a legnagyobb kontrasztot adja az a jo)
A karakterek osszehasonlitasara a mintaillesztes a gyakori, ami gyakorlatilag jopar egymasba agyazott for ciklus, kozepen a minta es a vizsgalt kep pixel kulonbsegeinek szorasnegyzet/szorodas osszegenek minimumat kereso algoritmussal. Ahol ez az osszeg a legkissebb, az a kepreszlet/betu hasonlit legjobban a minta adatbazis adott bejegyzesere. Igy minden betut hasonlosagi valoszinuseg szerint sorba lehet rakni, majd ezek kozzul kell kivalasztani a legvaloszinubbet. (a recognita meg megdobta egy szotarral is, igy a valoszinu betuk kozzul azokat a betuket valasztotta amik legvaloszinubben adtak ertelmes szavakat) -
Epikurosz #9 Te, figyu!
Ha te ilyen okos vagy, akkor miért nem írsz ilyen OCR-t?
A FineReader meg az Omnipage, vagy a Readiris azok ilyen kis for..while ciklusos szubrutinok, mi?
GoldenKéz:
Nekem az a bajom a jelenlegi szkenneremmel, hogy ha kétoldalas nyomatot teszek be, a hátlapon lévő akármi átüt. Tisztára palimpszeszt.
Rájttem, hogy a fedő aljára, amit ráhajtok a szkennelendő lapra, egy fehér papírszerű réteg van rögzítve, amely valamennyire fényáteresztő. A megoldás az, hogy a szekkenelendő lapot egy fekete színű lappal takarom le, nem a fedéllel. Jelenleg egy műanyag jegyzetelőt használok erre.
Az a vicc az egészben, hogy nekem, sima fogyasztónak kell ilyeneket kitalálnom, azok a rohadt tervezők és gyártók erre nem jöttek rá. Mert szerintük mindenki csak egyoldalas nyomato szkennel. A marhák. Tele van amúgy a világ ilyen "szakértőkkel". Kiadnak a kezükből egy terméket, de hogy végig próbálják vele a felhasználó által végzendő feladatokat, arra nem képesek. Ja, ez egy epson szkenner, de a többi sem különb.
Már eldöntöttem, hogy ennek a fehér fedélbélésnek majd egyszer nekiesek, és fekete színűre lefestem.
-
AranyKéz #8 Egyszer szórakoztam avval hogy beszkennelt blokkot próbáltam manipulálni (nagyon kis hatókörű lokális normalizációval ha valakit érdekel) amikor feltűnt hogy valami koszt látok rajta. Hát nem a másik oldalán levő szöveget sikerült kinyernem? :)
-
Jonah #7 persze,
van előtte egy egymásba ágyazott for ciklus :D
De az is lehet, hogy class-ba szervezték és most suliba jár ovi helyett :DDD
üdv.
-
Epikurosz #6 Persze, de ez a programozásban azért több lépésben valósul meg. -
kukacos #5 Egy if (x>threshold) feltételvizsgálatot nem neveznék algoritmusnak... -
matyasp99 #4 Ha a régi és az új pontosan fedik egymást, akkor ugyanazt írták :)
Szerintem a betűk átfedése nem gond, az olyan, mint a halmaz metszete. -
kvp #3 A thresholding azt jelenti, hogy egy adott szurkeseg feletti, alatti vagy ket ertek kozotti tartomanyt veszi figyelembe. A recognita pont ezt tette, egy adott ertek felett vizsgalt, mig ez a szoftver ket adott ertek kozott.
A fedesben levo teruletek ilyenkor feherek (kerdojelesek) maradnak, pont ugy mint amikor hibazik a fax vagy foltot hagy a fenymasolo, esetleg kopott az irogep kalapacsa. Ez egyetlen kulonbseg, hogy itt gyakori ez a fajta hiba. Ezt statisztikai szurokkel lehet korrigalni ahogy a recognita is tette. Ok ezt inpainting-nek hivjak.
A fenti kepbol thresholding-al lehet csinalni egy olyan fekete feher kepet, ami tartalmaz feher (papir), fekete (eredetileg szurke) es kerdojeles terluleteket (eredetileg az ujabb fekete tinta), majd egy statisztikai szurovel meg lehet nezni, hogy az adott irasjelek kepei kozzul melyikre hasonlit legjobban a hianyos betu es ha a hianyzo resz nagyjabol csak a kerdojeles reszre esik, akkor azt nagy bizonyossaggal ki lehet tolteni. Nem nehez feladat, hasonloak adnak kepfeldolgozas szaktargybol laborgyakorlatokon... -
Epikurosz #2 Ez egy specializált OCR szoftver.
Nem hiszem, hogy a Recognita (ma Omnipage) használna ún. tresholding technikát.
A pöttyök eltüntetése nem ugyanez. Itt, ha jól értem, arról van szó, hogy a régi írás haloványabb, mint a későbbi. Nosza, be kell állítani egy olyan tónus vagy ilyesmi küszöbértéket, amely felett a szoftver kiszűri a mintákat, az elmosódottakat pedig meghagyja, és voilá, előbukkan a régi szöveg. De mi történik, ha a régi és az új pontosan fedik egymást? Marad, nem marad? Erre is biztos gondoltak. -
kvp #1 A technologia nagyon regi (meg itthon is tanitjak egyetemen algoritmuselmeletbol), viszont jo latni, hogy vegre hasznaljak is valamire. Szvsz. anno a recognita szovegfelismero hasznalta faxolt es foltosra fenymasolt szovegek feldolgozasahoz.