SG.hu - Fórum - Nyílt formátumra vált a Google Books

Cikk olvasása: Nyílt formátumra vált a Google Books

#10 2009.08.30. 08:49

Világos, csak az már nem automatizálható, emberórák kellenek hozzá. Plusz gyakorság-elemzés sem árt, különben jönnek az olyan felismerési hibák, mint pl. a comer-corner, amellyel sok angol szövegben találkoztam már. Az r és az n majdnem összeolvadása miatt igen gyakori, hogy a corner helyett comer kerül a szövegbe, mert kétség esetén az OCR a szótárban előrébb álló szót alkalmazta, holott a comer önálló szóként olyan ritka, mint a fehér holló - ellentétben a cornerrel.

Válasz 'Epikurosz' üzenetére (#9)

http://magyarorszag21.blog.hu/2009/04/16/p1069869
\"Terrorists may attack the open society, but only governments can abolish it.\" (The Pirate Party)
Epikurosz
#9 2009.08.30. 01:24

A skálázásnak nincs akadálya, mert a 150 dpi-s képeket is jól kezeli.

Az, hogy volt szöveg dögivel, elhiszem, de nem olyan, amit én írtam.
Egyébként, ha van egy csomó szöveged, arra rá lehet ereszteni a helyesírásellenőrzőt, és kiválogatni az összes olyan szót, amelyet a gép nem ismer fel, majd esetleg azt, ami emberi ellenőrzés szerint mégis jó, vissza lehet dobni.

Válasz 'KillerBee' üzenetére (#8)

Kara kánként folytatom tanításom.
#8 2009.08.30. 01:03

Tudom, hogy a 300 dpi a "szabvány" az OCR-nél. A beszkennelt grafikus file fejléce elvileg érvényes felbontási adatot tartalmaz, így a skálázásnak nem lenne akadálya. Bizonyára azért maradnak meg a fejlesztők a 300 dpi mellett, mert a fejlécben lévő felbontás-infó gyakran tényleg csak elvileg érvényes.

Nem hinném, hogy a tiédet használják, egy ilyen program elkészítése pár perces munka bármely adatbázis-kezelőben, szövegek pedig dögivel rendelkezésre állnak. Nagyobb gond az elírások és a helyesírási hibák kiszűrése, nehogy hibás szavak, szóalakok is belekerüljenek az adatbázisba.

Válasz 'Epikurosz' üzenetére (#7)

http://magyarorszag21.blog.hu/2009/04/16/p1069869
\"Terrorists may attack the open society, but only governments can abolish it.\" (The Pirate Party)
Epikurosz
#7 2009.08.29. 18:55

Az OCR esetében a szabvány felbontás 300 dpi volt mindig, és az is marad.
A FineReadernek eleinte nem volt magyar nyelvű szótára, de lehetőséget biztosított, hogy a felhasználó saját szótárat hozzon létre, és azt hozzárendelje az adott nyelvhez. Én évekkel ezelőtt készítettem egy kis progit, amely nagy szövegállományokból szóadatbázist nyert ki (gyakorlatilag adatbázist készített a szövegben szereplő szavakról, majd kidobálta a többszörös előfordulásokat).

Még az is lehet, hogy most azt a szótárt használja a FR, mert én a rendszerem nyitottá tettem a részükre (automatikus visszajelzések stb.)

Kara kánként folytatom tanításom.
#6 2009.08.28. 18:39

Nekem nem volt ilyen problémám, pedig már több könyvet szkenneltem és OCR-eztem. Eleinte Recognitával, majd később Finereaderrel. Úgy rémlik, a Finereadernek is van magyar szótára, mert igen kevés olyan szó volt, amire rákérdezett. Na meg a szótár sem jelent 100%-os megoldást, ha több lehetőség közül kell választani. Korrektúrázni mindenképpen kell.

Nem mindegy, milyen felbontásban szkennel az ember. Én először azt hittem, jobb lesz a 600 dpi, de aztán kiderült, hogy sokkal többet hibázik, mint ha ugyanazt 300 dpi-vel szkennelem be.

Válasz 'Palinko' üzenetére (#4)

http://magyarorszag21.blog.hu/2009/04/16/p1069869
\"Terrorists may attack the open society, but only governments can abolish it.\" (The Pirate Party)
Epikurosz
#5 2009.08.28. 15:38

Az Omnipage-nek van magyar szótára.
Én egy korábbi hsz-emben írtam, hogy a FineReadernek is. Nos, ebben nem vagyok biztos, de nekem van a FineReader alá telepített saját szótár, így ismeri a magyar szavakat is.

Válasz 'Palinko' üzenetére (#4)

Kara kánként folytatom tanításom.
#4 2009.08.28. 15:33

jaja, de remélem lesz valami fejlesztés az OCR ek között, mert nekem magyar nyelvű szöveget, új könyvből, akárhogy is scanneltem nem igazán olvasott be csak rengeteg hibával... na majd meglátjuk.

Válasz 'KillerBee' üzenetére (#2)
gulyasandras

#3 2009.08.28. 15:21

"sokkal szélesebb körhöz jutnak el az írott művek, mint azt korábban megszokhattuk"

Az én környezetemben már alig olvas valaki (a fajsúlyosabb könyveket ne is hozzuk szóba). Bár erre mindig azt a választ szoktam kapni, hogy mindegy mit olvasunk, csak olvassunk. Tényleg mindegy, hogy Danielle Steel vagy Lawrence Durrell?

Ha jól emlékszem több felmérés szerint az olvasás jelentősen visszaszorult más szabadidős tevékenységekhez képest, és nem hiszem, hogy még ilyen fejlett technológiai segítséggel is újra az élre törhetne.

It\'s a definitive role-playing experience, and the only reason it can\'t be called the best game in its class is because in a sense there\'s nothing available that compares to it. /Baldur\'s Gate 2/
#2 2009.08.28. 13:32

Nagyon rokonszenves döntés,

"fotókat készítenek minden egyes oldalról, ezt követően pedig egy speciális eljárással kinyerik a szöveget"

Azt a "speciális eljárást" OCR-nek (optical character recognition) hívják. Ez még messze nem elég a hibátlan szöveghez, mert az OCR-program is hibázik, csak emberi felügyelet (korrektor) mellett célszerű használni. A végén egy proofreading sem árt.

"Az e-olvasó készülékek terjedésével ez még igaz is lehet."

Nélkülük is igaz már régóta.

http://magyarorszag21.blog.hu/2009/04/16/p1069869
\"Terrorists may attack the open society, but only governments can abolish it.\" (The Pirate Party)
moikboy

#1 2009.08.28. 13:15

Nah, akik a sony e-readeres topikban sírtak a pdf-támogatás hiánya miatt, azok most örülhetnek.

Bejelentkezés