Gyurkity Péter

Nyílt formátumra vált a Google Books

A Google online digitális könyvtárában letölthető alkotások ezentúl EPUB formátumban is beszerezhetők lesznek, és bár a cég meghagyja a PDF-változatokat, a hangsúly a nyílt platformon lesz.

A Sony legújabb e-olvasó készülékének bejelentése kapcsán írtunk arról, hogy a cég a jövőben az EPUB formátumban terjeszti majd a gyűjteményében megtalálható alkotásokat. A lépést a külső elemzők is kedvezően fogadták, kiemelve, hogy a Sony hagyományosan erős pozícióra támaszkodhat a nyílt szabványok terén, és ezt most még jobban kihasználhatják majd - a Google szintén valami ilyesmire készül.

A Google Books gyűjteményében eddig PDF formátumban tölthettük le a keresőcég és az Authors Guild megállapodása nyomán elérhetővé vált műveket, amelyek többnyire a Public Domain kategóriába tartoznak. Több mint egymillió alkotásról van itt szó, tehát a döntés, hogy a jövőben az EPUB-másolatok is elérhetővé válnak, meglehetősen fontossá válhat, pláne úgy, hogy folyamatosan bővül a kínálat - legalábbis a cég erre törekszik. Az indoklás szerint ezzel nemcsak a nyílt jelleg mellett foglalnak állást, de biztosítják a kisebb kijelzők megfelelő támogatását, hiszen az EPUB többek között arra is alkalmas, hogy a hordozható készüléken is megfelelő minőségben jelenítse meg a kiválasztott műveket.

A Google egyébként ugyanúgy jut hozzá ezen könyvekhez, mint bárki más, aki befárad a legközelebbi könyvtárba. A különbség csak annyi, hogy ők a kikölcsönzés ideje alatt fotókat készítenek minden egyes oldalról, ezt követően pedig egy speciális eljárással kinyerik a szöveget és azt immár a két támogatott formátumban teszik elérhetővé saját gyűjteményükben. A Public Domain jellegű alkotások esetében ezt minden további nélkül megtehetik, arra azonban még várni kell, hogy a kiadók által erősen védett könyvek millió kerüljenek sorra.

A keresőcég véleménye szerint az online megoldással jóval hamarabb és sokkal szélesebb körhöz jutnak el az írott művek, mint azt korábban megszokhattuk. Az e-olvasó készülékek terjedésével ez még igaz is lehet.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • KillerBee #10
    Világos, csak az már nem automatizálható, emberórák kellenek hozzá. Plusz gyakorság-elemzés sem árt, különben jönnek az olyan felismerési hibák, mint pl. a comer-corner, amellyel sok angol szövegben találkoztam már. Az r és az n majdnem összeolvadása miatt igen gyakori, hogy a corner helyett comer kerül a szövegbe, mert kétség esetén az OCR a szótárban előrébb álló szót alkalmazta, holott a comer önálló szóként olyan ritka, mint a fehér holló - ellentétben a cornerrel.
  • Epikurosz #9
    A skálázásnak nincs akadálya, mert a 150 dpi-s képeket is jól kezeli.

    Az, hogy volt szöveg dögivel, elhiszem, de nem olyan, amit én írtam.
    Egyébként, ha van egy csomó szöveged, arra rá lehet ereszteni a helyesírásellenőrzőt, és kiválogatni az összes olyan szót, amelyet a gép nem ismer fel, majd esetleg azt, ami emberi ellenőrzés szerint mégis jó, vissza lehet dobni.
  • KillerBee #8
    Tudom, hogy a 300 dpi a "szabvány" az OCR-nél. A beszkennelt grafikus file fejléce elvileg érvényes felbontási adatot tartalmaz, így a skálázásnak nem lenne akadálya. Bizonyára azért maradnak meg a fejlesztők a 300 dpi mellett, mert a fejlécben lévő felbontás-infó gyakran tényleg csak elvileg érvényes.

    Nem hinném, hogy a tiédet használják, egy ilyen program elkészítése pár perces munka bármely adatbázis-kezelőben, szövegek pedig dögivel rendelkezésre állnak. Nagyobb gond az elírások és a helyesírási hibák kiszűrése, nehogy hibás szavak, szóalakok is belekerüljenek az adatbázisba.
  • Epikurosz #7
    Az OCR esetében a szabvány felbontás 300 dpi volt mindig, és az is marad.
    A FineReadernek eleinte nem volt magyar nyelvű szótára, de lehetőséget biztosított, hogy a felhasználó saját szótárat hozzon létre, és azt hozzárendelje az adott nyelvhez. Én évekkel ezelőtt készítettem egy kis progit, amely nagy szövegállományokból szóadatbázist nyert ki (gyakorlatilag adatbázist készített a szövegben szereplő szavakról, majd kidobálta a többszörös előfordulásokat).

    Még az is lehet, hogy most azt a szótárt használja a FR, mert én a rendszerem nyitottá tettem a részükre (automatikus visszajelzések stb.)
  • KillerBee #6
    Nekem nem volt ilyen problémám, pedig már több könyvet szkenneltem és OCR-eztem. Eleinte Recognitával, majd később Finereaderrel. Úgy rémlik, a Finereadernek is van magyar szótára, mert igen kevés olyan szó volt, amire rákérdezett. Na meg a szótár sem jelent 100%-os megoldást, ha több lehetőség közül kell választani. Korrektúrázni mindenképpen kell.

    Nem mindegy, milyen felbontásban szkennel az ember. Én először azt hittem, jobb lesz a 600 dpi, de aztán kiderült, hogy sokkal többet hibázik, mint ha ugyanazt 300 dpi-vel szkennelem be.
  • Epikurosz #5
    Az Omnipage-nek van magyar szótára.
    Én egy korábbi hsz-emben írtam, hogy a FineReadernek is. Nos, ebben nem vagyok biztos, de nekem van a FineReader alá telepített saját szótár, így ismeri a magyar szavakat is.
  • Palinko #4
    jaja, de remélem lesz valami fejlesztés az OCR ek között, mert nekem magyar nyelvű szöveget, új könyvből, akárhogy is scanneltem nem igazán olvasott be csak rengeteg hibával... na majd meglátjuk.
  • gulyasandras #3
    "sokkal szélesebb körhöz jutnak el az írott művek, mint azt korábban megszokhattuk"

    Az én környezetemben már alig olvas valaki (a fajsúlyosabb könyveket ne is hozzuk szóba). Bár erre mindig azt a választ szoktam kapni, hogy mindegy mit olvasunk, csak olvassunk. Tényleg mindegy, hogy Danielle Steel vagy Lawrence Durrell?

    Ha jól emlékszem több felmérés szerint az olvasás jelentősen visszaszorult más szabadidős tevékenységekhez képest, és nem hiszem, hogy még ilyen fejlett technológiai segítséggel is újra az élre törhetne.
  • KillerBee #2
    Nagyon rokonszenves döntés,

    "fotókat készítenek minden egyes oldalról, ezt követően pedig egy speciális eljárással kinyerik a szöveget"

    Azt a "speciális eljárást" OCR-nek (optical character recognition) hívják. Ez még messze nem elég a hibátlan szöveghez, mert az OCR-program is hibázik, csak emberi felügyelet (korrektor) mellett célszerű használni. A végén egy proofreading sem árt.

    "Az e-olvasó készülékek terjedésével ez még igaz is lehet."

    Nélkülük is igaz már régóta.
  • moikboy #1
    Nah, akik a sony e-readeres topikban sírtak a pdf-támogatás hiánya miatt, azok most örülhetnek.