Berta Sándor

A rengeteg adat átalakítja a tudományt

A digitális hosszú távú archiválás rengeteg kihívást támaszt. A könyvtárak szerepe átalakult, az információnyújtás helyett a tudományos munkák összegyűjtésére kell koncentrálniuk.

Tony Hey brit fizikus és informatikus a Southamptoni Egyetem professzora, s jelenleg a Microsoft külső kutatásokért felelős alelnöke. A szakember 2001 és 2005 között az e-science brit tudományos program igazgatója volt, majd tavaly év végén kiadta a könyvét, amelynek címe The fourth Paradigm - Data-intensive scientific Discovery. "Maga a negyedik paradigma elnevezés eredetileg Jim Graytől származik, aki kollégám volt a Microsoft Research cégnél és 2007-ben hunyt el. Ő ezzel a fogalommal jelölte a tudományos munka egy új fajtáját, amit adatintenzív kutatásnak is nevezünk. Ennek az a lényege, hogy a természet- és részben a humán tudományokban egyre gyakrabban van dolgunk a szenzorok és a számítógépek által előállított, majd feldolgozott adatokkal."

"Az adatintenzív tudomány kapcsán a Microsoft Research-nél jelenleg egészségügyi szakemberekkel dolgozunk együtt. A HIV ellen pont azért nagyon nehéz megfelelő vakcinát kifejleszteni, mert nagyon gyorsan és előre nem látható módon mutálódik. Mire valaki kifejlesztene egy gyógyszert, addigra a vírus már újra mutálódott és a vakcina hatástalan. Azonban sikerült felderítenünk a vírus gyenge pontjait és ha az emberi immunrendszernél el tudnánk érni, hogy a vírus ezeken a pontokon támadja meg, akkor esélyünk lehetne egy hatékony vakcina kifejlesztésére."


"Az adatintenzív kutatást emellett 2000 óta használják a Sloan Digital Sky Survey programban, amelynek keretében automatikusan átkutatják az eget. Már az első napokban 100 terabyte adat keletkezett, ez jóval több annál, mint amennyit a csillagászat eddigi teljes története során összegyűjtöttek. Egy ilyen projekt teljesen megváltoztatja a tudomány megértésének és használatának módját. A bolygónkon kereken 10 000 profi csillagász van. Még ők sem tudnák ezt a hatalmas adatmennyiséget feldolgozni, éppen ezért publikáljuk az információkat és így bárki részt vehet a kutatásokban. Ilyen módon már számos érdekes felfedezést tettünk" -nyilatkozta Tony Hey.

A brit szakember szerint az egyre nagyobb adattenger komoly problémákat jelent. Ő például Seattle városában lakik, amely egy erősen földrengések által veszélyeztetett környéken fekszik. Pont ezért az elmúlt években egy szenzorhálózatot építettek ki a tengerfenéken és ez a rendszer állandóan továbbítja az új információkat. Azonban nem elegendő csupán ezen adatok összegyűjtése, hanem megfelelően be kell állítani a szenzorokat és ki kell szűrni a zavaró zörejeket, vagyis az információkat elő kell készíteni, hogy hasznosak legyenek a tudósok számára. Éppen ezért számos fájlt meg kell őrizni, amelyekből kiderül, hogy honnan származnak a kapott adatok; változtattak-e rajtuk valamit és ha igen, mit; illetve hogy milyen mérőműszerrel rögzítették őket stb.

"Meggyőződésem, hogy a közeljövőben jelentősen megváltozik a szak- és az egyetemi könyvtárak szerepe. A Southamptoni Egyetem professzoraként és dékánjaként észrevettem, hogy a hallgatóim, ha könyveket vagy tudományos publikációkat akarnak olvasni, csak nagyon ritkán keresik fel a könyvtárat. Ehelyett inkább azért mennek oda, hogy a barátaikkal találkozzanak, ott dolgozzanak, kávét igyanak és mert ott van WLAN-elérés. De szigorúan véve a dolgokat ezekhez a szolgáltatásokhoz nincsen szükség könyvtárra. A bibliotékáknak tehát az online keresők korában más feladatokat kell átvenniük, például a jelenleginél jobban kell foglalkozniuk a tudományos munkák összegyűjtésével és hozzáférhetővé tételével" - hangsúlyozta a brit informatikus.

Tony Hey végül egy példával szemléltette az adattárolás fontosságát, ugyanakkor nehézségeit: a Domesday Book Nagy-Britannia egyik legrégebbi és legfontosabb dokumentuma, amely népszámlálási adatokat tartalmaz és amelyet I. (Hódító) Vilmos készíttetett. Az alkotást a Brit Nemzeti Archívumban őrzik. Az 1980-as években el akarták készíteni a könyv digitális változatát. Nagyon sok időt és energiát fektettek a programba. Az eredeti dokumentumot tudósok és újságírók jegyzeteivel egészítették ki, majd a kész anyagot a DVD elődjén, egy un. Laserdiscen tárolták el.

A BBC mikroszámítógépe egy külön lejátszó segítségével meg tudta jeleníteni a tárolt információkat. Ez egy nagyköltségvetésű projekt volt, de 20 évvel később az egész országban már csak két Laserdisc-olvasó működött, a formátum elavulttá vált és a BBC mikroszámítógépét sem találták sehol. Nagyon bonyolult és drága munka volt az elavult digitális adatok átkonvertálása egy ma használt formátumba. A számítógép-tudományok gyakorlatilag vereséget szenvedtek és ez soha többé nem történhet meg.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • stain #6
    Mondjuk ezt tudom, csak nem akartam magunkról írni :)
  • stain #5
    Azért itt többről van szó, mint könyvekről. Adatbázisokat kell megőrizni a jövőnek, a hozzájuk tartozó szoftverrel együtt úgy, hogy a programok a jövőben is futtathatóak maradjanak, mert azok nélkül az adatok nem érnek semmit. Ez a könyvtárosok számára azért eléggé új területnek számít.
  • kvp #4
    Anno a cikkben leirt informaciogyujto/megorzo feladatra hoztak letre a Szechenyi konyvtarat. Az informacio terjesztesere pedig kersobb a Szabo Ervint. Nem igazan ertem amerikaban miert csak most jonnek ra, hogy ez ket kulon feladat.
  • Dj Faustus #3
    Az SDSS (Sloan Digital Sky Survey)-hez hozzátenném, hogy Magyarországról az ELTE Komplex Rendszerek Fizikája Tanszék foglalkozik a fejlesztésével.

  • stain #2
    Ja, és ha már SDSS, akkor azt is érdemes hozzáfűzni, hogy a csillagászati adatok bárki számára szabadon elérhetőek a skyserver.sdss.org címen. Itt diákok saját maguk valódi kutatást végezhetnek valódi "profi" adatok felhasználásával. A diákok számára kitűzött kutatási témák leírása évek óta magyarul is elérhető ugyanott.
  • stain #1
    Kedves szerkesztők! Sajnálom, hogy a cikkből kimaradt Szalay Sándor (Alex Szalay) neve, aki a Johns Hopkins egyetemen a Sloan Digital Sky Survey adatbázisát építette, és Tony Hay és Jim Gray (volt) jó barátja, az adatintenzív csillagászat és egyéb tudomány egyik legelismertebb tekintélye.