Berta Sándor
A rengeteg adat átalakítja a tudományt
A digitális hosszú távú archiválás rengeteg kihívást támaszt. A könyvtárak szerepe átalakult, az információnyújtás helyett a tudományos munkák összegyűjtésére kell koncentrálniuk.
Tony Hey brit fizikus és informatikus a Southamptoni Egyetem professzora, s jelenleg a Microsoft külső kutatásokért felelős alelnöke. A szakember 2001 és 2005 között az e-science brit tudományos program igazgatója volt, majd tavaly év végén kiadta a könyvét, amelynek címe The fourth Paradigm - Data-intensive scientific Discovery. "Maga a negyedik paradigma elnevezés eredetileg Jim Graytől származik, aki kollégám volt a Microsoft Research cégnél és 2007-ben hunyt el. Ő ezzel a fogalommal jelölte a tudományos munka egy új fajtáját, amit adatintenzív kutatásnak is nevezünk. Ennek az a lényege, hogy a természet- és részben a humán tudományokban egyre gyakrabban van dolgunk a szenzorok és a számítógépek által előállított, majd feldolgozott adatokkal."
"Az adatintenzív tudomány kapcsán a Microsoft Research-nél jelenleg egészségügyi szakemberekkel dolgozunk együtt. A HIV ellen pont azért nagyon nehéz megfelelő vakcinát kifejleszteni, mert nagyon gyorsan és előre nem látható módon mutálódik. Mire valaki kifejlesztene egy gyógyszert, addigra a vírus már újra mutálódott és a vakcina hatástalan. Azonban sikerült felderítenünk a vírus gyenge pontjait és ha az emberi immunrendszernél el tudnánk érni, hogy a vírus ezeken a pontokon támadja meg, akkor esélyünk lehetne egy hatékony vakcina kifejlesztésére."
"Az adatintenzív kutatást emellett 2000 óta használják a Sloan Digital Sky Survey programban, amelynek keretében automatikusan átkutatják az eget. Már az első napokban 100 terabyte adat keletkezett, ez jóval több annál, mint amennyit a csillagászat eddigi teljes története során összegyűjtöttek. Egy ilyen projekt teljesen megváltoztatja a tudomány megértésének és használatának módját. A bolygónkon kereken 10 000 profi csillagász van. Még ők sem tudnák ezt a hatalmas adatmennyiséget feldolgozni, éppen ezért publikáljuk az információkat és így bárki részt vehet a kutatásokban. Ilyen módon már számos érdekes felfedezést tettünk" -nyilatkozta Tony Hey.
A brit szakember szerint az egyre nagyobb adattenger komoly problémákat jelent. Ő például Seattle városában lakik, amely egy erősen földrengések által veszélyeztetett környéken fekszik. Pont ezért az elmúlt években egy szenzorhálózatot építettek ki a tengerfenéken és ez a rendszer állandóan továbbítja az új információkat. Azonban nem elegendő csupán ezen adatok összegyűjtése, hanem megfelelően be kell állítani a szenzorokat és ki kell szűrni a zavaró zörejeket, vagyis az információkat elő kell készíteni, hogy hasznosak legyenek a tudósok számára. Éppen ezért számos fájlt meg kell őrizni, amelyekből kiderül, hogy honnan származnak a kapott adatok; változtattak-e rajtuk valamit és ha igen, mit; illetve hogy milyen mérőműszerrel rögzítették őket stb.
"Meggyőződésem, hogy a közeljövőben jelentősen megváltozik a szak- és az egyetemi könyvtárak szerepe. A Southamptoni Egyetem professzoraként és dékánjaként észrevettem, hogy a hallgatóim, ha könyveket vagy tudományos publikációkat akarnak olvasni, csak nagyon ritkán keresik fel a könyvtárat. Ehelyett inkább azért mennek oda, hogy a barátaikkal találkozzanak, ott dolgozzanak, kávét igyanak és mert ott van WLAN-elérés. De szigorúan véve a dolgokat ezekhez a szolgáltatásokhoz nincsen szükség könyvtárra. A bibliotékáknak tehát az online keresők korában más feladatokat kell átvenniük, például a jelenleginél jobban kell foglalkozniuk a tudományos munkák összegyűjtésével és hozzáférhetővé tételével" - hangsúlyozta a brit informatikus.
Tony Hey végül egy példával szemléltette az adattárolás fontosságát, ugyanakkor nehézségeit: a Domesday Book Nagy-Britannia egyik legrégebbi és legfontosabb dokumentuma, amely népszámlálási adatokat tartalmaz és amelyet I. (Hódító) Vilmos készíttetett. Az alkotást a Brit Nemzeti Archívumban őrzik. Az 1980-as években el akarták készíteni a könyv digitális változatát. Nagyon sok időt és energiát fektettek a programba. Az eredeti dokumentumot tudósok és újságírók jegyzeteivel egészítették ki, majd a kész anyagot a DVD elődjén, egy un. Laserdiscen tárolták el.
A BBC mikroszámítógépe egy külön lejátszó segítségével meg tudta jeleníteni a tárolt információkat. Ez egy nagyköltségvetésű projekt volt, de 20 évvel később az egész országban már csak két Laserdisc-olvasó működött, a formátum elavulttá vált és a BBC mikroszámítógépét sem találták sehol. Nagyon bonyolult és drága munka volt az elavult digitális adatok átkonvertálása egy ma használt formátumba. A számítógép-tudományok gyakorlatilag vereséget szenvedtek és ez soha többé nem történhet meg.
Tony Hey brit fizikus és informatikus a Southamptoni Egyetem professzora, s jelenleg a Microsoft külső kutatásokért felelős alelnöke. A szakember 2001 és 2005 között az e-science brit tudományos program igazgatója volt, majd tavaly év végén kiadta a könyvét, amelynek címe The fourth Paradigm - Data-intensive scientific Discovery. "Maga a negyedik paradigma elnevezés eredetileg Jim Graytől származik, aki kollégám volt a Microsoft Research cégnél és 2007-ben hunyt el. Ő ezzel a fogalommal jelölte a tudományos munka egy új fajtáját, amit adatintenzív kutatásnak is nevezünk. Ennek az a lényege, hogy a természet- és részben a humán tudományokban egyre gyakrabban van dolgunk a szenzorok és a számítógépek által előállított, majd feldolgozott adatokkal."
"Az adatintenzív tudomány kapcsán a Microsoft Research-nél jelenleg egészségügyi szakemberekkel dolgozunk együtt. A HIV ellen pont azért nagyon nehéz megfelelő vakcinát kifejleszteni, mert nagyon gyorsan és előre nem látható módon mutálódik. Mire valaki kifejlesztene egy gyógyszert, addigra a vírus már újra mutálódott és a vakcina hatástalan. Azonban sikerült felderítenünk a vírus gyenge pontjait és ha az emberi immunrendszernél el tudnánk érni, hogy a vírus ezeken a pontokon támadja meg, akkor esélyünk lehetne egy hatékony vakcina kifejlesztésére."
"Az adatintenzív kutatást emellett 2000 óta használják a Sloan Digital Sky Survey programban, amelynek keretében automatikusan átkutatják az eget. Már az első napokban 100 terabyte adat keletkezett, ez jóval több annál, mint amennyit a csillagászat eddigi teljes története során összegyűjtöttek. Egy ilyen projekt teljesen megváltoztatja a tudomány megértésének és használatának módját. A bolygónkon kereken 10 000 profi csillagász van. Még ők sem tudnák ezt a hatalmas adatmennyiséget feldolgozni, éppen ezért publikáljuk az információkat és így bárki részt vehet a kutatásokban. Ilyen módon már számos érdekes felfedezést tettünk" -nyilatkozta Tony Hey.
A brit szakember szerint az egyre nagyobb adattenger komoly problémákat jelent. Ő például Seattle városában lakik, amely egy erősen földrengések által veszélyeztetett környéken fekszik. Pont ezért az elmúlt években egy szenzorhálózatot építettek ki a tengerfenéken és ez a rendszer állandóan továbbítja az új információkat. Azonban nem elegendő csupán ezen adatok összegyűjtése, hanem megfelelően be kell állítani a szenzorokat és ki kell szűrni a zavaró zörejeket, vagyis az információkat elő kell készíteni, hogy hasznosak legyenek a tudósok számára. Éppen ezért számos fájlt meg kell őrizni, amelyekből kiderül, hogy honnan származnak a kapott adatok; változtattak-e rajtuk valamit és ha igen, mit; illetve hogy milyen mérőműszerrel rögzítették őket stb.
"Meggyőződésem, hogy a közeljövőben jelentősen megváltozik a szak- és az egyetemi könyvtárak szerepe. A Southamptoni Egyetem professzoraként és dékánjaként észrevettem, hogy a hallgatóim, ha könyveket vagy tudományos publikációkat akarnak olvasni, csak nagyon ritkán keresik fel a könyvtárat. Ehelyett inkább azért mennek oda, hogy a barátaikkal találkozzanak, ott dolgozzanak, kávét igyanak és mert ott van WLAN-elérés. De szigorúan véve a dolgokat ezekhez a szolgáltatásokhoz nincsen szükség könyvtárra. A bibliotékáknak tehát az online keresők korában más feladatokat kell átvenniük, például a jelenleginél jobban kell foglalkozniuk a tudományos munkák összegyűjtésével és hozzáférhetővé tételével" - hangsúlyozta a brit informatikus.
Tony Hey végül egy példával szemléltette az adattárolás fontosságát, ugyanakkor nehézségeit: a Domesday Book Nagy-Britannia egyik legrégebbi és legfontosabb dokumentuma, amely népszámlálási adatokat tartalmaz és amelyet I. (Hódító) Vilmos készíttetett. Az alkotást a Brit Nemzeti Archívumban őrzik. Az 1980-as években el akarták készíteni a könyv digitális változatát. Nagyon sok időt és energiát fektettek a programba. Az eredeti dokumentumot tudósok és újságírók jegyzeteivel egészítették ki, majd a kész anyagot a DVD elődjén, egy un. Laserdiscen tárolták el.
A BBC mikroszámítógépe egy külön lejátszó segítségével meg tudta jeleníteni a tárolt információkat. Ez egy nagyköltségvetésű projekt volt, de 20 évvel később az egész országban már csak két Laserdisc-olvasó működött, a formátum elavulttá vált és a BBC mikroszámítógépét sem találták sehol. Nagyon bonyolult és drága munka volt az elavult digitális adatok átkonvertálása egy ma használt formátumba. A számítógép-tudományok gyakorlatilag vereséget szenvedtek és ez soha többé nem történhet meg.