Sg.hu - Archiválás DNS-ben

2013. január 27. 7:38, vasárnap

Hunter

Archiválás DNS-ben

Az ötlet nem új, a DNS alapvetően eddig is információt tárolt a genomok formájában, az Európai Bioinformatikai Intézet (EBI) kutatói azonban megpróbálták saját igényeik szerint működésre bírni.

Az adatok mennyisége gyorsabban nő, mint a tárolásukhoz használt merevlemezek kapacitása, különösen igaz ez az EBI genetikai adatállományára. "Ez azt jelenti, hogy a tárolás költségei emelkednek, miközben saját költségvetésünk stagnál" - magyarázta Dr. Nick Goldman, az EBI munkatársa, aki kollégájával, Ewan Birney-vel azon elmélkedett, vajon a mesterségesen előállított DNS megoldást jelenthet-e a természetes DNS-einkből származó adatáradat tárolására. A párosnak sikerült kidolgozni egy működőképesnek tűnő sémát, majd némi módosítgatás és egy sikeres próba után a Nature szaklapban publikálták eredményeiket.

Goldman megoldása több tekintetben is figyelemre méltó. Csapatával rekord mennyiségű, 739,3 kilobájt egyedi információt sikerült kódolnia, a rendszert azonban ennél sokkal nagyobb mennyiségre tervezték. A kutatók szerint könnyedén elnyelheti azt a körülbelül 3 zettabájt (egy zettabájt 10²¹ bájt) digitális adatot, ami jelenleg a világon létezik, és még bőven marad hely további adatmennyiség tárolására is. Mindezt közel 2,2 petabájt (10¹⁵) grammonkénti sűrűséggel oldják meg, így a világ teljes digitális információhalmaza felférne egy teherautó platójára. Mindezek mellett az új módszer drasztikusan csökkenti az eddigi DNS adattárolás másolási hibáit, az archivált anyag pedig évezredeken át fennmaradhat a DNS-ben, ellentétben a mágneses adathordozókkal.

A módszer hatékonysága abban a megoldásban rejlik, amivel a kutatók átalakítják fájljaikat a merevlemezekről. A DNS négy kémiai bázist használ - adenint (A), timint (T) citozint (C) és guanint (G) - az információ kódolásához. A korábbi kísérletek általában közvetlenül próbálták átalakítani a bináris adattárolás egyeseit és nulláit ezekbe a bázisokba, így például az A ás C jelentette a nullát, míg a G és T az egyet. A bázisok ismétlődése azonban hibás visszaolvasásokat eredményezett.

A csapat a bináris számítógépes információkat hármas számrendszerbe alakítja (0,1 és 2), és ezután kódolja az adatokat a DNS-be. Az adott szám és az adott bázis közvetlen kapcsolata helyett a kódolási séma azon múlik, hogy melyik bázist használták legutoljára (lásd a képen). Például ha az előző bázis A volt, akkor egy kettest a T fog megtestesíteni, azonban ha az előző bázis G volt, akkor a kettest a C képviseli. A behelyettesítési szabály biztosítja, hogy egy azonos számokból álló sorozat az adatokban ne a DNS azonos bázisainak szekvenciájában jelenjenek meg, így kiküszöböli a hibákat.

A kódot ezután mesterséges DNS-be táplálják. A legegyszerűbb megoldás egy-egy hosszú DNS szál szintetizálása lenne minden tárolandó fájl számára. A DNS szintetizáló gépek azonban még nem képesek erre, ezért a kutatók úgy döntöttek, hogy fájljaikat több ezer különálló részre darabolják, melyek mindegyike 117 bázis hosszúságú. Ezekben a darabokban 100 bázis áll magának a tárolandó adatnak a rendelkezésére, a maradékot pedig az indexelésre fordítják, ami megmondja hová tartozik az adott darab a teljes állományban. A folyamat magába foglalja a hibajelző "paritásbit" DNS megfelelőjét is.

A még nagyobb hibatűrés érdekében a kutatók úgy alkották meg a darabokat, hogy némi átfedés legyen közöttük, ezáltal egy 100 bázisos darab 25 bázisa a DNS három másik darabjában is jelen van, tehát ha bármilyen másolási hiba jelentkezik egy adott darabban, akkor összehasonlítható három másolatával és a többség elve alapján eldönthető, melyik a helyes. A darabok visszaolvasása egy szabványos kémiai reakcióval megoldható egy DNS-szekvenáló gépben.

A tesztelésnél a módszer majdnem terv szerint működött. A kutatóknak sikerült öt számítógép fájlt be- és kikódolniuk, köztük Martin Luther King beszédének egy MP3-ba kódolt részletét, valamint Francis Crick és James Watson 1953-ban a DNS szerkezetéről publikált írásának PDF változatát. Az összes elővigyázatosság ellenére azonban két 25 bázisos DNS szegmens eltűnt a PDF fájl esetében. A problémát részben a DNS kémiájának, részben a szintézist végző gépeknek tulajdonítják. Goldman biztos benne, hogy a kódolás finomra hangolásával a jövőben elkerülhetővé válik ez a probléma.

Az DNS-ben történő adattárolásnak mindenesetre vannak hátulütői is. Az egyik az adatok visszaolvasásának viszonylag lassú sebessége. A kutatóknak két hetükbe került az öt fájl rekonstruálása, bár jobb felszereléssel állításuk szerint mindez egy nap alatt megoldható. Valljuk be, ez sem túl biztató, bár több szekvenáló géppel a folyamat felgyorsítható lenne. Az egész kutatás iróniája, hogy a módszer pont arra a célra nem alkalmazható, amire az EBI-nek szüksége lenne, a hatalmas genom adatmennyiség interneten való elérhetővé tételére, ugyanakkor kevésbé gyakran használt archívumoknál ez nem jelentene problémát. Ilyen lehetne a CERN, ami hatalmas archívummal rendelkezik a különböző részecskefizikai kísérletek adataiból.

Nem beszéltünk még a költségekről, melyek szintén nem túl biztatóak a módszer jelenlegi állapotában. Goldman becslései szerint megoldásukkal egy megabájt tárolása körülbelül 12.400 dollárba kerülne, ami több milliószorosa ugyanennyi adatmennyiség mágneses szalagra írásának. Azt sem szabad ugyanakkor elfelejteni, hogy a mágneses szalagokat néhány év elteltével cserélni kell, míg a DNS évezredeken át olvasható marad, amennyiben megfelelő hőmérsékleten, naptól védett száraz helyen tárolják, ezért minél hosszabb távra szól egy adott adathalmaz tárolása, annál vonzóbbá válhat a DNS. Mindemellett a DNS szintetizálás költségei is igen gyors ütemben csökkennek, a kutatók szerint egy évtizeden belül versenyképessé válhatnak a ritkán használt archívumoknál alkalmazott módszerekkel szemben.

Van még egy nagyon fontos előnye a DNS-nek. A modern digitális tárolási technológiák jönnek és mennek, vegyük csak a lézer lemez példáját. A 2000-es évek elején a NASA kénytelen volt végigböngészni az internetes árveréseket, hogy hozzájusson néhány ódivatú nyolccolos floppy meghajtóhoz az 1960-as - '70-es évek adatainak visszanyeréséhez, míg a DNS több mint 3 milliárd éve létezik, így amíg létezik az élet - és a biológusok - addig valaki mindig lesz, aki olvasni tudja majd a DNS-ben tárolt adatokat.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)

qrd0xQSt2rdvnu #59 2013.02.01. 18:04

Úgy érzem nagyobb a porhintés, mint a felfedezés.
Felfedezés: sikerült egy DNS visszaolvasási problémát megoldani
Porhintés: a DNS megbizható adattárolás hosszú távra, hatalmas mennyiségeket tudunk majd tárolni kis helyen stb.
Kérdésem: mégis hogyan fogunk keresni benne? hogyan fogjuk megcímezni, hogy mit akarunk kiolvasni? És mi az, hogy stabil tárolás? Egy kis radioaktív sugárzás és már tönkre is ment. Azt írja a cikk, hogy megfelelő hőmérséklet/páratartalom/napfénytől védés stb. Ja, ha megfelelően védjük, akkor más tárolási eljárások is képesek nagy mennyiséget sokáig eltárolni.
Tetsuo #58 2013.01.31. 13:42

A baj az, hogy mérnök lehetsz úgy, hogy fingod sincs, mi az, hogy ötlet.
"Ezért tart itt ez az ország..." :)

Válasz 'Molnibalage' üzenetére (#46)

https://www.youtube.com/shorts/zECTF2H8Jp8
kvp #57 2013.01.29. 15:45

"A mágneses és elektronikus tárolók viszont maguktól elfelejtik az adatot."
"Mindez az adat 2x10 nanométeren..."

A femlapra gravirozott binaris adat mindkettot tudja, akar a dns-hez hasonlo adatsuruseggel, de a femracs miatt sokkal jobb sugarzasallosaggal es a fuggoleges tobbatomos szerkezet miatt magasabb redundanciaval. Es nem korlatozott a blokkok cimezhetosege, mint a cikkben leirt dns-es megoldasnak. Ugyanis ha tobb bitet hasznalnak a dns-bol akkor kicsi lesz az adatok aranya, ha viszont hosszabb dns darabokat, akkor meg nagyobb a serules (tores) eselye. A femlap ellenben viszonylag jol skalazhato es termeszetebol adodoan sokkal stabilabb anyag is. (pl. nem bomlik le magatol olyan konnyen, mint a dns) A visszaolvasas relativ egyszerusegerol nem is beszelve. Persze lehet akar kristalyracsot is hasznalni, a lenyeg hogy a dns egy nagyon torekeny tarolo es ha nem elo szervezetben van (tehat nem szaporodik termeszetes uton), akkor a hasznalata relativ gyorsan nagy adatvesztesekhez vezet.
HisF8 #56 2013.01.29. 13:02

Mindez az adat 2x10 nanométeren...

Válasz 'kvp' üzenetére (#52)
fszrtkvltzttni #55 2013.01.28. 22:16

Ez olyan mintha a 4K-s fizikai szektorméretből indulnál ki egy HDD-nél.

A DNS sugárzásra való érzékenysége környezetfüggő. Víz nélkül és alacsony hőmérsékleten ellenállóbb mint a hagyományos elektronikai eszközök, illetve majd lekenjük naptejjel. + A mágneses és elektronikus tárolók viszont maguktól elfelejtik az adatot.

Válasz 'kvp' üzenetére (#52)
fszrtkvltzttni #54 2013.01.28. 22:07

A jövőben akkor az is lehetségesé válhat, hogy ha nincs meg az elkövető, akkor klónoznak egyet, és azt büntetik meg? XD

Válasz 'HisF8' üzenetére (#51)
pasi29uk #53 2013.01.28. 20:49

Még szerencsére megvan valahol az oprendszerek könyvem és benne a Minix forrása. Már csak pár progit kell kiizzadjak papírra...

Válasz 'torreadorz' üzenetére (#38)

286/20Mhz; 1Mb; WD Paradise 512Kb; 40Mb; Mono VGA; ...Wolfeinsten 3D priman fut rajta 1.2 rendszerfloppyrol :>
kvp #52 2013.01.28. 16:05

117 bazisbol 100 a hasznos, 25-25 atfedes:
-100 bit csomagonkent
-17 bit cim
-raid 5
-az ossesen 2^17*100*(4/5)=10 485 760 bit, tehat kozel 10 megabyte

Hatalmas tarolokapacitas. Arrol nem beszelve, hogy a dns az egyik a sugarzasra legerzekenyebb molekula. Komolyan nezve, ennel mar a femtablaba gravirozas is jobb otletnek tunik, mind adatmennyisegre, mind tartossagra, sot meg visszaolvasni is konnyebb.
HisF8 #51 2013.01.28. 13:38

Ez három külön probléma. Az egyik a dns kivonásának a problémája, ami már megoldott; nagy hatásfokkal lehet bármilyen sejtből kivonni, sőt a pcr miatt ki sem kell feltétlenül vonni, lehet szennyezett is a minta mindenféle fehérjékkel, membrántörmelékkel, stb. ráér kivonni a felsokszorozás után.

A másik a kevert dns (mondjuk 3 különböző emberé), ehhez informatikai háttér kell, plusz az emberi dns ismerete, hogy tudjuk hol, minek kell lennie, ismerni kell hol vannak a hipervariábilis régiók, és csak azt kierősíteni, ebből megtudható hány ember mintája keveredett, meghatározhatóak a nemek, akár nagyrasszok is, de pl. olyanok is, mint szemszín, stb. Nemsokára egy dns minta nem csak arra lesz jó, hogy ha elkapták az elkövetőt, rá lehessen bizonyítani a jelenlétet, hanem pusztán a mintából profilt is fel lehet majd állítani (nő/férfi, szemszín, stb. - ezek mehetnének már ma is - aztán egyre komplexebb tulajdonságok idővel)

A harmadik pedig az, hogy tényleg elég egyetlen kópiában meglévő molekula is, mert azt pcr-rel fel lehet sokszorozni.

Amúgy ennél a fajta adattárolásnál azt sem szabad elfelejteni, hogy milyen hasznos alapkutatásokat támogathat (vagy másként fogalmazva milyen alapkutatásoknak ad gyors gyakorlati hasznot, ezáltal biztosítva a finanszírozást). A dns-t nem úgy kell elképzelni, mint ami ül magában a sejtmagban, és jól elvan, mint a befőtt, hanem egy dinamikusan változó rengeteg fehérjét és rns-t a saját működésére felhasználó komplexet - például a hisztonok (amire fel van tekeredve) az egyik legnagyobb mennyiségben termelt fehérjék, ha jól tudom csak a kollagénekből termelődik több. Tehát ezt a működést úgy megérteni, hogy abba bele is lehessen avatkozni egy borzasztóan fontos dolog sok szempontból is, és most végre lesz egy olyan szempont, ami közvetlenül $-ra váltható (de ennél - információtárolás - messze fontosabb ma még nem kihasználható következményei is lennének). Arról nem is beszélve, hogy ha mi valóban úgy tudnánk kezelni a dns-t, mint ahogy az a sejtjeinkben kezelődik, akkor az infokinyerés/beírás... gyors is lenne.

Ma csak "trükkel" lehet irányítottan szerkeszteni egy dns molekulát, nem úgy szerkesztenek dns-t, mint ahogy azt a sejtek teszik. Ha tudnánk "természetes módon" dns-t szerkeszteni (azokkal - vagy azokhoz hasonló, de mesterséges - fehérjékkel, rns-ekkel, amikkel ténylegesen szerkesztődik a dns), akkor elképesztő távlatok nyílnának meg előttünk, aminek a haszna beláthatatlan lenne - túl a triviális gyógyászati... dolgokon. Tehát minden erre irányuló alapkutatás üdvözlendő, és külön jó hír, hogy most lett egy felhasználás, ami az ilyen jellegű kutatásokat közvetlenül megtérülővé teheti. Mert itt már egy pici előrelépés is használható valamire, ami mondjuk egy gyógyászati felhasználásban magában nem lenne használható. Tehát egy csomó olyan dolog, ami nem ilyen felhasználást nézve alapkutatás, most közvetlen, gyakorlati hasznot termelő informatikai eszköz kifejlesztésévé válna.

Igazából - és ezt most nem az ilyen kutatások ellen mondom, hanem csak úgy - nagy az elvárás a nanorobotokkal szemben, miközben csak azt kéne átlátni, hogy az élőlények mind nanorobotok, csak rendkívül kifinomultak és bonyolultak. Azok a nanorobotok, amiket ilyen saját kútfőből fogunk létrehozni borzasztóan suták lesznek mondjuk egy fehérjéhez képest. Ha pedig igazán komoly nanorobotokat fogunk létrehozni, azok gyakorlatilag ugyanolyanok lesznek, mint az élőlények. Persze nyilván nem könnyű megismerni, és technológiailag uralni egy ennyire bonyolult rendszert, de azt naivitás elvárni, hogy egy sokkal durvább nanorobot-rendszer majd csodákat fog művelni - pl. nanorobotokkal "feltuningolt" immunrendszer, meg hasonlók. Jól hangzik, csak nincs semmi értelme, mert mire mi saját kútfőből olyan nanorobotokat fogunk tudni gyártani, ami képes összehangoltan működni egy olyan bonyolult rendszerrel, mint az immunrendszer, addigra annak sem lenne semmi akadálya, hogy magába az immunrendszerbe szerkesszünk bele dolgokat. Vagy nemrég láttam ilyet NG/Discovery-n, hogy majd nanorobotok állítják helyre a halottak sejtmembránjait... ez is egy hülye szemlélet, mert megvan arra a megfelelő eszközpark az élőlényekben, azt kéne megtanulni "uralni", ez sokkal könnyebb is, mint kiálmodni egy hasonló rendszert.

Válasz 'Molnibalage' üzenetére (#50)
Molnibalage #50 2013.01.28. 12:40

Én úgy tudtam, hogy régen pl. szennyezett vérrel meg sem próbálkoztak, ahogy kisebb szövetdarabokból sem tudtak DNS-t analizálni. Ma gyak. egy körömhegynyi minta is elég vagy egyetlen kis hajszáldarab.

Válasz 'HisF8' üzenetére (#49)

A történelem nagy tragédiája, hogy az Aurora helyett a Titanic süllyedt el.
(Meg az, hogy a világot elárasztották a konteóhív?k...)
i5-2400S 2.5GHz, HD7850 2GB, 8 GB RAM

További bejegyzések a fórumban...