SG.hu

Elveszítjük digitális történelmünket

A kutatások szerint a 2013 és 2023 között közzétett weboldalak 25%-a eltűnt. Néhány szervezet versenyt fut a web tartalmainak megmentéséért, de új kockázatok fenyegetik létüket.

A fennmaradt papirusztöredékeknek, mozaikoknak és viasztábláknak köszönhetően megtudhatjuk, mit ettek reggelire az ókori rómaiak 2000 évvel ezelőtt. Aki érti a középkori latin nyelvet, megtudhatja hány állatot tartottak a 11. századi Anglia northumberlandi farmjain - hála a Domesday Booknak, az Egyesült Királyság Nemzeti Levéltárában őrzött legrégebbi dokumentumnak. Leveleken és regényeken keresztül megismerhető a viktoriánus korszak társadalmi élete, az, hogy az emberek kiket szerettek és kiket gyűlöltek. A jövő történészei azonban nehezen érthetik meg teljesen hogyan éltük az életünket a 21. század elején. Ennek oka, hogy az életünket digitálisan éljük, és a világ napjainkban keletkező információinak archiválására irányuló hivatalos erőfeszítések száma nagyon csekély. Ez potenciálisan történelemromboló kombináció.

Szervezetek egy informális csoportja azonban ellenáll a digitális entrópia erőinek. Sokukat önkéntesek működtetik, gyenge intézményi támogatással. Az Internet Archive egy San Franciscóban működő amerikai nonprofit szervezet, amely 1996-ban indult útjára Brewster Kahl, az internet úttörőjének szenvedélyes projektjeként. A szervezet minden idők talán legambiciózusabb digitális archiválási projektjébe kezdett, amely 866 milliárd weboldalt, 44 millió könyvet, 10,6 millió film- és televíziós videót és még sok mást gyűjtött össze. Az Internet Archive és néhány hasonló csoport gyűjteményei, amelyek a világ különböző pontjain szétszórtan, néhány adatközpontban vannak elhelyezve, az egyetlen dolog, ami a digitális feledés útjában áll.

Attól függően, hogy mit keresünk, az Internet Archive gyűjteménye olyan alapos, hogy néha úgy érezhetjük, mintha a világháló funkcionálisan teljes rekordja lenne. "A kockázatok sokrétűek. Nem csak az, hogy a technológia csődöt mondhat, hiszen ez bizonyosan megtörténik. De ennél is fontosabb, hogy az intézmények megszűnnek vagy a cégek tönkremennek. Az egyes kiadókat mások felvásárolják, vagy egyre gyakrabban bezárják őket” - mondja Mark Graham, az Internet Archive Wayback Machine igazgatója, amely szolgáltatás a weboldalak pillanatfelvételeit gyűjti és tárolja az utókor számára. Szerinte számos ösztönző van arra, hogy a tartalmakat online helyezzék el, de a cégeket kevés dolog készteti arra, hogy hosszú távon fenntartsák azokat.


Az Internet Archive eddigi eredményei ellenére a szervezet és a hozzá hasonlók pénzügyi fenyegetésekkel, technikai kihívásokkal, kibertámadásokkal és jogi csatározásokkal néznek szembe, amelyeket a szellemi tulajdonuk szabadon hozzáférhető másolatai miatt ellenszenvvel hozzáálló vállalkozások folytatnak. És ahogy a közelmúltbeli bírósági vereségek is mutatják, az internet megmentésének projektje éppoly múlékony lehet, mint a tartalom, amelyet védeni próbál. "Egyre több szellemi tevékenységünk, egyre több szórakozásunk, hírünk és beszélgetésünk zajlik kizárólag digitális környezetben” - mondja Graham. "Ez a környezet természeténél fogva törékeny.”

A 2013 és 2023 között valamikor létező weboldalak negyede ma már nem létezik. Ez derül ki a washingtoni székhelyű Pew Research Center agytröszt tanulmányából, amely riadót fújt digitális történelmünk eltűnése miatt. A kutatók megállapították, hogy a probléma annál súlyosabb, minél régebbi egy weboldal: A Pew által kipróbált, 2013-ban létező weboldalak 38%-a már nem működik. De ez a probléma az újabb kiadványok esetében is fennáll. A valamikor 2023-ban megjelent weboldalak mintegy 8%-a ugyanezen év októberére eltűnt. Ez nem csak a történelemrajongók és az internet megszállottjai számára jelent gondot. A tanulmány szerint minden ötödik kormányzati weboldal legalább egy un. törött linket tartalmaz, azaz ma már elérhetetlen oldalra hivatkozik. A Pew megállapította, hogy a Wikipedia-cikkek több mint felénél a hivatkozások részben van törött link, ezért az online enciklopédia információit alátámasztó bizonyítékok lassan elpárolognak.


Az Internet Archive munkájának köszönhetően azonban nem minden halott link teljesen elérhetetlen. Az Archívum Wayback Machine projektje évtizedek óta botok seregeit küldi ki, hogy végigmenjenek az internet folyton változó labirintusán. Ezek a rendszerek az idő múlásával átalakuló weboldalak működőképes másolatait töltik le - gyakran egyetlen nap alatt többször is rögzítik ugyanazokat az oldalakat -, és ingyenesen elérhetővé teszik a nyilvánosság számára.

Néhány más kisebb-nagyobb szervezet is dolgozik hasonló projekteken. Az amerikai Kongresszusi Könyvtár például kormányzati honlapokat, a kongresszusi képviselők honlapjait és az amerikai híroldalak gyűjteményét őrzi. A Kongresszusi Könyvtár a Twitter (ma X néven ismert) alapítása óta küldött minden egyes tweet másolatát is megőrizte, egészen a projekt 2017-es leállításáig. Más kormányok is működtetnek saját kezdeményezéseket. Az Egyesült Királyság webarchívuma évente legalább egyszer elvégzi a .uk domainnévvel rendelkező webhelyek átfésülését, és így pillanatfelvételt rögzít a brit internetről. 2022-ben önkéntesek csoportja határozta el, hogy hogy megmentse az ukrán internetet, mivel azt orosz kibertámadások érték.

E projektek hatóköre azonban szűk, míg az Internet Archive átfogó megközelítésre törekszik. A rendelkezésre álló források ismeretében lehetetlen lenne bármi olyat összegyűjteni, ami megközelítené az egész internetet, de az Archívum rendszerei széles hálót vetnek ki. Attól függően, hogy mit keresünk, az Internet Archive gyűjteménye olyan alapos, hogy néha úgy érezhetjük, mintha a világháló funkcionálisan teljes nyilvántartása lenne. Nyilvánosan hozzáférhető dokumentumai segítenek fenntartani életünk feljegyzéseit. A Wikipédián már bevett gyakorlat, hogy az Internet Archive Wayback Machine-jából származó webhelyek másolatát idézik, nem pedig magukat az eredeti webhelyeket.

A szervezet a digitális korszak előtti médiumok hatalmas gyűjteményét is őrzi. Az 1977-es Fernwood 2 Night című vígjátéksorozat egyetlen streaming-szolgáltatáson sem érhető el, de az Internet Archive-on ingyenesen megnézhető. Könyvek, magazinok és weboldalak idézik az Internet Archive szkennelt digitális másolatait, amelyek a fizikai könyvtárakban elérhetetlenek. Az archívum még a nyilvánosság számára is megőrzési eszközként működik; bárki feltölthet videókat, weboldalakat és gyakorlatilag bármi mást a szervezet szervereire.

A Wayback Machine által a digitális szeméttelepről megmentett nagy gyűjtemények közé tartoznak a GeoCities-en, egy mára már megszűnt webtárhely-szolgáltatásra feltöltött webhelyek mélyreható nyilvántartása. Jóval a közösségi média előtt a GeoCities volt az egyik első olyan platform, amely bárki számára lehetővé tette egy saját weboldal létrehozását. A történészek a GeoCities-t a világháló kezdeti időszakának egyik legfontosabb fejezetének tekintik, az Internet Archive erőfeszítései nélkül a legtöbb weboldal elveszett volna. "Néhány évente jön egy új platform, és aztán a gazdasági szele hirtelen valahogy megváltozik. Ez az egyik nagy alakító tényező” - mondja Andrew Jackson, a Digital Preservation Coalition (Digitális Megőrzési Koalíció) műszakiszakértője. A brit székhelyű érdekvédelmi csoport és jótékonysági szervezet tanácsot ad a világ online digitális archívumainak megőrzésével kapcsolatban.


Brewster Kahl

A CNET technológiai híroldal 2023-ban hatalmas visszatetszéssel szembesült, miután arról számoltak be, hogy törölnek több tízezer régi cikket. A CNET válaszában arra hivatkozott, hogy az összes törölt cikket megőrizte a Wayback Machine. Sok kritikus szerint a vállalatok magától értetődőnek veszi az Internet Archive létezését, így ezzel áthárítják saját archiválási kötelezettségeiket. "Annak ellenére, hogy a Google és más keresőmotorok aktívan ösztönzik a stabil URL-ek fenntartását, technikailag elég nehéz ezt megtenni” - mondja Jackson. "Minden egyes alkalommal, amikor egy új cég valamilyen módon átalakítja a weboldalát, ki kell számolnia, hogy az új URL-ek mekkora részét próbálja meg fenntartani az idők folyamán.”

Érdemes azonban nem elfelejteni, hogy mi is az Internet Archive: egy nonprofit szervezet, amelyet jótékonysági alapítványok adományaiból finanszíroznak. Ez egy soha véget nem érő projektet jelent, exponenciálisan növekvő költségekkel. Az Internet Archive önként vállalta, hogy a világ vezető könyvtára lesz digitális életünk számára. A web negyedik évtizedéhez közeledve ez a nem hivatalos projekt az internet egyik alappillérévé vált. De ahogy nő az Internet Archívumra való támaszkodásunk, úgy nőnek az erőfeszítéseit fenyegető veszélyek is.

A szervezet a múlt héten bejelentette, hogy jelentős partnerséget kötött a Google-lal, amelynek keretében a technológiai óriás a keresési eredményekben a Wayback Machine-re mutató hivatkozásokat fog szerepeltetni - bár egyikük sem közölt pénzügyi részleteket az üzletről. Más, nemrégiben érkezett hírek azonban azt mutatják, hogy a projekt még mindig törékeny. Ezt a sebezhetőséget négy nagy könyvkiadó az Internet Archive ellen indított bírósági perben fedte fel, amely szerint az Internet Archive azon gyakorlata, hogy a fizikai könyveket beszkenneli, és azzal egyszerre azonos mennyiségű digitális másolatot kölcsönöz ki, sérti az amerikai szerzői jogi törvényeket. A világjárvány előtt az Internet Archive a gyűjteményében lévő minden egyes fizikai könyvről egyszerre csak egy digitális példányt kölcsönzött. A Covid leállása idején azonban a szervezet feloldotta ezt a korlátozást, és a fizikai könyvtárak bezárását pótolandó korlátlan számú digitális másolatot adott ki a látogatóknak.

Egy amerikai bíróság 2023-ban jogellenesnek ítélte ezt a gyakorlatot, és szeptember elején elutasították az Internet Archive fellebbezését a döntés ellen. A szervezet korábban közölte, hogy beleegyezett, hogy az üggyel kapcsolatban egy kiadókkal foglalkozó szakmai csoportnak egy meg nem nevezett összeget fizet. A perrel a háta mögött az Internet Archive egy újabb, a lemezek digitalizálásáért a zenei kiadókkal szemben indított perben áll, amely 400 millió dollárba kerülhet, ha veszít. Ez az összeg veszélyezteti a nonprofit szervezet túlélését. Az Internet Archive könyvtári szolgáltatásokért felelős igazgatója, Chris Freeland elmondta, hogy a szervezet még vizsgálja a bíróság véleményét az ítéletről.

Nem az egzisztenciális jogi csatározások az egyetlen veszély, amely a digitális megőrzés világát fenyegeti. A British Library brit webarchívuma legutóbb a rosszindulatú technikai kihívásokból kapott ízelítőt, amikor 2023 októberében digitális rendszerei leálltak egy kibertámadás miatt. Majdnem egy évvel később a UK Web Archive még mindig küzd a következményekkel, gyűjteménye nagy részéhez még mindig nem lehet online hozzáférni.

2024 májusában az Internet Archive bejelentette, hogy egy nagyszabású elosztott szolgáltatásmegtagadási (DDoS) támadást él át. A DDoS-támadás során a rosszfiúk automatizált rendszereket állítanak fel, amelyek látogatásokkal bombázzák a weboldalakat, és a szerverek túlterhelésével megpróbálják offline állapotba kényszeríteni őket. A csúcsponton másodpercenként több tízezer egyidejű megnyitás történt. A szolgáltatások - beleértve a Wayback Machine-t is - leálltak. Ez azt jelentette, hogy egy időre megszakadt az archiválás rendszeressége, és emiatt maradandó hiányosságok keletkezhettek a történelmi feljegyzésekben.

Az internet megőrzésére irányuló erőfeszítések megszervezésére irányuló hivatalos erőfeszítések hiányában a projekt hobbistákra, önkéntesekre és néhány, általában egymástól függetlenül működő, nem hivatalos szervezeti csoportra van bízva. Az Internet Archívumot „egyetlen személy indította el, és egyfajta intézménnyé vált” - mondja Jackson. „Ez egyben potenciális veszély is. Bár nagyon kifinomult, mégis egyetlen projekt, egyetlen régióban, egyetlen jogi keretek között.” Ha az Internet Archive munkája leállna, és „ezt az űrt nem töltenék be azonnal, akkor a jelenleg a nyilvános weben elérhetővé tett anyagok nagy része veszélybe kerülne” - mondja Graham. Egyértelműnek tartja, hogy az Internet Archive nem fog egyhamar meghátrálni a feladatai elől, de a projektnek jól jönne a külső segítség. "Sokan másoknak is lehetőségük van arra, hogy különféle módokon hozzájáruljanak” - mondja.

„Az archiválásra értelemszerű a decentralizálási válasz” - mondja Mar Hicks, a Virginiai Egyetem technikatörténésze. „De szintén probléma az állandóan változó prioritások.” Hicks rámutat, hogy az egyik első dolog, amit minden levéltáros mérlegel, amikor archívumot épít, az, hogy mi legyen a prioritás. "És amikor valami decentralizált, a prioritások nagyon különbözőek lesznek” - mondja Hicks. „A csoportokban lesznek olyan emberek, akik prioritásként kezelik, hogy mindent megpróbálnak megragadni, amit csak lehet. A tökéletességre törekszenek." Aztán lesznek olyanok is, akik csak bizonyos területekre koncentrálnak - ilyenek például az Egyesült Királyság archiválási erőfeszítései. Az ad hoc, decentralizált megközelítéssel kapcsolatban szintén aggodalomra ad okot, hogy előfordulhat átfedés, ami azt jelenti, hogy értékes archiválási erőforrások vesznek kárba a legnépszerűbb weboldalak kétszeres vagy háromszoros másolatainak elkészítésével - miközben néhány történelmi jelentőségű területet figyelmen kívül hagynak, mert azok más csoportok felelősségi körébe tartoznak.

"A levéltárosok számára ezek a problémák már nagyon régóta léteznek” - mondja Hicks. De a digitális világunkban előállított anyagok mennyisége súlyosbítja a helyzetet. Naponta közel egymilliárd e-mailt küldünk. A YouTube jelentése szerint percenként több mint 500 órányi videótartalom kerül fel a platformra. Az internet „lényegében az információk és tartalmak áradata” - mondja Hicks. "Nincs értelme megpróbálni mindent elkapni, erőforrás szempontjából ez meg sem valósítható”. Bizonyos értelemben ez egy régi aggodalom. „Történészként ugyanezekkel a problémákkal küzdünk” - mondja Hicks. „Rengeteg dokumentummal rendelkezünk a múltból. De csak bizonyos dokumentumok és bizonyos emberek hangja van meg. A hiányzó hangok közül sok hihetetlenül fontos volna, de ezeket kitörölték”.

Hicks szerint valamiféle prioritásra van szükség azzal kapcsolatban, hogy mit mentünk meg a generációnk digitális lábnyomaiból. Ellenkező esetben fennáll a veszélye annak, hogy a gyorsan felfutó költségek háttérbe szorítják a web történetének megmentésére irányuló erőfeszítéseket - nem is beszélve az offline lévő digitális fájlok óceánjairól. "Ha mindent meg kell őrizni, az nagyon drága lesz” - mondja Jackson a Digital Preservation Coalitiontől. „Gyakran vannak régebbi vagy kevésbé érdekes tartalmak, amelyek az út szélén maradnak. Például a nem nyugati világot nem tudjuk jól megragadni” - ismeri el Jackson. „Jelenleg hiányosságok vannak az eltérő kulturális területeket érintően”.

És bár sok szervezet dolgozik az elfogultságok és előítéletek elleni küzdelemben, gyakran rájuk marad a feladat, miközben a kormányok és a platformokat és weboldalakat üzemeltető vállalatok tétlenül nézik a dolgot. „Az emberek független csoportjai, akik törődnek ezzel és hajlandóak szabadidejüket ezzel tölteni, jobban felszereltek és képzettebbek, mint a formálisan felelős intézmények” - mondja Jackson. Hicks szerint vákuum keletkezett, amelyet egy maroknyi megszállott levéltároson kívül csak kevesen töltenek be. „Nem világos, hogy kinek a feladata az internet archiválása, vagy hogy ez kinek az érdekét szolgálná” - mondja Hicks.

Egy dolog azonban egyértelmű, mondja Hicks. Mindannyiunknak fizetnünk kell, hogy támogassuk a megőrzésért folytatott küzdelmet. „Nagyon pragmatikus szempontból nézve, ha nem fizetünk ezeknek az embereknek, és nem biztosítjuk ezeknek az archívumoknak a finanszírozását, akkor a jövőben nem fognak létezni, tönkremennek, és akkor az egész gyűjtésük értelme elszáll” - mondja Hicks. „Mert az archívumnak nem az a lényege, hogy csak összegyűjtik, hanem hogy a jövőben is korlátlan ideig fennmaradjon.”

A 18. századi felvilágosodás idején született meg a nemzetközi könyvtári mozgalom, amikor a kormányok és a filantrópok felkarolták a könyvek megőrzésének és terjesztésének szükségességét a nyilvánosság számára. De ez a polgári felelősségérzet máig nem terjedt ki az internetre. Ennek oka lehet a digitális világ bonyolult üzleti érdekei, vagy egyszerűen csak a hatalmas technikai kihívás. Vagy talán azért, mert jelenleg a társadalmak nem érzik úgy, hogy a világhálót meg kellene menteni. Egy könyv nyilvánvalóan véges erőforrás: elveszhet vagy megsérülhet. Az internet azonban annyira hozzáférhetőnek tűnik. Bárki, akinek van internetkapcsolata, elindíthat egy webböngészőt, és behívhat egy URL-t. Minden ott van - egészen addig, amíg nincs ott.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • Tetsuo #6
    Ezenfelül a weboldalakat nem örökre készítik, tárolják, az éves díját sem fogják örökké fizetni, ez nyilvánvaló. A változó törvényeket sem tudják követni apparátus nélkül.
    Sok kis oldalt az ölt meg, hogy a közösségi oldalak elterjedtek.
  • kvp #5
    Napokban kerestem 2000-es evek elejei szabvany dokumentaciot es kapcsolasi rajzokat. Mar nincs meg a ket szerver amin elerhetoek voltak. Az internet archivban csak az egyik van meg es ott a keresett kapcsolasra csak belinkelte a masik oldalt...

    Egy csomo informacio tunik el csak azert mert meghal a sajat honlapot uzemelteto mernok. Nincs masolat online es ha nincs meg egy ismerosunknel offline-ban akkor elveszettnek tekintheto az adott informacio. Sajnos komplett szabvany is tunt mar el igy, ha nem tudom beszerezni nyomtatva akkor bajban leszek.
  • felemelő #4
    A többi lementése nem probléma, hisz tudjuk:

    "Az internet tartalma tíz floppyn eladó, pornó nélkül 1 floppy."

    :)
  • tom_pika #3
    Hát valóban itt maximum ez lehet baj. A sok egyéb sz@rt minek megőrizni?
  • reptile1313 #2
    Uristen, most mi lesz. Amugy meg az archive tudomanyos dolgokat archivaljon csak, ne zaklasssa az emebreket azzal,hogy szetterjeszti azt, amit mar toroltek. ne lopjon pofatlanul. pfejj.
  • Tetsuo #1
    A régi jó pornóoldalakból alig maradt valami. :-)