2022, azaz "MI előtti" webes tartalmakat gyűjt egy projekt

A tudósok egykor a nukleáris korszak előtti acélt halmozták fel, ma pedig az MI előtti tartalmakat gyűjtik. Egy újonnan bejelentett adatbázis a ChatGPT és az MI által még nem érintett, 2022 előtti forrásokat tárolja.

John Graham-Cumming, a Cloudflare korábbi vezetője bejelentette, hogy elindított egy weboldalt lowbackgroundsteel.ai néven. Ez az MI előtti, ember által létrehozott tartalmakat értékes árucikkként kezeli, egy időkapszulaként, amely a gépek megjelenése előtti időszak organikus kreatív kifejezésmódját őrzi. „Az ötlet az, hogy rámutassunk az MI által generált tartalmak robbanásszerű elterjedése előtt létrehozott szövegek, képek és videók forrásaira” - írta Graham-Cumming a blogjában. Az ok? Megőrizni azt, ami a nem MI-alapú médiát egyedülállóan emberivé tette.

Az archívum neve a hidegháborús korszakból származó tudományos jelenségből ered. Miután 1945-ben megkezdődtek a nukleáris fegyverkísérletek, a légköri sugárzás világszerte beszennyezte az újonnan termelt acélt. Akiknek sugárzásmentes fémre volt szükségük érzékeny műszereikhez, évtizedeken át a háború előtti hajótörmelékekből kellett acélt menteniük. A tudósok ezt az acélt "alacsony háttérsugárzású acélnak” nevezik; ilyenre van szükség a radioaktivitást mérő Geiger-Müller-számlálókhoz, a testet ért sugárzást mérő orvosi készülékekhez, és mindenféle repülési és légköri szenzorhoz. Graham-Cumming ebben párhuzamot lát a mai internettel, ahol az MI által generált tartalom egyre inkább keveredik az ember által létrehozott anyagokkal és szennyezi azokat.

A ChatGPT és a Stable Diffusion generatív MI modellek 2022-es megjelenésével a kutatóknak sokkal nehezebbé vált biztosítani, hogy az interneten található média emberi kézzel, MI eszközök használata nélkül készült. Különösen a ChatGPT váltott ki egy lavina-szerű MI-generált szövegáradatot az interneten, ami legalább egy kutatási projekt teljes leállását eredményezte. Ez a projekt a wordfreq volt, egy Robyn Speer kutató által létrehozott Python könyvtár, amely több mint 40 nyelv szókincseinek gyakoriságát követte nyomon több millió forrás, köztük a Wikipedia, filmfeliratok, híradások és közösségi média elemzésével. Az eszközt széles körben használták tudósok és fejlesztők a nyelv fejlődésének tanulmányozására és természetes nyelvfeldolgozó alkalmazások készítésére. A projekt 2024 szeptemberében bejelentette, hogy többé nem fog frissülni, mert „az internet tele van nagy nyelvi modellek által generált, gépek által írt, semmit sem közlő szövegekkel”.

Egyes kutatók attól is tartanak, hogy ha az MI-modellek saját kimeneteiken edzenek, az idővel minőségromláshoz vezethet - ezt a jelenséget néha „modell összeomlásnak” nevezik. A legújabb bizonyítékok azonban arra utalnak, hogy ez a félelem bizonyos körülmények között túlzott lehet. Egy kutatás szerint a modellek összeomlása elkerülhető, ha a szintetikus adatok a valós adatok mellett halmozódnak fel, ahelyett, hogy azokat teljesen felváltanák. Valójában, ha megfelelően gondozzák és valós adatokkal kombinálják, az MI-modellekből származó szintetikus adatok segíthetnek az újabb, képzettebb modellek képzésében.

Graham-Cumming nem idegen az informatikai megőrzési erőfeszítések terén. Brit szoftvermérnök és író, leginkább a POPFile, egy nyílt forráskódú e-mail spamszűrő program létrehozásáról, valamint arról ismert, hogy sikeresen petíciót nyújtott be a brit kormányhoz, hogy az kérjek bocsánatot a kódtörő Alan Turing üldözéséért. Ezt a bocsánatkérést Gordon Brown miniszterelnök 2009-ben tette meg.

Az MI előtti weboldal nem új, de eddig bejelentés nélkül porosodott. "2023 márciusában hoztam létre, mint egy gyűjtőhelyet az MI által generált tartalommal még nem szennyezett online források számára” - írta blogjában. A weboldal több jelentős MI előtti tartalomarchívumra mutat rá, köztük egy 2022 augusztusában (a ChatGPT 2022 novemberi megjelenése előtt) készült Wikipédia-dömpingre, a Gutenberg projekt keretében közkinccsé tett könyvek gyűjteményére, a Kongresszusi Könyvtár fotóarchívumára és a GitHub Arctic Code Vaultjára - egy a nyílt forráskódról készült pillanatképre, amelyet 2020 februárjában temettek el egy korábbi szénbányában, az Északi-sark közelében. A wordfreq projekt is szerepel a listán, amely egy olyan időből származik, amikor a mesterséges intelligencia szennyezése még nem tette tarthatatlanná a módszertanát. Az oldal egy Tumblr-oldalon keresztül egyéb, az MI előtti tartalomforrások beküldését is elfogadja.

Graham-Cumming hangsúlyozza, hogy a projekt célja az emberi kreativitás dokumentálása a mesterséges intelligencia korszaka előttről, nem pedig maga az MI elleni állásfoglalás. Ahogy a légköri atomkísérletek megszűntek, és a háttérsugárzás visszatért a természetes szintre, az alacsony háttérsugárzású acél végül a legtöbb felhasználás szempontjából szükségtelenné vált. Kérdés, hogy az MI előtti tartalmak is hasonló pályát fognak-e követni.

Mégis ésszerűnek tűnik, hogy az emberi kreativitás forrásait - beleértve az archívumokat is - most megvédjük, mert ezek az adattárak olyan módon válhatnak hasznossá, amit jelenleg kevesen értékelnek. A mesterséges intelligencia nem csak a jelenlegi diskurzust szennyezi, hanem a történelmi feljegyzéseket is elhomályosíthatja. A lowbackgroundsteel.ai egyelőre az emberi kifejezésmód szerény katalógusa abból az időszakból, amelyet egy nap talán az utolsó, az MI előtti korszaknak tekinthetünk. Ez egy digitális régészeti projekt, amely az ember által generált és az ember és az MI hibrid kultúrák közötti határt jelöli ki. Egy olyan korban, amikor egyre nehezebb különbséget tenni az emberi és a gépi kimenet között, ezek az archívumok értékesnek bizonyulhatnak annak megértéséhez, hogyan fejlődött az emberi kommunikáció, mielőtt az MI belépett a folyamatba.

2022, azaz "MI előtti" webes tartalmakat gyűjt egy projekt

Kapcsolódó cikkek és linkek

Hozzászólások