Az MI-cégek letöltései zavarokat okoznak a tudományos adatbázisokban és folyóiratoknál

A mesterséges intelligencia eszközök számára képzési adatokat gyűjtő automatizált programok megbénítják a tudományos weboldalakat.

Februárban a DiscoverLife online képtár, amely közel 3 millió fényképet tartalmaz különböző fajokról, naponta több millió látogatást észlelt a weboldalán. Ez a szokásosnál jóval nagyobb mennyiség. Időnként ez a forgalmi csúcs olyan nagy volt, hogy annyira lelassította az oldalt, hogy az használhatatlanná vált. Az ok az MI-cégek botjai. Ezek az automatizált programok nagy mennyiségű tartalmat próbálnak letölteni a weboldalakról, és egyre inkább fejfájást okoznak a tudományos kiadóknak és kutatóknak, akik folyóiratokat, adatbázisokat és egyéb forrásokat tartalmazó oldalakat üzemeltetnek.

A botok forgalmának nagy része anonimizált IP-címekről érkezik. Ezek a szoftverek adatokat gyűjtenek a generatív mesterséges intelligencia eszközök, például chatbotok és képgenerátorok képzéséhez. "Jelenleg vadnyugati viszonyok uralkodnak” - mondja Andrew Pitts, a PSI vezérigazgatója. Az oxfordi székhelyű vállalat a tudományos kommunikációs közösség számára a hitelesített IP-címek globális tárházát biztosítja. "A legnagyobb probléma a weboldalhoz való hozzáférési kérések puszta mennyisége, ami megterheli a rendszereket. Ez pénzbe kerül és fennakadást okoz a valódi felhasználók számára".

Az érintett webhelyek üzemeltetői dolgoznak a botok blokkolásának és az általuk okozott zavarok csökkentésének módozatain. Ez azonban nem könnyű feladat, különösen a korlátozott erőforrásokkal rendelkező szervezetek számára. „Ezek a kisebb vállalkozások megszűnhetnek, ha az ilyen jellegű problémák nem oldódnak meg” - mondja Michael Orr, a németországi Stuttgart Állami Nemzeti Történeti Múzeum zoológusa.

Internetes botok már évtizedek óta léteznek, és néhányuk hasznosnak bizonyult. A Google és más keresőmotorok például olyan botokkal rendelkeznek, amelyek weboldalak millióit vizsgálják át a tartalom azonosítása és visszakeresése céljából. A generatív mesterséges intelligencia térhódítása azonban a botok áradatához vezetett, köztük sok „rossz” bothoz, amelyek engedély nélkül keresnek.

Idén a londoni székhelyű BMJ, az orvosi folyóiratok kiadója azt tapasztalta, hogy a botok okozta terhelés meghaladta a valódi felhasználókét. Ian Mulvany, a BMJ technológiai vezetője szerint a botok agresszív viselkedése túlterhelte a kiadó szervereit, és a normál ügyfelek számára nyújtott szolgáltatások megszakadásához vezetett. Más kiadók is hasonló problémákról számoltak be. "Hatalmas növekedést tapasztaltunk az általunk ”rossz botoknak„ nevezett forgalomban” - mondja Jes Kainth, a Highwire Press, egy tudományos kiadványokra szakosodott internetes tárhelyszolgáltató, a brit Brightonban működő szolgáltatásnyújtási igazgatója. „Ez nagy probléma.”

Az Open Access Repositories Confederation of Open Access Repositories (COAR) áprilisban arról számolt be, hogy az általa megkérdezett 66 tag több mint 90%-a tapasztalta, hogy mesterséges intelligenciával működő botok adatokat töltenek le a webhelyeikről - és ezek nagyjából kétharmada tapasztalt már szolgáltatási fennakadást miattuk. "A repozitóriumok nyílt hozzáférésűek, így bizonyos értelemben üdvözöljük a tartalmak újrafelhasználását” - mondja Kathleen Shearer, a COAR ügyvezető igazgatója. „De néhány ilyen bot szuper agresszív, és ez szolgáltatáskiesésekhez és jelentős működési problémákhoz vezet.”

A mesterséges intelligenciával működő botok számának növekedését elősegítő egyik tényező a DeepSeek, egy kínai fejlesztésű nagy nyelvi modell (LLM) megjelenésével kapcsolatos felfedezés volt. Ezt megelőzően a legtöbb LLM létrehozásához hatalmas számítási teljesítményre volt szükség - magyarázza Rohit Prajapati, a Highwire Press fejlesztési és üzemeltetési vezetője. A DeepSeek mögött álló fejlesztők azonban megmutatták, hogy egy a népszerű generatív MI-eszközökkel vetekedő LLM sokkal kevesebb erőforrással is elkészíthető, ami robbanásszerű szaporodást indított el azon botok körében, amelyek az ilyen típusú modellek betanításához szükséges adatokat igyekeznek letölteni.

A tudományos weboldalak elsődleges célpontok, mivel olyan adatokat tartalmaznak, amelyek rendkívül értékesek a mesterséges intelligencia fejlesztői számára. „Ha a tartalma friss vagy rendkívül releváns, akkor nagyon érdekli azokat, akik ezeket az MI chatbotokat építik” - mondja Will Allen, a kaliforniai San Franciscóban működő Cloudflare webes szolgáltató média- és MI adatvédelmi termékekért felelős alelnöke. Bár sok folyóirat weboldalán fizetős falakat használnak, amelyek némileg megnehezítik a botok számára a tartalom letöltését, „a kifinomult rossz szereplők könnyedén át tudnak jutni a fizetős falakon” - teszi hozzá.

Josh Jarrett, a New Jersey állambeli Hobokenben működő Wiley kiadó MI-fejlesztésért felelős alelnöke szerint a robotok megpróbálnak nyílt hozzáférésű és előfizetéses tartalmakat egyaránt megszerezni. Áprilisban a Wiley nyilatkozatot tett közzé az illegális hozzáférésről, amelyben hangsúlyozták, hogy az MI fejlesztőknek engedélyt kell kérniük, mielőtt szerzői jogvédelem alatt álló tartalmakat töltenek le a weboldalakról.

A tudományos honlapok üzemeltetői technikai megoldásokon dolgoznak a probléma megoldására. Sok esetben azonban nehéz úgy korlátozni a botok hozzáférését, hogy az ne érintse hátrányosan a rendszeres felhasználókat. A botok jogosulatlan hozzáférésének megakadályozására az egyik bevett módszer az, hogy egy olyan fájlt építenek be a webhely kódjába, amely megmondja a botoknak, hogy mit tehetnek és mit nem. A botokat azonban be lehet programozni arra, hogy egyszerűen figyelmen kívül hagyják ezeket az utasításokat. Az is lehetséges, hogy egyszerűen megpróbáljuk blokkolni az összes bot-szerű tevékenységet. Az ilyen általános tiltások azonban problémákat okozhatnak a legitim felhasználók számára.

Az akadémikusok gyakran olyan módon férnek hozzá a folyóiratok weboldalaihoz, ami botszerűnek tűnhet: proxy-kiszolgálók segítségével távolról, intézményi könyvtárakon keresztül böngészik a folyóiratokat (ami azt jelenti, hogy egyetlen IP-címen keresztül sok kérés érkezhet). "Egyensúlyt kell teremtenünk aközött, hogy megvédjük a webhelyeinket a forgalom jelentős növekedésétől, amely egyébként a szolgáltatások összeomlását okozná, és mindezt úgy tegyük, hogy közben ne zavarjuk az ügyfeleink hozzáférését ezekhez az erőforrásokhoz” - mondja Mulvany. "Mindenképpen bosszantó, és nagy figyelmet igényel e kockázatok mérséklése”.

A webhelyek blokkolhatnak bizonyos botokat is, de ehhez először meg kell határozniuk a „rossz” és a „jó” botokat. Több erőfeszítés is létezik - többek között a Cloudflare és a PSI által - ilyen listák összeállítására. Prajapati szerint azonban a mesterséges intelligencia-képzéshez adatokat gyűjtő botok közül sok nem azonosított, így nehéz megkülönböztetni, hogy kik a rossz játékosok. Bár számos eszköz létezik az ilyen botok elleni küzdelemre, az MI-cégek eszközei folyamatosan növekvő problémát jelentenek - és a jelenlegi intézkedések nem képesek megakadályozni minden nemkívánatos tevékenységet. "Amire igazán szükségünk van, az a mesterséges intelligencia tisztességes használatáról és az ilyen jellegű erőforrások tiszteletben tartásáról szóló nemzetközi megállapodások” - mondja Orr. „Ellenkező esetben idővel nem lesz olyan erőforrás, amelyen ezek az eszközök ténylegesen gyakorolhatnának.”

Az MI-cégek letöltései zavarokat okoznak a tudományos adatbázisokban és folyóiratoknál

Kapcsolódó cikkek és linkek

Hozzászólások