Lassan teljesen működésképtelenné teszik az MI-botok a Wikipédiát

A Wikimédia Alapítvány bejelentette, hogy a könyörtelen mesterséges intelligencia-botok nagyon komolyan leterhelik a Wikipédia szervereit. A mesterséges intelligenciamodellek képzési adatait kereső automatizált botok adatok terabyte-jait szívják fel, és ezzel 2024 januárja óta 50 százalékkal növelték az alapítvány multimédiás tartalmak letöltésére használt sávszélességet.

Az alapítvány nemcsak a Wikipédiának ad otthont, hanem olyan platformoknak is, mint a Wikimedia Commons, amely 144 millió médiafájlt kínál nyílt licencek alatt. Évtizedek óta ezek a tartalmak a keresési eredményektől kezdve az iskolai projektekig mindent támogatnak. De 2024 eleje óta a mesterséges intelligenciával foglalkozó vállalatok drámaian megnövelték az automatizált adatgyűjtést a közvetlen megnyitások, az API-k és a tömeges letöltések révén, hogy táplálják éhes mesterséges intelligencia modelljeiket. A nem emberi forgalom exponenciális növekedése komoly technikai és pénzügyi költségekkel jár - a Wikimedia önkéntes ökoszisztémájának fenntartásához szükséges tulajdonosi hozzájárulás nélkül.

A hatás nem elméleti. Az alapítvány szerint amikor Jimmy Carter 2024 decemberében meghalt, a volt amerikai elnök Wikipédia-oldalát több millióan nézték meg. Az igazi stressz azonban akkor jelentkezett, amikor a felhasználók egyszerre 1,5 órán át streameltek a Wikimedia Commonsról egy 1980-as vitáról készült videót. A hullám megduplázta a Wikimédia szokásos hálózati forgalmát, és átmenetileg több internetes kapcsolatát is túlterhelte. A Wikimédia mérnökei gyorsan átirányították a forgalmat, hogy csökkentsék a torlódást, de az esemény mélyebb problémára derített fényt: az alapszintű sávszélességet már nagyrészt elfogyasztották a médiát fogyasztó botok.

A Wikimedia belső adatai megmagyarázzák, miért olyan költséges ez a fajta forgalom a nyílt projektek számára. Az emberekkel ellentétben, akik inkább a népszerű és a gyorsítótárba helyezett cikkeket nézik, a botok a kevésbé hozzáférhető oldalakon is végigmennek, így a Wikimedia központi adattárait arra kényszerítik, hogy közvetlenül onnan szolgálják ki őket. A kiszámítható, emberi böngészési viselkedésre tervezett gyorsítótárazási rendszerek nem működnek, amikor a botok válogatás nélkül végigolvassák az egész archívumot.

Ennek eredményeképpen a Wikimedia megállapította, hogy a botok az alapinfrastruktúrához intézett legdrágább kérések 65 százalékát teszik ki, annak ellenére, hogy az összes oldalmegtekintésnek mindössze 35 százalékáért felelnek. Ez az aszimmetria kulcsfontosságú technikai felismerés: a botok kéréseinek költségei jóval magasabbak, mint az emberi kéréseké, és ez gyorsan összeadódik. Nehezíti a helyzetet, hogy sok MI-bot nem a bevett szabályok szerint játszik. Néhányan figyelmen kívül hagyják a robots.txt irányelveket. Mások meghamisítják a böngésző adatokat, hogy emberi látogatónak álcázzák magukat. Egyesek még az IP-címeket is váltogatják, hogy elkerüljék a blokkolást.

Ez a Wikimedia Site Reliability csapatát állandó védekezésre kényszeríti. Minden egyes óra, amit a botok sebességének korlátozásával vagy a forgalmi hullámok mérséklésével töltenek, nem a Wikimédia közreműködőinek, felhasználóinak vagy technikai fejlesztéseinek támogatására fordított idő. És nem csak a tartalmi platformok vannak terhelés alatt. A fejlesztői infrastruktúrát, például a Wikimédia kódellenőrző eszközeit és hibakövető eszközeit is gyakran támadják a botok, ami további figyelmet és erőforrásokat von el.

Az internetes nyílt platformok technikai megoldásokkal kísérleteznek: proof-of-work kihívásokkal, lassított válaszadással, kollaboratív blokkolólistákkal (mint az „ai.robots.txt”) és kereskedelmi eszközökkel, mint a Cloudflare AI Labyrinth-ja. Ezek a megközelítések az emberi olvasók számára tervezett infrastruktúra és a mesterséges intelligencia képzésének ipari méretű igényei közötti technikai eltérést kezelik.

A Wikimédia elismeri a „tudás szolgáltatásként” való nyújtásának fontosságát, és tartalma valóban szabadon licencelt. De ahogy az alapítvány egyértelműen kijelenti: „A tartalmunk ingyenes, az infrastruktúránk nem”. A szervezet most egy új kezdeményezés keretében a probléma rendszerszintű megközelítésére összpontosít. A WE5 nevű kezdeményezés kritikus kérdéseket vet fel a fejlesztők kevésbé erőforrás-igényes hozzáférési módszerek felé való irányításával és a fenntartható határok megállapításával kapcsolatban, a nyitottság megőrzése mellett.

A kihívás két világ - a nyílt tudástárak és a kereskedelmi célú mesterséges intelligenciafejlesztés - összekapcsolásában rejlik. Sok vállalat támaszkodik a nyílt tudásra a kereskedelmi modellek képzéséhez, de nem járul hozzá az infrastruktúrához, amely ezt a tudást hozzáférhetővé teszi. Ez olyan technikai egyensúlytalanságot teremt, amely veszélyezteti a közösségi platformok fenntarthatóságát.

A mesterséges intelligencia fejlesztői és az erőforrás-szolgáltatók közötti jobb koordináció potenciálisan megoldhatná ezeket a problémákat dedikált API-k, közös infrastruktúra-finanszírozás vagy hatékonyabb hozzáférési minták révén. Ilyen gyakorlati együttműködés nélkül a mesterséges intelligencia fejlődését lehetővé tevő platformok nehezen tudnak majd fenntartani megbízható szolgáltatást. A Wikimedia figyelmeztetése egyértelmű: a hozzáférés szabadsága nem jelenti a következmények alóli mentességet.

Lassan teljesen működésképtelenné teszik az MI-botok a Wikipédiát

Kapcsolódó cikkek és linkek

Hozzászólások