Megakadályozza a weblapok letöltését a Cloudflare új szolgáltatása

A Cloudflare új szolgáltatása lehetővé teszi a webtárhely-ügyfeleknek, hogy megakadályozzák, hogy az MI-botok letöltsék a weboldalukat, és az adatokat engedély nélkül használják fel gépi tanulási modellek betanítására.

A cég felismerte, hogy egyre több tartalomszolgáltató ügyfele igényli az MI-botok távoltartását, valamint, hogy "segítsen megőrizni a biztonságos internetet a tartalomkészítők számára" - áll a közleményben. "Világosan meghallottuk, hogy az ügyfelek nem szeretnék, ha MI-botok látogatnák a webhelyeiket, különösen azok nem, amelyek ezt tisztességtelenül teszik. Hogy segítsünk, egy vadonatúj, egy kattintással elérhető funkciót fejlesztettünk le az összes MI-bot blokkolásához". A botok blokkolására már létezik egy valamennyire hatékony módszer, amely széles körben elérhető a webhelytulajdonosok számára, a robots.txt fájl. Ha egy webhely gyökérkönyvtárában helyezik el, a webes scripteknek észre kell venniük és be kell tartaniuk a fájlban található irányelveket, amelyek azt mondják nekik, hogy maradjanak távol.

Tekintettel arra a széles körben elterjedt meggyőződésre, hogy a generatív mesterséges intelligencia lopáson alapul, és a számos perre, amelyben megpróbálják felelősségre vonni a mesterséges intelligenciával foglalkozó vállalatokat, a tartalmakat letöltő cégek kegyesen megengedték a webes kiadóknak, hogy kivonják magukat, ha akarják. (Miközben ennek fordítva kellene lennie, azaz onnan szabadna adatot letölteniük, akik megengedik nekik.) Tavaly augusztusban az OpenAI útmutatót tett közzé arról, hogyan lehet blokkolni a GPTbotot egy robots.txt direktíva segítségével, és a következő hónapban a Google is hasonló bejelentést tett. Szintén tavaly szeptemberben a Cloudflare ismertette a szabályokat tiszteletben tartó MI-botok blokkolásának módját, és állításuk szerint ügyfeleik 85 százaléka be is kapcsolta ezt a blokkolást.

Most a hálózati szolgáltatási nagyvállalat célja, hogy még erősebb akadályt állítson a botok belépése elé. Közlésük szerint az internetet "mostanra elárasztották ezek az MI-botok", amelyek a Cloudflare által kiszolgált egymillió webhely mintegy 39 százalékát terhelik meg. A probléma az, hogy a robots.txt - akárcsak a böngészőkben tizenöt évvel ezelőtt bevezetett Do Not Track fejléc, amely az adatvédelem preferálásának kinyilvánítására szolgál - következmények nélkül figyelmen kívül hagyható. És a legújabb jelentések szerint a mesterséges intelligencia robotok pontosan ezt teszik.

Az Amazon a múlt héten közölte, hogy bizonyítékokat vizsgál arra vonatkozóan, hogy egyik ügyfelének, a Perplexity nevű mesterséges intelligencia cégnek a megbízásából dolgozó robotok weboldalakat, köztük híroldalakat is feltérképeztek, és azok tartalmát megfelelő hivatkozás vagy engedély nélkül reprodukálták. Az Amazon felhőszolgáltató ügyfeleinek be kell tartaniuk a robots.txt-t, és a Perplexity-t azzal vádolták meg, hogy nem így tett. Aravind Srinivas, a cég vezérigazgatója tagadja, hogy cége alattomosan figyelmen kívül hagyta volna a fájlt, bár elismerte, hogy a Perplexity által használt harmadik féltől származó botok a webmesterek kívánsága ellenére letöltöttek oldalakat.

A News Media Alliance, egytöbb mint 2200 lapkiadót képviselő szakmai csoport aggodalmát fejezte ki a "ne töltsd le" jelzés figyelmen kívül hagyásának tagjaira gyakorolt hatása miatt. "Ha nem áll módunkban lemondani a tömeges letöltésről nem tudjuk pénzzé tenni értékes tartalmainkat és fizetni az újságírókat. Ez súlyosan károsíthatja az iparágunkat" - mondta Danielle Coffey, a csoport elnöke.

"Sajnos azt vettük észre, hogy a bot-üzemeltetők hamisított felhasználói adatok használatával úgy próbáltak tűnni, mintha egy valódi böngésző látogatná a lapot" - közölte a Cloudflare. "Megfigyeltük ezt a tevékenységet, és büszkén mondhatjuk, hogy globális gépi tanulási modellünk most már mindig botként azonosítja ezt, még akkor is, ha az üzemeltetők hazudtak a felhasználói ügynökükről." A Cloudflare hozzátette, hogy gépi tanulási pontozási rendszere a június 14. és június 27. közötti időszakban következetesen 30 alá értékelte az álcázott Perplexity botot, ami azt jelzi, hogy "valószínűleg automatizált".

Ez a bot-felismerési megközelítés digitális ujjlenyomatokra támaszkodik, egy olyan technikára, amelyet általában az emberek online követésére és az adatvédelem kikerülésére használnak. A webes scriptek - akárcsak az egyes internetezők - gyakran a hálózati interakciókból kiolvasható technikai részletek alapján tűnnek ki a tömegből. Ezek a botok általában ugyanazokat az eszközöket és keretrendszereket használják a webhelylátogatások automatizálására. És mivel a Cloudflare hálózatán másodpercenként átlagosan 57 millió kérés érkezik, bőséges adat áll rendelkezésükre annak meghatározásához, hogy mely ujjlenyomatok megbízhatóak.

Tehát ez az, amihez eljutottunk: gépi tanulási modellekkel védekeznek az MI-modelleket tápláló botok ellen. A Cloudflare új szolgáltatása minden ügyfele számára ingyenesen elérhető, ehhez mindössze annyit kell tenniük, hogy az adott weboldal esetében a Biztonság -> Botok menüben rákattintanak az AI Scrapers és Crawlers blokkolása gombra.

"Attól tartunk, hogy egyes MI cégek, amelyek a szabályok megkerülésére törekszenek a tartalomhoz való hozzáférés érdekében, kitartóan alkalmazkodnak majd a botok észlelésének megkerülése érdekében" - mondta a Cloudflare. "Továbbra is folyamatosan figyelni fogunk, és további blokkokkal egészítjük ki az AI Scrapers és Crawlers szabályunkat, valamint fejlesztjük gépi tanulási modelljeinket, hogy segítsünk megőrizni az internetet egy olyan helyként, ahol a tartalomkészítők virágozhatnak, és teljes kontrollt tarthatnak a felett, hogy a tartalmaikat milyen modellekhez használják fel."

Megakadályozza a weblapok letöltését a Cloudflare új szolgáltatása

Kapcsolódó cikkek és linkek

Hozzászólások