A Cloudflare irreleváns tények végtelen útvesztőjével fordítja maga ellen az MI-t

Az MI-cégek adatleszívása annyira agresszív, hogy elérhetetlenné teszi a weboldalakat. Most megjött a válasz: egy új megközelítés megbünteti azokat a cégeket, amelyek figyelmen kívül hagyják a "robot.txt" irányelveket.

A Cloudflare webes infrastruktúra-szolgáltató bejelentette az "AI Labyrinth" nevű új funkciót, amelynek célja az engedély nélküli MI-adatletöltés elleni küzdelem azáltal, hogy hamis, MI által generált tartalmakat szolgál ki a botoknak. Az eszköz megpróbálja kizárni azokat az MI-cégeket, amelyek engedély nélkül töltenek le komplett weboldalakat, hogy képzési adatokat gyűjtsenek a nagyméretű nyelvi modellekhez, amelyek az olyan MI-asszisztenseket működtetik, mint a ChatGPT.

A 2009-ben alapított Cloudflare leginkább a weboldalak számára infrastruktúra- és biztonsági szolgáltatásokat nyújtó vállalatként ismert, különösen az elosztott szolgáltatásmegtagadási (DDoS) támadások és más rosszindulatú forgalom elleni védelem terén. A cég új rendszere ahelyett, hogy egyszerűen blokkolná a botokat, valósághűnek tűnő, de irreleváns oldalak "labirintusába" csalogatja őket, pazarolva a botok számítási erőforrásait. Ez a megközelítés jelentős elmozdulást jelent a legtöbb webhelyvédelmi szolgáltatás által alkalmazott szokásos blokkolás és védekezés stratégiától. A Cloudflare szerint a botok blokkolása néha visszafelé sül el, mivel azok üzemeltetőit figyelmezteti, hogy észlelték őket.

„Amikor jogosulatlan tevékenységet észlelünk, ahelyett, hogy blokkolnánk a kérést, egy sor mesterséges intelligencia által generált oldalra fogunk hivatkozni, amelyek elég meggyőzőek ahhoz, hogy a botokat arra csábítsák, hogy áthaladjanak rajtuk” - írja a Cloudflare. „Mert bár valósnak tűnik, ez a tartalom valójában nem az általunk védett webhely tartalma, így a bot időt és erőforrásokat pazarol.”

A vállalat szerint a botoknak kiszolgált tartalom szándékosan irreleváns a webhely szempontjából, de gondosan, valódi tudományos tények - például semleges információk a biológiáról, a fizikáról vagy a matematikáról - felhasználásával származik vagy generálódik, hogy elkerülhető legyen a félretájékoztatás terjesztése. A Cloudflare ezt a tartalmat a Workers AI szolgáltatásával hozza létre, amely egy mesterséges intelligencia feladatokat futtató kereskedelmi platform. A Cloudflare úgy tervezte meg a csapdaoldalakat és a linkeket, hogy azok láthatatlanok és elérhetetlenek maradjanak a normál látogatók számára, így a világhálón böngésző emberek nem futnak bele véletlenül.

Az AI Labyrinth úgy működik, mint amit a Cloudflare „újgenerációs mézeskalitkának” nevez. A hagyományos honeypotok láthatatlan linkek, amelyeket az emberi látogatók nem láthatnak, de a HTML-kódot elemző botok követhetnek. A Cloudflare szerint azonban a modern botok ügyesen észreveszik ezeket az egyszerű csapdákat, ami kifinomultabb megtévesztést tesz szükségessé. A hamis linkek megfelelő meta direktívákat tartalmaznak, hogy megakadályozzák a keresőmotorok indexelését, ugyanakkor vonzóak maradjanak az adatfeltörő botok számára. "Egyetlen igazi ember sem menne négy linkkel mélyebbre egy mesterséges intelligencia által generált ostobaság útvesztőjébe" - magyarázza a Cloudflare. "Bármelyik látogató, aki ezt megteszi, nagy valószínűséggel bot, így ez egy vadonatúj eszközt ad nekünk a rossz botok azonosítására és ujjlenyomatának kimutatására."

Ez az azonosítás egy gépi tanulási visszacsatolási hurokba kerül - az AI Labyrinthból gyűjtött adatokat a Cloudflare hálózatában a botok felismerésének folyamatos javítására használják, így idővel javul az ügyfelek védelme. A Cloudflare bármelyik díjcsomagjának ügyfelei - még az ingyenes csomagban is - egyetlen kapcsolóval engedélyezhetik a funkciót az irányítópult beállításaiban.

A Cloudflare AI Labirintusa csatlakozik az agresszív MI-adatletöltés elleni küzdelemre tervezett eszközök egyre növekvő mezőnyéhez. A "Nepenthes" szoftvere szintén hamis tartalmak labirintusaiba csalja az adatgyűjtő botokat. Mindkét megközelítés lényege, hogy a botok erőforrásait pazarolja, ahelyett, hogy egyszerűen blokkolná őket. Míg azonban a Nepenthes-t névtelen alkotója "agresszív rosszindulatú szoftverként" írta le, amelynek célja, hogy hónapokig csapdába ejtse a botokat, a Cloudflare az eszközt legitim biztonsági funkcióként pozícionálja, amely kereskedelmi szolgáltatásán könnyen engedélyezhető.

A Cloudflare adatai szerint a mesterséges intelligencia botok hatása a weben jelentősnek tűnik, ami egybevág egyéb anekdotikus jelentésekkel. A vállalat szerint az adatvadászok naponta több mint 50 milliárd kérést generálnak a hálózatukhoz, ami az általuk feldolgozott teljes webes forgalom közel 1 százalékát teszi ki. E botok többsége a webhelyek tulajdonosainak engedélye nélkül gyűjti be az információkat a nagyméretű nyelvi modellek képzése céljából, ami számos pert váltott ki a tartalomkészítők és kiadók részéről.

Ez a technika a mesterséges intelligencia érdekes védekező alkalmazását jelenti, amely inkább a webhelytulajdonosokat és -alkotókat védi, mintsem hogy szellemi tulajdonukat fenyegetné. Nem világos azonban, hogy a letöltőbotok milyen gyorsan alkalmazkodnak az ilyen csapdák felismeréséhez és elkerüléséhez, ami arra kényszerítheti a Cloudflare-t, hogy növelje megtévesztési taktikájának összetettségét. Emellett az MI-vállalatok erőforrásainak pazarlása nem biztos, hogy tetszeni fog azoknak, akik kritikusan viszonyulnak az MI-modellek működtetésének vélt energia- és környezeti költségeihez.

A Cloudflare ezt csak „az első iterációnak” nevezi a mesterséges intelligencia botok elleni védekező felhasználásában. A jövőbeli tervek között szerepel a hamis tartalmak nehezebben felismerhetővé tétele és a hamis oldalak zökkenőmentesebb integrálása a weboldalak struktúrájába. A weboldalak és az adathalászok közötti macska-egér játék folytatódik, és a mesterséges intelligenciát most már a csata mindkét oldalán alkalmazzák.

A Cloudflare irreleváns tények végtelen útvesztőjével fordítja maga ellen az MI-t

Kapcsolódó cikkek és linkek

Hozzászólások