SG.hu·

Egyesek szerint hibázott a Cloudflare a Perplexity megszégyenítésével

Egyesek szerint hibázott a Cloudflare a Perplexity megszégyenítésével
A Cloudflare pár napja azzal vádolta meg a Perplexity keresőmotort, hogy agresszívan weboldalakat másol és figyelmen kívül hagyja a weboldalak arra irányuló parancsait, hogy ezt ne tegyék. Sokan a Perplexity védelmére keltek, és arra hivatkoznak, hogy bár vitatható ez a viselkedés, de elfogadható. Ez a vita pedig biztosan tovább fog fokozódni, ahogy az MI-ügynökök elárasztják az internetet: botként kell-e kezelni egy ügynököt, aki a felhasználója nevében kérdez le egy weboldalt? Vagy úgy, mint egy embert, aki ugyanazt a kérést teszi?

A Cloudflare arról ismert, hogy több millió weboldal számára nyújt botok elleni szűrést és egyéb webes biztonsági szolgáltatásokat. A cég tesztje lényegében abból állt, hogy létrehozott egy új weboldalt egy új domainnel, amelyet még soha nem keresett meg bot, létrehozott egy robots.txt fájlt, amely kifejezetten blokkolta a Perplexity ismert MI keresőrobotjait, majd megkérdezte a Perplexity-t a weboldal tartalmáról. A Perplexity pedig megválaszolta a kérdést.

A Cloudflare kutatói megállapították, hogy miután blokkolták a webes kereső robotját "egy általános böngészőt használt, amely egy macOS-en futó Google Chrome-ot utánzott.” A Cloudflare vezérigazgatója, Matthew Prince tette közzé a kutatást az X-en, és azt írta: „Néhány állítólag jó hírű MI-vállalat inkább úgy viselkedik, mint az észak-koreai hackerek. Ideje megnevezni, megszégyeníteni és keményen blokkolni őket.” De sokan nem értettek egyet Prince értékelésével, miszerint ez valóban rossz viselkedés volt. Azok, akik az X és a Hacker News oldalakon védték a Perplexity-t, rámutattak, hogy az MI egy adott nyilvános weboldalhoz fér hozzá, amikor a felhasználó azt a weboldalt kéri.


"Ha én, mint ember, egy weboldalt kérek, akkor azt a tartalmat kell megmutatni nekem” - írta egy felhasználó a Hacker News oldalon, hozzátéve: „Miért lenne az LLM, amely az én nevemben fér hozzá a weboldalhoz, más jogi kategóriába sorolható, mint a Firefox böngészőm?” Érdekesség, hogy a Perplexity szóvivője kapásból letagadta, hogy a botok a cég tulajdonában lennének, és a Cloudflare blogbejegyzését a felhőszolgáltató értékesítési trükkjének nevezte. Aztán a Perplexity egy blogbejegyzést tett közzé védekezésképp (és általában a Cloudflare támadására), amelyben azt állította, hogy a tartalmak egy harmadik fél szolgáltatásából származnak, amelyet alkalmanként használ.

De a Perplexity bejegyzésének lényege hasonló volt, mint online védelmezőinek. "Az automatizált indexelés és a felhasználó által vezérelt lekérés közötti különbség nem csak technikai jellegű - arról szól, hogy ki fér hozzá az információkhoz a nyílt weben” - áll a bejegyzésben. „Ez a vita rávilágít arra, hogy a Cloudflare rendszerei alapvetően alkalmatlanok a legitim MI-asszisztensek és a valódi fenyegetések megkülönböztetésére.”

A Perplexity érvei azonban nem teljesen helytállóak. Prince és a Cloudflare egyik érve a Perplexity módszereinek bírálatára az volt, hogy az OpenAI nem viselkedik ugyanúgy. "Az OpenAI egy példa egy vezető MI-vállalatra, amely betartja ezeket a bevált gyakorlatokat” - írta a Cloudflare. „Tiszteletben tartják a robots.txt fájlt, és nem próbálnak megkerülni sem robots.txt utasításokat, sem hálózati szintű blokkolást. A ChatGPT Agent pedig az újonnan javasolt nyílt szabvány, a Web Bot Auth segítségével írja alá a http-kérelmeket.” A Web Bot Auth egy Cloudflare által támogatott szabvány, amelyet az Internet Engineering Task Force fejleszt, és amelynek célja egy kriptográfiai módszer létrehozása az MI-ügynökök webes kéréseinek azonosítására.

Ez a vita akkor kezdődött, amikor a botok tevékenysége átalakította az internetet. Többször írtunk már arról, hogy a mesterséges intelligencia modellek képzéséhez hatalmas mennyiségű tartalmat gyűjtő botok - különösen a kisebb webhelyek számára - fenyegetést jelentenek. Mindennek oka, hogy az internet történetében először a botok tevékenysége már meghaladja az emberek online tevékenységét. Az MI forgalom aránya több mint 50% - derül ki az Imperva Bad Bot jelentéséből, amelyet a múlt hónapban tettek közzé. Ezen tevékenység nagy része LLM-ektől származik. A jelentés azt is megállapította, hogy a rosszindulatú botok ma már az összes internetes forgalom 37%-át teszik ki. Ez a tevékenység magában foglal a lekérdezésektől a jogosulatlan bejelentkezési kísérletekig mindent.

Az LLM-ek megjelenéséig az interneten általánosan elfogadott volt, hogy a webhelyek blokkolhatják és blokkolniuk is kell a botok tevékenységének nagy részét, mivel azok gyakran rosszindulatúak voltak, CAPTCHA-k és más szolgáltatások (például a Cloudflare) segítségével. De a weboldalaknak egyértelmű érdeke fűződött ahhoz is, hogy együttműködjenek bizonyos jó szándékú szereplőkkel, például a Googlebot-tal, és a robots.txt fájlon keresztül meghatározzák, hogy mit ne indexeljen. A Google indexelte az internetet, ami forgalmat generált a weboldalaknak.

Most azonban az LLM-ek egyre nagyobb részét emésztik fel ennek a forgalomnak. A Gartner előrejelzése szerint a keresőmotorok forgalma 2026-ra 25%-kal csökkenni fog. De ha az emberek a technológiai ipar előrejelzéseinek megfelelően ügynököket alkalmaznak - utazások megszervezésére, vacsorafoglalásokra és vásárlásokra -, akkor a webhelyek károsítanák-e üzleti érdekeiket azzal, hogy blokkolják őket? Egy X-en lévő bejegyzés tökéletesen megragadja ezt a dilemmát: "Azt akarom, hogy a Perplexity az én nevemben látogassa meg az összes nyilvános tartalmat, amikor kéréssel/feladattal fordulok hozzá!” - írta egy személy válaszul arra, hogy a Cloudflare megszégyenítette a Perplexity-t.


„Mi van, ha a webhely tulajdonosai nem akarják ezt? Ők azt akarják, hogy közvetlenül a honlapjukra látogassunk el, és megnézzük a tartalmaikat” - érvelt egy másik, rámutatva, hogy a tartalmat létrehozó webhely tulajdonosok a forgalmat és a potenciális hirdetési bevételeket akarják, és nem szeretnék, hogy a Perplexity elvegye ezt tőlük. "Nem látom, hogy az 'ügynöki böngészés' valóban működni fog - ez sokkal bonyolultabb probléma, mint az emberek gondolják. A legtöbb webhely tulajdonos egyszerűen blokkolni fogja a botokat” - jósolta egy harmadik.

Kapcsolódó cikkek és linkek

Hozzászólások

Jelentkezz be a hozzászóláshoz.

© pasi29uk2025. 08. 11.. 07:05||#1
Nem volna itt gond ha: figyelembe vennék a robots.txt fájlt, nem csinalnanak 50+ lekérdezést 15mp alatt, és volna valami pici haszna annak, hogy szétlopjak az oldalt. Ugyanis rengeteg crawler bot maszkal lop es nagyon agresszivek. Csinaljak a nagy forgalmat, osszegyujtik az adataidat majd 'voszont latasra'. Ugyan monja meg valaki, hogy petabot, samrush, stb. miféle hasznot hoz? Semmit! Ozonlenek (hogy erts ezresevel napi szinten) a tamadások fokent Irország, Franciaország, Singapurbol.