SG.hu·
Egyesek szerint hibázott a Cloudflare a Perplexity megszégyenítésével

A Cloudflare pár napja azzal vádolta meg a Perplexity keresőmotort, hogy agresszívan weboldalakat másol és figyelmen kívül hagyja a weboldalak arra irányuló parancsait, hogy ezt ne tegyék. Sokan a Perplexity védelmére keltek, és arra hivatkoznak, hogy bár vitatható ez a viselkedés, de elfogadható. Ez a vita pedig biztosan tovább fog fokozódni, ahogy az MI-ügynökök elárasztják az internetet: botként kell-e kezelni egy ügynököt, aki a felhasználója nevében kérdez le egy weboldalt? Vagy úgy, mint egy embert, aki ugyanazt a kérést teszi?
A Cloudflare arról ismert, hogy több millió weboldal számára nyújt botok elleni szűrést és egyéb webes biztonsági szolgáltatásokat. A cég tesztje lényegében abból állt, hogy létrehozott egy új weboldalt egy új domainnel, amelyet még soha nem keresett meg bot, létrehozott egy robots.txt fájlt, amely kifejezetten blokkolta a Perplexity ismert MI keresőrobotjait, majd megkérdezte a Perplexity-t a weboldal tartalmáról. A Perplexity pedig megválaszolta a kérdést.
A Cloudflare kutatói megállapították, hogy miután blokkolták a webes kereső robotját "egy általános böngészőt használt, amely egy macOS-en futó Google Chrome-ot utánzott.” A Cloudflare vezérigazgatója, Matthew Prince tette közzé a kutatást az X-en, és azt írta: „Néhány állítólag jó hírű MI-vállalat inkább úgy viselkedik, mint az észak-koreai hackerek. Ideje megnevezni, megszégyeníteni és keményen blokkolni őket.” De sokan nem értettek egyet Prince értékelésével, miszerint ez valóban rossz viselkedés volt. Azok, akik az X és a Hacker News oldalakon védték a Perplexity-t, rámutattak, hogy az MI egy adott nyilvános weboldalhoz fér hozzá, amikor a felhasználó azt a weboldalt kéri.
"Ha én, mint ember, egy weboldalt kérek, akkor azt a tartalmat kell megmutatni nekem” - írta egy felhasználó a Hacker News oldalon, hozzátéve: „Miért lenne az LLM, amely az én nevemben fér hozzá a weboldalhoz, más jogi kategóriába sorolható, mint a Firefox böngészőm?” Érdekesség, hogy a Perplexity szóvivője kapásból letagadta, hogy a botok a cég tulajdonában lennének, és a Cloudflare blogbejegyzését a felhőszolgáltató értékesítési trükkjének nevezte. Aztán a Perplexity egy blogbejegyzést tett közzé védekezésképp (és általában a Cloudflare támadására), amelyben azt állította, hogy a tartalmak egy harmadik fél szolgáltatásából származnak, amelyet alkalmanként használ.
De a Perplexity bejegyzésének lényege hasonló volt, mint online védelmezőinek. "Az automatizált indexelés és a felhasználó által vezérelt lekérés közötti különbség nem csak technikai jellegű - arról szól, hogy ki fér hozzá az információkhoz a nyílt weben” - áll a bejegyzésben. „Ez a vita rávilágít arra, hogy a Cloudflare rendszerei alapvetően alkalmatlanok a legitim MI-asszisztensek és a valódi fenyegetések megkülönböztetésére.”
A Perplexity érvei azonban nem teljesen helytállóak. Prince és a Cloudflare egyik érve a Perplexity módszereinek bírálatára az volt, hogy az OpenAI nem viselkedik ugyanúgy. "Az OpenAI egy példa egy vezető MI-vállalatra, amely betartja ezeket a bevált gyakorlatokat” - írta a Cloudflare. „Tiszteletben tartják a robots.txt fájlt, és nem próbálnak megkerülni sem robots.txt utasításokat, sem hálózati szintű blokkolást. A ChatGPT Agent pedig az újonnan javasolt nyílt szabvány, a Web Bot Auth segítségével írja alá a http-kérelmeket.” A Web Bot Auth egy Cloudflare által támogatott szabvány, amelyet az Internet Engineering Task Force fejleszt, és amelynek célja egy kriptográfiai módszer létrehozása az MI-ügynökök webes kéréseinek azonosítására.
Ez a vita akkor kezdődött, amikor a botok tevékenysége átalakította az internetet. Többször írtunk már arról, hogy a mesterséges intelligencia modellek képzéséhez hatalmas mennyiségű tartalmat gyűjtő botok - különösen a kisebb webhelyek számára - fenyegetést jelentenek. Mindennek oka, hogy az internet történetében először a botok tevékenysége már meghaladja az emberek online tevékenységét. Az MI forgalom aránya több mint 50% - derül ki az Imperva Bad Bot jelentéséből, amelyet a múlt hónapban tettek közzé. Ezen tevékenység nagy része LLM-ektől származik. A jelentés azt is megállapította, hogy a rosszindulatú botok ma már az összes internetes forgalom 37%-át teszik ki. Ez a tevékenység magában foglal a lekérdezésektől a jogosulatlan bejelentkezési kísérletekig mindent.
Az LLM-ek megjelenéséig az interneten általánosan elfogadott volt, hogy a webhelyek blokkolhatják és blokkolniuk is kell a botok tevékenységének nagy részét, mivel azok gyakran rosszindulatúak voltak, CAPTCHA-k és más szolgáltatások (például a Cloudflare) segítségével. De a weboldalaknak egyértelmű érdeke fűződött ahhoz is, hogy együttműködjenek bizonyos jó szándékú szereplőkkel, például a Googlebot-tal, és a robots.txt fájlon keresztül meghatározzák, hogy mit ne indexeljen. A Google indexelte az internetet, ami forgalmat generált a weboldalaknak.
Most azonban az LLM-ek egyre nagyobb részét emésztik fel ennek a forgalomnak. A Gartner előrejelzése szerint a keresőmotorok forgalma 2026-ra 25%-kal csökkenni fog. De ha az emberek a technológiai ipar előrejelzéseinek megfelelően ügynököket alkalmaznak - utazások megszervezésére, vacsorafoglalásokra és vásárlásokra -, akkor a webhelyek károsítanák-e üzleti érdekeiket azzal, hogy blokkolják őket? Egy X-en lévő bejegyzés tökéletesen megragadja ezt a dilemmát: "Azt akarom, hogy a Perplexity az én nevemben látogassa meg az összes nyilvános tartalmat, amikor kéréssel/feladattal fordulok hozzá!” - írta egy személy válaszul arra, hogy a Cloudflare megszégyenítette a Perplexity-t.
„Mi van, ha a webhely tulajdonosai nem akarják ezt? Ők azt akarják, hogy közvetlenül a honlapjukra látogassunk el, és megnézzük a tartalmaikat” - érvelt egy másik, rámutatva, hogy a tartalmat létrehozó webhely tulajdonosok a forgalmat és a potenciális hirdetési bevételeket akarják, és nem szeretnék, hogy a Perplexity elvegye ezt tőlük. "Nem látom, hogy az 'ügynöki böngészés' valóban működni fog - ez sokkal bonyolultabb probléma, mint az emberek gondolják. A legtöbb webhely tulajdonos egyszerűen blokkolni fogja a botokat” - jósolta egy harmadik.
A Cloudflare arról ismert, hogy több millió weboldal számára nyújt botok elleni szűrést és egyéb webes biztonsági szolgáltatásokat. A cég tesztje lényegében abból állt, hogy létrehozott egy új weboldalt egy új domainnel, amelyet még soha nem keresett meg bot, létrehozott egy robots.txt fájlt, amely kifejezetten blokkolta a Perplexity ismert MI keresőrobotjait, majd megkérdezte a Perplexity-t a weboldal tartalmáról. A Perplexity pedig megválaszolta a kérdést.
A Cloudflare kutatói megállapították, hogy miután blokkolták a webes kereső robotját "egy általános böngészőt használt, amely egy macOS-en futó Google Chrome-ot utánzott.” A Cloudflare vezérigazgatója, Matthew Prince tette közzé a kutatást az X-en, és azt írta: „Néhány állítólag jó hírű MI-vállalat inkább úgy viselkedik, mint az észak-koreai hackerek. Ideje megnevezni, megszégyeníteni és keményen blokkolni őket.” De sokan nem értettek egyet Prince értékelésével, miszerint ez valóban rossz viselkedés volt. Azok, akik az X és a Hacker News oldalakon védték a Perplexity-t, rámutattak, hogy az MI egy adott nyilvános weboldalhoz fér hozzá, amikor a felhasználó azt a weboldalt kéri.
Some supposedly “reputable” AI companies act more like North Korean hackers. Time to name, shame, and hard block them. https://t.co/vqMzGRHZPf
— Matthew Prince ?? (@eastdakota) August 4, 2025
"Ha én, mint ember, egy weboldalt kérek, akkor azt a tartalmat kell megmutatni nekem” - írta egy felhasználó a Hacker News oldalon, hozzátéve: „Miért lenne az LLM, amely az én nevemben fér hozzá a weboldalhoz, más jogi kategóriába sorolható, mint a Firefox böngészőm?” Érdekesség, hogy a Perplexity szóvivője kapásból letagadta, hogy a botok a cég tulajdonában lennének, és a Cloudflare blogbejegyzését a felhőszolgáltató értékesítési trükkjének nevezte. Aztán a Perplexity egy blogbejegyzést tett közzé védekezésképp (és általában a Cloudflare támadására), amelyben azt állította, hogy a tartalmak egy harmadik fél szolgáltatásából származnak, amelyet alkalmanként használ.
De a Perplexity bejegyzésének lényege hasonló volt, mint online védelmezőinek. "Az automatizált indexelés és a felhasználó által vezérelt lekérés közötti különbség nem csak technikai jellegű - arról szól, hogy ki fér hozzá az információkhoz a nyílt weben” - áll a bejegyzésben. „Ez a vita rávilágít arra, hogy a Cloudflare rendszerei alapvetően alkalmatlanok a legitim MI-asszisztensek és a valódi fenyegetések megkülönböztetésére.”
A Perplexity érvei azonban nem teljesen helytállóak. Prince és a Cloudflare egyik érve a Perplexity módszereinek bírálatára az volt, hogy az OpenAI nem viselkedik ugyanúgy. "Az OpenAI egy példa egy vezető MI-vállalatra, amely betartja ezeket a bevált gyakorlatokat” - írta a Cloudflare. „Tiszteletben tartják a robots.txt fájlt, és nem próbálnak megkerülni sem robots.txt utasításokat, sem hálózati szintű blokkolást. A ChatGPT Agent pedig az újonnan javasolt nyílt szabvány, a Web Bot Auth segítségével írja alá a http-kérelmeket.” A Web Bot Auth egy Cloudflare által támogatott szabvány, amelyet az Internet Engineering Task Force fejleszt, és amelynek célja egy kriptográfiai módszer létrehozása az MI-ügynökök webes kéréseinek azonosítására.
Ez a vita akkor kezdődött, amikor a botok tevékenysége átalakította az internetet. Többször írtunk már arról, hogy a mesterséges intelligencia modellek képzéséhez hatalmas mennyiségű tartalmat gyűjtő botok - különösen a kisebb webhelyek számára - fenyegetést jelentenek. Mindennek oka, hogy az internet történetében először a botok tevékenysége már meghaladja az emberek online tevékenységét. Az MI forgalom aránya több mint 50% - derül ki az Imperva Bad Bot jelentéséből, amelyet a múlt hónapban tettek közzé. Ezen tevékenység nagy része LLM-ektől származik. A jelentés azt is megállapította, hogy a rosszindulatú botok ma már az összes internetes forgalom 37%-át teszik ki. Ez a tevékenység magában foglal a lekérdezésektől a jogosulatlan bejelentkezési kísérletekig mindent.
Az LLM-ek megjelenéséig az interneten általánosan elfogadott volt, hogy a webhelyek blokkolhatják és blokkolniuk is kell a botok tevékenységének nagy részét, mivel azok gyakran rosszindulatúak voltak, CAPTCHA-k és más szolgáltatások (például a Cloudflare) segítségével. De a weboldalaknak egyértelmű érdeke fűződött ahhoz is, hogy együttműködjenek bizonyos jó szándékú szereplőkkel, például a Googlebot-tal, és a robots.txt fájlon keresztül meghatározzák, hogy mit ne indexeljen. A Google indexelte az internetet, ami forgalmat generált a weboldalaknak.
Most azonban az LLM-ek egyre nagyobb részét emésztik fel ennek a forgalomnak. A Gartner előrejelzése szerint a keresőmotorok forgalma 2026-ra 25%-kal csökkenni fog. De ha az emberek a technológiai ipar előrejelzéseinek megfelelően ügynököket alkalmaznak - utazások megszervezésére, vacsorafoglalásokra és vásárlásokra -, akkor a webhelyek károsítanák-e üzleti érdekeiket azzal, hogy blokkolják őket? Egy X-en lévő bejegyzés tökéletesen megragadja ezt a dilemmát: "Azt akarom, hogy a Perplexity az én nevemben látogassa meg az összes nyilvános tartalmat, amikor kéréssel/feladattal fordulok hozzá!” - írta egy személy válaszul arra, hogy a Cloudflare megszégyenítette a Perplexity-t.
what if the site owners don't want it ? (they just want you directly visit the home, see their stuffs not crawling 1000 requests / s as a DDOS for mini server of owner )
— Khanh Nguyen (@khanhicetea) August 4, 2025
Who pay for each request of site owner ?
Who get money from crawling ?
„Mi van, ha a webhely tulajdonosai nem akarják ezt? Ők azt akarják, hogy közvetlenül a honlapjukra látogassunk el, és megnézzük a tartalmaikat” - érvelt egy másik, rámutatva, hogy a tartalmat létrehozó webhely tulajdonosok a forgalmat és a potenciális hirdetési bevételeket akarják, és nem szeretnék, hogy a Perplexity elvegye ezt tőlük. "Nem látom, hogy az 'ügynöki böngészés' valóban működni fog - ez sokkal bonyolultabb probléma, mint az emberek gondolják. A legtöbb webhely tulajdonos egyszerűen blokkolni fogja a botokat” - jósolta egy harmadik.