SG.hu
Semmilyen normát nem tart be a Perplexity a weblapok letöltése érdekében
A Cloudflare hálózati biztonsági és optimalizálási szolgáltatás szerint az MI-cég "lopakodó taktikákat” alkalmaz, hogy megkerülje a botját kitiltó utasításokat. Ezek a vádak már a sokadikak, amelyek a Perplexity-t nem megfelelő webes indexeléssel gyanúsítják meg. Mindezek ellenére ha egy cég beperli őket, mert nem akarják ingyen átadni a tartalmaikat, van képük "tisztességes felhasználásra" hivatkozni.
A Perplexity rejtett botokat és egyéb taktikákat alkalmaz, hogy kijátsza a weboldalak no-crawl irányelveit, ami - ha igaz - megsérti a több mint három évtizede érvényben lévő internetes normákat, állítja a Cloudflare. Egy blogbejegyzésben a Cloudflare kutatói leírják, hogy a vállalat panaszokat kapott olyan ügyfelektől, akik tiltották a Perplexity botjainak weboldalukon való megjelenését a robots.txt fájlokban végrehajtott beállítások és robotokat blokkoló tűzfalak segítségével. A Cloudflare szerint ezen lépések ellenére a Perplexity továbbra is hozzáfért a weboldalak tartalmához. A kutatók elmondták, hogy ezt követően maguk is tesztelték a rendszert, és megállapították, hogy amikor az ismert Perplexity-crawlerek robots.txt fájlok vagy tűzfalszabályok által blokkolva lettek, a Perplexity egy rejtett bot segítségével töltötte le a webhelyeket, és számos taktikát alkalmazott tevékenységének leplezésére.
"Egy nem bejelentett bot több, a Perplexity hivatalos IP-tartományában nem szereplő IP-címet használt, és ezeket az IP-címeket váltogatta a korlátozó robots.txt-szabályzatra és a Cloudflare blokkolására reagálva” - írják a kutatók. "Az IP-címek váltogatásán túlmenően megfigyeltük, hogy különböző ASN-ekről érkező kérésekkel is megpróbálták kijátszani a webhelyek blokkolását. Ez a tevékenység több tízezer domainen és naponta több millió kérésben volt megfigyelhető.” A kutatók a következő ábrával illusztrálták azt a technikát, amelyet állításuk szerint a Perplexity használt.
Ez a módszer több mint három évtizede érvényben lévő internetes normák sért meg. 1994-ben Martijn Koster mérnök javasolta a Robots Exclusion Protocol (robot kizárási protokoll) bevezetését, amely géppel olvasható formátumot biztosított a keresőrobotok tájékoztatására arról, hogy egy adott webhelyen nem engedélyezettek. Azok a webhelyek, amelyek tartalmát indexelték, egy egyszerű robots.txt fájlt raktak a honlapjuk gyökérkönyvtárába. A dolog - amelyet azóta széles körben betartanak és támogatnak - 2022-ben hivatalosan is szabvány lett az Internet Engineering Task Force keretében.
A Cloudflare nem az első, aki azt állítja, hogy a Perplexity megsérti ezt. Tavaly Steve Huffman, a Reddit vezérigazgatója panaszkodott arra, hogy a Perplexity - és két másik, a Microsoft és az Anthropic által fejlesztett MI-motor - kizárása igazi fejfájás volt. "A Microsoft, az Anthropic és a Perplexity úgy viselkednek, mintha az interneten található összes tartalom szabadon felhasználható lenne számukra. Ez az ő álláspontjuk.” A Perplexity számos további kiadó vádjával is szembesült, miszerint plagizálta a tartalmaikat. A Forbes "cinikus lopással” vádolta a Perplexity-t, miután közzétett egy bejegyzést, amely „rendkívül hasonlított a Forbes saját cikkéhez”, amelyet egy nappal korábban tettek közzé. A Wired hasonló állításokat fogalmazott meg: hivatkozott az IP-címek gyanús forgalmi mintáira, amelyek valószínűleg a Perplexity-hez kapcsolódnak, és hogy figyelmen kívül hagyták a robots.txt kizárásait. A Perplexity-ről kiderült, hogy manipulálta a keresőrobotjainak azonosító karakterláncát, hogy megkerülje a weboldalak blokkolását.
A Cloudflare erre reagálva intézkedéseket hoz, hogy megakadályozza a keresőrobotok hozzáférését azokhoz a weboldalakhoz, amelyek a szolgáltatását használják. "Előnyben részesítjük, ha a keresőrobotok átláthatóak, egyértelmű célt szolgálnak, meghatározott tevékenységet végeznek, és ami a legfontosabb, betartják a weboldalak irányelveit és preferenciáit” - írják. „A Perplexity megfigyelt viselkedése nem felel meg ezeknek az elvárásoknak, ezért töröltük őket a hitelesített botok listájáról, és heurisztikákat adtunk hozzá a kezelt szabályainkhoz, amelyek blokkolják ezt a rejtett keresést."
A Perplexity rejtett botokat és egyéb taktikákat alkalmaz, hogy kijátsza a weboldalak no-crawl irányelveit, ami - ha igaz - megsérti a több mint három évtizede érvényben lévő internetes normákat, állítja a Cloudflare. Egy blogbejegyzésben a Cloudflare kutatói leírják, hogy a vállalat panaszokat kapott olyan ügyfelektől, akik tiltották a Perplexity botjainak weboldalukon való megjelenését a robots.txt fájlokban végrehajtott beállítások és robotokat blokkoló tűzfalak segítségével. A Cloudflare szerint ezen lépések ellenére a Perplexity továbbra is hozzáfért a weboldalak tartalmához. A kutatók elmondták, hogy ezt követően maguk is tesztelték a rendszert, és megállapították, hogy amikor az ismert Perplexity-crawlerek robots.txt fájlok vagy tűzfalszabályok által blokkolva lettek, a Perplexity egy rejtett bot segítségével töltötte le a webhelyeket, és számos taktikát alkalmazott tevékenységének leplezésére.
"Egy nem bejelentett bot több, a Perplexity hivatalos IP-tartományában nem szereplő IP-címet használt, és ezeket az IP-címeket váltogatta a korlátozó robots.txt-szabályzatra és a Cloudflare blokkolására reagálva” - írják a kutatók. "Az IP-címek váltogatásán túlmenően megfigyeltük, hogy különböző ASN-ekről érkező kérésekkel is megpróbálták kijátszani a webhelyek blokkolását. Ez a tevékenység több tízezer domainen és naponta több millió kérésben volt megfigyelhető.” A kutatók a következő ábrával illusztrálták azt a technikát, amelyet állításuk szerint a Perplexity használt.
Ez a módszer több mint három évtizede érvényben lévő internetes normák sért meg. 1994-ben Martijn Koster mérnök javasolta a Robots Exclusion Protocol (robot kizárási protokoll) bevezetését, amely géppel olvasható formátumot biztosított a keresőrobotok tájékoztatására arról, hogy egy adott webhelyen nem engedélyezettek. Azok a webhelyek, amelyek tartalmát indexelték, egy egyszerű robots.txt fájlt raktak a honlapjuk gyökérkönyvtárába. A dolog - amelyet azóta széles körben betartanak és támogatnak - 2022-ben hivatalosan is szabvány lett az Internet Engineering Task Force keretében.
A Cloudflare nem az első, aki azt állítja, hogy a Perplexity megsérti ezt. Tavaly Steve Huffman, a Reddit vezérigazgatója panaszkodott arra, hogy a Perplexity - és két másik, a Microsoft és az Anthropic által fejlesztett MI-motor - kizárása igazi fejfájás volt. "A Microsoft, az Anthropic és a Perplexity úgy viselkednek, mintha az interneten található összes tartalom szabadon felhasználható lenne számukra. Ez az ő álláspontjuk.” A Perplexity számos további kiadó vádjával is szembesült, miszerint plagizálta a tartalmaikat. A Forbes "cinikus lopással” vádolta a Perplexity-t, miután közzétett egy bejegyzést, amely „rendkívül hasonlított a Forbes saját cikkéhez”, amelyet egy nappal korábban tettek közzé. A Wired hasonló állításokat fogalmazott meg: hivatkozott az IP-címek gyanús forgalmi mintáira, amelyek valószínűleg a Perplexity-hez kapcsolódnak, és hogy figyelmen kívül hagyták a robots.txt kizárásait. A Perplexity-ről kiderült, hogy manipulálta a keresőrobotjainak azonosító karakterláncát, hogy megkerülje a weboldalak blokkolását.
A Cloudflare erre reagálva intézkedéseket hoz, hogy megakadályozza a keresőrobotok hozzáférését azokhoz a weboldalakhoz, amelyek a szolgáltatását használják. "Előnyben részesítjük, ha a keresőrobotok átláthatóak, egyértelmű célt szolgálnak, meghatározott tevékenységet végeznek, és ami a legfontosabb, betartják a weboldalak irányelveit és preferenciáit” - írják. „A Perplexity megfigyelt viselkedése nem felel meg ezeknek az elvárásoknak, ezért töröltük őket a hitelesített botok listájáról, és heurisztikákat adtunk hozzá a kezelt szabályainkhoz, amelyek blokkolják ezt a rejtett keresést."