SG.hu

Annyira agresszív az Anthropic MI-cég botja, hogy lehalnak tőle a weblapok

A webes kiadók szerint a fejlesztő cég nagyon leterheli az oldalaikat, mert tartalmat gyűjt a modellek betanításához, és figyelmen kívül hagyja a leállításra vonatkozó utasításokat.

A mesterséges intelligenciával foglalkozó Anthropic startupot azzal vádolják, hogy agresszív módon gyűjti az adatokat a weboldalakról a rendszerei képzése céljából, és ezzel az érintettek szerint potenciálisan megsérti a kiadók szolgáltatási feltételeit. A mesterséges intelligencia-fejlesztők a legkülönfélébb forrásokból származó hatalmas mennyiségű adat bevitelére támaszkodnak a nagy nyelvi modellek létrehozásához, amely technológia olyan chatbotok mögött áll, mint az OpenAI ChatGPT és az Anthropic-féle rivális, a Claude. Az Anthropicot az OpenAI korábbi kutatóinak egy csoportja alapította azzal az ígérettel, hogy „felelős” mesterséges intelligencia rendszereket fejleszt.

Matt Barrie, a Freelancer.com vezérigazgatója azonban azzal vádolta a San Franciscó-i székhelyű vállalatot, hogy „messze a legagresszívabb botokat veti be” a szabadúszóknak szánt portálján, amelyet naponta több millióan látogatnak. Más webes kiadók is csatlakoztak Barrie aggodalmaihoz, miszerint az Anthropic lehalasztja az oldalaikat, és figyelmen kívül hagyja az utasításaikat, hogy ne gyűjtse tovább a tartalmaikat a modelljeik képzése céljából. A Freelancer.com-ot négy óra alatt 3,5 millióan látogatták meg az Anthropichoz kapcsolódó webes „crawler” segítségével. Ezzel az Anthropic „ötször nagyobb volumenű, mint a második számú” mesterséges intelligencia bot - mondta Barrie.

A bot még azután sem állt le, hogy a Freelancer.com megpróbálta visszautasítani a hozzáférési kérelmeket a crawlerek irányítására szolgáló szabványos webes protokollok segítségével. Ezt követően Barrie úgy döntött, hogy teljesen blokkolja az Anthropic internetes címeiről érkező forgalmat. "Azért kellett blokkolnunk őket, mert nem tartják be az internet szabályait” - mondta Barrie. „Ez a kirívó viselkedés lassabbá teszi az oldalt mindenki számára, aki használni szeretné, és végső soron a bevételeinkre is hatással van.” Az Anthropic közölte, hogy kivizsgálja az esetet, és tiszteletben tartja a kiadók kéréseit, és célja, hogy ne legyen „tolakodó vagy zavaró”.

A nyilvánosan elérhető adatok letöltése a világhálóról általában legális. A kereskedelmi célú felhasználás azonban vitatott, sértheti a weboldalak szolgáltatási feltételeit, és költséges lehet a tárhelyszolgáltatók számára. Kyle Wiens, az iFixit.com vezérigazgatója elmondta, hogy javítással foglalkozó oldaluk 24 óra alatt 1 millió látogatást kapott az Anthropic botoktól. "Rengeteg riasztásunk van a nagy forgalom miatt, a rendszergazdáink hajnali 3-kor felébrednek. Az Anthropic minden vészjelzőnket beindította” - mondta. Wiens elmondta, hogy az iFixit szolgáltatási feltételei tiltják az adataik gépi tanuláshoz való felhasználását. "Az üzenetem az Anthropicnak: ha ezeket arra használod, hogy a modelledet képezd, az illegális. A második: ez nem udvarias viselkedés. A letöltésnek is van etikája.”


A mesterséges intelligenciával foglalkozó vállalatok szinte soha nem tartják be a szolgáltatási feltételeket, ami azért érdekes, mert sokuknak maguknak is nagyon hosszú szolgáltatási feltételeik vannak, amelyek korlátozzák a felhasználók tevékenységét. A webhelyek a „robots.txt” protokollt használják arra, hogy a webes botokat távol tartsák webhelyeik egyes részeiről. Ez azonban önkéntes megfelelésen alapul. "Tiszteletben tartjuk a robots.txt-t, és a crawlerünk tiszteletben tartotta ezt a jelzést, amikor az iFixit bevezette” - mondta Anthropic. A vállalat azt is elmondta, hogy botjai tiszteletben tartják a „kijátszás elleni technológiákat”, például a CAPTCHA-kat, és hogy „a botjaink nem lehetnek tolakodóak vagy zavaróak”. Célunk a minimális zavarás elérése azáltal, hogy átgondoltan mérlegeljük, milyen sűrűn kutatjuk át ugyanazokat a domaineket”.

A webhelyek letöltése nem új gyakorlat, de az elmúlt két évben a mesterséges intelligencia fegyverkezési versenyének eredményeként drámaian felerősödött. Ez új költségeket ró a szolgáltatókra. "Az MI-botok jelentős összegbe kerülnek nekünk sávszélességi díjak formájában, és rengeteg időt töltünk a visszaélésekkel való foglalkozással” - írja Eric Holscher, a Read the Docs dokumentumtárhelyeket üzemeltető weboldal társalapítója egy blogbejegyzésben.

A blog szerint egyetlen bot 2024 májusában 73 TB zippelt HTML-fájlt töltött le, egyetlen nap alatt közel 10 TB-ot. "Ez több mint 5000 dollárba került nekünk sávszélességi díjak formájában, és ki kellett tiltanunk a botot. E-mailt küldtünk ennek a cégnek, és bejelentettük, hogy hiba van a programjukban, és dolgozunk velük a költségek megtérítésén. Júniusban a Facebook tartalomletöltő programja 10 TB adatot töltött le, főként tömörített HTML- és PDF-fájlokat." Megpróbálták erről értesíteni a Facebookot a bot leírásában megadott elérhetőségen keresztül, de az e-mail visszapattant. "Az MI botok olyan módon viselkednek, amely nem tiszteli az általuk célzott oldalakat, és ez általában véve visszahatást fog kiváltani” - tette hozzá Eric Holscher.

Az Anthropic a világ legfejlettebb chatrobotjainak egyikét hozta létre - az OpenAI ChatGPT-vel vetekedve -, amely természetes nyelven képes válaszolni a különböző kérésekre, miközben etikusabb szereplőként pozicionálja magát, mint egyes riválisai. Az Anthropic kimondott célja „a fejlett mesterséges intelligencia felelős fejlesztése és fenntartása az emberiség hosszú távú javára”. Ahogy a vezető MI-vállalatok versenyeznek az egyre erősebb és ügyesebb modellek létrehozásáért, egyre mélyebbre hatolnak a web kiaknázatlan szegleteibe, együttműködnek a kiadókkal vagy szintetikus képzési adatokat hoznak létre.

Az OpenAI az elmúlt hónapokban számos megállapodást kötött kiadókkal és tartalomszolgáltatókkal, köztük a Reddittel, a The Atlantic és a Financial Times-szal. Az Anthropic nem jelentett be nyilvánosan hasonló partnerségeket. "A keresőmotorok mindig is nagyon igénybe vették a weblapokat” - mondta Barrie - "de a generatív MI képzésével ez szintet lépett." Az iFixit küldetése „az, hogy információt adjon tovább” - mondta Wiens -, hogy az embereket saját eszközeik javítására ösztönözze. "Nem ellenezzük, hogy a mi tartalmainkat használják a modellek képzéséhez, mi csak részesei akarunk lenni a beszélgetésnek”. Hozzátette: „Nem vagyok keresztes lovag ebben a témában, csak megpróbálom a weboldal online elérhetőségét biztosítani."

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • szoftos #2
    Szerk: 47.128.0.0/17, nem /25. azaz kb 32000 IP cim amirol europaban johetnek, sponsored by AWS.
  • szoftos #1
    No problemo. fail2ban + egy becsuletes nginx config ezt mind megfogja es mennek a levesbe, abuseipdb reporttal.

    tovabbi contenderek meg a facebookexternalhit (robots.txt crawl-delay totalis ignoralasa) Bytespider (tiktok crawler, ez a masodik legdurvabb) es yandex bot.

    a tiktoknal raadasul ugy nez ki hogy egy teljes /25-os tartomanyt hasznalnak abusera, es ez csak europa fele: 47.128.0.0/25. olvastam arrol is hogy mas kontinenseken mas tartomanyokbol jonnek ezek a keresek a tiktoktol.

    nekem nem faj, a fail2ban szorgosan dolgozik, a visszatero szabalysertoknek mindig kettovel szorozza az IP ban idejet.

    amiota ezt alkalmazom es a szabalyserto botokat tiltogatom, a szerverem loadja jelentosen csokkent.
    Utoljára szerkesztette: szoftos, 2024.07.27. 14:07:33