SG.hu
A Reddit háborút indított az MI korszak adatlopási gyakorlata ellen
A Reddit egy peres eljárásban egy olyan startupokból álló ökoszisztémát fedett fel, amelyek a Google keresési eredményeit gyűjtik össze, és az információkat továbbadják az adatokra éhes mesterséges intelligencia cégeknek.
A texasi Austinban működő SerpApi nevű startup nyolc évvel ezelőtt kezdett el botokat használni a Google keresési algoritmusainak felderítésére, hogy így információkat gyűjtsenek, amelyek segítségével ügyfeleik magasabb pozíciót érhetnek el a keresési eredmények között. Ezután megjelent az OpenAI ChatGPT nevű programja, amely elindította a mesterséges intelligencia forradalmát. Ahogy egyre több technológiai vállalat kezdett mesterséges intelligencia chatbotokat építeni, hogy lépést tartson a fejlődéssel, nagy mennyiségű adatra volt szükségük mesterséges intelligencia modelleik kiképzéséhez - olyan adatokra, amelyeket a SerpApi már összegyűjtött.
A SerpApi-hoz hasonló vállalatok - az úgynevezett „adatgyűjtők” - gyakorlatilag egyik napról a másikra új üzleti lehetőséget találtak: a Google-tól gyűjtött adatokat eladták azoknak a vállalatoknak, amelyek mesterséges intelligencia chatbotjaikat akarták kiképezni. Szerdán a Reddit internetes fórum úgy döntött, hogy harcolni fog az adatgyűjtők ellen. Peres eljárást indított a New York-i déli kerületi szövetségi bíróságon, azt állítva, hogy négy vállalat illegálisan ellopta az adatait azzal, hogy lekérdezte a Google keresési eredményeit, amelyekben a Reddit tartalmai megjelentek.
A peres eljárás szerint ezek közül három vállalat - a SerpApi, a litván Oxylabs és az orosz AWMProxy - adott el adatokat olyan mesterséges intelligenciával foglalkozó vállalatoknak, mint az OpenAI és a Meta. A negyedik vállalat a Perplexity, egy mesterséges intelligenciával működő keresőmotort fejlesztő san francisco-i startup. A Reddit közölte, hogy végleges tiltó határozatot kér a vállalatok ellen, valamint anyagi kártérítést, és meg akarja tiltani a korábban lemásolt Reddit-adatok felhasználását vagy értékesítését.
"Az MI-vállalatok minőségi emberi tartalomért folytatnak fegyverkezési versenyt - és ez a nyomás ipari méretű „adatmosási” gazdaságot eredményezett” - mondta Ben Lee, a Reddit jogi igazgatója. "A letöltők megkerülik a technológiai védelmeket, hogy ellopják az adatokat, majd eladják azokat a képzési anyagokra éhes ügyfeleknek.” A Perplexity nyilatkozatában azt állította, hogy nem kapta meg a keresetet, de „megközelítése továbbra is elvi és felelősségteljes, mivel pontos mesterséges intelligenciával tényeken alapuló válaszokat adunk, és nem toleráljuk a nyitottságot és a közérdeket fenyegető veszélyeket”.
Az internet letöltése, azaz a "scraping" régóta kényes gyakorlat. Az internet korai napjaiban a Google robotokat használt a weboldalak felderítéséhez és kategorizálásához, majd létrehozott egy keresőmotort, amely átfésülte ezeket az anyagokat, hogy segítsen az embereknek megtalálni a szükséges információkat. Ezzel párhuzamosan más cégek elkezdték letölteni a Google-t, és eladták eredményeiket azoknak a vállalkozásoknak, amelyek magasabb pozíciót akartak elérni a Google keresési eredményeiben.
A letöltők és a weboldalak közötti kapcsolat szimbiotikusnak tekinthető. A Google munkája segíthetett a webes forgalom kiadók weboldalaira irányításában. Azok, akik a Google-t figyelték, eladhatták ezeket az információkat, hogy segítsék a webes kiadókat olyan weboldalak építésében, amelyek magasabb helyezéssel jelennek meg a Google-ben. "Ez volt a web eredeti ökoszisztémája” - mondta Doug Leeds, a Really Simple Licensing társalapítója. A nonprofit szervezet a kiadóknak és az alkotóknak segít abban, hogy kompenzációt kapjanak, ha a mesterséges intelligencia felhasználja munkájukat. „Akkoriban ez nem feltétlenül jelentett problémát, mert minden érintett vállalat számára létezett bevételszerzési módszer.”
Ma már egyesek úgy érzik, hogy a kapcsolat szimbiotikusból parazita jellegűvé vált. Az MI-vállalatok saját botjaikat használva gyűjtenek minél több információt anélkül, hogy fizetnének az adatokért. Erre válaszul olyan vállalatok, mint a Reddit, elkezdték lezárni weboldalaikat, hogy megakadályozzák az MI-vállalatokat abban, hogy szabadon profitáljanak az adatokból. Könyvkiadók, mint a Simon & Schuster, és hírügynökségek, mint a The New York Times - amely szerzői jogi jogsértés miatt beperelte az OpenAI-t és a Microsoftot - megállapodásokat kötöttek, hogy több millió dollárért eladják adataik licencét.
A Redditet hetente több mint 416 millió ember használja, és úgy véli, hogy különösen értékes adatokkal rendelkezik. Felhasználói sokféle témáról beszélgetnek, a sminkmárkáktól kezdve a svájci kutyafajtákon át a szerepjátékokig és a nemzetközi utazási tippekig. Az ilyen beszélgetések segíthetnek azoknak az MI-vállalatoknak, amelyek chatbotjaik természetes nyelvi képességeinek fejlesztésére törekednek. 2023-ban a Reddit arra kérte a külsősöket, hogy fizessenek az adataihoz való hozzáférésért. Licencszerződéseket kötött a Google-lal, amely a Reddit adatait használja Gemini csevegőrobotjának kiképzéséhez, és az OpenAI-jal, amelynek adatokra van szüksége a ChatGPT kiképzéséhez.
De nem minden vállalat akart szerződést kötni. A peres eljárás szerint néhányan inkább azon dolgoztak, hogy adatgyűjtő programok segítségével ingyen használják a Reddit információit. A SerpApi, az Oxylabs és az AWMProxy havonta több milliárd Google-keresési lekérdezést indított, és ezeket a kereséseket használta a Reddit adatainak feltárására - áll a Reddit peres iratában. A vállalatok ezután becsomagolták ezeket az adatokat, és továbbadták másoknak, akik az MI-rendszereik betanításához használták őket.
A Reddit peres eljárása szerint a Perplexity is egyike volt ezeknek a vásárlóknak. A Perplexity korábban fizetés nélkül gyűjtötte össze a Reddit adatait, de miután a Reddit felszólította a tevékenység abbahagyására, beleegyezett ebbe. Ennek ellenére a Perplexity keresési eredményeiben a Reddit adataira való hivatkozások száma negyvenszeresére nőtt - áll a peres eljárásban. A Reddit több év alatt több tízmillió dollárt költött az adatgyűjtés elleni rendszerekre. "A Perplexity üzleti modellje lényegében az, hogy a Reddit tartalmát átveszi a Google keresési eredményeiből”, majd azt egy mesterséges intelligencia modellbe táplálja, és „új terméknek nevezi” - áll a peres iratban.
A Reddit csapdát állított a Perplexitynek azzal, hogy a webhelyén létrehozott egy tesztbejegyzést, amelyet „csak a Google keresőmotorja tudott indexelni, és amely máshol nem volt elérhető az interneten”. A peres iratok szerint néhány órán belül a Perplexity keresési eredményei között megjelent a tesztbejegyzés tartalma. A Google - amely nem peres fél a Reddit perében - megpróbálta megállítani a SerpApi-t és más adatgyűjtő programokat, de nem járt sikerrel – áll a peres iratokban. "A Google mindig is aktívan tiszteletben tartotta a weboldalak robots.txt fájlon keresztül meghozott döntéseit, de sajnos van egy csomó titkos adatgyűjtő program, amelyik nem teszi ezt” - nyilatkozta José Castaneda, a Google szóvivője. A webes kiadók az iparági szabványnak számító robots.txt fájl segítségével megakadályozhatják, hogy a botok adatokat gyűjtsenek róluk.
A Reddit nehéz csatába kezdett bele. Bár a pert New Yorkban indították, néhány adatgyűjtő startup - például azok, amelyek a per célpontjai - Európában és Ázsiában működnek. Ezen cégek közül sokan megtalálták a módját, hogy kijátsszák az adatgyűjtési tilalmakat. A Reddit mégis kitart. Júniusban beperelte az Anthropic nevű mesterséges intelligencia vállalatot, azzal vádolva őket, hogy jogtalanul használja az adatait. Szerdán a közösségi hálózat a peres eljárásban kijelentette, hogy további lépéseket fog tenni adatainak jogosulatlan felhasználás elleni védelme érdekében.
A texasi Austinban működő SerpApi nevű startup nyolc évvel ezelőtt kezdett el botokat használni a Google keresési algoritmusainak felderítésére, hogy így információkat gyűjtsenek, amelyek segítségével ügyfeleik magasabb pozíciót érhetnek el a keresési eredmények között. Ezután megjelent az OpenAI ChatGPT nevű programja, amely elindította a mesterséges intelligencia forradalmát. Ahogy egyre több technológiai vállalat kezdett mesterséges intelligencia chatbotokat építeni, hogy lépést tartson a fejlődéssel, nagy mennyiségű adatra volt szükségük mesterséges intelligencia modelleik kiképzéséhez - olyan adatokra, amelyeket a SerpApi már összegyűjtött.
A SerpApi-hoz hasonló vállalatok - az úgynevezett „adatgyűjtők” - gyakorlatilag egyik napról a másikra új üzleti lehetőséget találtak: a Google-tól gyűjtött adatokat eladták azoknak a vállalatoknak, amelyek mesterséges intelligencia chatbotjaikat akarták kiképezni. Szerdán a Reddit internetes fórum úgy döntött, hogy harcolni fog az adatgyűjtők ellen. Peres eljárást indított a New York-i déli kerületi szövetségi bíróságon, azt állítva, hogy négy vállalat illegálisan ellopta az adatait azzal, hogy lekérdezte a Google keresési eredményeit, amelyekben a Reddit tartalmai megjelentek.
A peres eljárás szerint ezek közül három vállalat - a SerpApi, a litván Oxylabs és az orosz AWMProxy - adott el adatokat olyan mesterséges intelligenciával foglalkozó vállalatoknak, mint az OpenAI és a Meta. A negyedik vállalat a Perplexity, egy mesterséges intelligenciával működő keresőmotort fejlesztő san francisco-i startup. A Reddit közölte, hogy végleges tiltó határozatot kér a vállalatok ellen, valamint anyagi kártérítést, és meg akarja tiltani a korábban lemásolt Reddit-adatok felhasználását vagy értékesítését.
"Az MI-vállalatok minőségi emberi tartalomért folytatnak fegyverkezési versenyt - és ez a nyomás ipari méretű „adatmosási” gazdaságot eredményezett” - mondta Ben Lee, a Reddit jogi igazgatója. "A letöltők megkerülik a technológiai védelmeket, hogy ellopják az adatokat, majd eladják azokat a képzési anyagokra éhes ügyfeleknek.” A Perplexity nyilatkozatában azt állította, hogy nem kapta meg a keresetet, de „megközelítése továbbra is elvi és felelősségteljes, mivel pontos mesterséges intelligenciával tényeken alapuló válaszokat adunk, és nem toleráljuk a nyitottságot és a közérdeket fenyegető veszélyeket”.
Az internet letöltése, azaz a "scraping" régóta kényes gyakorlat. Az internet korai napjaiban a Google robotokat használt a weboldalak felderítéséhez és kategorizálásához, majd létrehozott egy keresőmotort, amely átfésülte ezeket az anyagokat, hogy segítsen az embereknek megtalálni a szükséges információkat. Ezzel párhuzamosan más cégek elkezdték letölteni a Google-t, és eladták eredményeiket azoknak a vállalkozásoknak, amelyek magasabb pozíciót akartak elérni a Google keresési eredményeiben.
A letöltők és a weboldalak közötti kapcsolat szimbiotikusnak tekinthető. A Google munkája segíthetett a webes forgalom kiadók weboldalaira irányításában. Azok, akik a Google-t figyelték, eladhatták ezeket az információkat, hogy segítsék a webes kiadókat olyan weboldalak építésében, amelyek magasabb helyezéssel jelennek meg a Google-ben. "Ez volt a web eredeti ökoszisztémája” - mondta Doug Leeds, a Really Simple Licensing társalapítója. A nonprofit szervezet a kiadóknak és az alkotóknak segít abban, hogy kompenzációt kapjanak, ha a mesterséges intelligencia felhasználja munkájukat. „Akkoriban ez nem feltétlenül jelentett problémát, mert minden érintett vállalat számára létezett bevételszerzési módszer.”
Ma már egyesek úgy érzik, hogy a kapcsolat szimbiotikusból parazita jellegűvé vált. Az MI-vállalatok saját botjaikat használva gyűjtenek minél több információt anélkül, hogy fizetnének az adatokért. Erre válaszul olyan vállalatok, mint a Reddit, elkezdték lezárni weboldalaikat, hogy megakadályozzák az MI-vállalatokat abban, hogy szabadon profitáljanak az adatokból. Könyvkiadók, mint a Simon & Schuster, és hírügynökségek, mint a The New York Times - amely szerzői jogi jogsértés miatt beperelte az OpenAI-t és a Microsoftot - megállapodásokat kötöttek, hogy több millió dollárért eladják adataik licencét.
A Redditet hetente több mint 416 millió ember használja, és úgy véli, hogy különösen értékes adatokkal rendelkezik. Felhasználói sokféle témáról beszélgetnek, a sminkmárkáktól kezdve a svájci kutyafajtákon át a szerepjátékokig és a nemzetközi utazási tippekig. Az ilyen beszélgetések segíthetnek azoknak az MI-vállalatoknak, amelyek chatbotjaik természetes nyelvi képességeinek fejlesztésére törekednek. 2023-ban a Reddit arra kérte a külsősöket, hogy fizessenek az adataihoz való hozzáférésért. Licencszerződéseket kötött a Google-lal, amely a Reddit adatait használja Gemini csevegőrobotjának kiképzéséhez, és az OpenAI-jal, amelynek adatokra van szüksége a ChatGPT kiképzéséhez.
De nem minden vállalat akart szerződést kötni. A peres eljárás szerint néhányan inkább azon dolgoztak, hogy adatgyűjtő programok segítségével ingyen használják a Reddit információit. A SerpApi, az Oxylabs és az AWMProxy havonta több milliárd Google-keresési lekérdezést indított, és ezeket a kereséseket használta a Reddit adatainak feltárására - áll a Reddit peres iratában. A vállalatok ezután becsomagolták ezeket az adatokat, és továbbadták másoknak, akik az MI-rendszereik betanításához használták őket.
A Reddit peres eljárása szerint a Perplexity is egyike volt ezeknek a vásárlóknak. A Perplexity korábban fizetés nélkül gyűjtötte össze a Reddit adatait, de miután a Reddit felszólította a tevékenység abbahagyására, beleegyezett ebbe. Ennek ellenére a Perplexity keresési eredményeiben a Reddit adataira való hivatkozások száma negyvenszeresére nőtt - áll a peres eljárásban. A Reddit több év alatt több tízmillió dollárt költött az adatgyűjtés elleni rendszerekre. "A Perplexity üzleti modellje lényegében az, hogy a Reddit tartalmát átveszi a Google keresési eredményeiből”, majd azt egy mesterséges intelligencia modellbe táplálja, és „új terméknek nevezi” - áll a peres iratban.
A Reddit csapdát állított a Perplexitynek azzal, hogy a webhelyén létrehozott egy tesztbejegyzést, amelyet „csak a Google keresőmotorja tudott indexelni, és amely máshol nem volt elérhető az interneten”. A peres iratok szerint néhány órán belül a Perplexity keresési eredményei között megjelent a tesztbejegyzés tartalma. A Google - amely nem peres fél a Reddit perében - megpróbálta megállítani a SerpApi-t és más adatgyűjtő programokat, de nem járt sikerrel – áll a peres iratokban. "A Google mindig is aktívan tiszteletben tartotta a weboldalak robots.txt fájlon keresztül meghozott döntéseit, de sajnos van egy csomó titkos adatgyűjtő program, amelyik nem teszi ezt” - nyilatkozta José Castaneda, a Google szóvivője. A webes kiadók az iparági szabványnak számító robots.txt fájl segítségével megakadályozhatják, hogy a botok adatokat gyűjtsenek róluk.
A Reddit nehéz csatába kezdett bele. Bár a pert New Yorkban indították, néhány adatgyűjtő startup - például azok, amelyek a per célpontjai - Európában és Ázsiában működnek. Ezen cégek közül sokan megtalálták a módját, hogy kijátsszák az adatgyűjtési tilalmakat. A Reddit mégis kitart. Júniusban beperelte az Anthropic nevű mesterséges intelligencia vállalatot, azzal vádolva őket, hogy jogtalanul használja az adatait. Szerdán a közösségi hálózat a peres eljárásban kijelentette, hogy további lépéseket fog tenni adatainak jogosulatlan felhasználás elleni védelme érdekében.