Sg.hu - A Reddit háborút indított az MI korszak adatlopási gyakorlata ellen

2025. október 23. 20:36, csütörtök

SG.hu

A Reddit háborút indított az MI korszak adatlopási gyakorlata ellen

A Reddit egy peres eljárásban egy olyan startupokból álló ökoszisztémát fedett fel, amelyek a Google keresési eredményeit gyűjtik össze, és az információkat továbbadják az adatokra éhes mesterséges intelligencia cégeknek.

A texasi Austinban működő SerpApi nevű startup nyolc évvel ezelőtt kezdett el botokat használni a Google keresési algoritmusainak felderítésére, hogy így információkat gyűjtsenek, amelyek segítségével ügyfeleik magasabb pozíciót érhetnek el a keresési eredmények között. Ezután megjelent az OpenAI ChatGPT nevű programja, amely elindította a mesterséges intelligencia forradalmát. Ahogy egyre több technológiai vállalat kezdett mesterséges intelligencia chatbotokat építeni, hogy lépést tartson a fejlődéssel, nagy mennyiségű adatra volt szükségük mesterséges intelligencia modelleik kiképzéséhez - olyan adatokra, amelyeket a SerpApi már összegyűjtött.

A SerpApi-hoz hasonló vállalatok - az úgynevezett „adatgyűjtők” - gyakorlatilag egyik napról a másikra új üzleti lehetőséget találtak: a Google-tól gyűjtött adatokat eladták azoknak a vállalatoknak, amelyek mesterséges intelligencia chatbotjaikat akarták kiképezni. Szerdán a Reddit internetes fórum úgy döntött, hogy harcolni fog az adatgyűjtők ellen. Peres eljárást indított a New York-i déli kerületi szövetségi bíróságon, azt állítva, hogy négy vállalat illegálisan ellopta az adatait azzal, hogy lekérdezte a Google keresési eredményeit, amelyekben a Reddit tartalmai megjelentek.

A peres eljárás szerint ezek közül három vállalat - a SerpApi, a litván Oxylabs és az orosz AWMProxy - adott el adatokat olyan mesterséges intelligenciával foglalkozó vállalatoknak, mint az OpenAI és a Meta. A negyedik vállalat a Perplexity, egy mesterséges intelligenciával működő keresőmotort fejlesztő san francisco-i startup. A Reddit közölte, hogy végleges tiltó határozatot kér a vállalatok ellen, valamint anyagi kártérítést, és meg akarja tiltani a korábban lemásolt Reddit-adatok felhasználását vagy értékesítését.

"Az MI-vállalatok minőségi emberi tartalomért folytatnak fegyverkezési versenyt - és ez a nyomás ipari méretű „adatmosási” gazdaságot eredményezett” - mondta Ben Lee, a Reddit jogi igazgatója. "A letöltők megkerülik a technológiai védelmeket, hogy ellopják az adatokat, majd eladják azokat a képzési anyagokra éhes ügyfeleknek.” A Perplexity nyilatkozatában azt állította, hogy nem kapta meg a keresetet, de „megközelítése továbbra is elvi és felelősségteljes, mivel pontos mesterséges intelligenciával tényeken alapuló válaszokat adunk, és nem toleráljuk a nyitottságot és a közérdeket fenyegető veszélyeket”.

Az internet letöltése, azaz a "scraping" régóta kényes gyakorlat. Az internet korai napjaiban a Google robotokat használt a weboldalak felderítéséhez és kategorizálásához, majd létrehozott egy keresőmotort, amely átfésülte ezeket az anyagokat, hogy segítsen az embereknek megtalálni a szükséges információkat. Ezzel párhuzamosan más cégek elkezdték letölteni a Google-t, és eladták eredményeiket azoknak a vállalkozásoknak, amelyek magasabb pozíciót akartak elérni a Google keresési eredményeiben.

A letöltők és a weboldalak közötti kapcsolat szimbiotikusnak tekinthető. A Google munkája segíthetett a webes forgalom kiadók weboldalaira irányításában. Azok, akik a Google-t figyelték, eladhatták ezeket az információkat, hogy segítsék a webes kiadókat olyan weboldalak építésében, amelyek magasabb helyezéssel jelennek meg a Google-ben. "Ez volt a web eredeti ökoszisztémája” - mondta Doug Leeds, a Really Simple Licensing társalapítója. A nonprofit szervezet a kiadóknak és az alkotóknak segít abban, hogy kompenzációt kapjanak, ha a mesterséges intelligencia felhasználja munkájukat. „Akkoriban ez nem feltétlenül jelentett problémát, mert minden érintett vállalat számára létezett bevételszerzési módszer.”

Ma már egyesek úgy érzik, hogy a kapcsolat szimbiotikusból parazita jellegűvé vált. Az MI-vállalatok saját botjaikat használva gyűjtenek minél több információt anélkül, hogy fizetnének az adatokért. Erre válaszul olyan vállalatok, mint a Reddit, elkezdték lezárni weboldalaikat, hogy megakadályozzák az MI-vállalatokat abban, hogy szabadon profitáljanak az adatokból. Könyvkiadók, mint a Simon & Schuster, és hírügynökségek, mint a The New York Times - amely szerzői jogi jogsértés miatt beperelte az OpenAI-t és a Microsoftot - megállapodásokat kötöttek, hogy több millió dollárért eladják adataik licencét.

A Redditet hetente több mint 416 millió ember használja, és úgy véli, hogy különösen értékes adatokkal rendelkezik. Felhasználói sokféle témáról beszélgetnek, a sminkmárkáktól kezdve a svájci kutyafajtákon át a szerepjátékokig és a nemzetközi utazási tippekig. Az ilyen beszélgetések segíthetnek azoknak az MI-vállalatoknak, amelyek chatbotjaik természetes nyelvi képességeinek fejlesztésére törekednek. 2023-ban a Reddit arra kérte a külsősöket, hogy fizessenek az adataihoz való hozzáférésért. Licencszerződéseket kötött a Google-lal, amely a Reddit adatait használja Gemini csevegőrobotjának kiképzéséhez, és az OpenAI-jal, amelynek adatokra van szüksége a ChatGPT kiképzéséhez.

De nem minden vállalat akart szerződést kötni. A peres eljárás szerint néhányan inkább azon dolgoztak, hogy adatgyűjtő programok segítségével ingyen használják a Reddit információit. A SerpApi, az Oxylabs és az AWMProxy havonta több milliárd Google-keresési lekérdezést indított, és ezeket a kereséseket használta a Reddit adatainak feltárására - áll a Reddit peres iratában. A vállalatok ezután becsomagolták ezeket az adatokat, és továbbadták másoknak, akik az MI-rendszereik betanításához használták őket.

A Reddit peres eljárása szerint a Perplexity is egyike volt ezeknek a vásárlóknak. A Perplexity korábban fizetés nélkül gyűjtötte össze a Reddit adatait, de miután a Reddit felszólította a tevékenység abbahagyására, beleegyezett ebbe. Ennek ellenére a Perplexity keresési eredményeiben a Reddit adataira való hivatkozások száma negyvenszeresére nőtt - áll a peres eljárásban. A Reddit több év alatt több tízmillió dollárt költött az adatgyűjtés elleni rendszerekre. "A Perplexity üzleti modellje lényegében az, hogy a Reddit tartalmát átveszi a Google keresési eredményeiből”, majd azt egy mesterséges intelligencia modellbe táplálja, és „új terméknek nevezi” - áll a peres iratban.

A Reddit csapdát állított a Perplexitynek azzal, hogy a webhelyén létrehozott egy tesztbejegyzést, amelyet „csak a Google keresőmotorja tudott indexelni, és amely máshol nem volt elérhető az interneten”. A peres iratok szerint néhány órán belül a Perplexity keresési eredményei között megjelent a tesztbejegyzés tartalma. A Google - amely nem peres fél a Reddit perében - megpróbálta megállítani a SerpApi-t és más adatgyűjtő programokat, de nem járt sikerrel – áll a peres iratokban. "A Google mindig is aktívan tiszteletben tartotta a weboldalak robots.txt fájlon keresztül meghozott döntéseit, de sajnos van egy csomó titkos adatgyűjtő program, amelyik nem teszi ezt” - nyilatkozta José Castaneda, a Google szóvivője. A webes kiadók az iparági szabványnak számító robots.txt fájl segítségével megakadályozhatják, hogy a botok adatokat gyűjtsenek róluk.

A Reddit nehéz csatába kezdett bele. Bár a pert New Yorkban indították, néhány adatgyűjtő startup - például azok, amelyek a per célpontjai - Európában és Ázsiában működnek. Ezen cégek közül sokan megtalálták a módját, hogy kijátsszák az adatgyűjtési tilalmakat. A Reddit mégis kitart. Júniusban beperelte az Anthropic nevű mesterséges intelligencia vállalatot, azzal vádolva őket, hogy jogtalanul használja az adatait. Szerdán a közösségi hálózat a peres eljárásban kijelentette, hogy további lépéseket fog tenni adatainak jogosulatlan felhasználás elleni védelme érdekében.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)

mortep #8 2025.10.27. 12:28

Nem, ez egy válasz egy túlzott elvárásokat támasztó, realitásokat mellőző kritikára.

Adott egy példaértékű projekt, amelyik úgy tarja fenn magát, hogy nem a profitmaximalizálásra hajt, hanem megmaradt az eredeti célja mellett a lehetőségeihez képest, úgy hogy most egy újabb, súlyos kihívással kell szembenézzen.
Utoljára szerkesztette: mortep, 2025.10.27. 12:33:02

Válasz 'Gabbbbbbbbbbbb' üzenetére (#5)
felemelő #7 2025.10.27. 07:48

Egyedül a "Föld-anyácska" ad ingyen.

Csak egyrészt túl sokan vagyunk már lassan.
Másrészt vannak pénz és/vagy hatalom hajhászó emberek jószámmal, akik "elkerítenek" egy egy részt és közlik, ez az enyém, erővel is megtartom kizárólagosnak.

De a témára: nincs ezzel az "ingyenes" üzleti modellel sem semmi baj, amíg nagyon korrekten (mint a nem ingyenesek szerződéseinél) megállapodnak.

Csak ugye itt is olyan modellek működnek, mint a nem ingyeneseknél, hogy pl. kvázimonopol állapotba futtatom fel, addig jófej vagyok, onnan meg egyoldalúan módosítom a hallgatólagos megállapodásunkat és annyit és azt veszek el a felhasználótól, ami tetszik.

Válasz 'harmi2009' üzenetére (#6)
harmi2009 #6 2025.10.25. 08:59

Az "ingyenes" fogalmán túl kellene már lépni. Semmi nincs ingyen max a levegő amit beszívunk.
Ha valaki ( személy, cég) ingyen ad valamit annak örülni kell. De ez csak az ő jó fejségük miatt van és ha felfut egy ilyen termék akkor előbb-utóbb muszáj valamilyen bevételre szert tenni. Legyen ez hirdetés vagy az adatok eladása.

Nem lehet végtelenségig saját zsebből mindent finanszírozni.
Gabbbbbbbbbbbb #5 2025.10.25. 08:13

>De ha egyébként nem tetszik, fejlessz és futtass fel egy hasonlót, ingyen.

Ez egy sztereotipikus reakció egy foss projekt kritikájára. Igazad van abban, hogy SO. egy jó szolgáltatást nyújt ingyen, de ne tévedjünk el, ők is a profitra hajtanak, csak nem gusztustalanul és gátlástalanul, mint más közösségi platformok.

Válasz 'mortep' üzenetére (#4)
mortep #4 2025.10.24. 10:17

A redditnél még részben megértem a kritikádat, mert ők nagyon a profitra hajtottak rá de a stackoverflow-al kapcsolatban kicsit sem.

Ők úgy szerveztek közösségi, tudásbázist építő platformot, ahogy a nagy könyvben meg van írva. Nem pakolták tele idegesítő reklámokkal, nem vezettek be trial period-ot, tényleg egy hiánypótló hasznos eszközt alkottak és aki kijelenti hogy csupán szövegek tárolásáról van szó kb. semennyi fogalma sincs a működési folyamataikról...

De ha egyébként nem tetszik, fejlessz és futtass fel egy hasonlót, ingyen.

Válasz 'Gabbbbbbbbbbbb' üzenetére (#3)
Gabbbbbbbbbbbb #3 2025.10.24. 09:48

Értem h bevételcsökkenést okoz a forgalomcsökkenés. Csak felháborítónak tartom, hogy reddit és stacko. is úgy tesz, mintha szöveg host-olása csilliárdokba kerülne. Reddit-en még az emberi moderálás nagy részét is önkéntesek végzik fizetés nélkül, kabaré.

Válasz 'mortep' üzenetére (#2)
mortep #2 2025.10.24. 09:11

A redit problémája az, hogy az AI csökkenti a forgalmát és valahol érthető a reakciója, bár az utóbbi időben kezdett megállapodásoka kötni AI vállalkozásokkal.

A stackoverflow portál pl. eléggé közösségi jellegű és ott is komoly problémát okoz a tevékenység csökkenése amit az MI okoz... gyakorlatiag az információforrását nyírja ki az MI, ami alapján tanul
Utoljára szerkesztette: mortep, 2025.10.24. 09:12:16

Válasz 'Gabbbbbbbbbbbb' üzenetére (#1)
Gabbbbbbbbbbbb #1 2025.10.24. 07:52

Menjen a reddit is a b**** p*****a. Ők is csak a felhasználóikon élősködnek. Nem elég, hogy milliók írnak ingyen magvas hozzászólásokat a platformjukon, még fejőstehénnek is nézik őket reklámokkal és minden egyébbel, pl. algoritmus néha eléggé manipulatívan bedob dolgokat az ember home feed-jébe.

Értem én, hogy a TOS-ben benne van, hogy egy sz**darab a felhasználó, de akkor is.

További bejegyzések a fórumban...