SG.hu

Megpróbálja védeni a tartalmait a Reddit, de szinte tehetetlen az MI-cégek ellen

A Reddit a közösségének köszönhetően a tömegesen gyűjtött tudás tárháza lett, ami a képzési adatokra vágyó MI startupok elsődleges célpontjává tette.

A Reddit bejelentette, hogy intézkedéseket vezet be annak érdekében, hogy megakadályozza az ilyen szervezetek által végzett jogosulatlan adatgyűjtést. Ezen erőfeszítések közé tartozik majd egy frissített robots.txt - a legtöbb weboldalon megtalálható fájl, amely útmutatást ad a webes robotoknak arról, hogy mit indexelhetnek fel egy honlapon és mit nem - "az elkövetkező hetekben". Persze a robots.txt nem kényszeríti semmire a letöltőket - a fájl tartalma inkább iránymutatás vagy határozott kérés. A webes robotokat rá lehet venni, hogy figyelmen kívül hagyják őket, ezért a Reddit továbbra is korlátozza és/vagy blokkolja a rosszindulatú botok hozzáférését az oldalhoz. Sőt, a robots.txt-t mellőző cégek azt kockáztatják, hogy a rendszergazdák teljesen kitiltják őket a hálózatukból.

Úgy tűnik, hogy ezek az intézkedések, bár egyelőre homályosak, kifejezetten azok ellen irányulnak, akik kereskedelmi céllal férnek hozzá a Reddithez. Az oldal szerint "a jóhiszemű szereplők - például a kutatók és az olyan szervezetek, mint az Internet Archive - továbbra is hozzáférhetnek a Reddit tartalmához nem kereskedelmi célú felhasználás céljából". A bejelentés alig néhány héttel azután érkezett, hogy a Reddit bemutatta friss nyilvános tartalmi irányelvét, amelyet a felhasználói adatok használatának átláthatóbb kommunikálására és a felhasználói adatvédelem védelmére irányuló eszközként prezentáltak. "Egyre több kereskedelmi szervezetet látunk, amelyek jogosulatlan hozzáférést használnak, vagy visszaélnek a jogosultsággal, hogy tömegesen gyűjtsenek nyilvános adatokat, beleértve a Reddit nyilvános tartalmait is" - közölte az oldal.

A Reddit vezetői sokkal inkább szeretnék, ha az érdeklődők fizetnének a tudás- és véleménymegosztás, no meg a trollkodás tárházának kurátori hozzáféréséért, mivel a bejelentés az adathozzáférés értékesítésének reklámozásával zárul.

A nagy nyelvi modellek - például a GPT-4, a Gemini vagy a Claude - képzéséhez óriási mennyiségű adatra van szükség. A Meta viszonylag kis Llama3 8B modellje mintegy 15 trillió tokent használt. Emiatt az ilyen modellek létrehozásához használt MI-képzési adatok szolgáltatása jövedelmező üzleti vállalkozássá vált. A múlt hónapban a Scale AI - amely MI-adatszolgáltatásokat, köztük előre címkézett adathalmazokat értékesít - értékelése közel 14 milliárd dollárra emelkedett egy 1 milliárd dolláros finanszírozási kör közepette, amelyet az Nvidia, az Amazon és a Meta vezetett. A héten megalakult egy MI-adat kereskedelmi csoport is, a Dataset Providers Alliance. A csoport tagjai közé tartozik a Rightsify, a vAIsual, a Pixta AI, a Datarade, a Global Copyright Exchange, a Calliope Networks és az Ado.

Természetesen a Reddit is igyekszik kihasználni ezt a keresletet, hiszen már bejelentette, hogy megállapodást kötött az API-hozzáférés eladásáról a Google-nek egy állítólag évi 60 millió dolláros üzlet keretében. A társaság a múlt hónapban hasonló megállapodást kötött az OpenAI-val, bár az üzlet feltételeit nem hozták nyilvánosságra. Az elmúlt hetekben azonban megkérdőjeleződött, hogy a Reddit adatai valójában mennyire hasznosak, miután a Google az MI által generált válaszaiban nyilvánvaló trollposztokat kezdett el idézni. Az egyik esetben a keresőmotor azt javasolta, hogy "nem mérgező ragasztót" adjunk a pizzaszószhoz, hogy a sajt ne ragadjon le.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
Nem érkezett még hozzászólás. Legyél Te az első!