SG.hu
Meglepően gyorsan zárja el mindenki adatait az MI-cégek elől
A Data Provenance Initiative új kutatása szerint drámai mértékben csökkent a mesterséges intelligencia létrehozásához használt gyűjteményekből letölthető tartalom.
A nagy teljesítményű mesterséges intelligencia-rendszereket építő vállalatok évek óta hatalmas mennyiségű, az internetről származó szöveg, kép és videóanyagot használnak modelljeik betanításához. Mostanra ezek az adatok egyre inkább elapadnak. Az MIT által vezetett Data Provenance Initiative nevű kutatócsoport e héten közzétett tanulmánya szerint az elmúlt évben az MI-modellek betanításához használt legfontosabb internetes források közül sokan korlátozták az adataik használatát. A tanulmány 14 000 olyan webes tartományt vizsgált, amelyek három, általánosan használt tréning adathalmazban szerepelnek. Ez alapján "kialakulóban lévő válságot fedeztek fel a hozzájárulás terén”, mivel a kiadók és az online platformok lépéseket tettek annak érdekében, hogy megakadályozzák az adataik begyűjtését.
A kutatók becslése szerint a három adatkészletben - a C4, a RefinedWeb és a Dolma nevűekben - az összes adat 5 százalékát, a legjobb minőségű forrásokból származó adatok 25 százalékát korlátozták. Ezeket a korlátozásokat a Robots Exclusion Protocol segítségével állították be, amely egy évtizedes módszer, amellyel a webhelytulajdonosok egy robots.txt nevű fájl segítségével megakadályozhatják, hogy az MI-cégek feltérképezzék az oldalaikat. A tanulmány azt is megállapította, hogy az egyik halmazban, a C4-ben szereplő adatok 45 százalékát a webhelyek szolgáltatási feltételei korlátozzák. "Az adatok felhasználásához való hozzájárulás gyors csökkenését látjuk a világhálón, aminek nemcsak az MI-vállalatokra, hanem a kutatókra, az akadémikusokra és a nem kereskedelmi szervezetekre is hatással lesz” - mondta Shayne Longpre, a tanulmány vezető szerzője.
Az adat a fő összetevője a mai generatív MI rendszereknek, amelyeket szövegek, képek és videók milliárdjaival táplálnak. Az adatok nagy részét a kutatók nyilvános weboldalakról mentik le, és nagy adathalmazokba rakják össze, amelyek letölthetők és szabadon felhasználhatók, vagy kiegészíthetők más forrásokból származó adatokkal. Az adatokból való tanulás teszi lehetővé, hogy az olyan generatív MI-eszközök, mint a ChatGPT, a Google Gemini és az Anthropic Claude képeket és videókat hozzanak létre, programsorokat vagy verseket írjanak. Minél több jó minőségű adatot táplálnak ezekbe a modellekbe, általában annál jobbak a kimeneteik.
Az MI-fejlesztők évekig viszonylag könnyen tudtak adatokat gyűjteni. Az elmúlt évek generatív MI-boomja azonban feszültségekhez vezetett az adatok tulajdonosaival - akik közül sokan nem szívesen adják oda ezeket MI-tanulóanyagként, vagy legalábbis pénzt szeretnének kapni érte. Ahogy a visszatetszés nőtt, egyes kiadók fizetős falakat állítottak fel, vagy megváltoztatták szolgáltatási feltételeiket, hogy korlátozzák adataik felhasználását az MI tréninghez. Mások letiltották az olyan cégek által használt automatizált letöltőket, mint az OpenAI, az Anthropic és a Google.
Az olyan oldalak, mint a Reddit és a StackOverflow elkezdtek díjat kérni az MI-cégektől az adatokhoz való hozzáférésért, és néhány kiadó jogi lépéseket tett - köztük a The New York Times, amely tavaly beperelte az OpenAI-t és a Microsoftot szerzői jogok megsértése miatt, azt állítva, hogy a vállalatok engedély nélkül használták fel a hírcikkeket a modelljeik betanításához. Az olyan vállalatok, mint az OpenAI, a Google és a Meta az elmúlt években rendkívüli módon igyekeztek minél több adatot gyűjteni a rendszereik fejlesztéséhez, beleértve a YouTube-videók letöltését és saját adatkezelési irányelveik kreatív értelmezését. A közelmúltban néhány MI-cég olyan kiadókkal kötött megállapodást, mint az Associated Press és a News Corp, a The Wall Street Journal tulajdonosa, így folyamatos hozzáférést biztosítva számukra a tartalmaikhoz.
A széles körű adatkorlátozások azonban veszélyt jelenthetnek az MI-vállalatokra, amelyeknek folyamatos, jó minőségű adatokra van szükségük ahhoz, hogy modelljeiket frissen és naprakészen tartsák. A kisebb MI-k és a tudományos kutatók számára is gondot jelenthetnek, akik nyilvános adatkészletekre támaszkodnak, és nem engedhetik meg maguknak, hogy közvetlenül a kiadótól licenceljék az adatokat. Az egyik ilyen adathalmaz a Common Crawl, amely több milliárd oldalnyi webes tartalmat tartalmaz, és amelyet egy nonprofit szervezet tart fenn. Ez több mint 10 000 tudományos tanulmányban szerepel. Nem világos, hogy mely népszerű MI-termékeket képezték ki ezeken a forrásokon, mivel kevés fejlesztő hozza nyilvánosságra az általuk használt tréningadatok teljes listáját. De a Common Crawlból származó adatkészleteket, köztük a C4-et (ami a Colossal, Cleaned Crawled Corpus, azaz a kolosszális megtisztított szövegtest rövidítése) olyan vállalatok használták modelljeik korábbi verzióinak betanításához, mint a Google és az OpenAI.
Yacine Jernite, a Hugging Face nevű, az MI-fejlesztők számára eszközöket és adatokat biztosító cég gépi tanulási kutatója a hozzájárulási válságot az MI-ipar agresszív adatgyűjtési gyakorlatára adott természetes válaszként jellemezte. "Nem meglepő, hogy az adatok létrehozóinak visszavágását látjuk, miután az általuk online megosztott szövegeket, képeket és videókat olyan kereskedelmi rendszerek fejlesztésére használják fel, amelyek néha közvetlenül fenyegetik a megélhetésüket” - mondta. De figyelmeztetett arra, hogy ha az összes MI képzési adatot licencügyleteken keresztül kellene megszerezni, az kizárná „a kutatókat és a civil társadalmat a technológia irányításában való részvételből”.
Stella Biderman, az EleutherAI, egy nonprofit MI kutatószervezet ügyvezető igazgatója is csatlakozott ezekhez a félelmekhez. "A nagy technológiai cégek már most is rendelkeznek az összes adattal” - mondta. "Az adatok licencének megváltoztatása nem vonja vissza visszamenőlegesen ezt az engedélyt, és az elsődleges hatás a később érkező szereplőkre van, akik jellemzően vagy kisebb startupok vagy kutatók.” A mesterséges intelligenciával foglalkozó vállalatok azt állítják, hogy a nyilvános webes adatok felhasználása jogilag védett a tisztességes felhasználás alapján. Az új adatok gyűjtése azonban nehezebbé vált.
Néhány MI-vezető aggódik amiatt, hogy elérik az „adatfalat”, vagyis azt a pontot, amikor a nyilvános interneten található összes képzési adat kimerül, a többi pedig fizetős falak mögé rejtőzik, robots.txt-vel blokkolják vagy exkluzív megállapodásokba zárják. Egyes vállalatok úgy vélik, hogy az adatfalat szintetikus adatok - azaz olyan adatok, amelyeket maga az MI-rendszerek generálnak - felhasználásával tudják ledönteni, és így képezhetik ki a modelljeiket. Sok kutató azonban kételkedik abban, hogy a mai MI-rendszerek képesek elég jó minőségű szintetikus adatokat generálni ahhoz, hogy helyettesítsék az emberek által létrehozottakat, amelyeket elveszítenek.
Egy másik kihívás, hogy bár a kiadók megpróbálhatják megakadályozni az M.I.-cégeket abban, hogy a robots.txt fájljaikban elhelyezett korlátozásokkal megakadályozzák az adataik lekérdezését, ezek a kérések nem jogilag kötelező érvényűek, és a megfelelés önkéntes. (Gondoljunk erre úgy, mint egy „behajtani tilos” táblára az adatokra, de a törvény ereje nélkül.) A nagyobb keresőmotorok tiszteletben tartják ezeket az opt-out kéréseket, és több vezető MI-cég - köztük az OpenAI és az Anthropic - is nyilvánosan kijelentette, hogy ők is így tesznek. Más cégek - köztük az MI-vel működő Perplexity keresőmotor - figyelmen kívül hagyják ezeket a kéréseket.
A szerző, Longpre szerint a tanulmány egyik nagy tanulsága az, hogy új eszközökre van szükség, amelyek pontosabb módot adnak a webhelytulajdonosoknak arra, hogy ellenőrizhessék adataik felhasználását. Néhány webhely tiltakozhat az ellen, hogy az MI-óriások az adataikat chatbotok képzésére használják fel nyereségvágyból, de lehet, hogy egy nonprofit vállalkozásnak vagy egy oktatási intézménynek hajlandóak lennének megengedni, hogy ugyanezeket az adatokat felhasználják - mondta. Jelenleg nincs jó módszer arra, hogy különbséget tegyenek e felhasználási módok között, vagy hogy az egyiket letiltsák, a másikat pedig engedélyezzék. De a nagy MI-cégek számára is van tanulság, akik évek óta úgy kezelik az internetet, mint egy korlátlan kapacitású svédasztalt, anélkül, hogy az adatok tulajdonosainak értéket adnának cserébe. Ha kizsákmányoljuk a weblapokat, akkor azok elkezdik bezárni a kapuikat.
A nagy teljesítményű mesterséges intelligencia-rendszereket építő vállalatok évek óta hatalmas mennyiségű, az internetről származó szöveg, kép és videóanyagot használnak modelljeik betanításához. Mostanra ezek az adatok egyre inkább elapadnak. Az MIT által vezetett Data Provenance Initiative nevű kutatócsoport e héten közzétett tanulmánya szerint az elmúlt évben az MI-modellek betanításához használt legfontosabb internetes források közül sokan korlátozták az adataik használatát. A tanulmány 14 000 olyan webes tartományt vizsgált, amelyek három, általánosan használt tréning adathalmazban szerepelnek. Ez alapján "kialakulóban lévő válságot fedeztek fel a hozzájárulás terén”, mivel a kiadók és az online platformok lépéseket tettek annak érdekében, hogy megakadályozzák az adataik begyűjtését.
A kutatók becslése szerint a három adatkészletben - a C4, a RefinedWeb és a Dolma nevűekben - az összes adat 5 százalékát, a legjobb minőségű forrásokból származó adatok 25 százalékát korlátozták. Ezeket a korlátozásokat a Robots Exclusion Protocol segítségével állították be, amely egy évtizedes módszer, amellyel a webhelytulajdonosok egy robots.txt nevű fájl segítségével megakadályozhatják, hogy az MI-cégek feltérképezzék az oldalaikat. A tanulmány azt is megállapította, hogy az egyik halmazban, a C4-ben szereplő adatok 45 százalékát a webhelyek szolgáltatási feltételei korlátozzák. "Az adatok felhasználásához való hozzájárulás gyors csökkenését látjuk a világhálón, aminek nemcsak az MI-vállalatokra, hanem a kutatókra, az akadémikusokra és a nem kereskedelmi szervezetekre is hatással lesz” - mondta Shayne Longpre, a tanulmány vezető szerzője.
Az adat a fő összetevője a mai generatív MI rendszereknek, amelyeket szövegek, képek és videók milliárdjaival táplálnak. Az adatok nagy részét a kutatók nyilvános weboldalakról mentik le, és nagy adathalmazokba rakják össze, amelyek letölthetők és szabadon felhasználhatók, vagy kiegészíthetők más forrásokból származó adatokkal. Az adatokból való tanulás teszi lehetővé, hogy az olyan generatív MI-eszközök, mint a ChatGPT, a Google Gemini és az Anthropic Claude képeket és videókat hozzanak létre, programsorokat vagy verseket írjanak. Minél több jó minőségű adatot táplálnak ezekbe a modellekbe, általában annál jobbak a kimeneteik.
Az MI-fejlesztők évekig viszonylag könnyen tudtak adatokat gyűjteni. Az elmúlt évek generatív MI-boomja azonban feszültségekhez vezetett az adatok tulajdonosaival - akik közül sokan nem szívesen adják oda ezeket MI-tanulóanyagként, vagy legalábbis pénzt szeretnének kapni érte. Ahogy a visszatetszés nőtt, egyes kiadók fizetős falakat állítottak fel, vagy megváltoztatták szolgáltatási feltételeiket, hogy korlátozzák adataik felhasználását az MI tréninghez. Mások letiltották az olyan cégek által használt automatizált letöltőket, mint az OpenAI, az Anthropic és a Google.
Az olyan oldalak, mint a Reddit és a StackOverflow elkezdtek díjat kérni az MI-cégektől az adatokhoz való hozzáférésért, és néhány kiadó jogi lépéseket tett - köztük a The New York Times, amely tavaly beperelte az OpenAI-t és a Microsoftot szerzői jogok megsértése miatt, azt állítva, hogy a vállalatok engedély nélkül használták fel a hírcikkeket a modelljeik betanításához. Az olyan vállalatok, mint az OpenAI, a Google és a Meta az elmúlt években rendkívüli módon igyekeztek minél több adatot gyűjteni a rendszereik fejlesztéséhez, beleértve a YouTube-videók letöltését és saját adatkezelési irányelveik kreatív értelmezését. A közelmúltban néhány MI-cég olyan kiadókkal kötött megállapodást, mint az Associated Press és a News Corp, a The Wall Street Journal tulajdonosa, így folyamatos hozzáférést biztosítva számukra a tartalmaikhoz.
A széles körű adatkorlátozások azonban veszélyt jelenthetnek az MI-vállalatokra, amelyeknek folyamatos, jó minőségű adatokra van szükségük ahhoz, hogy modelljeiket frissen és naprakészen tartsák. A kisebb MI-k és a tudományos kutatók számára is gondot jelenthetnek, akik nyilvános adatkészletekre támaszkodnak, és nem engedhetik meg maguknak, hogy közvetlenül a kiadótól licenceljék az adatokat. Az egyik ilyen adathalmaz a Common Crawl, amely több milliárd oldalnyi webes tartalmat tartalmaz, és amelyet egy nonprofit szervezet tart fenn. Ez több mint 10 000 tudományos tanulmányban szerepel. Nem világos, hogy mely népszerű MI-termékeket képezték ki ezeken a forrásokon, mivel kevés fejlesztő hozza nyilvánosságra az általuk használt tréningadatok teljes listáját. De a Common Crawlból származó adatkészleteket, köztük a C4-et (ami a Colossal, Cleaned Crawled Corpus, azaz a kolosszális megtisztított szövegtest rövidítése) olyan vállalatok használták modelljeik korábbi verzióinak betanításához, mint a Google és az OpenAI.
Yacine Jernite, a Hugging Face nevű, az MI-fejlesztők számára eszközöket és adatokat biztosító cég gépi tanulási kutatója a hozzájárulási válságot az MI-ipar agresszív adatgyűjtési gyakorlatára adott természetes válaszként jellemezte. "Nem meglepő, hogy az adatok létrehozóinak visszavágását látjuk, miután az általuk online megosztott szövegeket, képeket és videókat olyan kereskedelmi rendszerek fejlesztésére használják fel, amelyek néha közvetlenül fenyegetik a megélhetésüket” - mondta. De figyelmeztetett arra, hogy ha az összes MI képzési adatot licencügyleteken keresztül kellene megszerezni, az kizárná „a kutatókat és a civil társadalmat a technológia irányításában való részvételből”.
Stella Biderman, az EleutherAI, egy nonprofit MI kutatószervezet ügyvezető igazgatója is csatlakozott ezekhez a félelmekhez. "A nagy technológiai cégek már most is rendelkeznek az összes adattal” - mondta. "Az adatok licencének megváltoztatása nem vonja vissza visszamenőlegesen ezt az engedélyt, és az elsődleges hatás a később érkező szereplőkre van, akik jellemzően vagy kisebb startupok vagy kutatók.” A mesterséges intelligenciával foglalkozó vállalatok azt állítják, hogy a nyilvános webes adatok felhasználása jogilag védett a tisztességes felhasználás alapján. Az új adatok gyűjtése azonban nehezebbé vált.
Néhány MI-vezető aggódik amiatt, hogy elérik az „adatfalat”, vagyis azt a pontot, amikor a nyilvános interneten található összes képzési adat kimerül, a többi pedig fizetős falak mögé rejtőzik, robots.txt-vel blokkolják vagy exkluzív megállapodásokba zárják. Egyes vállalatok úgy vélik, hogy az adatfalat szintetikus adatok - azaz olyan adatok, amelyeket maga az MI-rendszerek generálnak - felhasználásával tudják ledönteni, és így képezhetik ki a modelljeiket. Sok kutató azonban kételkedik abban, hogy a mai MI-rendszerek képesek elég jó minőségű szintetikus adatokat generálni ahhoz, hogy helyettesítsék az emberek által létrehozottakat, amelyeket elveszítenek.
Egy másik kihívás, hogy bár a kiadók megpróbálhatják megakadályozni az M.I.-cégeket abban, hogy a robots.txt fájljaikban elhelyezett korlátozásokkal megakadályozzák az adataik lekérdezését, ezek a kérések nem jogilag kötelező érvényűek, és a megfelelés önkéntes. (Gondoljunk erre úgy, mint egy „behajtani tilos” táblára az adatokra, de a törvény ereje nélkül.) A nagyobb keresőmotorok tiszteletben tartják ezeket az opt-out kéréseket, és több vezető MI-cég - köztük az OpenAI és az Anthropic - is nyilvánosan kijelentette, hogy ők is így tesznek. Más cégek - köztük az MI-vel működő Perplexity keresőmotor - figyelmen kívül hagyják ezeket a kéréseket.
A szerző, Longpre szerint a tanulmány egyik nagy tanulsága az, hogy új eszközökre van szükség, amelyek pontosabb módot adnak a webhelytulajdonosoknak arra, hogy ellenőrizhessék adataik felhasználását. Néhány webhely tiltakozhat az ellen, hogy az MI-óriások az adataikat chatbotok képzésére használják fel nyereségvágyból, de lehet, hogy egy nonprofit vállalkozásnak vagy egy oktatási intézménynek hajlandóak lennének megengedni, hogy ugyanezeket az adatokat felhasználják - mondta. Jelenleg nincs jó módszer arra, hogy különbséget tegyenek e felhasználási módok között, vagy hogy az egyiket letiltsák, a másikat pedig engedélyezzék. De a nagy MI-cégek számára is van tanulság, akik évek óta úgy kezelik az internetet, mint egy korlátlan kapacitású svédasztalt, anélkül, hogy az adatok tulajdonosainak értéket adnának cserébe. Ha kizsákmányoljuk a weblapokat, akkor azok elkezdik bezárni a kapuikat.