SG.hu
A Meta jogvédett könyveket használt fel mesterséges intelligenciája betanításához
A Meta ügyvédei figyelmeztették a céget, hogy milyen jogi veszélyekkel jár, ha több ezer kalózkönyvet használ fel mesterséges intelligenciamodelljei betanításához, de a vállalat mégis megtette - derül ki egy új beadványból, amelyet egy szerzői jogok megsértése miatt indított, eredetileg idén nyáron indított perben nyújtottak be.
A tegnap este benyújtott új beadvány két pert egyesít, amelyet Sarah Silverman komikus, a Pulitzer-díjas Michael Chabon és más neves szerzők indítottak a Facebook és az Instagram tulajdonosa ellen, akik azt állítják, hogy a Meta engedély nélkül használta fel műveiket a Llama nevű mesterséges intelligencia-nyelvi modelljének betanításához. Egy kaliforniai bíró a múlt hónapban elutasította Silverman keresetének egy részét, és jelezte, hogy engedélyt ad a szerzőknek keresetük módosítására. A frissen benyújtott új panaszban szerepelnek egy, a Metához kötődő kutató chatnaplói, amelyekben egy Discord szerveren az adatkészlet beszerzését vitatják meg. Ez potenciálisan jelentős bizonyíték arra, hogy a Meta tisztában volt azzal, hogy a könyvek felhasználása nem feltétlenül felel meg a szerzői jogi törvényeknek.
A panaszban idézett csevegési naplókban Tim Dettmers kutató leírja a Meta jogi részlegével folytatott oda-vissza beszélgetéseit arról, hogy a könyvfájlok képzési adatokként való felhasználása "jogilag rendben van-e". "A Facebooknál sokan érdeklődnek a ThePile-féle munka iránt, köztük én is, de a jelenlegi formájában jogi okokból nem tudjuk használni" - írta Dettmers 2021-ben, utalva arra az adatkészletre, amelyet a Meta elismerten a Llama első verziójának betanításához használt. Egy hónappal korábban Dettmers azt írta, hogy a Meta ügyvédei közölték vele, hogy "az adatokat nem lehet felhasználni, illetve a modelleket nem lehet közzétenni, ha azokat ezeken az adatokon képezték ki" - áll a panaszban.
Bár Dettmers nem írja le az ügyvédek aggályait, a chatben szereplő társai az "aktív szerzői jogokkal rendelkező könyveket" azonosítják a legnagyobb valószínűséggel aggodalom forrásaként. Azt mondják, hogy az adatokon való képzésnek "a tisztességes felhasználás alá kellene esnie", egy olyan jogi doktrína, amely védi a szerzői joggal védett művek bizonyos engedély nélküli felhasználását.
A technológiai cégek idén számos perrel szembesültek a tartalomkészítők részéről, akik azzal vádolják őket, hogy szerzői jogvédelem alatt álló műveket nyúltak le, hogy generatív mesterséges intelligencia modelleket építsenek. Ezek globális szenzációt keltve befektetési lázat gerjesztettek. Ha a szerzők sikerrel járnak, ezek az ügyek visszafoghatják a generatív MI-őrületet, mivel megemelhetik az adatéhes modellek létrehozásának költségeit azáltal, hogy az MI-cégeket arra kényszerítik, hogy kompenzálják a művészeket, szerzőket és más tartalomkészítőket a műveik felhasználásáért. Ugyanakkor a mesterséges intelligenciát szabályozó új európai szabályok arra kényszeríthetik a vállalatokat, hogy nyilvánosságra hozzák a modelljeik betanításához használt adatokat, ami nagyobb jogi kockázatnak teheti ki őket.
A Meta februárban adta ki a Llama nagy nyelvi modelljének első verzióját, és közzétette a képzéshez használt adathalmazok listáját, köztük "a ThePile Books3 szekcióját". Az a személy, aki ezt az adathalmazt összeállította, máshol azt mondta, hogy az 196 640 könyvet tartalmaz. A vállalat nem hozta nyilvánosságra a modell legújabb verziójának, a Llama 2-nek a képzési adatait, amelyet idén nyáron tett elérhetővé kereskedelmi használatra. A Llama 2 ingyenesen használható a 700 millió havi aktív felhasználónál kevesebbel rendelkező vállalatok számára. A technológiai szektorban a lépést a generatív mesterséges intelligencia szoftverek piacán potenciális változást hozó lépésnek tekintették, amely azzal fenyeget, hogy megdönti az olyan szereplők dominanciáját, mint az OpenAI és a Google, amelyek díjat számítanak fel modelljeik használatáért.
A tegnap este benyújtott új beadvány két pert egyesít, amelyet Sarah Silverman komikus, a Pulitzer-díjas Michael Chabon és más neves szerzők indítottak a Facebook és az Instagram tulajdonosa ellen, akik azt állítják, hogy a Meta engedély nélkül használta fel műveiket a Llama nevű mesterséges intelligencia-nyelvi modelljének betanításához. Egy kaliforniai bíró a múlt hónapban elutasította Silverman keresetének egy részét, és jelezte, hogy engedélyt ad a szerzőknek keresetük módosítására. A frissen benyújtott új panaszban szerepelnek egy, a Metához kötődő kutató chatnaplói, amelyekben egy Discord szerveren az adatkészlet beszerzését vitatják meg. Ez potenciálisan jelentős bizonyíték arra, hogy a Meta tisztában volt azzal, hogy a könyvek felhasználása nem feltétlenül felel meg a szerzői jogi törvényeknek.
A panaszban idézett csevegési naplókban Tim Dettmers kutató leírja a Meta jogi részlegével folytatott oda-vissza beszélgetéseit arról, hogy a könyvfájlok képzési adatokként való felhasználása "jogilag rendben van-e". "A Facebooknál sokan érdeklődnek a ThePile-féle munka iránt, köztük én is, de a jelenlegi formájában jogi okokból nem tudjuk használni" - írta Dettmers 2021-ben, utalva arra az adatkészletre, amelyet a Meta elismerten a Llama első verziójának betanításához használt. Egy hónappal korábban Dettmers azt írta, hogy a Meta ügyvédei közölték vele, hogy "az adatokat nem lehet felhasználni, illetve a modelleket nem lehet közzétenni, ha azokat ezeken az adatokon képezték ki" - áll a panaszban.
Bár Dettmers nem írja le az ügyvédek aggályait, a chatben szereplő társai az "aktív szerzői jogokkal rendelkező könyveket" azonosítják a legnagyobb valószínűséggel aggodalom forrásaként. Azt mondják, hogy az adatokon való képzésnek "a tisztességes felhasználás alá kellene esnie", egy olyan jogi doktrína, amely védi a szerzői joggal védett művek bizonyos engedély nélküli felhasználását.
A technológiai cégek idén számos perrel szembesültek a tartalomkészítők részéről, akik azzal vádolják őket, hogy szerzői jogvédelem alatt álló műveket nyúltak le, hogy generatív mesterséges intelligencia modelleket építsenek. Ezek globális szenzációt keltve befektetési lázat gerjesztettek. Ha a szerzők sikerrel járnak, ezek az ügyek visszafoghatják a generatív MI-őrületet, mivel megemelhetik az adatéhes modellek létrehozásának költségeit azáltal, hogy az MI-cégeket arra kényszerítik, hogy kompenzálják a művészeket, szerzőket és más tartalomkészítőket a műveik felhasználásáért. Ugyanakkor a mesterséges intelligenciát szabályozó új európai szabályok arra kényszeríthetik a vállalatokat, hogy nyilvánosságra hozzák a modelljeik betanításához használt adatokat, ami nagyobb jogi kockázatnak teheti ki őket.
A Meta februárban adta ki a Llama nagy nyelvi modelljének első verzióját, és közzétette a képzéshez használt adathalmazok listáját, köztük "a ThePile Books3 szekcióját". Az a személy, aki ezt az adathalmazt összeállította, máshol azt mondta, hogy az 196 640 könyvet tartalmaz. A vállalat nem hozta nyilvánosságra a modell legújabb verziójának, a Llama 2-nek a képzési adatait, amelyet idén nyáron tett elérhetővé kereskedelmi használatra. A Llama 2 ingyenesen használható a 700 millió havi aktív felhasználónál kevesebbel rendelkező vállalatok számára. A technológiai szektorban a lépést a generatív mesterséges intelligencia szoftverek piacán potenciális változást hozó lépésnek tekintették, amely azzal fenyeget, hogy megdönti az olyan szereplők dominanciáját, mint az OpenAI és a Google, amelyek díjat számítanak fel modelljeik használatáért.