SG.hu

A Meta jogvédett könyveket használt fel mesterséges intelligenciája betanításához

A Meta ügyvédei figyelmeztették a céget, hogy milyen jogi veszélyekkel jár, ha több ezer kalózkönyvet használ fel mesterséges intelligenciamodelljei betanításához, de a vállalat mégis megtette - derül ki egy új beadványból, amelyet egy szerzői jogok megsértése miatt indított, eredetileg idén nyáron indított perben nyújtottak be.

A tegnap este benyújtott új beadvány két pert egyesít, amelyet Sarah Silverman komikus, a Pulitzer-díjas Michael Chabon és más neves szerzők indítottak a Facebook és az Instagram tulajdonosa ellen, akik azt állítják, hogy a Meta engedély nélkül használta fel műveiket a Llama nevű mesterséges intelligencia-nyelvi modelljének betanításához. Egy kaliforniai bíró a múlt hónapban elutasította Silverman keresetének egy részét, és jelezte, hogy engedélyt ad a szerzőknek keresetük módosítására. A frissen benyújtott új panaszban szerepelnek egy, a Metához kötődő kutató chatnaplói, amelyekben egy Discord szerveren az adatkészlet beszerzését vitatják meg. Ez potenciálisan jelentős bizonyíték arra, hogy a Meta tisztában volt azzal, hogy a könyvek felhasználása nem feltétlenül felel meg a szerzői jogi törvényeknek.

A panaszban idézett csevegési naplókban Tim Dettmers kutató leírja a Meta jogi részlegével folytatott oda-vissza beszélgetéseit arról, hogy a könyvfájlok képzési adatokként való felhasználása "jogilag rendben van-e". "A Facebooknál sokan érdeklődnek a ThePile-féle munka iránt, köztük én is, de a jelenlegi formájában jogi okokból nem tudjuk használni" - írta Dettmers 2021-ben, utalva arra az adatkészletre, amelyet a Meta elismerten a Llama első verziójának betanításához használt. Egy hónappal korábban Dettmers azt írta, hogy a Meta ügyvédei közölték vele, hogy "az adatokat nem lehet felhasználni, illetve a modelleket nem lehet közzétenni, ha azokat ezeken az adatokon képezték ki" - áll a panaszban.

Bár Dettmers nem írja le az ügyvédek aggályait, a chatben szereplő társai az "aktív szerzői jogokkal rendelkező könyveket" azonosítják a legnagyobb valószínűséggel aggodalom forrásaként. Azt mondják, hogy az adatokon való képzésnek "a tisztességes felhasználás alá kellene esnie", egy olyan jogi doktrína, amely védi a szerzői joggal védett művek bizonyos engedély nélküli felhasználását.

A technológiai cégek idén számos perrel szembesültek a tartalomkészítők részéről, akik azzal vádolják őket, hogy szerzői jogvédelem alatt álló műveket nyúltak le, hogy generatív mesterséges intelligencia modelleket építsenek. Ezek globális szenzációt keltve befektetési lázat gerjesztettek. Ha a szerzők sikerrel járnak, ezek az ügyek visszafoghatják a generatív MI-őrületet, mivel megemelhetik az adatéhes modellek létrehozásának költségeit azáltal, hogy az MI-cégeket arra kényszerítik, hogy kompenzálják a művészeket, szerzőket és más tartalomkészítőket a műveik felhasználásáért. Ugyanakkor a mesterséges intelligenciát szabályozó új európai szabályok arra kényszeríthetik a vállalatokat, hogy nyilvánosságra hozzák a modelljeik betanításához használt adatokat, ami nagyobb jogi kockázatnak teheti ki őket.

A Meta februárban adta ki a Llama nagy nyelvi modelljének első verzióját, és közzétette a képzéshez használt adathalmazok listáját, köztük "a ThePile Books3 szekcióját". Az a személy, aki ezt az adathalmazt összeállította, máshol azt mondta, hogy az 196 640 könyvet tartalmaz. A vállalat nem hozta nyilvánosságra a modell legújabb verziójának, a Llama 2-nek a képzési adatait, amelyet idén nyáron tett elérhetővé kereskedelmi használatra. A Llama 2 ingyenesen használható a 700 millió havi aktív felhasználónál kevesebbel rendelkező vállalatok számára. A technológiai szektorban a lépést a generatív mesterséges intelligencia szoftverek piacán potenciális változást hozó lépésnek tekintették, amely azzal fenyeget, hogy megdönti az olyan szereplők dominanciáját, mint az OpenAI és a Google, amelyek díjat számítanak fel modelljeik használatáért.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • Akva #4
    A mesterséges intelligencia majdnem éppen úgy tanul, mint egy ember, tehát minden neki megvásárolt (vagy kölcsönzött) könyvet elolvashat. Nekem sem kell tájékoztatnom a könyvárust, hogy meg akarom-e tanulni a könyvet, vagy csak úgy olvasgatni fogom, esetleg az asztal lába alá teszem, hogy ne billegjen. Ugyanannyit fizetek érte. Nem jár érte több, mint a könyv egy példányának a kereskedelmi ára.
  • Bruce_Willis #3
    Miért is kellene a szerzőknek fizetni a felhasználásért?
    Ha nem kalóz oldalakról töltötték le a tartalmat, hanem megvásárolt ebook formájában, akkor teljesen jogszerűen használhatják fel azokat. Feltéve hogy teljes egészében nem idézheti a könyvet az AI.

    Ez épp olyan hogy a tanárok is elmondhatják a diákoknak hogy miről szól egy könyv, a lényeget kiemelhetik belőle, sőt még pontos idézeteket is felhasználhatnak az edukáláshoz. Mégsem kell fizetniük jogdíjat a szerzőknek, elég csak egyetlen könyvet megvásárolni ahhoz hogy a jogdíjat megfizesse.
    Tudom, egy tanár egyszerre nem tanít több millió diákot, de youtuberek is elemeznek könyveket, egyenként akár több-százezres nézettséggel, extra jogdíj befizetése nélkül.

    Napi szinten kommunikálok a ChatGPT-vel és nem szeretném ha mondvacsinált okok miatt korlátoznák a tudását.
  • kvp #2
    Szerintem boven eleg ha kapnak egy cease and desist felszolitast, tehat amig nem teritik meg az okozott kart (es itt a karosult ut a hasara, hogy neki mekkora kara keletkezett) es bizonyitjak be, hogy megszuntettek a tovabbi karokozast (azaz nem dobtak ki minden eddigi erdemenyt), addig a ceg tevekenyseget szuneteltetni kell. Amennyiben ezt nem teszik meg azonnal es onkentesen, akkor (pl. az USA-ban) a hatosag fuggeszti fel a ceg teljes mukodeset, a nem erintett teruleteken is.

    A gyakorlatban ez persze elkerulheto, ha mindenkivel meg tudnak allapodni egy visszamenoleges karteritesben es egy eloremeno licensz dijban. Viszont onnantol barmilyen felhasznalas az adott termek felhasznalasanak szamit, ami nagyon gyorsan nagyon nagy kiadasokat tud osszehozni. (valoszinuleg a tartalmak licenszelese nem tenne gazdasagossa az ilyen rendszerek hasznalatat)
  • RJoco #1
    Mindegyik csak a pénzre utazik. Meg is érdemlik, ha lenyúlják őket.

    Ha nem adnak ki adatot a képzésre vonatkozóan, akkor töröltetni kellene velük a nyelvi modellt és a képzést megfelelő felügyelet mellett újracsinálni.
    Elég nagy bukta lenne ez, hogy egyik se akarjon a jövőben "lopni".
    Persze ehhez az kellene, hogy a "művészek" ezt akarják is és ne csak a lóvét.