SG.hu

Jogvédett könyvek tömegén tréningezte az OpenAI a ChatGPT-t

A chatbot mindent tud Harry Potterről, a Gyűrűk Uráról és a Trónok Harcáról. A gatyát is le fogják perelni a szervezetről.

A berkeley-i Kaliforniai Egyetem munkatársai (Kent Chang, Mackenzie Cramer, Sandeep Soni és David Bamman akadémikusok) belemerültek az OpenAI tulajdonában lévő ChatGPT, illetve az annak középpontjában álló GPT-4 nagy nyelvi modell nem nyilvános mélységeibe, és kiderítették, hogy szerzői jogvédett könyvek szövegén képezték azt ki. "Azt találtuk, hogy az OpenAI modellje a szerzői jogvédelem alatt álló anyagok széles gyűjteményét memorizálta, és hogy a memorizálás mértéke összefügg azzal a gyakorisággal, amellyel e könyvek passzusai megjelennek a weben" - magyarázzák a kutatók a tanulmányukban. A csapat a GitHubon tette közzé kódját és adatait, valamint az azonosított könyvek listáját.

A GPT-4 többek között olyan címeket ismer behatóan, mint a Harry Potter gyerekkönyvek, Orwell: 1984, A Gyűrűk Ura-trilógia, az Éhezők viadala könyvek, a Galaxis útikalauz stopposoknak, a Fahrenheit 451, a Trónok harca és a Dűne. A szerzők megjegyzik, hogy a listán a sci-fi és fantasy könyvek dominálnak, amit az említett címek internetes népszerűségének tulajdonítanak, és a ChatGPT jóval kevesebbet tud más műfajokról.

David Bamman, az egyik társszerző, a UC Berkeley School of Information docense a Twitteren így foglalta össze a tanulmányt: "Tanulság, hogy míg a nyílt modellek jó, addig a népszerű szövegek valószínűleg nem jó barométerei a modellek teljesítményének; a sci-fi/fantasy felé való elfogultság miatt el kellene gondolkodnunk azon, hogy kinek a narratív élményeit tartalmazzák ezek a modellek, és hogy ez hogyan befolyásolja az egyéb viselkedést.".


A kutatók nem állítják, hogy a ChatGPT vagy az arra épülő modellek tartalmazzák az idézett könyvek teljes szövegét - az LLM-ek nem szó szerint tárolják a szövegeket. Tesztet végeztek nevekkel, amelynek célja egyetlen név előrejelzése volt egy 40-60 tokenből álló szövegben (egy token körülbelül négy szövegkarakternek felel meg), amely nem tartalmaz más személyt. A teszt sikeres teljesítése azt jelzi, hogy a modell megjegyezte a kapcsolódó szöveget, hiszen pl. ha az a helyes válasz, hogy "Kate", azt sehogy máshogy nem lehet kitalálni, csak ha ismeri a modell az eredetit.

"A ChatGPT és a GPT-4 mögött álló adatok alapvetően nem ismerhetők meg az OpenAI-n kívül" - magyarázzák a szerzők a tanulmányukban. "Semmilyen ponton nem férünk hozzá, és nem is próbáltunk hozzáférni az e modellek mögött álló valódi képzési adatokhoz vagy a rendszerek bármely mögöttes komponenséhez. A munkánk valószínűségi következtetést végez, hogy mérje ezeknek a modelleknek az ismertségét egy könyvhalmazzal, de arra a kérdésre, hogy valóban léteznek-e ezek a modellek képzési adatain belül, nem adható válasz."

Ahhoz, hogy az ilyen kérdések megválaszolhatóvá váljanak, a szerzők nyilvános képzési adatok használatát javasolják, így a modellek viselkedése átláthatóbbá válik. Azért vállalkoztak a projektre, hogy megértsék, mit jegyeztek meg ezek a modellek, mivel a modellek másképp viselkednek, amikor olyan irodalmi szövegeket elemeznek, amelyeket a képzéshez használtak. A Berkeley informatikusai kevésbé a szövegek memorizálásának szerzői jogi vonatkozásaira, és inkább e modellek "fekete doboz" jellegére - az OpenAI nem hozza nyilvánosságra a betanításukhoz használt adatokat -, és arra összpontosítottak, hogy ez hogyan befolyásolja a szövegelemzés érvényességét.

A szerzői jogi következmények azonban nem biztos, hogy elkerülhetők - különösen akkor, ha az ilyen modellekre épülő szöveggeneráló alkalmazások olyan szövegrészleteket állítanak elő, amelyek lényegében hasonlítanak vagy megegyeznek az általuk bevitt, szerzői jogvédelem alatt álló szövegekre.

Tyler Ochoa, a kaliforniai Santa Clara Egyetem jogi tanszékének professzora nagyon is számít arra, hogy perek indulnak majd a nagyméretű szöveggeneráló nyelvi modellek készítői ellen, köztük az OpenAI, a Google és mások ellen. Ochoa szerint a mesterséges intelligencia szöveggenerálással kapcsolatos szerzői jogi kérdései pontosan ugyanazok, mint a mesterséges képgenerálással kapcsolatosak. Először is: tisztességes-e nagy mennyiségű szöveg vagy kép másolása a modell kiképzéséhez? A válasz szerinte valószínűleg igen. Másodszor: ha a modell olyan kimenetet generál, amely túlságosan hasonlít a bemenethez - amit a tanulmány "memorizálásnak" nevez -, az a szerzői jog megsértése? A válasz erre - mondta - szinte biztosan igen.

És harmadszor: ha egy mesterséges intelligencia-szöveggenerátor kimenete nem egy létező szöveg másolata, védi-e azt a szerzői jog? Ochoa szerint a jelenlegi jog szerint a válasz nem, mivel az amerikai szerzői jogi törvények az emberi kreativitást követelik meg, bár egyes országok nem értenek ezzel egyet, és védik az MI által generált műveket. Hozzátette azonban, hogy az olyan tevékenységek, mint a mesterséges intelligenciamodell kimenetének kiválasztása, elrendezése és módosítása, valószínűbbé teszik a szerzői jogi védelmet.

"Eddig az első és a harmadik kérdésben láttunk pereket" - mondta Ochoa. "Az első kérdéssel kapcsolatos perek eddig a mesterséges intelligencia képgeneráló modellekkel kapcsolatosak, de a mesterséges intelligencia szöveggeneráló modellekkel kapcsolatos perek elkerülhetetlenek. "A kettes kérdéssel kapcsolatban még nem láttunk pereket. A Berkeley Egyetem kutatóinak tanulmánya azt mutatja, hogy az ilyen hasonlóság lehetséges; és véleményem szerint, amikor ez bekövetkezik, lesznek perek, és ez szinte biztosan szerzői jogsértésnek fog minősülni. Az, hogy a modell tulajdonosa felelős-e, vagy a modellt használó személy, vagy mindkettő, attól függ, hogy a felhasználónak milyen mértékben kell a modellt az eredmény elérésére ösztönöznie vagy bátorítania".

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • bdzsana #7
    "Ahogy egy Harry Potter konyv megvetele nem jogosit fel egy maganszemelyt arra, hogy irjon es kiadjon egy ujabb kotetet belole, ugy az OpenAI-osokat sem jogositja fel arra, hogy a szoftveruk felhasznalja leszarmaztatott muvek keszitesehez"

    Ennek a kettőnek az égvilágon semmi köze egymáshoz. Magánszemély művében nem jelenhet meg levédett tartalom, ahogy AI művében sem. Ha az AI-t Harry Potteren tanították, akkor is csak akkor legyen felelősségre vonható ha levédett tartalom van az általa írt tartalomban, ugyanúgy mint az embernél.
    Ha én elolvasom a Harry Pottert és az alapján írok egy tök hasonló könyvet, amit megtehetek bizonyos kereteken belül, amíg nem sértek vele szerzői jogot, akkor az AI miért nem teheti meg?
    Ha én Fortnite modelleket másolva tanulok meg modellezni, majd csinálok egy saját karaktert Fortnite stílusban azzal nem sértek semmi jogot jelenleg, az AI akkor miért sért ezzel jogot?

    Egy ember vásárolhat szerzői jogvédett művet (könyvet képet videót stb) amit megnézhet, amiből tanulhat amiből ötletetet meríthet.
    Az ember csupán egy dolgot nem csinálhat ezekkel, nem használhatja a levédett elemeit a végső, értékesítésre szánt termékében.
    Ez miért van másként az AI-nál? A zenészeknél, a festőknél is azt mondják hogy hatással volt rám ez meg az, amik jóeséllyel jogvédettek.
  • kvp #6
    "Valószínűleg a társadalomnak sokkal jobbat tenne az alkotókat közpénzből kompenzálni, aztán mindenki azt másol, amit akar."

    A szerzoi jog nem csak az alkoto maganszemelyeket vedi, hanem a kiado cegeket is. Az allam nem tudna adobevetelbol kifizetni a nagy hollywoodi studiok filmbeveteleit, marpedig ezek nelkul megszunne a nagyipari filmgyartas. Nem azt mondom ez feltetlen baj lenne, a kis amator filmesek megmaradnanak, de a mozifilmek es a sorozatok tobbet nem lennenek gazdasagosan gyarthatoak.

    "Amúgy sem az alkotók viszik el a sáp nagy részét, hanem a kiadók, meg újabban a streaming platformok. Kinek jó ez?"

    Az atlagos fogyasztoknak, akiknek tomeggyartott musor kell. Szerzoi jog nelkul ezek megszunnenek, mert nem erne meg az eloallitasuk. Maradnanak az allamilag finanszirozott filmek es tv musorok. Vegul is itthon is eleg lenne az allami tv es filmgyartas a sok kereskedelmi tv, streaming szolgaltato meg amerikai filmgyartas nelkul. Ugyanis allami penzbol ezt lehet megvalositani. (anno a szocialista rendszerben is ez volt es mukodott, mindenfele szerzoi jogi problemak nelkul, mindenki azt masolt amit akart meg amit fu alatt be tudott szerezni nyugatrol)

    "Valszeg az OpenAI is megvette a könyveket."

    Ahogy egy Harry Potter konyv megvetele nem jogosit fel egy maganszemelyt arra, hogy irjon es kiadjon egy ujabb kotetet belole, ugy az OpenAI-osokat sem jogositja fel arra, hogy a szoftveruk felhasznalja leszarmaztatott muvek keszitesehez. Amig nyilt, ingyenes es szigoruan csak kutatasi celuak voltak, addig tobbe kevesbe legalis volt a tevekenyseguk, abban a pillanatban amikor zart forrasuva es kereskedelmive valt a tevekenyseguk abban a pillanatban kellett volna kidobniuk minden addig osszeszedett betanitasi adatot, ugyanis kereskedelmi tevekenyseg celjara nincs engedelyuk felhasznalni az osszegyujtott adataikat.

    Az MI keszito cegek egyszeruen megszegik mind az europai GDPR, mind az amerikai DMCA osszes jogi tetelet. A tevekenyseguk illegalis mindket jogrend szerint. Sokat elmond a gazdasagi es politikai erejukrol, hogy nem utasitotta meg birosag oket a teljes tevekenyseguk leallitasara es nem foglaltak le a teljes hardverparkjukat mint bunjelet. Mar cegeknek eddig meg soha nem engedtek meg ekkora meretu jogsertest.
  • Caro #4
    A szerzői jogot jó lenne már elfelejteni a jelenlegi formájában.
    Valószínűleg a társadalomnak sokkal jobbat tenne az alkotókat közpénzből kompenzálni, aztán mindenki azt másol, amit akar.

    Nem vagyok a kalózkodás híve, de ez a rendszer rossz.
    Amúgy sem az alkotók viszik el a sáp nagy részét, hanem a kiadók, meg újabban a streaming platformok. Kinek jó ez?
  • gosub #4
    Valszeg az OpenAI is megvette a könyveket.
  • PetruZ #2
    Az, hogy jogvédett könyveken trenírozták, nem azt jelenti, hogy képes is szóról-szóra megírni ugyanúgy azokat... Mint ahogy minden iskolába járó ember is jogvédett szövegekből tanult meg (vagy nem) mindent, az egyetemistáknál pláne vérre megy, melyik oktató milyen könyvéből kell tanulni.
    Nem az a lényeg, hogy miből tanult a MI, hanem hogy a tanultak szintetizálásával képes-e megtévesztésig hasonló stílusban készíteni új műveket. A helyzet az, hogy még nem tartunk itt: felületesen nézve nagyon szép dolgokat alkot, de közben elég sok baromságot rak bele, amit egy ember olvasó rögtön kiszúrna. A képeknél veszélyesebb a helyzet, ott tényleg megüthetik a bokájukat, hiszen manapság már több szintetizált, híres alkotó műveiről másolt stílusú képről csak alapos vizsgálattal lehet eldönteni, ki is alkotta valójában.
    A veszély inkább a megtévesztő selejtek tömeggyártásában lesz, mint a pufajkás pápa "fénykép", amit komolyabb hírportálok is bekajáltak, és az ilyenek ezerszámra öntik el már most is a szociális portálokat. A hihetőség, a validáció nagyon nagy tempóban fog erodálódni, és ez nagyon nagy baj lesz.
  • MerlinW #2
    Az "összes" ember valamilyen formában fizetett a jogvédett könyvért.
  • bdzsana #1
    "Jogvédett könyvek tömegén tréningezte az OpenAI a ChatGPT-t"

    "Jogvédett könyvek tömegén tréningezte magát az összes emberi könyvíró"