SG.hu
Jogvédett könyvek tömegén tréningezte az OpenAI a ChatGPT-t
A chatbot mindent tud Harry Potterről, a Gyűrűk Uráról és a Trónok Harcáról. A gatyát is le fogják perelni a szervezetről.
A berkeley-i Kaliforniai Egyetem munkatársai (Kent Chang, Mackenzie Cramer, Sandeep Soni és David Bamman akadémikusok) belemerültek az OpenAI tulajdonában lévő ChatGPT, illetve az annak középpontjában álló GPT-4 nagy nyelvi modell nem nyilvános mélységeibe, és kiderítették, hogy szerzői jogvédett könyvek szövegén képezték azt ki. "Azt találtuk, hogy az OpenAI modellje a szerzői jogvédelem alatt álló anyagok széles gyűjteményét memorizálta, és hogy a memorizálás mértéke összefügg azzal a gyakorisággal, amellyel e könyvek passzusai megjelennek a weben" - magyarázzák a kutatók a tanulmányukban. A csapat a GitHubon tette közzé kódját és adatait, valamint az azonosított könyvek listáját.
A GPT-4 többek között olyan címeket ismer behatóan, mint a Harry Potter gyerekkönyvek, Orwell: 1984, A Gyűrűk Ura-trilógia, az Éhezők viadala könyvek, a Galaxis útikalauz stopposoknak, a Fahrenheit 451, a Trónok harca és a Dűne. A szerzők megjegyzik, hogy a listán a sci-fi és fantasy könyvek dominálnak, amit az említett címek internetes népszerűségének tulajdonítanak, és a ChatGPT jóval kevesebbet tud más műfajokról.
David Bamman, az egyik társszerző, a UC Berkeley School of Information docense a Twitteren így foglalta össze a tanulmányt: "Tanulság, hogy míg a nyílt modellek jó, addig a népszerű szövegek valószínűleg nem jó barométerei a modellek teljesítményének; a sci-fi/fantasy felé való elfogultság miatt el kellene gondolkodnunk azon, hogy kinek a narratív élményeit tartalmazzák ezek a modellek, és hogy ez hogyan befolyásolja az egyéb viselkedést.".
A kutatók nem állítják, hogy a ChatGPT vagy az arra épülő modellek tartalmazzák az idézett könyvek teljes szövegét - az LLM-ek nem szó szerint tárolják a szövegeket. Tesztet végeztek nevekkel, amelynek célja egyetlen név előrejelzése volt egy 40-60 tokenből álló szövegben (egy token körülbelül négy szövegkarakternek felel meg), amely nem tartalmaz más személyt. A teszt sikeres teljesítése azt jelzi, hogy a modell megjegyezte a kapcsolódó szöveget, hiszen pl. ha az a helyes válasz, hogy "Kate", azt sehogy máshogy nem lehet kitalálni, csak ha ismeri a modell az eredetit.
"A ChatGPT és a GPT-4 mögött álló adatok alapvetően nem ismerhetők meg az OpenAI-n kívül" - magyarázzák a szerzők a tanulmányukban. "Semmilyen ponton nem férünk hozzá, és nem is próbáltunk hozzáférni az e modellek mögött álló valódi képzési adatokhoz vagy a rendszerek bármely mögöttes komponenséhez. A munkánk valószínűségi következtetést végez, hogy mérje ezeknek a modelleknek az ismertségét egy könyvhalmazzal, de arra a kérdésre, hogy valóban léteznek-e ezek a modellek képzési adatain belül, nem adható válasz."
Ahhoz, hogy az ilyen kérdések megválaszolhatóvá váljanak, a szerzők nyilvános képzési adatok használatát javasolják, így a modellek viselkedése átláthatóbbá válik. Azért vállalkoztak a projektre, hogy megértsék, mit jegyeztek meg ezek a modellek, mivel a modellek másképp viselkednek, amikor olyan irodalmi szövegeket elemeznek, amelyeket a képzéshez használtak. A Berkeley informatikusai kevésbé a szövegek memorizálásának szerzői jogi vonatkozásaira, és inkább e modellek "fekete doboz" jellegére - az OpenAI nem hozza nyilvánosságra a betanításukhoz használt adatokat -, és arra összpontosítottak, hogy ez hogyan befolyásolja a szövegelemzés érvényességét.
A szerzői jogi következmények azonban nem biztos, hogy elkerülhetők - különösen akkor, ha az ilyen modellekre épülő szöveggeneráló alkalmazások olyan szövegrészleteket állítanak elő, amelyek lényegében hasonlítanak vagy megegyeznek az általuk bevitt, szerzői jogvédelem alatt álló szövegekre.
Tyler Ochoa, a kaliforniai Santa Clara Egyetem jogi tanszékének professzora nagyon is számít arra, hogy perek indulnak majd a nagyméretű szöveggeneráló nyelvi modellek készítői ellen, köztük az OpenAI, a Google és mások ellen. Ochoa szerint a mesterséges intelligencia szöveggenerálással kapcsolatos szerzői jogi kérdései pontosan ugyanazok, mint a mesterséges képgenerálással kapcsolatosak. Először is: tisztességes-e nagy mennyiségű szöveg vagy kép másolása a modell kiképzéséhez? A válasz szerinte valószínűleg igen. Másodszor: ha a modell olyan kimenetet generál, amely túlságosan hasonlít a bemenethez - amit a tanulmány "memorizálásnak" nevez -, az a szerzői jog megsértése? A válasz erre - mondta - szinte biztosan igen.
És harmadszor: ha egy mesterséges intelligencia-szöveggenerátor kimenete nem egy létező szöveg másolata, védi-e azt a szerzői jog? Ochoa szerint a jelenlegi jog szerint a válasz nem, mivel az amerikai szerzői jogi törvények az emberi kreativitást követelik meg, bár egyes országok nem értenek ezzel egyet, és védik az MI által generált műveket. Hozzátette azonban, hogy az olyan tevékenységek, mint a mesterséges intelligenciamodell kimenetének kiválasztása, elrendezése és módosítása, valószínűbbé teszik a szerzői jogi védelmet.
"Eddig az első és a harmadik kérdésben láttunk pereket" - mondta Ochoa. "Az első kérdéssel kapcsolatos perek eddig a mesterséges intelligencia képgeneráló modellekkel kapcsolatosak, de a mesterséges intelligencia szöveggeneráló modellekkel kapcsolatos perek elkerülhetetlenek. "A kettes kérdéssel kapcsolatban még nem láttunk pereket. A Berkeley Egyetem kutatóinak tanulmánya azt mutatja, hogy az ilyen hasonlóság lehetséges; és véleményem szerint, amikor ez bekövetkezik, lesznek perek, és ez szinte biztosan szerzői jogsértésnek fog minősülni. Az, hogy a modell tulajdonosa felelős-e, vagy a modellt használó személy, vagy mindkettő, attól függ, hogy a felhasználónak milyen mértékben kell a modellt az eredmény elérésére ösztönöznie vagy bátorítania".
A berkeley-i Kaliforniai Egyetem munkatársai (Kent Chang, Mackenzie Cramer, Sandeep Soni és David Bamman akadémikusok) belemerültek az OpenAI tulajdonában lévő ChatGPT, illetve az annak középpontjában álló GPT-4 nagy nyelvi modell nem nyilvános mélységeibe, és kiderítették, hogy szerzői jogvédett könyvek szövegén képezték azt ki. "Azt találtuk, hogy az OpenAI modellje a szerzői jogvédelem alatt álló anyagok széles gyűjteményét memorizálta, és hogy a memorizálás mértéke összefügg azzal a gyakorisággal, amellyel e könyvek passzusai megjelennek a weben" - magyarázzák a kutatók a tanulmányukban. A csapat a GitHubon tette közzé kódját és adatait, valamint az azonosított könyvek listáját.
A GPT-4 többek között olyan címeket ismer behatóan, mint a Harry Potter gyerekkönyvek, Orwell: 1984, A Gyűrűk Ura-trilógia, az Éhezők viadala könyvek, a Galaxis útikalauz stopposoknak, a Fahrenheit 451, a Trónok harca és a Dűne. A szerzők megjegyzik, hogy a listán a sci-fi és fantasy könyvek dominálnak, amit az említett címek internetes népszerűségének tulajdonítanak, és a ChatGPT jóval kevesebbet tud más műfajokról.
David Bamman, az egyik társszerző, a UC Berkeley School of Information docense a Twitteren így foglalta össze a tanulmányt: "Tanulság, hogy míg a nyílt modellek jó, addig a népszerű szövegek valószínűleg nem jó barométerei a modellek teljesítményének; a sci-fi/fantasy felé való elfogultság miatt el kellene gondolkodnunk azon, hogy kinek a narratív élményeit tartalmazzák ezek a modellek, és hogy ez hogyan befolyásolja az egyéb viselkedést.".
Takeaways: open models are good; popular texts are probably not good barometers of model performance; with the bias toward sci-fi/fantasy, we should be thinking about whose narrative experiences are encoded in these models, and how that influences other behaviors. 5/6
— David Bamman (@dbamman) May 2, 2023
A kutatók nem állítják, hogy a ChatGPT vagy az arra épülő modellek tartalmazzák az idézett könyvek teljes szövegét - az LLM-ek nem szó szerint tárolják a szövegeket. Tesztet végeztek nevekkel, amelynek célja egyetlen név előrejelzése volt egy 40-60 tokenből álló szövegben (egy token körülbelül négy szövegkarakternek felel meg), amely nem tartalmaz más személyt. A teszt sikeres teljesítése azt jelzi, hogy a modell megjegyezte a kapcsolódó szöveget, hiszen pl. ha az a helyes válasz, hogy "Kate", azt sehogy máshogy nem lehet kitalálni, csak ha ismeri a modell az eredetit.
"A ChatGPT és a GPT-4 mögött álló adatok alapvetően nem ismerhetők meg az OpenAI-n kívül" - magyarázzák a szerzők a tanulmányukban. "Semmilyen ponton nem férünk hozzá, és nem is próbáltunk hozzáférni az e modellek mögött álló valódi képzési adatokhoz vagy a rendszerek bármely mögöttes komponenséhez. A munkánk valószínűségi következtetést végez, hogy mérje ezeknek a modelleknek az ismertségét egy könyvhalmazzal, de arra a kérdésre, hogy valóban léteznek-e ezek a modellek képzési adatain belül, nem adható válasz."
Ahhoz, hogy az ilyen kérdések megválaszolhatóvá váljanak, a szerzők nyilvános képzési adatok használatát javasolják, így a modellek viselkedése átláthatóbbá válik. Azért vállalkoztak a projektre, hogy megértsék, mit jegyeztek meg ezek a modellek, mivel a modellek másképp viselkednek, amikor olyan irodalmi szövegeket elemeznek, amelyeket a képzéshez használtak. A Berkeley informatikusai kevésbé a szövegek memorizálásának szerzői jogi vonatkozásaira, és inkább e modellek "fekete doboz" jellegére - az OpenAI nem hozza nyilvánosságra a betanításukhoz használt adatokat -, és arra összpontosítottak, hogy ez hogyan befolyásolja a szövegelemzés érvényességét.
A szerzői jogi következmények azonban nem biztos, hogy elkerülhetők - különösen akkor, ha az ilyen modellekre épülő szöveggeneráló alkalmazások olyan szövegrészleteket állítanak elő, amelyek lényegében hasonlítanak vagy megegyeznek az általuk bevitt, szerzői jogvédelem alatt álló szövegekre.
Tyler Ochoa, a kaliforniai Santa Clara Egyetem jogi tanszékének professzora nagyon is számít arra, hogy perek indulnak majd a nagyméretű szöveggeneráló nyelvi modellek készítői ellen, köztük az OpenAI, a Google és mások ellen. Ochoa szerint a mesterséges intelligencia szöveggenerálással kapcsolatos szerzői jogi kérdései pontosan ugyanazok, mint a mesterséges képgenerálással kapcsolatosak. Először is: tisztességes-e nagy mennyiségű szöveg vagy kép másolása a modell kiképzéséhez? A válasz szerinte valószínűleg igen. Másodszor: ha a modell olyan kimenetet generál, amely túlságosan hasonlít a bemenethez - amit a tanulmány "memorizálásnak" nevez -, az a szerzői jog megsértése? A válasz erre - mondta - szinte biztosan igen.
És harmadszor: ha egy mesterséges intelligencia-szöveggenerátor kimenete nem egy létező szöveg másolata, védi-e azt a szerzői jog? Ochoa szerint a jelenlegi jog szerint a válasz nem, mivel az amerikai szerzői jogi törvények az emberi kreativitást követelik meg, bár egyes országok nem értenek ezzel egyet, és védik az MI által generált műveket. Hozzátette azonban, hogy az olyan tevékenységek, mint a mesterséges intelligenciamodell kimenetének kiválasztása, elrendezése és módosítása, valószínűbbé teszik a szerzői jogi védelmet.
"Eddig az első és a harmadik kérdésben láttunk pereket" - mondta Ochoa. "Az első kérdéssel kapcsolatos perek eddig a mesterséges intelligencia képgeneráló modellekkel kapcsolatosak, de a mesterséges intelligencia szöveggeneráló modellekkel kapcsolatos perek elkerülhetetlenek. "A kettes kérdéssel kapcsolatban még nem láttunk pereket. A Berkeley Egyetem kutatóinak tanulmánya azt mutatja, hogy az ilyen hasonlóság lehetséges; és véleményem szerint, amikor ez bekövetkezik, lesznek perek, és ez szinte biztosan szerzői jogsértésnek fog minősülni. Az, hogy a modell tulajdonosa felelős-e, vagy a modellt használó személy, vagy mindkettő, attól függ, hogy a felhasználónak milyen mértékben kell a modellt az eredmény elérésére ösztönöznie vagy bátorítania".