Az MI rendszerek képesek a tréningadatokban lévő regényeket szinte szó szerint visszaidézni

A világ vezető MI modelljei rávehetők arra, hogy bestsellerré vált regényekből szinte szó szerinti másolatokat generáljanak, ami újabb kérdéseket vet fel az iparág azon állításával kapcsolatban, miszerint rendszereik nem tárolnak szerzői jogvédelem alatt álló műveket.

Számos friss kutatás kimutatta, hogy az OpenAI, a Google, a Meta, az Anthropic és az xAI nagyméretű nyelvi modelljei jóval több elemet jegyeznek meg a betanítási adataikból, mint azt korábban gondolták. Jogi szakértők szerint ez a „memorizálási” képesség komoly következményekkel járhat az MI cégek világszerte zajló, több tucat szerzői jogi perben folytatott küzdelmére nézve, mivel aláássa azt az alapvető védekezésüket, hogy a nagyméretű nyelvi modellek „tanulnak” a szerzői joggal védett művekből, de nem tárolnak másolatokat. „Egyre több bizonyíték utal arra, hogy a memorizálás nagyobb mértékű jelenség, mint azt korábban hittük” - mondta Yves-Alexandre de Montjoye, az Imperial College London alkalmazott matematika és számítástechnika professzora.

Az MI vállalatok hosszú ideje azt állítják, hogy memorizálás nem történik. Egy 2023-as, az Egyesült Államok Szerzői Jogi Hivatalának címzett levélben a Google azt írta, hogy „a betanítási adatoknak - legyen szó szövegről, képekről vagy más formátumokról - nincs másolata magában a modellben”. Az MI iparág azt is állítja, hogy a szerzői joggal védett könyvek felhasználása a modellek betanításához „fair use”, azaz méltányos felhasználás, azzal érvelve, hogy a technológia az eredeti művet valami lényegileg újjá alakítja. Egy múlt hónapban publikált tanulmány azonban kimutatta, hogy a Stanford és a Yale Egyetem kutatói képesek voltak olyan kérdéseket feltenni az OpenAI, a Google, az Anthropic és az xAI nagyméretű nyelvi modelljeinek, hogy azok 13 könyvből több ezer szót generáljanak, köztük a Trónok harca, Az éhezők viadala és A hobbit című művekből.

Amikor a modelleket arra kérték, hogy egészítsenek ki mondatokat egy könyvből, a Gemini 2.5 nagy pontossággal visszaadta a Harry Potter és a bölcsek köve 76,8 százalékát, míg a Grok 3 70,3 százalékát generálta le. Az Anthropic Claude 3.7 Sonnet modelljéből szinte a teljes regényt sikerült „szinte szó szerint” kinyerni úgynevezett jailbreaking módszerrel, amely során a felhasználók arra késztetik a nagyméretű nyelvi modellt, hogy hagyja figyelmen kívül a beépített védelmi korlátokat.

Ez a kutatás egy tavalyi tanulmányra épít, amely megállapította, hogy az úgynevezett „nyílt” modellek, például a Meta Llama rendszere, a betanítási adataikban szereplő egyes könyvek jelentős részeit memorizálják. A szakértők korábban nem voltak biztosak abban, hogy a „zárt” modellek - amelyek általában több védelmi mechanizmussal rendelkeznek a nem kívánt tartalom generálásának megakadályozására - szintén hajlamosak-e nagyléptékű memorizálásra. „Meglepő volt, hogy teljes szövegeket tudtak memorizálni” a védelmi korlátok ellenére - mondta A. Feder Cooper, a Yale Egyetem kutatója, aki részt vett a tanulmányban.

A kutatók egyelőre nem tudták megállapítani, hogy a nagyméretű nyelvi modellek miért jegyeznek meg olyan tartalmakat, amelyek a betanítási adataikban szerepelnek. Az sem világos, hogy a betanítási adatok mekkora része jelenik meg a modellek által generált kimenetekben. Ez a memorizálási jelenség más ágazatokban is súlyos következményekkel járhat, például az egészségügyben és az oktatásban, ahol a betanítási adatok kiszivárgása adatvédelmi és bizalmas kezelési problémákhoz vezethet.

Jogi szakértők szerint ez jelentős felelősségi kockázatot teremthet az MI cégek számára a szerzői jog megsértése miatt, valamint következményekkel járhat arra nézve is, hogyan képezik a modelleiket, és milyen költségekkel jár azok fejlesztése. A kutatási eredmények „kihívást jelenthetnek azok számára, akik azzal érvelnek, hogy az MI modell nem tárol vagy nem reprodukál semmilyen szerzői jogi művet” - mondta Cerys Wyn Davies, a Pinsent Masons ügyvédi iroda szellemi tulajdonjogi partnere.

Az, hogy az MI modellek memorizálják-e a betanítási adataikat, fontos szerepet játszott a közelmúlt szerzői jogi jogvitáiban. Egy amerikai bíróság tavaly úgy találta, hogy az Anthropic nagyméretű nyelvi modelljeinek egyes szerzői joggal védett tartalmakon történő betanítása méltányos felhasználásnak minősülhet, mivel azt „transzformatívnak” ítélte. Ugyanakkor megállapította, hogy kalózmásolatok tárolása „önmagában, helyrehozhatatlan módon jogsértő”, ami végül ahhoz vezetett, hogy az MI cég 1,5 milliárd dollárt fizetett a per lezárása érdekében. Németországban egy tavaly novemberi ítélet megállapította, hogy az OpenAI megsértette a szerzői jogot, mert modellje dalszövegeket memorizált. Az ügyet a GEMA, zeneszerzőket, dalszövegírókat és kiadókat képviselő szervezet indította, és az Európai Unióban mérföldkőnek számító döntésnek tekintették.

Rudy Telscher, a Husch Blackwell ügyvédi iroda partnere szerint egy teljes könyv reprodukálása jailbreaking nélkül „egyértelműen szerzői jogsértés”. Hozzátette azonban, hogy „az a kérdés, ez elég gyakran történik-e ahhoz, hogy az MI modellek közvetett felelősséggel tartozzanak a jogsértésért”. Az Anthropic közölte, hogy a Stanford és a Yale kutatásában alkalmazott jailbreaking technika a hétköznapi felhasználók számára nem valószerű, és a szöveg kinyerése több erőfeszítést igényelne, mint a tartalom egyszerű megvásárlása. A vállalat azt is hozzátette, hogy modellje nem konkrét adatállományok másolatait tárolja, hanem a betanítási adatokban szereplő szavak és karaktersorozatok mintázataiból és kapcsolataiból tanul.

"Az, hogy az MI laborok védelmi mechanizmusokat építettek be annak megakadályozására, hogy a betanítási adatok kinyerhetők legyenek, azt jelzi, hogy tisztában vannak a problémával" - mondta de Montjoye, az Imperial College professzora. Ben Zhao, a Chicagói Egyetem számítástechnika professzora megkérdőjelezte, hogy az MI laboroknak egyáltalán szükségük van-e szerzői joggal védett tartalmak felhasználására a betanítási adatokban a csúcstechnológiás modellek létrehozásához. „Függetlenül attól, hogy technikailag megvalósítható-e vagy sem, a kérdés az, hogy szabad-e ezt tennünk?” - mondta Zhao. „A jogi oldalnak végső soron ki kell tartania, és valóban döntőbíróként kell fellépnie ebben az egész folyamatban.”

Az MI rendszerek képesek a tréningadatokban lévő regényeket szinte szó szerint visszaidézni

Kapcsolódó cikkek és linkek

Hozzászólások