SG.hu
A YouTube videóit is ellopta az OpenAI
Akkora szüksége van adatokra mesterséges intelligencia rendszereik betanításához az OpenAI, a Google és a Meta cégeknek, hogy megszerzésük érdekében képesek figyelmen kívül hagyni a vállalati irányelveiket és megváltoztatni saját szabályaikat, vagy akár megkerülni a szerzői jogi törvényeket.
2021 végén az OpenAI hatalmas problémával szembesült. A mesterséges intelligenciával foglalkozó laboratórium kimerítette az interneten fellelhető összes jó hírű angol nyelvű szövegkészletet. A technológia következő verziójának betanításához több adatra volt szüksége - sokkal többre. Ezért az OpenAI kutatói létrehoztak egy beszédfelismerő eszközt, a Whispert, amely képes volt lejegyezni a YouTube-videók hangját, és így új, beszélgetésen alapuló szöveget szolgáltatott, amely okosabbá tette az MI-rendszert. Az OpenAI alkalmazottai tudták, hogy egy ilyen lépés a YouTube szabályaival ellentétes lehet; a Google tulajdonában lévő YouTube tiltja videóinak felhasználását a videóplatformtól független alkalmazások számára. Az OpenAI csapata végül több mint egymillió órányi YouTube-videót jegyzett le. A csapat tagja volt Greg Brockman, az OpenAI elnöke is, aki személyesen segített a videók összegyűjtésében. A szövegeket ezután betáplálták a GPT-4 nevű rendszerbe, amelyet ma széles körben a világ egyik legerősebb MI modelljének tartanak, és amely a ChatGPT chatbot legújabb verziójának alapját képezi.
Az OpenAI ezzel a magatartással nincs egyedül, és az eset jól példázza, hogy az MI vezető cégei mennyire kétségbeesetten vadásszák a technológia továbbfejlesztéséhez szükséges digitális adatokat. A Facebookot és az Instagramot birtokló Metánál a vezetők, jogászok és mérnökök tavaly a Simon & Schuster kiadó megvásárlásáról tárgyaltak, csak azért, hogy felhasználhassák a könyveket. Arról is tanácskoztak, hogy szerzői jogvédelem alatt álló adatokat gyűjtsenek össze az internetről, még akkor is, ha ez azt jelentené, hogy perekkel kell szembenézniük. A kiadókkal, művészekkel, zenészekkel és a híriparral folytatott licenctárgyalások túl sokáig tartanának, mondták. Az OpenAI-hoz hasonlóan a Google is lejegyezte a YouTube-videókat, hogy szövegeket gyűjtsön az MI-modellekhez. Ezzel potenciálisan megsértették a videókészítők szerzői jogait, amelyek az alkotók tulajdonát képezik.
Tavaly a Google kibővítette szolgáltatási feltételeit. A változtatás egyik motivációja a vállalat adatvédelmi csoportjának tagjai és egy belső üzenet szerint az volt, hogy a Google MI-termékeihez is felhasználhassa a nyilvánosan elérhető Google Dokumentumokat, a Google Térképen található éttermi értékeléseket és más online anyagokat. A vállalatok lépései jól illusztrálják, hogy az online információk - legyenek azok hírek, fiktív művek, fórumbejegyzések, Wikipedia-cikkek, számítógépes programok, fényképek, podcastok és filmklipek - egyre inkább a virágzó MI-iparág éltetőjévé váltak. Az innovatív rendszerek létrehozása attól függ, hogy elegendő adat áll-e rendelkezésre ahhoz, hogy megtanítsák a technológiákat arra, hogy olyan szöveget, képeket, hangokat és videókat állítsanak elő, amelyek hasonlítanak ahhoz, amit egy ember létrehoz.
Az adatmennyiség döntő fontosságú. A vezető chatbot-rendszerek hárombillió szóból álló digitális szövegekből tanultak, ami nagyjából kétszer annyi szó, mint az Oxfordi Egyetem Bodleian Könyvtárában tárolt szavak száma, amely 1602 óta gyűjti a kéziratokat. Az MI-kutatók szerint a legértékesebb adatok a magas minőségű információk, például a kiadott könyvek és cikkek, amelyeket gondos szakemberek írtak és szerkesztettek. Az internet - az olyan oldalakkal, mint a Wikipedia és a Reddit - évekig az adatok végtelennek tűnő forrása volt. De ahogy az MI fejlődött, a technológiai cégek egyre több adattárat kerestek. A Google-t és a Metát - amelyeknek több milliárd felhasználójuk van, akik naponta keresési lekérdezéseket és közösségi média-bejegyzéseket készítenek - az adatvédelmi törvények és saját irányelveik nagymértékben korlátozták abban, hogy az MI tréningezése számára felhasználják e tartalmak nagy részét.
A problémájuk nagyon komoly. Az Epoch kutatóintézet szerint a technológiai cégek már 2026-ban kifuthatnak az interneten található kiváló minőségű adatokból. A vállalatok sokkal gyorsabban nyelik le az adatokat, mint ahogyan azokat előállítják. "Ezeknek az eszközöknek csak akkor van gyakorlati létjogosultsága, ha hatalmas mennyiségű adaton lehet őket betanítani anélkül, hogy az adatokat licencelni kellene" - mondta Sy Damle, az Andreessen Horowitz ügyvédje tavaly egy MI-modellekről szóló nyilvános beszélgetésen. "A szükséges adatok olyan mennyiségüek, hogy még a kollektív licencelés sem igazán működhet". *A technológiai cégek annyira ki vannak éhezve az új adatokra, hogy egyesek szintetikus információkat fejlesztenek. Ezek nem emberek által létrehozott szerves adatok, hanem szövegek, képek és kódok, amelyeket más MI- modellek állítanak elő. Azaz a rendszerek abból tanulnak, amit ők maguk generálnak.
Az OpenAI szerint minden egyes MI-modellje "egyedi adatkészlettel rendelkezik, amelyet úgy állítunk össze, hogy segítse a világ megértését és globálisan versenyképes maradjon a kutatásban". A Google azt mondta, hogy MI-modelljeit "bizonyos YouTube-tartalmakon képzik ki", amit a YouTube alkotóival kötött megállapodások alapján engedélyeztek, és hogy a vállalat egy kísérleti programon kívül nem használt fel irodai alkalmazásokból származó adatokat. A Meta azt mondta, hogy "agresszív befektetéseket eszközölt" az MI integrálása érdekében a szolgáltatásaiba, és több milliárd nyilvánosan megosztott kép és videó áll rendelkezésére az Instagramról és a Facebookról a modelljei kiképzéséhez.
Az alkotók számára a műveiknek az MI-cégek általi egyre szélesebb körű felhasználása a szerzői jogokkal és a licencekkel kapcsolatos pereket váltott ki. A The New York Times tavaly beperelte az OpenAI-t és a Microsoftot, mert engedély nélkül használtak fel szerzői jogvédelem alatt álló hírcikkeket a chatbotok képzése céljából. Az OpenAI és a Microsoft szerint a cikkek felhasználása "tisztességes felhasználás", vagyis a szerzői jogi törvények szerint megengedett, mivel a műveket más célra alakították át. Tavaly több mint 10 000 szakmai csoport, szerző, vállalat és más személy nyújtott be észrevételeket a kreatív művek mesterséges intelligencia modellek általi felhasználásával kapcsolatban az amerikai Szerzői Jogi Hivatalhoz, egy szövetségi ügynökséghez, amely iránymutatást készít arról, hogy a szerzői jog hogyan alkalmazható a mesterséges intelligencia korszakában. Justine Bateman filmrendező azt mondta a Szerzői Jogi Hivatalnak, hogy az MI-modellek engedély vagy fizetés nélkül vesznek át tartalmakat - köztük az ő írásait és filmjeit. "Ez a legnagyobb lopás az Egyesült Államokban" - mondta egy interjúban.
2020 januárjában Jared Kaplan, a Johns Hopkins Egyetem elméleti fizikusa úttörő tanulmányt publikált az MI-ről, amely felszította az online adatok iránti étvágyat. Következtetése egyértelmű volt: minél több adat áll rendelkezésre egy nagyméretű nyelvi modell - az online chatbotokat működtető technológia - betanításához, annál jobban teljesített. Ahogyan egy diák is többet tud, ha több könyvet olvas, a nagy nyelvi modellek is jobban kiismerik a szövegben található mintákat, és több információ birtokában pontosabbak lesznek. "Mindenkit nagyon meglepett, hogy ezek a trendek - ezek a skálázási törvények, ahogy mi nevezzük őket - alapvetően olyan pontosak, mint amit a csillagászatban vagy a fizikában látunk" - mondta Dr. Kaplan, aki az OpenAI kilenc kutatójával együtt publikálta a tanulmányt. (Most az Anthropic nevű MI startup cégnél dolgozik.)
A "Scale is all you need" hamarosan az MI egyik hívószavává vált. A kutatók már régóta használják a digitális információk nagy, nyilvános adatbázisait az MI fejlesztéséhez, beleértve a Wikipédiát és a Common Crawl-t, egy 2007 óta gyűjtött, több mint 250 milliárd weboldalt tartalmazó adatbázist. A kutatók általában "megtisztították" az adatokat a gyűlöletbeszéd és más nem kívánt szövegek eltávolításával, mielőtt MI modellek betanításához használták volna őket. 2020-ban az adathalmazok a mai mércével mérve aprónak számítottak. Egy, a Flickr fényképes weboldalról származó 30 000 fotót tartalmazó adatbázis akkoriban létfontosságú forrásnak számított. Dr. Kaplan tanulmánya után ez az adatmennyiség már nem volt elég. Minden arról szólt, hogy "egyszerűen csak nagyon nagy dolgokat kell csinálni" - mondta Brandon Duderstadt, a Nomic, egy New York-i MI vállalat vezérigazgatója.
Amikor az OpenAI 2020 novemberében bemutatta a GPT-3-at, azt az eddigi legnagyobb adatmennyiségen - mintegy 300 milliárd "tokenen" (ez kb. egy szótagnak felel meg) - képezték ki. Miután ezekből az adatokból tanult, a rendszer elképesztő pontossággal generált szöveget, blogbejegyzéseket, verseket, és saját számítógépes programokat írt. 2022-ben a DeepMind, a Google tulajdonában lévő mesterséges intelligencia laboratórium még tovább ment. 400 MI modellt teszteltek, és variálták a képzési adatok mennyiségét és egyéb tényezőket. A legjobban teljesítő modellek még több adatot használtak, mint amit Dr. Kaplan a tanulmányában előre jelzett. Az egyik modell, a Chinchilla, 1,4 trillió tokenen lett betanítva. Hamarosan megelőzték. Tavaly kínai kutatók kiadtak egy Skywork nevű mesterséges intelligencia-modellt, amelyet angol és kínai szövegekből származó 3,2 trillió tokenen képeztek ki. A Google is bemutatott egy mesterséges intelligencia rendszert, a PaLM 2-t, amely 3,6 trillió tokenre volt képes.
Tavaly májusban Sam Altman, az OpenAI vezérigazgatója elismerte, hogy az MI-cégek az internet összes adatát fel fogják használni. "Ez ki fog fogyni" - mondta egy technológiai konferencián tartott beszédében. Altman közelről látta a jelenséget. Az OpenAI-nál a kutatók éveken át gyűjtötték az adatokat, megtisztították és betáplálták egy hatalmas szövegtárba, hogy a cég nyelvi modelljeit betanítsák. Átnyálazták a GitHub számítógépes kódtárát, sakklépések adatbázisait porszívózták ki, és a Quizlet weboldalról származó, középiskolai teszteket és házi feladatokat leíró adatokból is merítettek. 2021 végére ezek a készletek kimerültek.
Az OpenAI kétségbeesetten vágyott további adatokra, hogy kifejleszthesse következő generációs mesterséges intelligencia modelljét, a GPT-4-et. Ezért az alkalmazottak podcastok, hangoskönyvek és YouTube-videók átírásáról tárgyaltak. Beszéltek arról, hogy az adatokat a semmiből hozzák létre más MI rendszerekkel. Olyan startup cégek megvásárlását is fontolóra vették, amelyek nagy mennyiségű digitális adatot gyűjtöttek. Az OpenAI végül egy beszédfelismerő eszközt, a Whisper-t készített a YouTube-videók és podcastok átírására. A YouTube azonban nemcsak azt tiltja meg, hogy az emberek "független" alkalmazásokhoz használják a videóit, hanem azt is, hogy "bármilyen automatizált eszközzel (például robotok, botnetek vagy scraperek) hozzáférjenek a videóihoz".
Az OpenAI alkalmazottai tudták, hogy jogi szürke zónába gázolnak, de úgy vélték, hogy az MI képzése a videókkal tisztességes felhasználásnak minősül. Brockman, az OpenAI elnöke egy kutatási dokumentumban a Whisper egyik alkotójaként szerepel. Személyesen segített összegyűjteni a YouTube-videókat, és betáplálta őket a rendszerbe. Tavaly az OpenAI kiadta a GPT-4-et, amely a Whisper által átírt több mint egymillió órányi YouTube-videóra támaszkodott. Brockman vezette a GPT-4-et kifejlesztő csapatot. A Google néhány alkalmazottja tudott arról, hogy az OpenAI adatokat gyűjtött a YouTube-videókból, de nem állították le az OpenAI-t, mert a Google is használta a YouTube-videók átiratát az MI-modellek betanításához. Ez a gyakorlat sérthette a YouTube alkotóinak szerzői jogait, így ha a Google felháborodást kelt az OpenAI miatt, akkor a saját adatbázisát is megtorpedózza.
Matt Bryant, a Google szóvivője tagadta, hogy a vállalatnak tudomása lett volna az OpenAI gyakorlatáról, és leszögezte, hogy tiltja a YouTube-tartalmak engedély nélküli letöltését. A Google akkor lép fel, ha erre egyértelmű jogi vagy technikai alapja van - mondta. A Google szabályai lehetővé tették, hogy megcsapolja a YouTube felhasználóinak adatait a videoplatform új funkcióinak kifejlesztéséhez. Nem világos azonban, hogy a Google felhasználhatja-e a YouTube-adatokat a videoplatformon kívüli kereskedelmi szolgáltatások, például chatbotok létrehozására. Geoffrey Lottenberg, a Berger Singerman ügyvédi iroda szellemi tulajdonjogokkal foglalkozó jogásza szerint a Google megfogalmazása homályos arról, hogy mit tehet és mit nem tehet a YouTube-videók átiratával. "Az, hogy az adatokat fel lehet-e használni egy új kereskedelmi szolgáltatáshoz, értelmezhető és peres eljárás tárgyát képezheti" - mondta.
2022 végén, miután az OpenAI kiadta a ChatGPT-t és elindult egy iparági versenyt a felzárkózásért, a Google kutatói és mérnökei megvitatták más felhasználói adatok megcsapolását. Szavak milliárdjai ültek az emberek Google Dokumentumaiban és más ingyenes Google-alkalmazásokban. De a vállalat adatvédelmi korlátozásai beszabályozták, hogy hogyan használhatják fel az adatokat. Júniusban a Google jogi osztálya felkérte az adatvédelmi csoportot, hogy fogalmazzon meg egy olyan szöveget, amely kiszélesíti azt, hogy a vállalat mire használhatja fel a fogyasztói adatokat. Az alkalmazottaknak elmondták, hogy a Google az emberek Google Docs, Google Sheets és a kapcsolódó alkalmazásokban nyilvánosan elérhető tartalmait egy sor mesterséges intelligencia termékhez szeretnék felhasználni.
Akkoriban a Google adatvédelmi irányelvei szerint a vállalat a nyilvánosan elérhető információkat csak "a Google nyelvi modelljeinek képzéséhez és az olyan funkciók létrehozásához, mint a Google Fordító" használhatja fel. Az adatvédelmi csapat új feltételeket írt, hogy a Google megcsapolhassa az adatokat "az MI modellekhez és olyan termékek és funkciók létrehozásához, mint a Google Translate, a Bard és a Cloud AI képességek", ami az MI technológiák szélesebb körű gyűjteményét jelentette. "Mi itt a végcél?" - kérdezte az adatvédelmi csapat egyik tagja egy belső üzenetben. "Mennyire széles körben megyünk?" A csapatnak kifejezetten azt mondták, hogy az új feltételeket a július 4-i hétvégén adják ki, amikor az emberek jellemzően az ünnepre koncentrálnak - mondták az alkalmazottak. A felülvizsgált irányelvek július 1-jén, egy hosszú hétvége kezdetén debütáltak.
Bryant elmondta, hogy az adatvédelmi irányelvek módosítására az egyértelműség érdekében került sor, és hogy a Google nem használja fel a Google Docs vagy a kapcsolódó alkalmazások adatait a nyelvi modellek képzésére "a felhasználók kifejezett engedélye nélkül", utalva egy önkéntes programra, amely lehetővé teszi a felhasználók számára a kísérleti funkciók tesztelését. "Nem kezdtük el a képzést további adattípusokon a nyelvi változtatás alapján" - mondta.
Vita a Metánál
Mark Zuckerberg, a Meta vezérigazgatója évek óta sokat költött az MI-re, de amikor az OpenAI 2022-ben kiadta a ChatGPT-t hirtelen lemaradásban találta magát. Azonnal arra törekedett, hogy túlszárnyalja a ChatGPT-t, és akár éjszaka is hívogatta a vezetőket és a mérnököket, hogy egy rivális chatbot kifejlesztésére ösztökélje őket. Tavaly év elejére azonban a Meta ugyanabba az akadályba ütközött, mint a riválisai: nem volt elég adat. Ahmad Al-Dahle, a Meta generatív MI-ért felelős alelnöke elmondta a vezetőknek, hogy csapata szinte minden interneten elérhető angol nyelvű könyvet, esszét, verset és újságcikket felhasznált a modell kifejlesztéséhez - derül ki belső megbeszélésekről készült felvételekből, amelyeket egy alkalmazott osztott meg.
Al-Dahle elmondta a kollégáknak, hogy ha nem kap több adatot, a Meta nem tud versenyezni a ChatGPT-vel. 2023 márciusában és áprilisában a vállalat néhány üzletfejlesztési vezetője, mérnökei és jogászai szinte naponta találkoztak, hogy megoldják a problémát. Néhányan azt javasolták fizessenek könyvenként 10 dollárt az új címek licencjogaiért. Megvitatták a Simon & Schuster megvásárlását, amely olyan szerzőket ad ki, mint Stephen King. Arról is beszéltek, hogy engedély nélkül foglaltak össze könyveket, esszéket és más műveket az internetről, és megvitatták, hogy még többet szívjanak fel, még akkor is, ha emiatt perekkel kell szembenézniük. Az egyik ügyvéd "etikai" aggályokra figyelmeztetett a szellemi tulajdon megsértése kapcsán, de a felvételek szerint hallgatással fogadták.
Zuckerberg megoldást követelt, mondták az alkalmazottak. "Az a képesség, amit Mark a termékben keres, olyasmi, amit jelenleg nem tudunk biztosítani" - mondta az egyik mérnök. Bár a Meta óriási közösségi hálózatokat üzemeltet, nem állt számukra rendelkezésére a felhasználók posztjainak halmaza. Sok Facebook-felhasználó törölte korábbi posztjait, és a platform nem az a hely volt, ahol az emberek esszé jellegű tartalmakat írnak. A Metát korlátozták azok az adatvédelmi változtatások is, amelyeket a 2018-as botrány után vezetett be, amikor felhasználói adatait megosztotta a Cambridge Analyticával, egy szavazók profilozásával foglalkozó céggel. Zuckerberg egy nemrégiben tartott befektetői híváson azt mondta, hogy a Facebookon és az Instagramon nyilvánosan megosztott videók és fotók milliárdja "nagyobbak, mint a Common Crawl adathalmaz".
Felvett beszélgetéseik során a Meta vezetői arról beszéltek, hogy Afrikában vállalkozókat béreltek fel a szépirodalmi és nem szépirodalmi művek összefoglalóinak összesítésére. Az összefoglalók szerzői jogvédelem alatt álló tartalmakat is tartalmaztak, "mert nincs módunk arra, hogy ezt ne gyűjtsük össze" - mondta egy vezető az egyik megbeszélésen. A Meta vezetői számára úgy tűnt, hogy az OpenAI engedély nélkül használt fel szerzői jogvédelem alatt álló anyagokat. A felvételek szerint túl sokáig tartott volna a Metának tárgyalni a kiadókkal, művészekkel, zenészekkel és a híriparral az engedélyekről. "Az egyetlen dolog, ami visszatart minket attól, hogy olyan jók legyünk, mint a ChatGPT, szó szerint csak az adatmennyiség" - mondta Nick Grudin, a globális partnerségért és tartalomért felelős alelnök az egyik megbeszélésen. Mivel az OpenAI szerzői jogvédelem alatt álló anyagokat használ, a Meta követhetné ezt a "piaci precedenst" - tette hozzá.
A Meta vezetői beleegyeztek, hogy egy 2015-ös bírósági döntésre támaszkodjanak, amely az Írók céhe kontra Google ügyben született. Abban az ügyben a Google-nek engedélyezték, hogy könyveket szkenneljen be, digitalizáljon és katalogizáljon egy online adatbázisban, miután azzal érvelt, hogy a művekből csak részleteket reprodukált online, és az eredetit átalakította, ami tisztességes felhasználást tesz lehetővé. A Meta ügyvédei szerint az adatok felhasználása a mesterséges intelligencia rendszerek betanításához hasonlóan tisztességes felhasználásnak minősül. A felvételek szerint legalább két alkalmazott aggályokat fogalmazott meg a szellemi tulajdon felhasználásával, valamint a szerzők és más művészek nem vagy nem tisztességes módon történő kifizetésével kapcsolatban. Az egyik alkalmazott elmesélte, hogy a szerzői jogvédelem alatt álló adatokról külön megbeszélést folytattak felsővezetőkkel, köztük Chris Coxszal, a Meta termékért felelős vezetőjével, és elmondta, hogy ezen a megbeszélésen senki sem foglalkozott az emberek kreatív munkáinak felhasználásával kapcsolatos etikai kérdésekkel.
"Szintetikus" adatok
Az OpenAI-nál Altman új tervvel állt elő a fenyegető adathiány kezelésére. Egy májusi konferencián elmondta, hogy az olyan vállalatok, mint az övé, végül MI által generált szövegeken - más néven szintetikus adatokon - képeznék ki az MI-jüket. Mivel egy MI modell képes emberi szöveghez hasonló szöveget előállítani, Altman és mások szerint ezek a rendszerek további adatokat hozhatnak létre, hogy jobb változatokat fejlesszenek ki magukból. Ez segítené a fejlesztőket abban, hogy egyre nagyobb teljesítményű technológiát fejlesszenek ki, és csökkentené a szerzői jogvédelem alatt álló adatoktól való függőségüket. "Amíg túljutunk a szintetikus adatok eseményhorizontján, ahol a modell elég okos ahhoz, hogy jó szintetikus adatokat készítsen, addig minden rendben lesz" - mondta Altman.
A mesterséges intelligencia kutatói már évek óta vizsgálják a szintetikus adatokat, de egy olyan MI rendszert építeni, amely képes önmagát betanítani, könnyebb mondani, mint megtenni. A saját kimeneteikből tanuló MI-modellek egy olyan hurokba kerülhetnek, ahol saját furcsaságaikat, hibáikat és korlátaikat erősítik. "Az adatok, amelyekre ezeknek a rendszereknek szükségük van, olyanok, mint egy ösvény a dzsungelben" - mondta Jeff Clune, az OpenAI egykori kutatója, aki most a Brit Columbia Egyetemen tanít informatikát. "Ha csak szintetikus adatokon edzenek, eltévedhetnek a dzsungelben". Ennek leküzdése érdekében az OpenAI és mások azt vizsgálják, hogyan működhetne együtt két különböző modell, hogy hasznosabb és megbízhatóbb szintetikus adatokat hozzanak létre. Az egyik rendszer előállítja az adatokat, míg egy másik megítéli az információkat, hogy szétválassza a jót a rossztól. A kutatók véleménye megoszlik arról, hogy ez a módszer működni fog-e. Az MI vezetői ennek ellenére előre törnek. "Minden rendben lesz" - mondta Altman a konferencián.
2021 végén az OpenAI hatalmas problémával szembesült. A mesterséges intelligenciával foglalkozó laboratórium kimerítette az interneten fellelhető összes jó hírű angol nyelvű szövegkészletet. A technológia következő verziójának betanításához több adatra volt szüksége - sokkal többre. Ezért az OpenAI kutatói létrehoztak egy beszédfelismerő eszközt, a Whispert, amely képes volt lejegyezni a YouTube-videók hangját, és így új, beszélgetésen alapuló szöveget szolgáltatott, amely okosabbá tette az MI-rendszert. Az OpenAI alkalmazottai tudták, hogy egy ilyen lépés a YouTube szabályaival ellentétes lehet; a Google tulajdonában lévő YouTube tiltja videóinak felhasználását a videóplatformtól független alkalmazások számára. Az OpenAI csapata végül több mint egymillió órányi YouTube-videót jegyzett le. A csapat tagja volt Greg Brockman, az OpenAI elnöke is, aki személyesen segített a videók összegyűjtésében. A szövegeket ezután betáplálták a GPT-4 nevű rendszerbe, amelyet ma széles körben a világ egyik legerősebb MI modelljének tartanak, és amely a ChatGPT chatbot legújabb verziójának alapját képezi.
Az OpenAI ezzel a magatartással nincs egyedül, és az eset jól példázza, hogy az MI vezető cégei mennyire kétségbeesetten vadásszák a technológia továbbfejlesztéséhez szükséges digitális adatokat. A Facebookot és az Instagramot birtokló Metánál a vezetők, jogászok és mérnökök tavaly a Simon & Schuster kiadó megvásárlásáról tárgyaltak, csak azért, hogy felhasználhassák a könyveket. Arról is tanácskoztak, hogy szerzői jogvédelem alatt álló adatokat gyűjtsenek össze az internetről, még akkor is, ha ez azt jelentené, hogy perekkel kell szembenézniük. A kiadókkal, művészekkel, zenészekkel és a híriparral folytatott licenctárgyalások túl sokáig tartanának, mondták. Az OpenAI-hoz hasonlóan a Google is lejegyezte a YouTube-videókat, hogy szövegeket gyűjtsön az MI-modellekhez. Ezzel potenciálisan megsértették a videókészítők szerzői jogait, amelyek az alkotók tulajdonát képezik.
Tavaly a Google kibővítette szolgáltatási feltételeit. A változtatás egyik motivációja a vállalat adatvédelmi csoportjának tagjai és egy belső üzenet szerint az volt, hogy a Google MI-termékeihez is felhasználhassa a nyilvánosan elérhető Google Dokumentumokat, a Google Térképen található éttermi értékeléseket és más online anyagokat. A vállalatok lépései jól illusztrálják, hogy az online információk - legyenek azok hírek, fiktív művek, fórumbejegyzések, Wikipedia-cikkek, számítógépes programok, fényképek, podcastok és filmklipek - egyre inkább a virágzó MI-iparág éltetőjévé váltak. Az innovatív rendszerek létrehozása attól függ, hogy elegendő adat áll-e rendelkezésre ahhoz, hogy megtanítsák a technológiákat arra, hogy olyan szöveget, képeket, hangokat és videókat állítsanak elő, amelyek hasonlítanak ahhoz, amit egy ember létrehoz.
Az adatmennyiség döntő fontosságú. A vezető chatbot-rendszerek hárombillió szóból álló digitális szövegekből tanultak, ami nagyjából kétszer annyi szó, mint az Oxfordi Egyetem Bodleian Könyvtárában tárolt szavak száma, amely 1602 óta gyűjti a kéziratokat. Az MI-kutatók szerint a legértékesebb adatok a magas minőségű információk, például a kiadott könyvek és cikkek, amelyeket gondos szakemberek írtak és szerkesztettek. Az internet - az olyan oldalakkal, mint a Wikipedia és a Reddit - évekig az adatok végtelennek tűnő forrása volt. De ahogy az MI fejlődött, a technológiai cégek egyre több adattárat kerestek. A Google-t és a Metát - amelyeknek több milliárd felhasználójuk van, akik naponta keresési lekérdezéseket és közösségi média-bejegyzéseket készítenek - az adatvédelmi törvények és saját irányelveik nagymértékben korlátozták abban, hogy az MI tréningezése számára felhasználják e tartalmak nagy részét.
A problémájuk nagyon komoly. Az Epoch kutatóintézet szerint a technológiai cégek már 2026-ban kifuthatnak az interneten található kiváló minőségű adatokból. A vállalatok sokkal gyorsabban nyelik le az adatokat, mint ahogyan azokat előállítják. "Ezeknek az eszközöknek csak akkor van gyakorlati létjogosultsága, ha hatalmas mennyiségű adaton lehet őket betanítani anélkül, hogy az adatokat licencelni kellene" - mondta Sy Damle, az Andreessen Horowitz ügyvédje tavaly egy MI-modellekről szóló nyilvános beszélgetésen. "A szükséges adatok olyan mennyiségüek, hogy még a kollektív licencelés sem igazán működhet". *A technológiai cégek annyira ki vannak éhezve az új adatokra, hogy egyesek szintetikus információkat fejlesztenek. Ezek nem emberek által létrehozott szerves adatok, hanem szövegek, képek és kódok, amelyeket más MI- modellek állítanak elő. Azaz a rendszerek abból tanulnak, amit ők maguk generálnak.
Az OpenAI szerint minden egyes MI-modellje "egyedi adatkészlettel rendelkezik, amelyet úgy állítunk össze, hogy segítse a világ megértését és globálisan versenyképes maradjon a kutatásban". A Google azt mondta, hogy MI-modelljeit "bizonyos YouTube-tartalmakon képzik ki", amit a YouTube alkotóival kötött megállapodások alapján engedélyeztek, és hogy a vállalat egy kísérleti programon kívül nem használt fel irodai alkalmazásokból származó adatokat. A Meta azt mondta, hogy "agresszív befektetéseket eszközölt" az MI integrálása érdekében a szolgáltatásaiba, és több milliárd nyilvánosan megosztott kép és videó áll rendelkezésére az Instagramról és a Facebookról a modelljei kiképzéséhez.
Az alkotók számára a műveiknek az MI-cégek általi egyre szélesebb körű felhasználása a szerzői jogokkal és a licencekkel kapcsolatos pereket váltott ki. A The New York Times tavaly beperelte az OpenAI-t és a Microsoftot, mert engedély nélkül használtak fel szerzői jogvédelem alatt álló hírcikkeket a chatbotok képzése céljából. Az OpenAI és a Microsoft szerint a cikkek felhasználása "tisztességes felhasználás", vagyis a szerzői jogi törvények szerint megengedett, mivel a műveket más célra alakították át. Tavaly több mint 10 000 szakmai csoport, szerző, vállalat és más személy nyújtott be észrevételeket a kreatív művek mesterséges intelligencia modellek általi felhasználásával kapcsolatban az amerikai Szerzői Jogi Hivatalhoz, egy szövetségi ügynökséghez, amely iránymutatást készít arról, hogy a szerzői jog hogyan alkalmazható a mesterséges intelligencia korszakában. Justine Bateman filmrendező azt mondta a Szerzői Jogi Hivatalnak, hogy az MI-modellek engedély vagy fizetés nélkül vesznek át tartalmakat - köztük az ő írásait és filmjeit. "Ez a legnagyobb lopás az Egyesült Államokban" - mondta egy interjúban.
2020 januárjában Jared Kaplan, a Johns Hopkins Egyetem elméleti fizikusa úttörő tanulmányt publikált az MI-ről, amely felszította az online adatok iránti étvágyat. Következtetése egyértelmű volt: minél több adat áll rendelkezésre egy nagyméretű nyelvi modell - az online chatbotokat működtető technológia - betanításához, annál jobban teljesített. Ahogyan egy diák is többet tud, ha több könyvet olvas, a nagy nyelvi modellek is jobban kiismerik a szövegben található mintákat, és több információ birtokában pontosabbak lesznek. "Mindenkit nagyon meglepett, hogy ezek a trendek - ezek a skálázási törvények, ahogy mi nevezzük őket - alapvetően olyan pontosak, mint amit a csillagászatban vagy a fizikában látunk" - mondta Dr. Kaplan, aki az OpenAI kilenc kutatójával együtt publikálta a tanulmányt. (Most az Anthropic nevű MI startup cégnél dolgozik.)
A "Scale is all you need" hamarosan az MI egyik hívószavává vált. A kutatók már régóta használják a digitális információk nagy, nyilvános adatbázisait az MI fejlesztéséhez, beleértve a Wikipédiát és a Common Crawl-t, egy 2007 óta gyűjtött, több mint 250 milliárd weboldalt tartalmazó adatbázist. A kutatók általában "megtisztították" az adatokat a gyűlöletbeszéd és más nem kívánt szövegek eltávolításával, mielőtt MI modellek betanításához használták volna őket. 2020-ban az adathalmazok a mai mércével mérve aprónak számítottak. Egy, a Flickr fényképes weboldalról származó 30 000 fotót tartalmazó adatbázis akkoriban létfontosságú forrásnak számított. Dr. Kaplan tanulmánya után ez az adatmennyiség már nem volt elég. Minden arról szólt, hogy "egyszerűen csak nagyon nagy dolgokat kell csinálni" - mondta Brandon Duderstadt, a Nomic, egy New York-i MI vállalat vezérigazgatója.
Amikor az OpenAI 2020 novemberében bemutatta a GPT-3-at, azt az eddigi legnagyobb adatmennyiségen - mintegy 300 milliárd "tokenen" (ez kb. egy szótagnak felel meg) - képezték ki. Miután ezekből az adatokból tanult, a rendszer elképesztő pontossággal generált szöveget, blogbejegyzéseket, verseket, és saját számítógépes programokat írt. 2022-ben a DeepMind, a Google tulajdonában lévő mesterséges intelligencia laboratórium még tovább ment. 400 MI modellt teszteltek, és variálták a képzési adatok mennyiségét és egyéb tényezőket. A legjobban teljesítő modellek még több adatot használtak, mint amit Dr. Kaplan a tanulmányában előre jelzett. Az egyik modell, a Chinchilla, 1,4 trillió tokenen lett betanítva. Hamarosan megelőzték. Tavaly kínai kutatók kiadtak egy Skywork nevű mesterséges intelligencia-modellt, amelyet angol és kínai szövegekből származó 3,2 trillió tokenen képeztek ki. A Google is bemutatott egy mesterséges intelligencia rendszert, a PaLM 2-t, amely 3,6 trillió tokenre volt képes.
Tavaly májusban Sam Altman, az OpenAI vezérigazgatója elismerte, hogy az MI-cégek az internet összes adatát fel fogják használni. "Ez ki fog fogyni" - mondta egy technológiai konferencián tartott beszédében. Altman közelről látta a jelenséget. Az OpenAI-nál a kutatók éveken át gyűjtötték az adatokat, megtisztították és betáplálták egy hatalmas szövegtárba, hogy a cég nyelvi modelljeit betanítsák. Átnyálazták a GitHub számítógépes kódtárát, sakklépések adatbázisait porszívózták ki, és a Quizlet weboldalról származó, középiskolai teszteket és házi feladatokat leíró adatokból is merítettek. 2021 végére ezek a készletek kimerültek.
Az OpenAI kétségbeesetten vágyott további adatokra, hogy kifejleszthesse következő generációs mesterséges intelligencia modelljét, a GPT-4-et. Ezért az alkalmazottak podcastok, hangoskönyvek és YouTube-videók átírásáról tárgyaltak. Beszéltek arról, hogy az adatokat a semmiből hozzák létre más MI rendszerekkel. Olyan startup cégek megvásárlását is fontolóra vették, amelyek nagy mennyiségű digitális adatot gyűjtöttek. Az OpenAI végül egy beszédfelismerő eszközt, a Whisper-t készített a YouTube-videók és podcastok átírására. A YouTube azonban nemcsak azt tiltja meg, hogy az emberek "független" alkalmazásokhoz használják a videóit, hanem azt is, hogy "bármilyen automatizált eszközzel (például robotok, botnetek vagy scraperek) hozzáférjenek a videóihoz".
Az OpenAI alkalmazottai tudták, hogy jogi szürke zónába gázolnak, de úgy vélték, hogy az MI képzése a videókkal tisztességes felhasználásnak minősül. Brockman, az OpenAI elnöke egy kutatási dokumentumban a Whisper egyik alkotójaként szerepel. Személyesen segített összegyűjteni a YouTube-videókat, és betáplálta őket a rendszerbe. Tavaly az OpenAI kiadta a GPT-4-et, amely a Whisper által átírt több mint egymillió órányi YouTube-videóra támaszkodott. Brockman vezette a GPT-4-et kifejlesztő csapatot. A Google néhány alkalmazottja tudott arról, hogy az OpenAI adatokat gyűjtött a YouTube-videókból, de nem állították le az OpenAI-t, mert a Google is használta a YouTube-videók átiratát az MI-modellek betanításához. Ez a gyakorlat sérthette a YouTube alkotóinak szerzői jogait, így ha a Google felháborodást kelt az OpenAI miatt, akkor a saját adatbázisát is megtorpedózza.
Matt Bryant, a Google szóvivője tagadta, hogy a vállalatnak tudomása lett volna az OpenAI gyakorlatáról, és leszögezte, hogy tiltja a YouTube-tartalmak engedély nélküli letöltését. A Google akkor lép fel, ha erre egyértelmű jogi vagy technikai alapja van - mondta. A Google szabályai lehetővé tették, hogy megcsapolja a YouTube felhasználóinak adatait a videoplatform új funkcióinak kifejlesztéséhez. Nem világos azonban, hogy a Google felhasználhatja-e a YouTube-adatokat a videoplatformon kívüli kereskedelmi szolgáltatások, például chatbotok létrehozására. Geoffrey Lottenberg, a Berger Singerman ügyvédi iroda szellemi tulajdonjogokkal foglalkozó jogásza szerint a Google megfogalmazása homályos arról, hogy mit tehet és mit nem tehet a YouTube-videók átiratával. "Az, hogy az adatokat fel lehet-e használni egy új kereskedelmi szolgáltatáshoz, értelmezhető és peres eljárás tárgyát képezheti" - mondta.
2022 végén, miután az OpenAI kiadta a ChatGPT-t és elindult egy iparági versenyt a felzárkózásért, a Google kutatói és mérnökei megvitatták más felhasználói adatok megcsapolását. Szavak milliárdjai ültek az emberek Google Dokumentumaiban és más ingyenes Google-alkalmazásokban. De a vállalat adatvédelmi korlátozásai beszabályozták, hogy hogyan használhatják fel az adatokat. Júniusban a Google jogi osztálya felkérte az adatvédelmi csoportot, hogy fogalmazzon meg egy olyan szöveget, amely kiszélesíti azt, hogy a vállalat mire használhatja fel a fogyasztói adatokat. Az alkalmazottaknak elmondták, hogy a Google az emberek Google Docs, Google Sheets és a kapcsolódó alkalmazásokban nyilvánosan elérhető tartalmait egy sor mesterséges intelligencia termékhez szeretnék felhasználni.
Akkoriban a Google adatvédelmi irányelvei szerint a vállalat a nyilvánosan elérhető információkat csak "a Google nyelvi modelljeinek képzéséhez és az olyan funkciók létrehozásához, mint a Google Fordító" használhatja fel. Az adatvédelmi csapat új feltételeket írt, hogy a Google megcsapolhassa az adatokat "az MI modellekhez és olyan termékek és funkciók létrehozásához, mint a Google Translate, a Bard és a Cloud AI képességek", ami az MI technológiák szélesebb körű gyűjteményét jelentette. "Mi itt a végcél?" - kérdezte az adatvédelmi csapat egyik tagja egy belső üzenetben. "Mennyire széles körben megyünk?" A csapatnak kifejezetten azt mondták, hogy az új feltételeket a július 4-i hétvégén adják ki, amikor az emberek jellemzően az ünnepre koncentrálnak - mondták az alkalmazottak. A felülvizsgált irányelvek július 1-jén, egy hosszú hétvége kezdetén debütáltak.
Bryant elmondta, hogy az adatvédelmi irányelvek módosítására az egyértelműség érdekében került sor, és hogy a Google nem használja fel a Google Docs vagy a kapcsolódó alkalmazások adatait a nyelvi modellek képzésére "a felhasználók kifejezett engedélye nélkül", utalva egy önkéntes programra, amely lehetővé teszi a felhasználók számára a kísérleti funkciók tesztelését. "Nem kezdtük el a képzést további adattípusokon a nyelvi változtatás alapján" - mondta.
Vita a Metánál
Mark Zuckerberg, a Meta vezérigazgatója évek óta sokat költött az MI-re, de amikor az OpenAI 2022-ben kiadta a ChatGPT-t hirtelen lemaradásban találta magát. Azonnal arra törekedett, hogy túlszárnyalja a ChatGPT-t, és akár éjszaka is hívogatta a vezetőket és a mérnököket, hogy egy rivális chatbot kifejlesztésére ösztökélje őket. Tavaly év elejére azonban a Meta ugyanabba az akadályba ütközött, mint a riválisai: nem volt elég adat. Ahmad Al-Dahle, a Meta generatív MI-ért felelős alelnöke elmondta a vezetőknek, hogy csapata szinte minden interneten elérhető angol nyelvű könyvet, esszét, verset és újságcikket felhasznált a modell kifejlesztéséhez - derül ki belső megbeszélésekről készült felvételekből, amelyeket egy alkalmazott osztott meg.
Al-Dahle elmondta a kollégáknak, hogy ha nem kap több adatot, a Meta nem tud versenyezni a ChatGPT-vel. 2023 márciusában és áprilisában a vállalat néhány üzletfejlesztési vezetője, mérnökei és jogászai szinte naponta találkoztak, hogy megoldják a problémát. Néhányan azt javasolták fizessenek könyvenként 10 dollárt az új címek licencjogaiért. Megvitatták a Simon & Schuster megvásárlását, amely olyan szerzőket ad ki, mint Stephen King. Arról is beszéltek, hogy engedély nélkül foglaltak össze könyveket, esszéket és más műveket az internetről, és megvitatták, hogy még többet szívjanak fel, még akkor is, ha emiatt perekkel kell szembenézniük. Az egyik ügyvéd "etikai" aggályokra figyelmeztetett a szellemi tulajdon megsértése kapcsán, de a felvételek szerint hallgatással fogadták.
Zuckerberg megoldást követelt, mondták az alkalmazottak. "Az a képesség, amit Mark a termékben keres, olyasmi, amit jelenleg nem tudunk biztosítani" - mondta az egyik mérnök. Bár a Meta óriási közösségi hálózatokat üzemeltet, nem állt számukra rendelkezésére a felhasználók posztjainak halmaza. Sok Facebook-felhasználó törölte korábbi posztjait, és a platform nem az a hely volt, ahol az emberek esszé jellegű tartalmakat írnak. A Metát korlátozták azok az adatvédelmi változtatások is, amelyeket a 2018-as botrány után vezetett be, amikor felhasználói adatait megosztotta a Cambridge Analyticával, egy szavazók profilozásával foglalkozó céggel. Zuckerberg egy nemrégiben tartott befektetői híváson azt mondta, hogy a Facebookon és az Instagramon nyilvánosan megosztott videók és fotók milliárdja "nagyobbak, mint a Common Crawl adathalmaz".
Felvett beszélgetéseik során a Meta vezetői arról beszéltek, hogy Afrikában vállalkozókat béreltek fel a szépirodalmi és nem szépirodalmi művek összefoglalóinak összesítésére. Az összefoglalók szerzői jogvédelem alatt álló tartalmakat is tartalmaztak, "mert nincs módunk arra, hogy ezt ne gyűjtsük össze" - mondta egy vezető az egyik megbeszélésen. A Meta vezetői számára úgy tűnt, hogy az OpenAI engedély nélkül használt fel szerzői jogvédelem alatt álló anyagokat. A felvételek szerint túl sokáig tartott volna a Metának tárgyalni a kiadókkal, művészekkel, zenészekkel és a híriparral az engedélyekről. "Az egyetlen dolog, ami visszatart minket attól, hogy olyan jók legyünk, mint a ChatGPT, szó szerint csak az adatmennyiség" - mondta Nick Grudin, a globális partnerségért és tartalomért felelős alelnök az egyik megbeszélésen. Mivel az OpenAI szerzői jogvédelem alatt álló anyagokat használ, a Meta követhetné ezt a "piaci precedenst" - tette hozzá.
A Meta vezetői beleegyeztek, hogy egy 2015-ös bírósági döntésre támaszkodjanak, amely az Írók céhe kontra Google ügyben született. Abban az ügyben a Google-nek engedélyezték, hogy könyveket szkenneljen be, digitalizáljon és katalogizáljon egy online adatbázisban, miután azzal érvelt, hogy a művekből csak részleteket reprodukált online, és az eredetit átalakította, ami tisztességes felhasználást tesz lehetővé. A Meta ügyvédei szerint az adatok felhasználása a mesterséges intelligencia rendszerek betanításához hasonlóan tisztességes felhasználásnak minősül. A felvételek szerint legalább két alkalmazott aggályokat fogalmazott meg a szellemi tulajdon felhasználásával, valamint a szerzők és más művészek nem vagy nem tisztességes módon történő kifizetésével kapcsolatban. Az egyik alkalmazott elmesélte, hogy a szerzői jogvédelem alatt álló adatokról külön megbeszélést folytattak felsővezetőkkel, köztük Chris Coxszal, a Meta termékért felelős vezetőjével, és elmondta, hogy ezen a megbeszélésen senki sem foglalkozott az emberek kreatív munkáinak felhasználásával kapcsolatos etikai kérdésekkel.
"Szintetikus" adatok
Az OpenAI-nál Altman új tervvel állt elő a fenyegető adathiány kezelésére. Egy májusi konferencián elmondta, hogy az olyan vállalatok, mint az övé, végül MI által generált szövegeken - más néven szintetikus adatokon - képeznék ki az MI-jüket. Mivel egy MI modell képes emberi szöveghez hasonló szöveget előállítani, Altman és mások szerint ezek a rendszerek további adatokat hozhatnak létre, hogy jobb változatokat fejlesszenek ki magukból. Ez segítené a fejlesztőket abban, hogy egyre nagyobb teljesítményű technológiát fejlesszenek ki, és csökkentené a szerzői jogvédelem alatt álló adatoktól való függőségüket. "Amíg túljutunk a szintetikus adatok eseményhorizontján, ahol a modell elég okos ahhoz, hogy jó szintetikus adatokat készítsen, addig minden rendben lesz" - mondta Altman.
A mesterséges intelligencia kutatói már évek óta vizsgálják a szintetikus adatokat, de egy olyan MI rendszert építeni, amely képes önmagát betanítani, könnyebb mondani, mint megtenni. A saját kimeneteikből tanuló MI-modellek egy olyan hurokba kerülhetnek, ahol saját furcsaságaikat, hibáikat és korlátaikat erősítik. "Az adatok, amelyekre ezeknek a rendszereknek szükségük van, olyanok, mint egy ösvény a dzsungelben" - mondta Jeff Clune, az OpenAI egykori kutatója, aki most a Brit Columbia Egyetemen tanít informatikát. "Ha csak szintetikus adatokon edzenek, eltévedhetnek a dzsungelben". Ennek leküzdése érdekében az OpenAI és mások azt vizsgálják, hogyan működhetne együtt két különböző modell, hogy hasznosabb és megbízhatóbb szintetikus adatokat hozzanak létre. Az egyik rendszer előállítja az adatokat, míg egy másik megítéli az információkat, hogy szétválassza a jót a rossztól. A kutatók véleménye megoszlik arról, hogy ez a módszer működni fog-e. Az MI vezetői ennek ellenére előre törnek. "Minden rendben lesz" - mondta Altman a konferencián.