SG.hu·2023. július 7.

A Google szerint semmi baj nincs azzal, hogy publikus adatokon tanítják be az MI-jüket

A Google frissítette adatvédelmi szabályzatát és ebben megerősítette, hogy nyilvános adatokat tölt le az internetről az MI-modelljei és szolgáltatásai - köztük a Bard nevű chatbot és a felhőben hosztolt termékei - képzése céljából.

Az apró betűs rész a kutatás és fejlesztést részletező paragrafusnál mostantól így szól: "A Google az információkat szolgáltatásaink fejlesztéséhez, valamint olyan új termékek, funkciók és technológiák kifejlesztéséhez használja fel, amelyek a felhasználóink és a nyilvánosság javát szolgálják. Nyilvánosan elérhető információkat használunk fel a Google mesterséges intelligencia modelljeinek képzéséhez, valamint olyan termékek és funkciók fejlesztéséhez, mint a Google Fordító, a Bard és a felhőalapú mesterséges intelligencia képességek." A Google szabályzatának PDF-változata azt is kimondja: "Gyűjthetünk nyilvánosan elérhető online vagy más nyilvános forrásokból származó információkat, hogy segítsük a Google mesterséges intelligencia modelljeinek képzését, valamint olyan termékek és funkciók létrehozását, mint a Google Fordító, a Bard és a Cloud MI funkciók".

A változtatások meghatározzák a Google MI-képzésének hatókörét. Korábban a szabályzat csak "nyelvi modelleket" említett és a Google Fordítóra utalt. A megfogalmazás azonban úgy módosult, hogy az "MI-modellekre" is kiterjedjen, és magában foglalja a Bardot és más, a felhőplatformon alkalmazásokként épített rendszereket is. Érdemes leszögezni, hogy a frissítés nem jelenti, hogy alapvetően megváltozott volna az MI-modelljei képzésének módja. "Adatvédelmi szabályzatunk már régóta átláthatóvá teszi, hogy a Google a nyílt webről származó, nyilvánosan elérhető információkat használ a Google Fordítóhoz hasonló szolgáltatások nyelvi modelljeinek képzéséhez. Ez a legutóbbi frissítés csupán azt tisztázza, hogy az olyan újabb szolgáltatások, mint a Bard, szintén ide tartoznak. Az MI-alapelveinkkel összhangban beépítjük az adatvédelmi elveket és biztosítékokat az MI-technológiáink fejlesztésébe" - jelentette ki a cég szóvivője.

A fejlesztők évek óta szabadon használják az interneten elérhető forrásokat, legyenek azok fotóalbumok, könyvek, közösségi hálózatok, forráskódok, zenék, cikkek vagy bármi egyéb, hogy képzési adatokat gyűjtsenek a mesterséges intelligencia-rendszereik számára. A folyamat finoman szólva is ellentmondásos, tekintve, hogy ezen anyagokat általában szerzői jogok, felhasználási feltételek és licencek védik. Sokan nem örülnek annak, hogy a saját tartalmukat nemcsak a munkájukat lemásoló gépi tanulási rendszerek létrehozásához használják fel, és ezzel potenciálisan veszélyeztetik a megélhetésüket, hanem ráadásul a modellek kimenete sokszor szintén sérti a szerzői jogokat vagy licenceket, például azzal, hogy ezek a képzési adatok változatlan formában jelennek meg a használók számára.

Balra a Getty sportfotósa által lőtt felvétel, jobbra egy MI-által generált kép - rajta maradt a vízjel
A mesterséges intelligencia fejlesztői azzal érvelnek, hogy cselekményük a tisztességes felhasználás hatálya alá tartozik, és hogy a modellek kimenete egy új szellemi termék, és valójában nem az eredeti képzési adatok másolata. Jelenleg is több per van emiatt folyamatban, a Stability AI-t például beperelte a Getty Images, mert a képgeneráló kimeneten konkrétan megjelent a fotószolgáltatás vízjele torzított formában. Ezzel egyértelművé vált, hogy az algoritmus képzéséhez több millió jogdíjas fotót töltöttek le és használtak fel a szövegből képet készítő eszközeik betanításához. Az OpenAI és annak tényleges tulajdonosa, a Microsoft ellen is több per van folyamatban, mert "300 milliárd szót töltöttek le az internetről, "könyvekből, cikkekből, weboldalakról és posztokból - beleértve a hozzájárulás nélkül megszerzett személyes információkat", és nyilvános adatbázisokból származó forráskóddal hozták létre a programozókat segítő GitHub Copilot nevű mesterséges intelligencia-eszközt.

A Google képviselője nem volt hajlandó tisztázni, hogy a keresőóriás a rendszereinek betanításához olyan nyilvános adatokat vagy közösségi média posztokat letöltött-e, amelyek szerzői jogvédelem alatt állhatnak, vagy amelyeket különleges licencfeltételek mellett terjesztenek. Mert az ugye mindenki számára egyértelmű, hogy csak azért, mert valami az interneten van, még nem jelenti azt, hogy automatikusan bármilyen célra felhasználhatja. Mindazonáltal mivel a cégek és szervezetek egyre inkább tájékozottak a mesterséges intelligencia-modellek képzésének módjáról, egyes internetes vállalkozások elkezdtek díjat kérni a fejlesztőktől az adataikhoz való hozzáférésért. Ez áll a Reddit alkalmazáshozzáférési díja vagy a Twitter olvasási korlátja mögött, míg más oldalak - például a Shutterstock és a Getty - úgy döntöttek, hogy direktben árusítani kezdik adataikat az MI-modellek készítőinek, és olyan cégekkel kötöttek partnerséget, mint a Meta és az Nvidia.

Kapcsolódó cikkek és linkek

Hazugságok millióival árasztja el az embereket az MI összefoglaló Megijedt a Google, hogy Európa le akar válni az amerikai technológiáról A Gemininek köszönhetően megnyerheti az MI-háborút a Google Az EU megnyitná a Google keresési adatait a riválisok számára Ellehetetleníti az MI-újoncokat az Apple és a Google Gemini-megállapodása Hollandia kiveszi a kémügynökségek álláshirdetéseit a Google indexelésből A Google áttörte az Nvidia sebezhetetlenségének falát Jövőre derül csak ki a Google hirdetéstechnológiai monopóliumának sorsa

Hozzászólások

Jelentkezz be a hozzászóláshoz.

"Vagy inkább egyszerűen el kellene fogadni, hogy ami fenn van a neten és szabadon elérhető, az mindenkié."

Tehát ha online vagy a teamsen akkor bárki ribanca vagy? Ha nem akarsz a világ ribanca lenni, akkor tisztázd magad pls.
Ne magadból indulj ki, mások többre tartják magukat és az adataikat.

Ráadásul ezek nagyjából kiterjesztett chat- és keresőbotok. De ha valaki a saját AI-ját a neten tanítja, mindenen, ami elérhető és azzal komplexebb feladatokat old meg, hogy bizonyítják, hogy adott "művek" szerepet játszottak tanításában? Sehogy.

Ez ennél is bonyolultabb, mert attól hogy például megveszek egy játékot még nem használhatom fel annak assetjeit saját játékomban.

Viszont inspirációt vehetek belőle elvileg kicsit az ai is azt csinálja.

Miért más a büntetés?

A vízjelet vélhetően képes felismerni a rendszer.
Ha képről van szó, akkor a bemutatókép egyértelműen alacsony felbontású szokott lenni. Egyértelműen jelezve, hogy minta.

Ez azért rakják ki, hogy lássa a vásárló, miért ad ki pénzt. De nem tartalmazza a termék teljességét. Ha tartalmazná, könnyen lehetne lopni.
A minőség rontott megjelenítés, szabadon hozzáférhető.

Ezen a szinten már felmerül a sértett felelőssége is. Ha az autódat nyílt utcán hagyod járó motorral miközben a beugrasz egy boltba, valamit vásárolni és ellopják az autót, más lesz az elkövető büntetése és a kártérítés mértéke, mintha a lezárt autót lopták volna el.

"Annak kell kell korlátozni a hozzáférést, akinek a jogtulajdonában van a mű."
Na de várjál, rárakta a vízjelet, ezzel egyértelműen jelezte, hogy az az övé, de az AI tréningező cégeket ez nem érdekli.

Ilyenkor mi van?

"A google egyszeruen kijelentette, hogy rajuk nem vonatkoznak se a szerzoi jogok, se az adatvedelmi tovenyek."

A nyilvános adatokat mondták.
Ami a neten szabadon elérhető, azt szabadon lehet felhasználni. Az oktatás céljára felhasználható dolgokkal sincs baj. Oktatásra használják. a baj azzal ami szabadon elérhető, de nincs hozzá felhasználási jogosítvány. De erről nem a Google tehet. Annak kell kell korlátozni a hozzáférést, akinek a jogtulajdonában van a mű. Vagy eltávolítatni az illegális tartalmakat.

Vagy inkább egyszerűen el kellene fogadni, hogy ami fenn van a neten és szabadon elérhető, az mindenkié.
Ha nem akarják, hogy a jogvédett tartalmakat más is felhasználja, akkor egyértelműsítsék a dolgot. Az ilyen tartalmakat csak regisztrációt követően lehet megtekinteni, a regisztrációnál meg úgyis el kell fogadni a felhasználási feltételeket, amiben meg lehet adni a szükséges korlátozásokat.
Nem valószínű, hogy bármelyik MI is regisztrálni fog. A cégek meg egyértelműen felelősségre vonhatók, ha átlépik a határt.

Azt beszélik, hogy az MI megváltoztatja a net? Hát egyértelmű. Csak kérdés, hogy melyik irányban. Az MI nem fog különbséget tenni jogvédett tartalom és nem jogvédett tartalom között. Neki az csak adat.
Az is megoldás lenne, ha egyértelműen jelölnék a dokumentumokban egy kód segítségével a jogvédett tartalmat, amit a betanítás során feketelistára tehetnek a fejlesztők.

A google egyszeruen kijelentette, hogy rajuk nem vonatkoznak se a szerzoi jogok, se az adatvedelmi tovenyek. Nos ha van akkora vagy nagyobb hatalmuk mint az adott torvenyeket hozo allamoknak, akkor tenyleg joguk van hozza, marmint az ero jogan. (mint az USA-nak megszallni Irakot vagy az oroszoknak Ukrajnat, korabbi peldakent Nemetorszagnak Ausztriat vagy Franciaorszagot)