SG.hu
Kifogynak az adatokból az MI-ket betanítani akaró IT-cégek
Mivel a mesterséges intelligencia fejlesztői kifogytak a modelljeik betanításához szükséges adatokból, "szintetikus adatokhoz" - azaz saját maguk által készített adatokhoz - fordulnak.
Az OpenAI, a Google és más technológiai cégek hatalmas mennyiségű, könyvekből, Wikipedia-cikkekből, hírekből és más internetes forrásokból származó adatokkal képzik chatbotjaikat. A jövőben azonban úgynevezett szintetikus adatokat fognak használni, a techcégek ugyanis lassan kimerítik az internet által a mesterséges intelligencia fejlesztéséhez kínált kiváló minőségű szövegeket. A cégek pedig szerzői jogi perekkel néznek szembe a szerzők, a hírszervezetek és a számítógépes programozók részéről, amiért engedély nélkül használják fel a műveiket. A cégek reményei szerint a szintetikus adatok segítenek majd csökkenteni a szerzői jogi problémákat, és növelik az MI-hez szükséges képzési anyagok kínálatát.
Ez azt jelenti, hogy a jövőben az MI-k emberek által írt szövegek helyett egymást fogják képezni, más modellek által generált adatokat felhasználva. Ez nem lesz sima ügy, mert a modellek elrontanak és kitalálnak dolgokat, ráadásul ezáltal felerősödnek a képzési adatbázisban megjelenő elfogultságok. Ezen potenciális hibák miatt ma még csak kísérletek folynak, szintetikus adatok ma még nem képezik nagy részét az MI rendszerek építésének. Mindazonáltal a vállalatok úgy gondolják, hogy finomítani tudják a szintetikus adatok létrehozásának módját. Az OpenAI és mások olyan technikát vizsgáltak, amelyben két különböző modell együtt dolgozik, hogy hasznosabb és megbízhatóbb szintetikus adatokat hozzanak létre.
Ilyenkor az egyik MI modell generálja az adatokat, ezután egy második értékeli azokat, hasonlóan az emberhez, eldöntve, hogy az adatok jók vagy rosszak, pontosak vagy nem pontosak. Az MI modellek valójában jobbak a szöveg megítélésében, mint annak megírásában. Az elképzelés szerint ez biztosítja majd a még jobb chatbotok betanításához szükséges kiváló minőségű adatokat. Ez a technika nagyjából már működik, leginkább az Anthropic hirdeti az ezirányú erőfeszítéseit. A cég a második mesterséges intelligencia modellt egy a vállalat kutatói által összeállított "alkotmány" segítségével finomhangolja. Ez megtanítja a modellt arra, hogy olyan szöveget válasszon, amely bizonyos elveket támogat, mint például a szabadság, egyenlőség és testvériség, vagy az élet, szabadság és személyes biztonság. Az Anthropic módszere "alkotmányos MI" néven ismert.
Még így is szükség van emberekre, hogy a második MI modell a helyes úton maradjon. Ez korlátozza, hogy mennyi szintetikus adatot tud ez a folyamat generálni. Zárásként fontos leszögezni, hogy a kutatók nem értenek egyet abban, hogy egy olyan módszer, mint az Anthropicé, javítja-e az MI rendszereket.
Az OpenAI, a Google és más technológiai cégek hatalmas mennyiségű, könyvekből, Wikipedia-cikkekből, hírekből és más internetes forrásokból származó adatokkal képzik chatbotjaikat. A jövőben azonban úgynevezett szintetikus adatokat fognak használni, a techcégek ugyanis lassan kimerítik az internet által a mesterséges intelligencia fejlesztéséhez kínált kiváló minőségű szövegeket. A cégek pedig szerzői jogi perekkel néznek szembe a szerzők, a hírszervezetek és a számítógépes programozók részéről, amiért engedély nélkül használják fel a műveiket. A cégek reményei szerint a szintetikus adatok segítenek majd csökkenteni a szerzői jogi problémákat, és növelik az MI-hez szükséges képzési anyagok kínálatát.
Ez azt jelenti, hogy a jövőben az MI-k emberek által írt szövegek helyett egymást fogják képezni, más modellek által generált adatokat felhasználva. Ez nem lesz sima ügy, mert a modellek elrontanak és kitalálnak dolgokat, ráadásul ezáltal felerősödnek a képzési adatbázisban megjelenő elfogultságok. Ezen potenciális hibák miatt ma még csak kísérletek folynak, szintetikus adatok ma még nem képezik nagy részét az MI rendszerek építésének. Mindazonáltal a vállalatok úgy gondolják, hogy finomítani tudják a szintetikus adatok létrehozásának módját. Az OpenAI és mások olyan technikát vizsgáltak, amelyben két különböző modell együtt dolgozik, hogy hasznosabb és megbízhatóbb szintetikus adatokat hozzanak létre.
Ilyenkor az egyik MI modell generálja az adatokat, ezután egy második értékeli azokat, hasonlóan az emberhez, eldöntve, hogy az adatok jók vagy rosszak, pontosak vagy nem pontosak. Az MI modellek valójában jobbak a szöveg megítélésében, mint annak megírásában. Az elképzelés szerint ez biztosítja majd a még jobb chatbotok betanításához szükséges kiváló minőségű adatokat. Ez a technika nagyjából már működik, leginkább az Anthropic hirdeti az ezirányú erőfeszítéseit. A cég a második mesterséges intelligencia modellt egy a vállalat kutatói által összeállított "alkotmány" segítségével finomhangolja. Ez megtanítja a modellt arra, hogy olyan szöveget válasszon, amely bizonyos elveket támogat, mint például a szabadság, egyenlőség és testvériség, vagy az élet, szabadság és személyes biztonság. Az Anthropic módszere "alkotmányos MI" néven ismert.
Még így is szükség van emberekre, hogy a második MI modell a helyes úton maradjon. Ez korlátozza, hogy mennyi szintetikus adatot tud ez a folyamat generálni. Zárásként fontos leszögezni, hogy a kutatók nem értenek egyet abban, hogy egy olyan módszer, mint az Anthropicé, javítja-e az MI rendszereket.