Minden eddiginél jobb chatbotot készített az Anthropic

Az Anthropic kiadta a Claude 3-at, egy három MI nyelvi modellből álló családot, amely hasonló a ChatGPT-t működtető modellekhez. Az Anthropic állítása szerint a modellek új iparági mércét állítanak fel a kognitív feladatok széles skáláján, sőt, egyes esetekben "emberközeli" képességekkel bírnak. A modell már elérhető az Anthropic weboldalán, a legerősebb modell kizárólag előfizetéses.

A Claude 3 három modellje növekvő komplexitást és paraméterszámot képvisel: Claude 3 Haiku, Claude 3 Sonnet és Claude 3 Opus. A Sonnet hajtja a Claude.ai chatbotot most ingyenesen, e-mailes bejelentkezéssel. Az Opus csak a Claude Pro szolgáltatásra előfizetve, havi 20 dollárért érhető el az Anthropic webes csevegőfelületén keresztül. Mindhárom szolgáltatás 200 ezer tokenes kontextusablakkal rendelkezik. (A kontextusablak a tokenek - szótöredékek - száma, amelyeket egy mesterséges intelligencia nyelvi modell egyszerre képes feldolgozni.) A Claude 2023 márciusában, a Claude 2 pedig ugyanezen év júliusában indult útjára. Az Anthropic eddig kissé elmaradt az OpenAI legjobb modelljeitől a képességek tekintetében, de a kontextusablak hossza tekintetében felülmúlta őket. A Claude 3-mal az Anthropic talán végre utolérte az OpenAI kiadott modelljeit a teljesítmény tekintetében, bár a szakértők között még nincs konszenzus.

A Claude 3 állítólag fejlett teljesítményt mutat különböző kognitív feladatokban, beleértve az érvelést, a szakértői tudást, a matematikát és a nyelvi folyékonyságot. (Persze nincs egyetértés abban, hogy a nagy nyelvi modellek "tudnak-e" vagy "érvelnek", de a mesterséges intelligencia kutatói közössége ezeket a kifejezéseket használja.) A vállalat azt állítja, hogy az Opus modell, a három közül a legképzettebb, "emberközeli szintű megértést és nyelvi folyékonyságot mutat komplex feladatokban". Mindez azonban nem jelenti azt, hogy az Opus olyan általános intelligenciával rendelkezik, mint egy ember - gondoljunk csak arra, hogy a zsebszámológépek emberfeletti matematikai teljesítményt nyújtanak.

Az Anthropic szerint a Claude 3 Opus 10 MI benchmarkban megveri a GPT-4-et, köztük az MMLU (egyetemi szintű tudás), a GSM8K (általános iskolai matematika), a HumanEval (kódolás) és a HellaSwag (általános tudás) mércékben. Számos győzelem nagyon szűk, mint például az Opus 86,8 százaléka az MMLU ötpróbás próbáján elért 86,4 százalékkal szemben, és néhány különbség nagy, mint például a HumanEval 84,9 százaléka a GPT-4 67,0 százalékával szemben. De hogy ez pontosan mit jelent a használók számára, nehéz megmondani. "Az LLM benchmarkokat egy kis gyanakvással kell kezelni" - mondja Simon Willison MI-kutató. "Az, hogy egy modell mennyire jól teljesít a benchmarkokon, nem sokat mond arról, hogy a modellt milyen 'érzés' használni. De ez még mindig óriási dolog, hiszen eddig egyetlen más modell sem verte meg a GPT-4-et ilyen széles körben használt benchmarkokban."

Elődjéhez képest a Claude 3 modellek olyan területeken mutatnak javulást a Claude 2-höz képest, mint az elemzés, az előrejelzés, a tartalomkészítés, a kódgenerálás és a többnyelvű beszélgetés. A modellek a GPT-4V-hez és a Google Gemini-hez hasonlóan továbbfejlesztett látási képességekkel is rendelkeznek, amelyek lehetővé teszik a modellek számára az olyan vizuális formátumok, mint a fényképek, grafikonok és diagramok feldolgozását. Az Anthropic hangsúlyozza a három modell megnövekedett sebességét és költséghatékonyságát a korábbi generációkhoz és a konkurens modellekhez képest. Az Opus (a legnagyobb modell) ára 15 dollár egymillió input tokenenként és 75 dollár egymillió output tokenenként, a Sonnet (a középső modell) ára 3 dollár egymillió input tokenenként és 15 dollár egymillió output tokenenként, a Haiku (a legkisebb, leggyorsabb modell) ára pedig 0,25 dollár egymillió input tokenenként és 1,25 dollár egymillió output tokenenként.

"A még ki nem adott legolcsóbb megdöbbentően versenyképesnek tűnik" - mondta Willison. "A legjobb minőségű viszont szuperdrága". Összehasonlításképpen az OpenAI GPT-4 Turbo API-n keresztül 10 dollár egymillió bemeneti tokenenként és 30 dollár egymillió kimeneti tokenenként. A GPT-3.5 Turbo ára 0,50 dollár egymillió bemeneti tokenenként és 1,50 dollár egymillió kimeneti tokenenként.

A Claude 3 modellek állítólag akár 1 millió tokent is képesek kezelni (hasonlóan a Gemini Pro 1.5-höz), és az Anthropic azt állítja, hogy az Opus modell közel tökéletes felidézést ért el egy benchmark-tesztben ezen a hatalmas kontextusméreten, meghaladva a 99 százalékos pontosságot. A vállalat azt is állítja, hogy a Claude 3 modellek kisebb valószínűséggel utasítják vissza az ártalmatlan kéréseket, és nagyobb pontosságot mutatnak, miközben csökkentik a helytelen válaszok számát. Az Anthropic a Claude 3 képességnövekedését részben a szintetikus adatoknak a képzési folyamatban való felhasználásával érte el. A szintetikus adatok egy másik mesterséges intelligencia-nyelvi modell segítségével belsőleg generált adatokat jelentenek. A technika a képzési adatok mélységének kiszélesítésére szolgálhat, hogy olyan forgatókönyveket reprezentáljon, amelyek hiányozhatnak egy szűrt adathalmazból.

Az Anthropic azt tervezi, hogy az elkövetkező hónapokban gyakran ad ki frissítéseket a Claude 3 modellcsaládhoz, valamint új funkciókat vezet be, például az eszközhasználatot, az interaktív kódolást és az "ágens képességeket". A vállalat továbbra is elkötelezett amellett, hogy a biztonsági intézkedések lépést tartsanak az MI teljesítményének fejlődésével, és hogy a Claude 3 modellek "jelenleg elhanyagolható kockázatot jelentenek". Az Opus és a Sonnet modellek már elérhetőek az Anthropic API-ján keresztül, a Haiku pedig hamarosan követi őket.

Minden eddiginél jobb chatbotot készített az Anthropic

Kapcsolódó cikkek és linkek

Hozzászólások