SG.hu

A chatbotok gyakrabban "hallucinálnak", mint sokan gondolnák

A tények összegzésekor a ChatGPT technológia az esetek körülbelül 3 százalékában kitalál dolgokat - derült ki egy új kutatásából. A Google rendszerének aránya 27 százalék volt.

Amikor a San Franciscó-i OpenAI startup tavaly év végén bemutatta ChatGPT nevű online chatbotját, milliókat nyűgözött le, hogy emberhez hasonlóan válaszolt a kérdésekre, verseket írt és szinte bármilyen témáról beszélgetett. A legtöbben azonban csak lassan jöttek rá, hogy ez az újfajta chatbot gyakran kitalál dolgokat. Amikor a Google néhány héttel később bemutatott egy hasonló chatbotot, az ostobaságokat mondott a James Webb teleszkópról. Másnap a Microsoft új Bing chatbotja a Gapről, a mexikói éjszakai életről és Billie Eilish énekesnőről osztott meg mindenféle hamis információt. Márciusban a ChatGPT féltucatnyi hamis bírósági ügyet idézett, miközben egy 10 oldalas jogi beadványt írt, amelyet egy ügyvéd benyújtott egy manhattani szövetségi bírónak.

Most egy új, Vectara nevű startup, amelyet a Google korábbi alkalmazottai alapítottak, azt próbálja kideríteni, hogy a chatbotok milyen gyakran térnek el az igazságtól. A vállalat kutatásai szerint a chatbotok még az olyan helyzetekben is, amelyeket úgy terveztek, hogy ez ne történhessen meg, az esetek legalább 3 százalékában - de akár 27 százalékban is - kitalálnak információkat. A szakértők ezt a chatbot viselkedést "hallucinációnak" nevezik. Lehet, hogy ez nem jelent problémát a chatbotokkal a saját számítógépükön bütykölő emberek számára, de komoly problémát jelent mindazok számára, akik ezt a technológiát bírósági dokumentumokkal, orvosi információkkal vagy érzékeny üzleti adatokkal használják.

Mivel ezek a chatbotok szinte bármilyen kérésre korlátlan számú módon válaszolhatnak, nem lehet egyértelműen meghatározni, hogy milyen gyakran hallucinálnak. "A világ összes információját meg kellene vizsgálni" - mondta Simon Hughes, a projektet vezető Vectara kutatója. Dr. Hughes és csapata arra kérte ezeket a rendszereket, hogy egyetlen, egyszerű, könnyen ellenőrizhető feladatot hajtsanak végre: foglaljanak össze a hírcikkeket. A chatbotok még ekkor is kitartóan kitalálták az információkat. "Megadtunk a rendszernek 10-20 tényt, és kértünk egy összefoglalót ezekről a tényekről" - mondta Amr Awadallah, a Vectara vezérigazgatója, a Google korábbi vezetője. "Az, hogy a rendszer még mindig képes hibákat bevezetni, alapvető probléma."


A kutatók érvelése szerint amikor ezek a chatbotok más feladatokat is ellátnak - a puszta összegzésen túl -, a hallucinációk aránya magasabb lehet. Kutatásuk azt is kimutatta, hogy a hallucinációs arányok nagymértékben eltérnek a vezető MI cégek között. Az OpenAI technológiáinál volt a legalacsonyabb, 3 százalék körüli arány. A Facebookot és az Instagramot birtokló Meta rendszerei 5 százalék körül mozogtak. A szintén San Francisco-i székhelyű OpenAI-rivális Anthropic által kínált Claude 2 rendszer 8 százalék fölött volt. A Google egyik rendszere, a Palm chat volt a legmagasabb, 27 százalékos.

Az Anthropic szóvivője, Sally Aldous elmondta: "Cégünk egyik fő célja, hogy rendszereink hasznosak, őszinték és ártalmatlanok legyenek, ami magában foglalja a hallucinációk elkerülését". A Google nem kívánt nyilatkozni, az OpenAI és a Meta pedig nem reagált a megkeresésekre. Ezzel a kutatással Dr. Hughes és Awadallah azt szeretné megmutatni az embereknek, hogy óvatosnak kell lenniük a chatbotoktól származó információkkal, sőt még a Vectara által a vállalkozásoknak értékesített szolgáltatással is. Sok vállalat kínál mostanában ilyen technológiát üzleti felhasználásra.

A kaliforniai Palo Altóban működő Vectara egy 30 fős startup, amely mögött 28,5 millió dolláros tőke áll. Egyik alapítója, Amin Ahmad, a Google korábbi mesterséges intelligencia kutatója 2017 óta foglalkozik ezzel a fajta technológiával, amikor a Google és néhány más vállalaton belül elterjedt a használata. Ahogy a Microsoft Bing kereső chatbotja a nyílt internetről tud információkat lekérdezni, a Vectara szolgáltatása egy vállalat privát e-mail-, dokumentum- és egyéb fájlgyűjteményéből tud információkat lekérdezni.

A kutatók azt remélik, hogy módszereik - amelyeket nyilvánosan megosztanak és folyamatosan frissíteni fognak - segítenek majd ösztönözni az iparágon belüli erőfeszítéseket a hallucinációk csökkentésére. Az OpenAI, a Google és mások különböző technikákkal igyekeznek minimalizálni a problémát, bár nem egyértelmű, hogy meg tudják-e szüntetni azt. "Egy jó analógia az önvezető autó" - mondta Philippe Laban, a Salesforce kutatója, aki régóta foglalkozik az ilyen jellegű technológiákkal. "Egy önvezető autót nem lehet megakadályozni abban, hogy balesetet szenvedjen. De megpróbálhatod elérni, hogy biztonságosabb legyen, mint egy emberi sofőr."


A ChatGPT-hez hasonló chatbotokat egy nagy nyelvi modellnek, LLM-nek nevezett technológia vezérli, amely hatalmas mennyiségű digitális szöveg, köztük könyvek, Wikipedia-cikkek és online csevegési naplók elemzésével tanulja meg a képességeit. Azáltal, hogy az LLM az összes adatban mintákat talál, megtanul egy bizonyos dolgot: kitalálni a következő szót egy szósorozatban. Mivel az internet tele van valótlan információkkal, ezek a rendszerek ugyanazokat a valótlanságokat ismétlik. Valószínűségekre is támaszkodnak: mennyi a matematikai esélye annak, hogy a következő szó a "drámaíró"? Időről időre rosszul tippelnek.

A Vectara új kutatása megmutatja, hogyan történhet ez meg. A hírcikkek összefoglalása során a chatrobotok nem ismétlik meg az internet más részeiről származó valótlanságokat, csak az összegzést rontják el. Az olyan vállalatok, mint az OpenAI, a Google és a Microsoft kifejlesztették a technológiáik pontosságának javítására szolgáló módszereket. Az OpenAI például emberi tesztelők visszajelzéseivel próbálja finomítani a technológiáját, akik értékelik a chatbot válaszait, elkülönítve a hasznos és igaz válaszokat a nem igaz válaszoktól. Ezután a rendszer a megerősítő tanulásnak nevezett technika segítségével heteket tölt a minősítések elemzésével, hogy jobban megértse, mi a tény és mi a fikció.

A kutatók azonban figyelmeztetnek, hogy a chatbot hallucináció nem könnyen megoldható probléma. Mivel a chatrobotok az adatok mintázataiból tanulnak és valószínűségek alapján működnek, legalábbis időnként nem kívánt módon viselkednek. Annak megállapítására, hogy a chatbotok milyen gyakran hallucináltak a hírcikkek összefoglalása során, a Vectara kutatói egy másik nagy nyelvi modellt használtak az egyes összefoglalók pontosságának ellenőrzésére. Ez volt az egyetlen módja annak, hogy ilyen nagyszámú összefoglalót hatékonyan ellenőrizzenek. James Zou, a Stanford informatika professzora szerint azonban ez a módszer egy kikötéssel járt. Az ellenőrzést végző nyelvi modell is hibázhat. "A hallucinációdetektort becsaphatják - vagy ő maga is hallucinálhat" - mondta.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • reptile1313 #8
    A "barmilyen ceg" supportosai, banki ugyintezok, meg gyakrabban hallucinalnak. Legalabbis engem humanoidok gyakrabban idegesitenek fel a kamuzasaikkal, logikatlan fejtegeteseikkel.
    ChatGPTvel igen hatekonyan es gyorsan dolgozom. Termeszetesen a 4-gyel a 3.5 nagyon rovid kontextust kezl, faraszto precizen leadni minden kommentben minden infot.

    Utoljára szerkesztette: reptile1313, 2023.12.06. 17:20:34
  • zola2000 #7
    Szóval ha kérdezek valamit arra 97% hogy jó válasz érkezik teljesen jó arány.

    Bonyolultabb feladatok esetében persze a hibalehetőség halmozódik, de akkor is iratok vele egy kódrészt, nem jól fut, újra megint nem, harmadszorra jó.
  • kvp #6
    "Nem jutalmaznak semmifele neuralis matrixot,"

    Konkretan neuralis matrix alapu a kodja.

    "A ChatGPT-ben semmifele ilyen algoritmus nincs, igy a tudasa nagyon szuk az emberi tudashoz kepest. Szamara minden forrasnak egyforma a sulya, meg akkor is ha nem relevans."

    Mi az amiben jo egy neuralis matrix? A sulyozott kapcsolatokban. Ertem, hogy egyforma sullyal vettek fel a wikipediat, a tudomanyos cikkeket es a reddit forumok hozzaszolasait, de ez a tanito adathalmaz hibaja, tehat fejlesztesi hiba. A rendszer tud(na) sulyozni, csak rosszak a sulyok.

    A masik, hogy a tanulas soran a neuralis halozatokat treningeztek es ez a celfuggveny a minel jobban tetszo valasz volt, nem a minel helyesebb. Ennek az oka az, hogy nem volt helyes adatbazisuk, mert ahhoz fel kellett volna dolgozni az osszes bemeno adatot, ahelyett, hogy rosszul fizetett, afrikai es azsiai munkasokkal csak belapatoltak mindent a rendszerbe.

    Itt talalhato a mukodes egy viszonylag konnyebben megertheto leirasa:
    https://www.scalablepath.com/machine-learning/chatgpt-architecture-explained

    Szoval nagy mennyisegu szemetet tartalmazo adatkeszleteken treningeztek es hibas jutalmazasi modellel.
  • Sequoyah #5
    A rendszernek NINCSENNEK ismeretei. Szoval az elso fajta igazabol nem letezik.
    A ChatGPT mukodese nagy vonalakban remesen egyszeru. Felnyalattak vele nagy mennyisegu szoveget (akar az egesz internetet), es aztan gyakorlatilag csak statisztikai szamitasokat vegez, hogy az adott szohalmaz utan, melyik kovetkezo szonak van a legnagyobb valoszinusege ebben a fenti nagy mennyisegu szovegben.

    Peldaul ha azt mondod neki hogy "fuck", akkor az osszes neten fellelheto szoveg alapjan azt fogja latni, hogy a leggyakoribb kovetkezo szo az a "you". Nem erti a szavak jelenteset, csak latja, hogy az esetek 99%-aban ez a kovetkezo szo.

    Nem jutalmaznak semmifele neuralis matrixot, ez csak statisztika. Ez nem hibas fuggveny, hanem a ChatGPT mukodesenek az alapja.

    Mi emberek az iskolaba jarunk, ahol gyakorlatilag algoritmusokat tanulunk a helyes valaszok megtalalasara. A jogi egyetemen megtanuljuk, hogy adott kontextusban melyik konyv melyik oldalanak van nagyobb sulya, az orvoso suliban pedig az anatomia konyv melyik oldalanak van nagyobb sulya. A ChatGPT-ben semmifele ilyen algoritmus nincs, igy a tudasa nagyon szuk az emberi tudashoz kepest. Szamara minden forrasnak egyforma a sulya, meg akkor is ha nem relevans.
  • t_robert #3
    Amúgy nem tudom mit szív az AI, de ütős cucc lehet.... :) Persze a történetben fel lehet ismerni számos sémát a vadnyugati történetekkel kapcsolatban. Ahogy a poros kis vadnyugati városka főutcáján találkoznak a párbajozó felek. A jó fél fehérben a rosszabb sötét ruhába. Na és meg tudjuk, hogy az AI végül is békepárti, mert a szereplők nem nyírják ki egymást... :) Ki tudja hátha minket se akar majd kinyírni... :)
  • t_robert #2
    tény, hogy néha elég érdekes történeteket költenek dolgokról. Elég megadni egy mondatot, hogy mit akar az ember és miről a többit meglehetősen hozzá álmodja. :) Akármilyen baromságot megad az ember fog róla valami történetet kanyarítani hozzá... :) Persze nem lesznek irodalmi nobel díjas alkotások, de számos momentumot ragaszt hozzá a történethez magától felhasznál a sémákat.
    itt van például egy feladat, hogy írjon történetet arról, hogy Hófehérke és Csipke Rózsika pisztolypárbajt vív a Vadnyugaton. A történet meghatározás persze egy nagy baromság ennek ellenére azért alkot a Chat GPT.

    a feladat: Pisztoly párbaj a vadnyugaton Hófehérke és Csipke Rózsika közt történet 10000 karakter.
    pusztán csak ennyi.....

    az eredmény:
    A vadnyugat poros útjain, ahol a törvénynek helyet adó városok ritka szigetek voltak, két női ikon, Hófehérke és Csipke Rózsika, egymással szemben álltak. Mindketten gyönyörűek és erősek voltak, de az ellentétes karakterek és céljaik miatt végül csak egyikük maradhatott fenn.

    Hófehérke, az ártatlanság és tisztaság megtestesítője, egy kedves és szeretetteljes személy volt. A fehér ruhában ragyogó hercegnő mindig az igazság és a jó cselekedetek mellett állt. Ám a vadnyugat vad világában, ahol a törvényen kívülállók uralták a vidéket, Hófehérke súlyosan szembekerült az igazságtalansággal és a bűnözőkkel.

    Csipke Rózsika, a vad és kemény szívű kalózlány, az élet nehézségeivel és harcaival volt tisztában. Sötét ruhában és kalapban járt, mindig készen állva a veszélyes kalandokra. Nem volt rest megvédeni magát és másokat, ha az életük volt kockán.

    Az idő előrehaladtával a két nő közötti rivalizálás fokozódott. Mindketten a vadnyugat értékeit és igazságosságát képviselték, de különböző módon. Hófehérke próbált a törvényes utat járni, hogy rendezze a dolgokat és a bűnözőket az igazság elé állítsa. Csipke Rózsika viszont inkább az önfeláldozó akciók híve volt, és nem riadt vissza attól sem, hogy saját kezébe vegye az irányítást.

    Egy nap a két ikon összetalálkozott a város legelhagyatottabb részén, ahol egy pisztoly párbaj került terítékre. A nap füstölgő hőségében a két nő szemtől szembe állt egymással, míg a porfelhők övezik őket. Mindketten érezték, hogy elérkezett az idő a végső összecsapásra.

    A pisztolyok csendben voltak. Mindenki várakozott, akik ismerik a két hölgyet, tudták, hogy ez a párbaj hatalmas jelentőséggel bír. A levegőben feszültség és izgalom volt.

    Hófehérke a pisztolyt stabilan tartotta kezében, a tekintete megdermedt. A szemében ott volt az elszántság, hogy megtisztítsa a várost a bűnösöktől. Csipke Rózsika rámosolygott a hercegnőre, és megremegett az ujja a ravaszon. Az életben szerzett tapasztalatok és keménység tükröződött a pillantásában.

    Egy pillanatnyi csend után mindketten elsütötték a pisztolyt. A lövés hangja egybefonódott a tűzveréssel és a városban uralkodó csenddel. Egyikük sebesülés nélkül maradt.

    Hófehérke a lövés után észrevette, hogy Csipke Rózsika mosolyog. A kalózlány talált egy kibúvót a párbaj elől, és eldobta a pisztolyt. Látta a hercegnő elszántságát és hiteles voltását, és döntött. Nem akart tovább veszélyeztetni senkit, és rájött, hogy nem a pisztolyban van a válasz.

    Hófehérke lassan felemelte a pisztolyt, és távolra dobta. Azt mondta Csipke Rózsikának, hogy mindketten ugyanazt az igazságot keresik, de különböző úton. Megértették, hogy az erejüket össze kell fogniuk, hogy megváltoztassák a világot.

    Így kezdődött egy váratlan szövetség a vadnyugaton. Hófehérke és Csipke Rózsika összefogott, hogy együtt harcoljanak a bűnözők ellen, és újraírják a város történetét. A fehér és fekete ruhák keveredtek, miközben a két nő új utakat talált a közös cél érdekében.

    A vadnyugat egyik sötét árnya eltűnt az új szövetségükkel. A két nő ereje és elszántsága lehetővé tette, hogy új kezdetet hozzanak a városba, és átírják a történetüket. A párbaj csak a kezdet volt, egy olyan utazásé, amelyben Hófehérke és Csipke Rózsika végül nem csak egymást, hanem saját magukat is megtalálták a vadnyugat szívében.
  • kvp #1
    Az ugynevezett "hallucinalasbol" ketfajta van. Az egyik, amikor tenylegesen teved a rendszer, mert hibasak az ismeretei, a masik amikor azert hazudik, mert ugy iteli meg, hogy a teves valasz jobban fog tetszeni a kerdezonek. Ez utobbi fejlesztesi hiba, a betanitasi celfuggveny hibas meghatarozasabol ered. Ha azert jutalmazzak a neuralis matrixot, ha a masik felnek tetszo eredmenyt ad es nem azert, ha helyeset, akkor olyankor is teves valaszt fog adni, amikor egyebkent megvan szamara a helyes info.

    A cikkben szereplo pelda egyebkent tipikus esete a "duplagondol"-nak, amikor egy tenyt es annak ellenkezojet is igaznak fogadja el a rendszer. (elso mondat 1 kilo viz nehezebb mint 1 kilo levego vs. az utolso mondat, hogy a kettonek azonos a tomege) https://hu.wikipedia.org/wiki/Duplagondol

    Ez normal esetben sulyos pszihiatriai funkciozavart jelent egy ember eseten, de mivel a critical theory-ban hivo emberek eseten ez alap elvaras, ezert manapsag nem tartjak problemanak, sot bizonyos korokben elvart viselkedes lett. Az igy betanitott matrixok gyakorlatilag kompulziv hazudozo szociopata viselkedest mutatnak, de ez mint irtam csak a hibas betanitasi celfuggvenyek miatt lett igy. Persze egyetlen ceg se akarja kidobni a meglevo rendszereit es uj, elozetesen auditalt betanitasi adatbazissal nekikezdeni az egyesznek elolrol. Leginkabb mivel ilyen adatbazis nem letezik, csak az interneten elerheto szemetett ontottek bele a rendszerekbe. Masreszt a cegvezetok profiljait megnezve a vezetes valoszinuleg nem lat semmi gondot a jelenlegi szoftverek viselkedeseben, hiszen azok ugyanugy viselkednek mint ok.