SG.hu

Az MI képgenerátorok valójában nem tudnak olvasni

A mesterséges intelligenciák könnyedén teljesítenek egy középiskolai felvételi vizsgát, legyőzik a sakknagymestereket, és úgy írnak programsorokat, mintha az semmiség lenne. De ha egy mesterséges intelligenciát egy középiskolással állítunk szembe a helyesírási versenyen, gyorsabban kiesik, mint ameddig ennek a bekezdésnek az elolvasása tartott.

A mesterséges intelligencia minden fejlődése ellenére még mindig nem ismeri a betűket. Ha megkérnénk a DALL-E-hez hasonló szöveg-kép generátorokat, hogy készítsenek étlapot egy étterem számára, a tengernyi halandzsa között talán lenne a végeredményen néhány étvágygerjesztő elem, mint például a "leevs" vagy a "palcsnita". És bár a ChatGPT képes megírni egy levelet, de komikusan inkompetens, amikor egy olyan 10 betűs szót kérünk tőle, amelyben nincs "A" vagy "E" betű. Ismert tény, hogy a képgenerátorok általában sokkal jobban teljesítenek az olyan dolgok reprodukálásában, mint az autók és az emberek arca, és kevésbé az olyan kisebb dolgokon, mint az ujjak és a kézírás.

A kép- és szöveggenerátorok mögöttes technológiája eltérő, mégis mindkét modell hasonló nehézségekkel küzd az olyan részleteknél, mint a helyesírás. A képgenerátorok általában diffúziós modelleket használnak, amelyek a képet zajból rekonstruálják. A szöveggenerátorok esetében a nagy nyelvi modellek (LLM) úgy tűnhetnek, mintha emberi agyként olvasnának és reagálnának a kérésekre, de valójában összetett matematikai módszereket használnak arra, hogy a kérés mintáját összevessék egy tárolt mintával, és a mintát egy válasszal folytassák. És egy képen az írás egy nagyon-nagyon apró rész, a képgenerátor pedig azokat a mintákat tanulja meg, amelyek több pixelt fednek le.

Az algoritmusokat arra ösztönzik, hogy újraalkossanak valamit, ami úgy néz ki, mint amit a képzési adatokban látott, de nem ismeri azokat a szabályokat, amelyeket mi eleve természetesnek veszünk: például hogy egy emberi kéznek öt ujja van, avgy hogy a "hello" szót nem "heeelllooo"-nak írják. "Még tavaly is az összes ilyen modell nagyon rossz volt az ujjakkal kapcsolatban, és itt pontosan ugyanaz a probléma, mint a szövegnél" - mondta Matthew Guzdial, az Albertai Egyetem MI-kutatója és adjunktusa. "Helyenként már nagyon jók benne, és a generált szövegnél is azt tudjuk mondani, hogy ez úgy néz ki, mint egy 'H', ez meg úgy néz ki, mint egy 'P', de a kép egésze nagyon rosszul van struktúrálva."


A mérnökök ezeket a problémákat úgy próbálják orvosolni, hogy az adatkészleteiket olyan képzési modellekkel egészítik ki, amelyeket kifejezetten arra terveztek, hogy megtanítsák a mesterséges intelligenciának, hogyan kell kinéznie a kezeknek. A szakértőknek azonban fogalmuk sincs, hogy a helyesírási problémákat hogyan tudnák hasonlóképpen gyorsan megoldani. "Ha valami hasonlót csinálunk, azaz létrehozunk egy csomó szöveget, akkor azokkal betanítható egy modell, amely megpróbálja felismerni, hogy mi a jó és mi a rossz. Ez talán egy kicsit javítana a helyzeten. De sajnos a nyelv nagyon bonyolult" - mondta Guzdial. A kérdés pedig még bonyolultabbá válik, ha figyelembe vesszük, hogy a mesterséges intelligenciának hány különböző nyelven kell megtanulnia.

Egyes modelleket - például az Adobe Firefly-t - úgy tréningezik, hogy egyáltalán ne generáljon szöveget. Ha valami egyszerűt adunk be, mint például "éttermi menü" vagy "hirdetőtábla reklámmal", akkor egy vacsoraasztalon lévő üres papír képét kapjuk, vagy egy fehér hirdetőtáblát az autópályán. De ha valaki elég részletesen adja meg a promptot, akkor ezeket a korlátokat könnyű megkerülni. "Mintha egy több helyen lyukas edényt próbálnánk meg befogni: 'Oké, sokan panaszkodnak a kezekre, a következő modellhez hozzáadunk egy új, csak a kezekre koncentráló dolgot', és így tovább, és így tovább" - mondta Guzdial. "De a szöveg sokkal nehezebb. Emiatt még a ChatGPT sem tud betűzni."
* A Redditre, a YouTube-ra és az X-re néhányan feltöltöttek olyan videókat, amelyekben bemutatják, hogy a ChatGPT nem tud helyesen írni ASCII artban, egy korai internetes művészeti formában, amely szöveges karaktereket használ a képek létrehozásához. Egy nemrégiben készült videóban - amelyet "prompt engineering hero's journey"-nek neveztek el - valaki fáradságos munkával megpróbálja végigvezetni a ChatGPT-t egy olyan ASCII art alkotáson, amelyen az áll, hogy "Honda". Végül sikerrel járnak, de eközben brutális megpróbáltatásokon megy át a felhasználó.


Alapjában véve az LLM-esek egyszerűen nem értik, hogy mik azok a betűk, még akkor sem, ha másodpercek alatt meg tudnak írni egy szonettet. "Az LLM-ek ezen a transzformátor-architektúrán alapulnak, ami valójában nem szövegolvasás. Egy prompt beírásakor azt lefordítják egy kódolásra" - mondta Guzdial. "Amikor a gép meglátja a "the" szót, rendelkezik ezzel az egy kódolással arról, hogy mit jelent a "the", de nem tud a "T"-ről, a "H"-ról, az "E"-ről." Ezért van az, hogy amikor a ChatGPT-t arra kérik, hogy készítsen egy listát nyolcbetűs szavakból, amelyekben nincs "O" vagy "S", akkor az esetek felében hibásan válaszol. Valójában nem tudja, hogy mi az az "O" vagy "S".

Bár a rossz éttermi étlapokról készült DALL-E képek viccesek, a mesterséges intelligencia hiányosságai hasznosak is, mert így azonosíthatók a téves információk. Amikor azt próbáljuk kideríteni, hogy egy kétes értékű kép valódi vagy mesterséges intelligencia által generált, érdemes azon utcai táblákat, a pólókon lévő szövegeket, könyvoldalakat vagy bármit egyebet nézni, ahol egy véletlenszerű betűsor elárulhatja a kép szintetikus eredetét. Ugyanez igaz a kezekre is, egy hatodik (vagy hetedik, vagy nyolcadik) ujj is árulkodó lehet - például az angol királyi család legutóbbi fotójának legfurcsább részlete Kate Middleton gyerekének keze.


Guzdial szerint azonban, ha elég alaposan megnézzük, nem csak az ujjakat és a helyesírást rontja el a mesterséges intelligencia. "A modellek állandóan elkövetnek apró, helyi hibákat, és ha tudjuk mit kell keresnünk, könnyen felismerhetünk néhányat közülük" - mondta. Egy átlagember számára például könnyen hihető lehet egy MI által generált kép egy zeneboltról. De valaki, aki egy kicsit is ért a zenéhez, ugyanezt a képet látva észreveheti, hogy néhány gitárnak hét húrja van, vagy hogy a zongorán a fekete és fehér billentyűk rosszul vannak elosztva. Bár a mesterséges intelligencia-modellek riasztó ütemben fejlődnek, gyakran lehet még hasonló problémákkal találkozni.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • NEXUS6 #10
    Amit eddig csináltunk az nem mesterséges intelligencia, hanem mesterséges tudatalatti. Zéró személyiség, zéró felelősség, zéró kreativitás, zéró önálló propléma/feladat feltáró és megoldó képesség.
    Kb mint amikor az álmokat próbáljuk magyarázni, bármire is használni.
    Érdekes, de látni kell az egész korlátait.
  • militavia #9
    "- Az AI nem valos valaszokat ad, hanem valosnak tuno valaszokat, amik jol hangzanak. Az igazsag illuziojat adjak. "

    Pontosan. Feltettem neki pár tök basic szintű kérdést pár technológiáról, amit ismerek és full hülyeségeket ollózott össze, kb. mint a fullkretén "újságírók/bloggerek stb".
  • militavia #8
    Akkor máshogy mondom. Egy MI nem tud többet soha, mint amit kollektíve az embersiég
    Ezek csak kurva gyors mintázat kereső és tippelők. FOGALMUK sincs semmiről, mert nem képesek absztrakcióra.

    Ha nincs minta, akkor felteszi a kezét.
    Ha pl. kérnék egy wireframe rajzot bármiről nem tudja megcsinálni, mert ilyen rajz alig van. A térről fogalma sincs stb.
  • duke #7
    A hurokat nem latom a kepen, de a zongora alatti gorbe gitarok rogton feltuntek. :)))
  • Sequoyah #6
    Ajanlom egyebkent a Perplexity.AI-t, ami forrasokat is ad a valaszok melle, szoval nem hallucinal. Persze amig a forrasok nem AI-val keszulnek:)
  • Sequoyah #5
    Na igen, a kulonbseg az adathalmaz merete amin tanitottak. A CGPT1, 2,3 es 4 kozott is csak az adathalmaz merete votl a donto kulonbseg. Persze egeszen hihetetlen kulonbseget okoz az adathalmaz merete, de onmagaban nem eleg.

    En ket nagy kulonbseget latok az AI es az ember kozott.
    - Minden mai AI erosen specializalt. A kepgeneratorok nem tudnak olvasni, a szoveggeneratorok a kepeket nem ertik, esatobbi. Az ember mindet tudja egyszerre. Ha ledobunk egy embert egy veletlenszeru szituacioba, feltalalja magat. Kitalalja hogy most beszelni kell valakivel, vagy tulelni/menekulni, latottakat/hangokat ertelmezni, vagy egy matekfeladatot megoldani.
    - Az AI nem valos valaszokat ad, hanem valosnak tuno valaszokat, amik jol hangzanak. Az igazsag illuziojat adjak. Az ember ezzel szemben rendelkezik egy torzs tudasanyaggal, amit referenciakent hasznalunk, amit az iskolaban megtanulunk, es konyvtarakban megtalalunk.
    Az orvos nem csak kitalal egy operaciot, hanem megnezi a konyvben hogy pontosan hol is kell vagni. Az ugyved nem uj torvenyeket talal ki, hanem letezoeket keres fel. Az epitesz nem csak osszedobalja az epitoanyagot ahogy eppen erzi, hanem koveti az epitesi szabalyokat.

    Mindketto javithato problema a jovoben...
  • Gabbbbbbbbbbbb #4
    >Egyetértek. A mai "MI" csak azt tudja, amit egy ember meg tudni neki mutatni és másolni, de azt is átlagban szarul. Egyes mechanikus feladatokra a nagy számítási kapacitásra gyorsabban képes, mint egy ember, de ettől nem okosabb nála.

    Ez nem így van, azt tudja, amit emberek millió tanítottak neki a képzési anyagban, olyan tudást ér el egyszerre, amire egyetlen ember sem képes. Igen, még erős problémák vannak, de a fejlődés nagyon gyors. Egy éve még chatGPT alig tudott sakkozni, most már szinte CM szinten van. (LLM-ek nem képesek nagymesterek legyőzésére, azt csak célprogramok tudják egyelőre, univerzálisak nem)


    Utoljára szerkesztette: Gabbbbbbbbbbbb, 2024.03.26. 16:22:28
  • militavia #3
    Egyetértek. A mai "MI" csak azt tudja, amit egy ember meg tudni neki mutatni és másolni, de azt is átlagban szarul. Egyes mechanikus feladatokra a nagy számítási kapacitásra gyorsabban képes, mint egy ember, de ettől nem okosabb nála.

    Az autóm sem okosabb csak azért, mert gyorsabban meg, mint ahogy futni tudok...
    A számítógép sem okosabb, mert több százezer órás tanítással fest valamit. Ha én is rászánnék annyi időt, akkor én is jól festenék.

    Amikor a sakkprogramok legyőzték az embert, akkor is az egy szem nagymester mintha sok ezer csúcskat ellen játszott volna egyszerre, hiszen azon meccsek alapján tanították be azokat is és látta a mintákat. De ettől a sakkprogram nem talált fel semmit, csak jobban választ optimális megoldást EGY emberrel szemben.

    De szem-kéz analógia. Ha egy háttérből ki akarok vágni egy képet, pl. égháttérben levő repülőgépet, akkor egyszerű, egyszínű estén a képszerkesztők időtlen idők óta képesek rá. Vagy, ha a cél objektum egyszínű és a háttér peipta. Ezt és 1 pixel pontossággal is megteszem kézileg, csak kurva lassan. Csak én ÉRTEM, hogy mit csinálok. Az MI számára meg egy algoritmus próbálja eldönteni, hogy hol ér véget egy tárgy és hol nem. De mivel nem érti, ezért nem megy neki. Ha egy fekete háttér összeér mondjuk egy fekete köpennyel, akkor nem tudja intuitíve kikövetkeztetni, hogy ott mi van, mert nem érti, hogy mi az, hogy köpeny meg sötét. Ő csak RGB-ben (vagy bármiben) kódolt pixeleket lát, ahol n+1 paraméter alapján próbál objektumokat találni és osztályozni.

    Az MI semmire nem képes, amire egy ember ne lenne. Pont egy olyan eszköz a mai "MI", mint egy írógép. Azzal mindenki, aki elég képzett egyformán szépen tud írni. Nem mint egyesek pocsék kézírása.

    Nagyából itt vagyunk ma. Szép képeket tud mixelni az MI, csak a kérdésekhez képest full random kimenetekkel.

    Munkámmal kapcsoaltos tök alap technológiai kérdésekre sem tud válaszolni az MI. Egy laikus megenné a rizsát, amit elém tolt, és meg akkor konstatáltlam, hogy "eszedbe ne jusson az MI-re hallgatni".

  • MerlinW #2
    A képgenerálás is LLM mint a GPT meg társai, csak a prompt alapján random zajból, a betanított képek mintáját alapul véve generál eredményt. Lényeg hogy minden jelenlegi "AI" egy súlyozott vektormátrix, ahol az elemek (szavak, szótagok de nevezhetjük tokeneknek őket) súlya és egymástól való távolsága határozza meg az eredményt. Ez a súlyozás történik tanításkor.

    Sehol sem vagyunk még a valódi AI-tól. A jelenlegi LLM technológia 1966 óta semmit sem változott. Annyi, hogy lett erős hardverünk, meg kifejlesztették (Google Deepmind) a LLM transzformátort, ami felgyorsítja a tanítást. De maga a mai AI semmi extra, csak a szokásos lufi.

    Persze nem azt mondom, hogy ami van az haszontalan. Csak semmi köze az AI-hoz. Majd ha magától input nélkül tanul és csak azt amire szüksége van, illetve visszakérdez, na akkor elkezdhetünk AI-ról beszélni.
  • zola2000 #1
    Igen, az MI gyakran olyant tud amit az ember nem, gyakran olyant nem tud, amit az ember igen.

    Megjegyzem olvasni tudnak, csak írni még nem.
    Utoljára szerkesztette: zola2000, 2024.03.26. 01:16:14