SG.hu

Hogyan ismerhető fel a mesterséges intelligencia által generált kép?

Gyanakodjunk, ha az emberek keze fura szögben áll vagy a fotón lévő feliratok olvashatatlanok.

A fényképeket majdnem azóta hamisítják és manipulálják, amióta a fényképezés létezik. Néha még a szakértők is nehezen tudják megmondani, hogy egy fotó valódi-e vagy sem. Ma már pedig a valóságra sincs szükség ahhoz, hogy egy fénykép hitelesnek tűnjön. Az emberek becsapására használt technológia sokkal gyorsabban fejlődik, mint a trükköket felismerő technológia. A mesterséges intelligencia gyors térhódítása riadalmat keltett, mert már most is láthatóan táplálja az álhírgyártást és politikai megosztottságot szít. A szakértők attól tartanak, hogy a technológia felgyorsíthatja a médiába, a kormányba és a társadalomba vetett bizalom erózióját. Ha bármilyen képet le lehet gyártani - és manipulálni -, hogyan hihetnénk el bármit, amit látunk?

Az eszközök egyre jobbak és olcsóbbak lesznek, és eljön az a nap, amikor semmit sem lehet majd elhinni az interneten látottakból. A mesterséges intelligencia gyakorlatilag bárki számára lehetővé teszi, hogy összetett műalkotásokat hozzon létre vagy olyan élethű képeket, amelyek elmossák a határt a valóság és a fikció között. Mindössze egy szöveges leírást kell megadnunk és a technológia létrehoz egy képet - nem szükséges hozzá semmilyen szakértelem.


A Balenciaga kabátot viselő pápa szemüvege beleolvadt az arcába

A generatív képek viszonylag könnyen felismerhetőek a szakértő szemnek - legalábbis egyelőre. Általában igaz, hogy a mesterséges intelligencia által generált képek leginkább távolról becsapósak, olyanok, mint egy rövid ecsetvonásokból álló impresszionista festmény: megragadják a téma lényegét, de a finom részletek már nem stimmelnek. A háttér általában elmosódik és az algoritmusoknak mindenféle szimmetriaproblémáik vannak. Az arcok nem feltétlen szimmetrikusak, például a szemek különböző méretűek, előfordulhat három metszőfog vagy torz arcszőrzet. A fülbevalót és a szemüveget nem feltétlen tudják elválasztani az arctól. A generált személy haja túl egyenesnek, csíkosnak tűnhet, vagy mintha ragyogás lenne körülötte. Az arcok hibái részben szándékosak, hogy véletlenül se lehessen valós személyről szó, másrészt nem közszereplőkről jogellenes valósághű arcot tárolni.

Az MI-képgenerátorok - mint a DALL-E, a Midjourney és a Stable Diffusion - hírhedt arról, hogy túl sok ujjat adnak a kezekhez, vagy összemaszatolják a betűket. Ennek fő oka, hogy a betanításhoz használt adathalmazokban nem az emberek végtagjai vannak a középpontban. Ritka az olyan kép, ahol egy ember keze lenne a lényeges, ezért ezek általában sokkal kisebbek, és vagy fókuszon kívül vannak, vagy nem is szerepelnek a fotókon. A 2D-s képgenerátorok emellett nehezen tudják elképzelni a kéz 3D-s geometriáját.


A volt brit miniszterelnök, Boris Johnson keze nem néz ki egészségesen

"Van egy általános elképzelésük a kézről, miszerint van a tenyér, rajta ujjak és azokon körmök, de valójában egyik modell sem érti, hogy mi is az egész" - mondta Peter Bentley professzor, a University College London informatikusa. Amelia Winger-Bearskin, a Floridai Egyetem mesterséges intelligencia és művészetek professzora szerint a generatív mesterséges intelligencia egyszerűen nem érti mi a kéz és mi a funkciója. "Csak azt nézi hogyan reprezentálják a kezeket azokon a képeken, amelyekről betanították" - mondta. "A kezek a képeken elég árnyaltak. Általában tartanak valamit vagy néha egy másik emberbe kapaszkodnak." A mesterséges intelligencia egy fotón csak annyit lát, hogy "Ó, ezen csak egy fél hüvelykujj van", mert a többi része el van rejtve a szövet alatt vagy épp fog valamit, és így amikor reprodukálja, az némileg deformált.


Fiatalokról generált kép, háttérben üzletekkel - ezek az eszközök még nehezen tudnak olvasható és érthető szöveget létrehozni

A szövegnél ugyanez a helyzet: a generált képeken megjelenő torz szövegek egyik oka a képzési adatok minősége lehet. A tanítóadatbázisban lévő fotókon megjelenő szövegek felismeréséhez nagy és változatos, különböző betűtípusokat, méreteket és stílusokat tartalmazó adathalmazra van szükség. Ha a képzési adatok korlátozottak, a mesterséges intelligencia modell már a felismerési fázisban elbukik, így reprodukálni sem tudja azt. Mindezek mellett kétségtelen, hogy a mesterséges intelligencia-generátorok az elkövetkező években olyannyira jók lesznek, a végtermékük olyan meggyőzően fog kinézni, hogy ránézésre már nem fogjuk tudni megállapítani mesterséges mivoltukat. Ekkor már nem fogunk tudni a vizuális anomáliákra hagyatkozni, hogy megkülönböztessünk egy képet. Remélhetőleg addigra már nem is lesz erre szükség, mert lesz olyan alkalmazás vagy weboldal, amelyik ellenőrizni tudja majd helyettünk.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • Inquisitor #2
    Az összes felvetett "látható" problémával az a gond, hogy addig áll csak fent, amíg nincs belőle egy tömbösített tudáshalmaz. Teszem azt egy Dreambooth-al csinálhat bárki direkt kezekről készült ép adatbázist kiegészítve olyan szöveges kizárásokkal, ami az ujjak számait, egymáshoz való arányait, méreteit rögzíti. A szöveg megjelenítés is ilyesmi szerintem. Másrészt pillanatok alatt lehet fotó-realisztikus 3D képet generálni bármiről, majd azt átdolgoztatni AI-al.
  • Zsombor99 #1
    Ha csak képet kell generálni, akkor már egészen jó eredmények vannak, de ha szöveg is kell, akkor már csúnyán elvéreznek a képgeneráló mesterséges inteligenciák. Az igaz, hogy olykor furcsa pózban/pozícióban jelenítik meg a képeken az embereket, de amúgy meglepően jó képeket tudnak már generálni.
    Utoljára szerkesztette: Zsombor99, 2023.04.09. 11:31:15