SG.hu
Már képet is tud generálni a ChatGPT

Az OpenAI a mai naptól kezdve új képgenerálási képességeket integrál közvetlenül a ChatGPT-be - ez a funkció az "Images in ChatGPT, azaz Képek a ChatGPT-ben nevet kapta.
A mostani kiadás kizárólag a képkészítésre összpontosít, és a ChatGPT Plus, Pro, Team és Free előfizetési szinteken lesz elérhető. Az ingyenes szint használati limitje megegyezik a DALL-E-vel - mondta Taya Christianson szóvivő, de hozzátette, hogy „nem tud konkrét számot megosztani”, és „ez idővel változhat az igények alapján”. A ChatGPT GYIK szerint az ingyenes felhasználók korábban „napi három képet tudtak létrehozni a DALL-E 3-mal”. Ami a DALL-E sorsát illeti, Christianson szerint a „rajongók” „továbbra is hozzáférhetnek egy egyéni GPT-n keresztül”.
Gabriel Goh kutatásvezető elmondta, hogy a csapat a GPT-4o omnimodális modelljét használta a funkció alapjául - ez bármilyen adatot, például szöveget, képet, hangot és videót is képes generálni. A Goh által említett fejlesztések közé tartozik az összekötés, amely arra utal, hogy a mesterséges intelligencia képgenerátorok mennyire tartják fenn az attribútumok és objektumok közötti helyes kapcsolatokat; egy rosszul kötődő modell például készíthet egy kék csillagot és egy piros háromszöget vagy egy piros csillagot és egy háromszöget. Goh szerint a legtöbb képmodell küzd ezzel, azaz gyakran keveri össze a színeket és a formákat, amikor több - általában 5-8 - elem renderelésére kérik őket. Elmondása szerint ez az új képgeneráló eszköz 15-20 objektum attribútumait képes helyesen, zavartalanul összekötni, ami jelentős javulást jelent a pontosság és a megbízhatóság terén.
A felhasználók a szöveg renderelésében is észrevehetnek javulást, ami megkönnyíti a képeken olvasható összefüggő, elgépelés nélküli szöveg generálását. Goh elmondása szerint a szöveges megjelenítés megfelelővé tétele jelentős kihívást jelentett. Ha a címek vagy szövegelemek el vannak gépelve vagy egyéb módon hibásak, akkor az egész kép használhatatlanná válhat. "Ez olyan volt, mint egy iterációs folyamat, amely sok-sok hónapig tartott, mire sikerült” - mondta Goh. Bár ez most sem tökéletes, elmondása szerint a csapat elérte azt a pontot, ahol a szöveg minősége következetesen használható (ahol hajlamos hibázni, az a nagyon apró szöveg). „Ez sok hónapnyi fejlesztés eredménye”.
A rendszer autoregresszív megközelítést alkalmaz, azaz a képeket a szövegek írásához hasonlóan balról jobbra és fentről lefelé haladva készíti el. Ezzel szemben a legtöbb képgenerátor (például a DALL-E) diffúziós modell technikát használ, amely egyszerre hozza létre a teljes képet. Goh feltételezi, hogy ez a technikai különbség lehet az, ami a ChatGPT-ben lévő képeknek jobb szövegmegjelenítési és kötési képességeket biztosít.
A funkció bevezetése előtti sajtótájékoztatón a csapat számos példát mutatott be a rendszer képességeiről, köztük olyan tudományos diagramokat, mint Newton prizmakísérlete, helyesen felcímkézett összetevőkkel, többpaneles képregényeket konzisztens karakterekkel és szövegbuborékokkal, valamint információs plakátokat pontos szöveggel. Kiemelték továbbá az olyan gyakorlati alkalmazásokat is, mint az átlátszó háttérképek készítése matricákhoz, éttermi étlapokhoz és logókhoz.
„Ha lerajzolok egy képet, azt a saját képességeim korlátaival teszem, de a világról felhalmozott összes tudásommal" - magyarázta Jackie Shannon, a ChatGPT multimodális termékének vezetője. „A modell a világ ismereteit hozza be az egyenletbe, így amikor Newton prizmakísérletének képét kéri, nem kell elmagyarázni neki, hogy mi az, hogy képet készítsen róla.” Az új rendszernek hosszabb ideig tart a képek generálása, mint korábban, bár az OpenAI szerint ez egy kifizetődő kompromisszum. "Bár a késleltetési időn biztosan van még mit javítanunk, a képek minősége, a képességek, a világ ismerete tényleg kárpótol azért a plusz másodpercért, amit várakozással kell tölteni” - mondta Shannon.
Amikor a biztosítékokról kérdezték - rámutatva Taylor Swift hírhedt meztelen deepfake-jeire, amelyeket egy Microsoft-modell segítségével hoztak létre -, az OpenAI csapata hangsúlyozta, hogy a rendszer robusztus biztosítékokat tartalmaz a visszaélések megakadályozására. Shannon szerint az eszköz megakadályozza a vízjelek eltávolítását, blokkolja a szexuális mélyhamisítások generálását, és elutasítja a CSAM, azaz a pedofil generálási kéréseket. Mindazonáltal az OpenAI új képgeneráló rendszere nem tartalmaz vizuális vízjeleket vagy olyan jelzőket, amelyek azt mutatják, hogy a képek mesterséges intelligencia által generáltak.
Shannon azonban kifejtette, hogy „minden általunk generált kép tartalmazni fog szabványos C2PA metaadatokat, amelyekkel megjelölhető, hogy a képet az OpenAI hozta létre”, és a vállalatnak „lesz néhány belső eszköze, hogy a képeket azonosítani lehessen”. "Végső soron egyetlen rendszer sem tökéletes az ilyesmire, de folyamatosan fejlesztjük a biztosítékainkat, és ezt kiindulópontnak tekintjük” - tette hozzá Shannon. „A ChatGPT által generált összes képre igaz: a felhasználó tulajdonában vannak, és a felhasználási szabályzatunk keretein belül szabadon felhasználhatja őket, ahogyan szeretné.”
A mostani kiadás kizárólag a képkészítésre összpontosít, és a ChatGPT Plus, Pro, Team és Free előfizetési szinteken lesz elérhető. Az ingyenes szint használati limitje megegyezik a DALL-E-vel - mondta Taya Christianson szóvivő, de hozzátette, hogy „nem tud konkrét számot megosztani”, és „ez idővel változhat az igények alapján”. A ChatGPT GYIK szerint az ingyenes felhasználók korábban „napi három képet tudtak létrehozni a DALL-E 3-mal”. Ami a DALL-E sorsát illeti, Christianson szerint a „rajongók” „továbbra is hozzáférhetnek egy egyéni GPT-n keresztül”.
Gabriel Goh kutatásvezető elmondta, hogy a csapat a GPT-4o omnimodális modelljét használta a funkció alapjául - ez bármilyen adatot, például szöveget, képet, hangot és videót is képes generálni. A Goh által említett fejlesztések közé tartozik az összekötés, amely arra utal, hogy a mesterséges intelligencia képgenerátorok mennyire tartják fenn az attribútumok és objektumok közötti helyes kapcsolatokat; egy rosszul kötődő modell például készíthet egy kék csillagot és egy piros háromszöget vagy egy piros csillagot és egy háromszöget. Goh szerint a legtöbb képmodell küzd ezzel, azaz gyakran keveri össze a színeket és a formákat, amikor több - általában 5-8 - elem renderelésére kérik őket. Elmondása szerint ez az új képgeneráló eszköz 15-20 objektum attribútumait képes helyesen, zavartalanul összekötni, ami jelentős javulást jelent a pontosság és a megbízhatóság terén.
A felhasználók a szöveg renderelésében is észrevehetnek javulást, ami megkönnyíti a képeken olvasható összefüggő, elgépelés nélküli szöveg generálását. Goh elmondása szerint a szöveges megjelenítés megfelelővé tétele jelentős kihívást jelentett. Ha a címek vagy szövegelemek el vannak gépelve vagy egyéb módon hibásak, akkor az egész kép használhatatlanná válhat. "Ez olyan volt, mint egy iterációs folyamat, amely sok-sok hónapig tartott, mire sikerült” - mondta Goh. Bár ez most sem tökéletes, elmondása szerint a csapat elérte azt a pontot, ahol a szöveg minősége következetesen használható (ahol hajlamos hibázni, az a nagyon apró szöveg). „Ez sok hónapnyi fejlesztés eredménye”.

A rendszer autoregresszív megközelítést alkalmaz, azaz a képeket a szövegek írásához hasonlóan balról jobbra és fentről lefelé haladva készíti el. Ezzel szemben a legtöbb képgenerátor (például a DALL-E) diffúziós modell technikát használ, amely egyszerre hozza létre a teljes képet. Goh feltételezi, hogy ez a technikai különbség lehet az, ami a ChatGPT-ben lévő képeknek jobb szövegmegjelenítési és kötési képességeket biztosít.
A funkció bevezetése előtti sajtótájékoztatón a csapat számos példát mutatott be a rendszer képességeiről, köztük olyan tudományos diagramokat, mint Newton prizmakísérlete, helyesen felcímkézett összetevőkkel, többpaneles képregényeket konzisztens karakterekkel és szövegbuborékokkal, valamint információs plakátokat pontos szöveggel. Kiemelték továbbá az olyan gyakorlati alkalmazásokat is, mint az átlátszó háttérképek készítése matricákhoz, éttermi étlapokhoz és logókhoz.

„Ha lerajzolok egy képet, azt a saját képességeim korlátaival teszem, de a világról felhalmozott összes tudásommal" - magyarázta Jackie Shannon, a ChatGPT multimodális termékének vezetője. „A modell a világ ismereteit hozza be az egyenletbe, így amikor Newton prizmakísérletének képét kéri, nem kell elmagyarázni neki, hogy mi az, hogy képet készítsen róla.” Az új rendszernek hosszabb ideig tart a képek generálása, mint korábban, bár az OpenAI szerint ez egy kifizetődő kompromisszum. "Bár a késleltetési időn biztosan van még mit javítanunk, a képek minősége, a képességek, a világ ismerete tényleg kárpótol azért a plusz másodpercért, amit várakozással kell tölteni” - mondta Shannon.
Amikor a biztosítékokról kérdezték - rámutatva Taylor Swift hírhedt meztelen deepfake-jeire, amelyeket egy Microsoft-modell segítségével hoztak létre -, az OpenAI csapata hangsúlyozta, hogy a rendszer robusztus biztosítékokat tartalmaz a visszaélések megakadályozására. Shannon szerint az eszköz megakadályozza a vízjelek eltávolítását, blokkolja a szexuális mélyhamisítások generálását, és elutasítja a CSAM, azaz a pedofil generálási kéréseket. Mindazonáltal az OpenAI új képgeneráló rendszere nem tartalmaz vizuális vízjeleket vagy olyan jelzőket, amelyek azt mutatják, hogy a képek mesterséges intelligencia által generáltak.
Shannon azonban kifejtette, hogy „minden általunk generált kép tartalmazni fog szabványos C2PA metaadatokat, amelyekkel megjelölhető, hogy a képet az OpenAI hozta létre”, és a vállalatnak „lesz néhány belső eszköze, hogy a képeket azonosítani lehessen”. "Végső soron egyetlen rendszer sem tökéletes az ilyesmire, de folyamatosan fejlesztjük a biztosítékainkat, és ezt kiindulópontnak tekintjük” - tette hozzá Shannon. „A ChatGPT által generált összes képre igaz: a felhasználó tulajdonában vannak, és a felhasználási szabályzatunk keretein belül szabadon felhasználhatja őket, ahogyan szeretné.”