SG.hu
A részletesség határait feszegeti a DALL-E képgenerátor legújabb verziója
Az OpenAI bejelentette a DALL-E 3-at, mesterséges intelligencia képszintetizáló modelljének legújabb verzióját, amely teljes integrációval rendelkezik a ChatGPT-vel. A DALL-E 3 pontosan követi az összetett leírásokat és a képen belüli szövegek generálását - például címkék és feliratok, ami kihívást jelentett a korábbi modellek számára - is tudja kezelni. Jelenleg kutatási előnézetben van, a ChatGPT Plus és Enterprise ügyfelek számára október elején lesz elérhető.
A DALLE-3 is egy szövegből képet generáló eszköz, amely képeket hoz létre írott anyagok, úgynevezett promptok alapján. A mesterséges intelligencia-modellt emberi művészek és fotósok által készített képek millióin képezték ki, amelyek egy részét olyan stock weboldalakról licencelték, mint a Shutterstock. A DALL-E 3 ugyanezt a képletet követi, de új képzési technikákkal és több számítási idővel. Az OpenAI által a promóciós blogon közzétett minták alapján a DALL-E 3 egy radikálisan jobb képszintetizáló modell, mint bármelyik versenytársa. Bár az OpenAI példái a hatékonyságuk érdekében lettek kiválasztva, úgy tűnik, hogy hűen követik a prompt utasításokat, és meggyőzően, minimális deformációval renderelik a tárgyakat. A DALL-E 3 már a képeken belüli szöveget is úgy kezeli, ahogy az elődje nem tudta - néhány konkurens modell, például a Stable Diffusion XL és a DeepFloyd is egyre ebben.
Az OpenAI szerint az előző verzióhoz képest a DALL-E 3 hatékonyabban finomítja az olyan apró részleteket, mint például a kezek, és alapértelmezésben megnyerő képeket hoz létre "hackelés vagy speciálisan megfogalmazott promptok nélkül". Erre azért hívják fel a figyelmet, mert a Midjourney - egy másik gyártó konkurens MI képszintetizáló modellje - a fotorealisztikus kidolgozásban megveri, de még mindig sok, az intuícióval ellentétes bütykölést igényel a promptokkal, hogy pontosan meg tudjuk határozni milyen képkimenetet akarunk kapni. A képek leírásától függ a műalkotások stílusa, a fotórealisztikustól a fantasztikusig. A megfelelő prompt megalkotása azonban kihívást jelenthet, olyannyira, hogy a "prompt engineering" kezd szakmává válni.
Azonban az OpenAI új eszköze a ChatGPT segítségével segíti a promptok kitöltését. A ChatGPT-n keresztül az OpenAI prémium ChatGPT-csomagjainak, a ChatGPT Plus és a ChatGPT Enterprise előfizetői beírhatnak egy képre vonatkozó kérést, és a chatrobottal folytatott beszélgetéseken keresztül csiszolhatják azt - az eredményeket közvetlenül a chatalkalmazáson belül kapják meg. Az MI asszisztenst ötletgazdaként használja, ami azt is jelenti, hogy a ChatGPT képes lesz az aktuális beszélgetés kontextusa alapján képeket generálni, ami új képességekhez vezethet. A Microsoft Bing Chat MI asszisztense, amely szintén az OpenAI technológiájára épül, március óta képes képeket generálni beszélgetés közben. A ChatGPT egy akár csak néhány szavas kérést is átvesz, és leíróbbá teszi, így több útmutatást nyújt a DALL-E 3 modellnek.
Balra a DALL-E 2, jobbra a DALL-E 3 generált képe ugyanazon prompt alapján
A DALL-E eredeti változata 2021 januárjában jelent meg, az OpenAI pedig 2022 áprilisában mutatta be a drámaian jobb képességű folytatást, amely a mesterséges intelligencia által generált képek új korszakát indította el. A DALL-E modellek egy látens diffúziónak nevezett technikát használnak, amely a zajt finomítja képekké az adathalmazon való gyakorlás során szerzett tudás és egy prompt útmutatás alapján. Ugyanez a technika tette lehetővé a Stable Diffusion nevű nyílt modell megjelenését tavaly augusztusban.
A DALL-E a képekkel kapcsolatos fogalmakat úgy tanulta meg a képzés során, hogy egy hatalmas, emberek által készített műalkotásokból álló adathalmazt töltöttek le. Emiatt az MI képgeneráló technológia a tavalyi bevezetése óta viták keresztüzében áll. A technológia tiltakozást váltott ki a művészek részéről, akik attól tartanak, hogy a technológia felváltja őket, mert etikátlanul lemásolja stílusukat. Perek is indultak szerzői jogsértés miatt, mert a képeket a jogtulajdonosokkal való konzultáció nélkül használták fel képzési adatként. Az OpenAI védekezésként közölte, hogy a DALL-E 3 úgy van tervezve, hogy elutasítja azokat a kéréseket, amelyek egy élő művész stílusában készült képet kérnek. Az OpenAI egy olyan űrlapot is biztosít, amelyen az alkotók lemondhatnak arról, hogy képeiket jövőbeni modellek képzéséhez használják fel. Nem valószínű, hogy ezek az intézkedések kielégítik a művészeket, akik úgy gondolják, hogy a mesterséges intelligencia tréningjének fordítva kellene működnie, azaz a cégnek kellene engedélyt kérnie tőlük, nem pedig nekik jelezni a kimaradási szándékot, hiszen így alapértelmezés szerint ugyanúgy benne vannak a képadatkészletben.
A jelenleg szerzői jogi paragrafusok alapján a tisztán mesterséges intelligencia által generált műalkotások nem részesülnek szerzői jogi védelemben, így gyakorlatilag a DALL-E 3-mal létrehozott bármely kép közkincs. Bár az OpenAI ezt nem ismeri el kifejezetten, azt mondja, hogy "a DALL-E 3-mal készített kép a tiéd, és nincs szükséged az engedélyünkre ahhoz, hogy kinyomtasd, eladd vagy kereskedelmi forgalomba hozd". Ez jelentős változás a tavalyi évhez képest, amikor az OpenAI korlátozta a DALL-E-2 képek használatát egy olyan licenc alapján, amely szerint az OpenAI "minden generált kép tulajdonosa".
Ami a biztonságot illeti, az OpenAI a DALL-E 2-höz hasonlóan a DALL-E 3-ban is kulcsszó- és képfelismerő szűrőket alkalmaz, hogy korlátozza az erőszakos, szexuális vagy gyűlöletkeltő tartalmak előállítására való képességét. A rendszert arra is beprogramozták, hogy elutasítsa a közszereplőkről képeket generáló kéréseket. Ez a konkurens mesterséges intelligencia-képgenerátorral, a Midjourney-vel is gondot okozott, mert például Donald Trumpról hamis letartóztatási képeket generáltak.
Az OpenAI szakértőket kért fel a potenciális kockázatok - például a káros elfogultság vagy propaganda és félretájékoztatás generálása - azonosítása és mérséklése érdekében. Az OpenAI nem nyilatkozott arról, hogy eszköze képes-e meggyőző koholmányokkal elferdíteni a történelmi feljegyzéseket, bár elmondása szerint kísérletezik egy "provenienciaosztályozó" eszközzel, amely segíthet azonosítani, hogy egy képet a DALL-E 3 generált-e vagy sem. A mesterséges intelligencia képgenerátor jelenleg zárt tesztelés alatt áll. A cég októberben az API-n keresztül, a Labs-ben pedig még az ősszel elérhetővé teszi a ChatGPT Plus és Enterprise ügyfelek számára. A vállalat nem közölte, hogy mikor - vagy tervezi-e egyáltalán - egy ingyenes webes eszköz kiadását, ahogyan azt a DALL-E 2 és az eredeti DALL-E modell esetében tette.
A DALLE-3 is egy szövegből képet generáló eszköz, amely képeket hoz létre írott anyagok, úgynevezett promptok alapján. A mesterséges intelligencia-modellt emberi művészek és fotósok által készített képek millióin képezték ki, amelyek egy részét olyan stock weboldalakról licencelték, mint a Shutterstock. A DALL-E 3 ugyanezt a képletet követi, de új képzési technikákkal és több számítási idővel. Az OpenAI által a promóciós blogon közzétett minták alapján a DALL-E 3 egy radikálisan jobb képszintetizáló modell, mint bármelyik versenytársa. Bár az OpenAI példái a hatékonyságuk érdekében lettek kiválasztva, úgy tűnik, hogy hűen követik a prompt utasításokat, és meggyőzően, minimális deformációval renderelik a tárgyakat. A DALL-E 3 már a képeken belüli szöveget is úgy kezeli, ahogy az elődje nem tudta - néhány konkurens modell, például a Stable Diffusion XL és a DeepFloyd is egyre ebben.
Az OpenAI szerint az előző verzióhoz képest a DALL-E 3 hatékonyabban finomítja az olyan apró részleteket, mint például a kezek, és alapértelmezésben megnyerő képeket hoz létre "hackelés vagy speciálisan megfogalmazott promptok nélkül". Erre azért hívják fel a figyelmet, mert a Midjourney - egy másik gyártó konkurens MI képszintetizáló modellje - a fotorealisztikus kidolgozásban megveri, de még mindig sok, az intuícióval ellentétes bütykölést igényel a promptokkal, hogy pontosan meg tudjuk határozni milyen képkimenetet akarunk kapni. A képek leírásától függ a műalkotások stílusa, a fotórealisztikustól a fantasztikusig. A megfelelő prompt megalkotása azonban kihívást jelenthet, olyannyira, hogy a "prompt engineering" kezd szakmává válni.
Azonban az OpenAI új eszköze a ChatGPT segítségével segíti a promptok kitöltését. A ChatGPT-n keresztül az OpenAI prémium ChatGPT-csomagjainak, a ChatGPT Plus és a ChatGPT Enterprise előfizetői beírhatnak egy képre vonatkozó kérést, és a chatrobottal folytatott beszélgetéseken keresztül csiszolhatják azt - az eredményeket közvetlenül a chatalkalmazáson belül kapják meg. Az MI asszisztenst ötletgazdaként használja, ami azt is jelenti, hogy a ChatGPT képes lesz az aktuális beszélgetés kontextusa alapján képeket generálni, ami új képességekhez vezethet. A Microsoft Bing Chat MI asszisztense, amely szintén az OpenAI technológiájára épül, március óta képes képeket generálni beszélgetés közben. A ChatGPT egy akár csak néhány szavas kérést is átvesz, és leíróbbá teszi, így több útmutatást nyújt a DALL-E 3 modellnek.
Balra a DALL-E 2, jobbra a DALL-E 3 generált képe ugyanazon prompt alapján
A DALL-E eredeti változata 2021 januárjában jelent meg, az OpenAI pedig 2022 áprilisában mutatta be a drámaian jobb képességű folytatást, amely a mesterséges intelligencia által generált képek új korszakát indította el. A DALL-E modellek egy látens diffúziónak nevezett technikát használnak, amely a zajt finomítja képekké az adathalmazon való gyakorlás során szerzett tudás és egy prompt útmutatás alapján. Ugyanez a technika tette lehetővé a Stable Diffusion nevű nyílt modell megjelenését tavaly augusztusban.
A DALL-E a képekkel kapcsolatos fogalmakat úgy tanulta meg a képzés során, hogy egy hatalmas, emberek által készített műalkotásokból álló adathalmazt töltöttek le. Emiatt az MI képgeneráló technológia a tavalyi bevezetése óta viták keresztüzében áll. A technológia tiltakozást váltott ki a művészek részéről, akik attól tartanak, hogy a technológia felváltja őket, mert etikátlanul lemásolja stílusukat. Perek is indultak szerzői jogsértés miatt, mert a képeket a jogtulajdonosokkal való konzultáció nélkül használták fel képzési adatként. Az OpenAI védekezésként közölte, hogy a DALL-E 3 úgy van tervezve, hogy elutasítja azokat a kéréseket, amelyek egy élő művész stílusában készült képet kérnek. Az OpenAI egy olyan űrlapot is biztosít, amelyen az alkotók lemondhatnak arról, hogy képeiket jövőbeni modellek képzéséhez használják fel. Nem valószínű, hogy ezek az intézkedések kielégítik a művészeket, akik úgy gondolják, hogy a mesterséges intelligencia tréningjének fordítva kellene működnie, azaz a cégnek kellene engedélyt kérnie tőlük, nem pedig nekik jelezni a kimaradási szándékot, hiszen így alapértelmezés szerint ugyanúgy benne vannak a képadatkészletben.
A jelenleg szerzői jogi paragrafusok alapján a tisztán mesterséges intelligencia által generált műalkotások nem részesülnek szerzői jogi védelemben, így gyakorlatilag a DALL-E 3-mal létrehozott bármely kép közkincs. Bár az OpenAI ezt nem ismeri el kifejezetten, azt mondja, hogy "a DALL-E 3-mal készített kép a tiéd, és nincs szükséged az engedélyünkre ahhoz, hogy kinyomtasd, eladd vagy kereskedelmi forgalomba hozd". Ez jelentős változás a tavalyi évhez képest, amikor az OpenAI korlátozta a DALL-E-2 képek használatát egy olyan licenc alapján, amely szerint az OpenAI "minden generált kép tulajdonosa".
Ami a biztonságot illeti, az OpenAI a DALL-E 2-höz hasonlóan a DALL-E 3-ban is kulcsszó- és képfelismerő szűrőket alkalmaz, hogy korlátozza az erőszakos, szexuális vagy gyűlöletkeltő tartalmak előállítására való képességét. A rendszert arra is beprogramozták, hogy elutasítsa a közszereplőkről képeket generáló kéréseket. Ez a konkurens mesterséges intelligencia-képgenerátorral, a Midjourney-vel is gondot okozott, mert például Donald Trumpról hamis letartóztatási képeket generáltak.
Az OpenAI szakértőket kért fel a potenciális kockázatok - például a káros elfogultság vagy propaganda és félretájékoztatás generálása - azonosítása és mérséklése érdekében. Az OpenAI nem nyilatkozott arról, hogy eszköze képes-e meggyőző koholmányokkal elferdíteni a történelmi feljegyzéseket, bár elmondása szerint kísérletezik egy "provenienciaosztályozó" eszközzel, amely segíthet azonosítani, hogy egy képet a DALL-E 3 generált-e vagy sem. A mesterséges intelligencia képgenerátor jelenleg zárt tesztelés alatt áll. A cég októberben az API-n keresztül, a Labs-ben pedig még az ősszel elérhetővé teszi a ChatGPT Plus és Enterprise ügyfelek számára. A vállalat nem közölte, hogy mikor - vagy tervezi-e egyáltalán - egy ingyenes webes eszköz kiadását, ahogyan azt a DALL-E 2 és az eredeti DALL-E modell esetében tette.