Berta Sándor
Az OpenAI utódja akár ki is egészíthet képeket
Az új rendszer képes utólag módosítani az egyes fotókat.
Az OpenAI nevű mesterséges intelligencia rendszer utódjának számító DALL-E 2 a különböző leírások alapján nem csupán felvételeket hoz létre, hanem azokat kiegészítheti vagy át is alakíthatja. A DALL-E Salvador Dali és a WALL-E című Pixar-film neveinek összevonásából származik.
A program első változata a Generative Pre-Trained Transformer 3 (GPT-3) nyelvi modellen alapul és 12 milliárd paramétert használ. A rendszer ezzel párhuzamosan a Contrastive Language-Image Pre-training (CLIP) nevű mesterséges neurális hálózatot is alkalmazza, amely a vizuális koncepciókat ülteti át az egyes kategóriákba. Az OpenAI tavaly decemberben hozta nyilvánosságra a Guided Language to Image Diffusion for Generation and Editing (GLIDE) nevű modellt. A most elkészített DALL-E 2 a CLIP és a GLIDE modellekre épül. Az új megoldás legnagyobb előnye, hogy képes utólag megváltoztatni az egyes képeket és úgy hozzájuk fűzni az egyes tartalmakat, hogy azok a szövegkörnyezettel is összefüggjenek.
Fontos, hogy a DALL-E 2 megalkotásakor a fejlesztők próbáltak néhány óvintézkedést tenni, hogy megakadályozható legyen az erőszakos vagy szexuális tartalmak generálása, illetve a valódi személyekről fotorealisztikus anyagok készítése. A DALL-E 2 jelenleg kutatóprojekt, amely még nem érhető el nyilvános alkalmazásprogramozási felületen keresztül, ugyanis zárt tesztszakaszban van.
Az OpenAI nevű mesterséges intelligencia rendszer utódjának számító DALL-E 2 a különböző leírások alapján nem csupán felvételeket hoz létre, hanem azokat kiegészítheti vagy át is alakíthatja. A DALL-E Salvador Dali és a WALL-E című Pixar-film neveinek összevonásából származik.
A program első változata a Generative Pre-Trained Transformer 3 (GPT-3) nyelvi modellen alapul és 12 milliárd paramétert használ. A rendszer ezzel párhuzamosan a Contrastive Language-Image Pre-training (CLIP) nevű mesterséges neurális hálózatot is alkalmazza, amely a vizuális koncepciókat ülteti át az egyes kategóriákba. Az OpenAI tavaly decemberben hozta nyilvánosságra a Guided Language to Image Diffusion for Generation and Editing (GLIDE) nevű modellt. A most elkészített DALL-E 2 a CLIP és a GLIDE modellekre épül. Az új megoldás legnagyobb előnye, hogy képes utólag megváltoztatni az egyes képeket és úgy hozzájuk fűzni az egyes tartalmakat, hogy azok a szövegkörnyezettel is összefüggjenek.
Fontos, hogy a DALL-E 2 megalkotásakor a fejlesztők próbáltak néhány óvintézkedést tenni, hogy megakadályozható legyen az erőszakos vagy szexuális tartalmak generálása, illetve a valódi személyekről fotorealisztikus anyagok készítése. A DALL-E 2 jelenleg kutatóprojekt, amely még nem érhető el nyilvános alkalmazásprogramozási felületen keresztül, ugyanis zárt tesztszakaszban van.