A Google új videógenerátora a képhez passzoló hangsávot is gyárt

A Google legújabb videógeneráló mesterséges intelligenciamodellje, a Veo 3 képes az általa generált klipek mellé hangot is létrehozni.

A Google a Google I/O 2025 fejlesztői konferencián bemutatta a Veo 3-at, amely a vállalat állítása szerint képes hanghatásokat, háttérzajokat, sőt párbeszédeket is generálni az általa készített videókhoz. A Google szerint a Veo 3 az elődjéhez, a Veo 2-höz képestjavítja a generálható felvételek minőségét is. A Veo 3 már elérhető a Gemini chatbot-alkalmazásban a 249,99 dolláros havidíjas MI Ultra csomagjára előfizetők számára, ahol szöveggel vagy képpel lehet kérdezni. "Most először lépünk ki a videógenerálás csendes korszakából” - mondta Demis Hassabis, a Google DeepMind, a Google mesterséges intelligencia kutatás-fejlesztési részlegének vezérigazgatója egy sajtótájékoztatón. "A Veo 3-nak megadhatsz egy karaktereket és egy környezetet leíró promptot, és párbeszédet javasolhatsz egy leírással, hogy hogyan szeretnéd, hogy hangozzon”.

A videogenerátorok készítésére szolgáló eszközök széles körű elérhetősége miatt olyan robbanásszerűen megnövekedett a szolgáltatók száma, hogy a terület kezd telítődni. Olyan startupok, mint a Runway, a Lightricks, a Genmo, a Pika, a Higgsfield, a Kling és a Luma, valamint olyan technológiai óriások, mint az OpenAI és az Alibaba, gyors ütemben adnak ki modelleket. Sok esetben kevés dolog különbözteti meg az egyik modellt a másiktól.

A hangkimenet a Veo 3 nagy megkülönböztető jegye lehet, ha a Google teljesíteni tudja az ígéreteit. A mesterséges intelligenciával működő hanggeneráló eszközök nem újdonságok, ahogyan a videós hangeffektusok létrehozására szolgáló modellek sem. A Veo 3 azonban egyedülálló módon képes megérteni a videók nyers pixeleit, és a Google szerint automatikusan szinkronizálja a generált hangokat a klipekkel.

cooking up something tasty for tomorrow... pic.twitter.com/wyIRMsXkFG
— Demis Hassabis (@demishassabis) May 19, 2025

A Veo 3-at valószínűleg a DeepMind korábbi munkája tette lehetővé a „videóból hangba” mesterséges intelligencia terén. Tavaly júniusban a DeepMind felfedte, hogy olyan mesterséges intelligencia technológiát fejleszt, amely videók hangsávjainak generálására képes, mégpedig úgy, hogy egy modellt hangok és párbeszéd-átiratok, valamint videoklipek kombinációján képez ki. A DeepMind nem árulta el, hogy pontosan honnan szerezte be a Veo 3 tréningjéhez szükséges tartalmat, de a YouTube nagy eséllyel szóba jöhet. A Google tulajdonában van a YouTube, és a DeepMind korábban azt mondta, hogy a Veo-hoz hasonló Google-modelleket „lehet”, hogy bizonyos YouTube-anyagokon képezték ki.

A DeepMind azt mondja, hogy a mélyhamisítások kockázatának csökkentése érdekében saját fejlesztésű vízjel-technológiáját, a SynthID-t használja a Veo 3 által generált képkockákba történő láthatatlan jelölések beágyazására. De miközben a Google-hoz hasonló vállalatok a Veo 3-at erős kreatív eszközként reklámozzák, sok művész érthető módon óvakodik tőlük, mert egész iparágak felforgatásával fenyegetnek. A hollywoodi animátorokat és rajzfilmeseket képviselő Animation Guild szakszervezet megbízásából készült 2024-es tanulmány becslése szerint 2026-ra több mint 100 000 amerikai filmes, televíziós és animációs munkahelyet fog érinteni a mesterséges intelligencia.

A Google ma új képességeket is bevezetett a Veo 2 számára, többek között egy olyan funkciót, amely lehetővé teszi a felhasználók számára, hogy a jobb konzisztencia érdekében megadják a karakterek, jelenetek, tárgyak és stílusok modellképeit. A legújabb Veo 2 képes megérteni a kameramozgásokat, például a forgatásokat, a dollizálást és a zoomolást, és lehetővé teszi a felhasználók számára, hogy objektumokat adjanak hozzá vagy töröljenek a videókból, vagy kiszélesítsék a klipek kereteit, hogy például portréból tájképpé alakítsák azokat. A Google szerint mindezek az új Veo 2 képességek a következő hetekben érkeznek a Vertex AI API platformjára.

A Google új videógenerátora a képhez passzoló hangsávot is gyárt

Kapcsolódó cikkek és linkek

Hozzászólások