SG.hu
Felveszi a kesztyűt a Google, minden termékükbe MI-t építenek
A Google megteszi a következő lépést az MI-fejlesztésben, a technológiai óriás bemutatta, hogyan fogja mélyebben beépíteni az MI-t a termékeibe a kereséstől kezdve a feladatokat végrehajtó úgynevezett ügynökökig. A 110 perces bemutatón 121-szer hivatkoztak a mesterséges intelligenciára.
Alig egy nappal azután, hogy az OpenAI bemutatta a GPT-4o-t, amely képes megérteni, hogy mi történik egy videóban és beszélgetni róla, a Google bejelentette a Project Astra-t, egy kutatási prototípust, amely hasonló videómegértési képességekkel rendelkezik. Ezt a Google DeepMind vezérigazgatója, Demis Hassabis jelentette be ma a Google I/O konferencia Mountain View-i beszédében. Bemutatta a Project Astra nevű kísérletet, amelynek célja, hogy kiderüljön, hogyan tudna az MI ügynökként viselkedni, hangosan beszélgetni a felhasználókkal és reagálni a képekre és videókra. A képességek egy része még idén elérhető lesz a Google Gemini chatbotjának felhasználói számára.
Hassabis az Astrát "a mindennapi életben hasznos univerzális segédnek" nevezte. A bemutató során a kutatási modell bemutatta képességeit: hangot adó tárgyakat azonosított, kreatív alliterációkat adott, kódot magyarázott egy monitoron és megtalálta a rossz helyre tett tárgyakat. A mesterséges intelligencia asszisztens a viselhető eszközökben, például az okosszemüvegekben is megmutatta potenciálját, ahol képes volt elemezni a diagramokat, javításokat javasolni, és szellemes válaszokat generálni a vizuális felszólításokra. Az Astra a felhasználó készülékének kameráját és mikrofonját használja arra, hogy segítséget nyújtson a mindennapi életben. A videóképek és a beszédbevitel folyamatos feldolgozásával és kódolásával az Astra létrehozza az események idővonalát, és a gyors felidézés érdekében tárolja az információkat. A vállalat szerint a mesterséges intelligencia így képes azonosítani tárgyakat, válaszolni kérdésekre, és emlékezni olyan látott dolgokra, amelyek már nincsenek a kamera képében.
A DeepMind fejlesztette a Gemini 1.5 Flash-t is, egy olyan MI modellt, amelyet úgy terveztek, hogy gyors és hatékony legyen, de eközben kisebb, mint a Gemini 1.5 Pro, a középszintű modell, amelyet a Google számos fogyasztói szolgáltatásában bevezetett. Dr. Hassabis szerint az új modell erős az érvelésben, és jól tudja összefoglalni az információkat, csevegni, valamint képeket és videókat feliratozni. A vállalat bejelentette egy másik mesterséges intelligencia modelljét, a Veo-t is, amely az OpenAI Sora rendszeréhez hasonlóan nagyfelbontású videókat generál egyszerű szöveges kérések alapján. A Google közölte, hogy egyes alkotók előzetesen megtekinthetik a Veo-t, de egyébként várólistás a hozzáférés. A vállalat arra számít, hogy még ebben az évben a Veo egyes képességeit elérhetővé teszi a YouTube Shorts szolgáltatásában.
A Szilícium-völgyi rendezvényen Sundar Pichai, a Google vezérigazgatója azt mutatta be hogyan fogja az MI-t még mélyebben behálózni a felhasználók életét. Már tavaly májusban azt ígérte, hogy a vállalat a mesterséges intelligenciát fogja használni termékeinek újragondolására, mivel azonban a generatív MI-technológia kockázatokat rejt magában, például hamis információk terjesztését, a Google eddig óvatosan alkalmazta a technológiát. A cégnek hatalmas a felelőssége, a keresőmotorját több mint kétmilliárd ember használja, és tavaly 175 milliárd dolláros bevételt hozott számára. Pichai most bemutatta, hogy a vállalat agresszív MI-fejlesztései végül hogyan csordulnak be a keresőmotorba: e héttől kezdve az amerikai felhasználók egy olyan funkciót, az AI Overviews-t fogják látni, amely a hagyományos keresési eredmények fölött összefoglalókat generál. Ez év végére több mint egymilliárd embernek lesz hozzáférése a technológiához.
Ha az ember nyaralást vagy egy vacsorát szeretne megtervezni, vagy ötleteket gyűjteni a hétvégi kalandokhoz vagy randevúkhoz, a Google széleskörű adattárából kap javaslatokat: értékeléseket, boltok nyitva tartását, útvonaltervet, időjárást, repülőjegyeket, eseményeket és hasonlókat. A Google az "emberekre, helyekre és dolgokra" összpontosít, így képes például megtalálni "a legjobb jóga- és pilates stúdiót Bostonban". Ez egy példa a többlépcsős lekérdezésre, és ehhez még hozzáadhatók a "gyalogos távolságra van a lakásomtól" vagy a "vasárnap is nyitva van" kifejezések is. Az MI áttekintéssel ellátott találatok bővíthetők vagy szűkíthetők olyan változatokkal, mint az "Eredeti", az "Egyszerűbb" és a "Bontás". A kategóriákat az MI generálja, így egy vacsorára vonatkozó keresésnek lehetnek romantikus helyekre, szabadtéri teraszokra, élőzenére és hasonlókra vonatkozó alfejezetei.
Az AI Overviews valószínűleg fokozza majd az aggodalmakat, hogy a webes kiadóknak kevesebb forgalmat fog szállítani a Google, így még nagyobb nyomás helyeződik egy olyan iparágra, amely már eddig is szenvedett a technológiai platformokkal való küzdelmektől. A Google-on a felhasználók hosszabb összefoglalókat láthatnak majd egy-egy témáról, ami csökkentheti a forrásweboldalra való átjárás szükségességét, de a Google lekicsinyelte ezeket az aggodalmakat. „Az MI-áttekintésekben szereplő linkekre több kattintás érkezik a felhasználóktól, mintha hagyományos keresési találatként jelenítenék meg őket - írta Liz Reid, a Google keresésért felelős alelnöke egy blogbejegyzésben. „Továbbra is arra összpontosítunk, hogy értékes forgalmat küldjünk a kiadóknak és az alkotóknak”.
Az MI-áttekintések mellett a Google keresőmotorja rendezett keresési találati oldalakat fog bemutatni, különböző típusú tartalmakat kiemelő generált címsorokkal. A funkció étkezési és receptkeresésekkel indul, később pedig a vásárlásra, utazásra és szórakozásra vonatkozó lekérdezésekre is felajánlják majd. Reid a keresőfrissítésektől a felhasználók időmegtakarítását várja, mivel a Google „több munkát tud elvégezni Ön helyett”. Pichai elmondta, hogy arra számít, hogy az emberek túlnyomó többsége a Google keresőmotorján keresztül lép majd kapcsolatba a Gemini mesterséges intelligencia technológiával. "Zökkenőmentesebbé fogjuk tenni az emberek számára a Geminivel való interakciót” - mondta Pichai.
A vállalat egy sor más kezdeményezést is bemutatott - köztük új chipeket és úgynevezett ügynököket, amelyek segítenek a felhasználóknak a feladatok elvégzésében -, hogy ezzel is igyekezzen fölénybe kerülni a Microsoft és az OpenAI, a ChatGPT készítője elleni csatározásban. "Az MI platformváltás nagyon korai szakaszában vagyunk” - mondta Pichai az I/O fejlesztői konferencián. „Azt akarjuk, hogy mindenki profitáljon abból, amit a Gemini tud”, beleértve a fejlesztőket, a startupokat és a nyilvánosságot is.
A Google bemutatta a zenegeneráló eszközének, a Lyria-nak és a képgenerátornak, az Imagen 3-nak a legújabb verzióját is. Az elmúlt három hónapban több mint egymillió felhasználó regisztrált a Gemini Advancedre, a Google chatbotjának 20 dolláros havi előfizetéssel elérhető változatára - közölte a vállalat. A következő hónapokban a Google hozzáadja a Gemini Live-ot, amely lehetőséget biztosít a felhasználóknak arra, hogy hangutasításokon keresztül beszéljenek a chatbothoz. A Google szerint a chatbot természetes hangon fog válaszolni, és a felhasználók közbevághatnak, hogy tisztázó kérdéseket tegyenek fel. Még ebben az évben a felhasználók kamerájuk segítségével megmutathatják a Gemini Live-nak a körülöttük lévő fizikai világot, és beszélgethetnek a chatrobottal erről.
A Gemini a Gmailben hamarosan képes lesz arra, hogy átkutassa a teljes e-mail állományunkat és egy oldalsávban összefoglalót jelenítsen meg. Ez megold egy hatalmas problémát az e-mailekkel kapcsolatban: míg a keresés egy listát hoz fel az e-mailek témáiról, és mindegyikre rá kell kattintani az elolvasáshoz, addig a mesterséges intelligencia saját maga átnézi a leveleket és összefoglalót készít - ezt más felületen nem lehet megtenni. Tehát ha egy bizonyos feladótól érkező e-mailek összefoglalóját kérjük, akkor egy felsorolásos listát kapunk az eseményekről, alul pedig egy "források" listát, amely egyből egy adott e-mailhez ugrik. Egy másik nagyon érdekes funkció az a képesség, hogy több, egy adott témáról született e-mailt is össze tud foglalni. A cég egyik példája erre a "hasonlítsa össze a tetőjavítási ajánlataimat ár és elérhetőség alapján", amely összegyűjtötte és összegezte a több kapcsolattartótól érkező e-maileket, és megmutatta az egyes vállalkozók árait.
Alig egy nappal azután, hogy az OpenAI bemutatta a GPT-4o-t, amely képes megérteni, hogy mi történik egy videóban és beszélgetni róla, a Google bejelentette a Project Astra-t, egy kutatási prototípust, amely hasonló videómegértési képességekkel rendelkezik. Ezt a Google DeepMind vezérigazgatója, Demis Hassabis jelentette be ma a Google I/O konferencia Mountain View-i beszédében. Bemutatta a Project Astra nevű kísérletet, amelynek célja, hogy kiderüljön, hogyan tudna az MI ügynökként viselkedni, hangosan beszélgetni a felhasználókkal és reagálni a képekre és videókra. A képességek egy része még idén elérhető lesz a Google Gemini chatbotjának felhasználói számára.
Hassabis az Astrát "a mindennapi életben hasznos univerzális segédnek" nevezte. A bemutató során a kutatási modell bemutatta képességeit: hangot adó tárgyakat azonosított, kreatív alliterációkat adott, kódot magyarázott egy monitoron és megtalálta a rossz helyre tett tárgyakat. A mesterséges intelligencia asszisztens a viselhető eszközökben, például az okosszemüvegekben is megmutatta potenciálját, ahol képes volt elemezni a diagramokat, javításokat javasolni, és szellemes válaszokat generálni a vizuális felszólításokra. Az Astra a felhasználó készülékének kameráját és mikrofonját használja arra, hogy segítséget nyújtson a mindennapi életben. A videóképek és a beszédbevitel folyamatos feldolgozásával és kódolásával az Astra létrehozza az események idővonalát, és a gyors felidézés érdekében tárolja az információkat. A vállalat szerint a mesterséges intelligencia így képes azonosítani tárgyakat, válaszolni kérdésekre, és emlékezni olyan látott dolgokra, amelyek már nincsenek a kamera képében.
A DeepMind fejlesztette a Gemini 1.5 Flash-t is, egy olyan MI modellt, amelyet úgy terveztek, hogy gyors és hatékony legyen, de eközben kisebb, mint a Gemini 1.5 Pro, a középszintű modell, amelyet a Google számos fogyasztói szolgáltatásában bevezetett. Dr. Hassabis szerint az új modell erős az érvelésben, és jól tudja összefoglalni az információkat, csevegni, valamint képeket és videókat feliratozni. A vállalat bejelentette egy másik mesterséges intelligencia modelljét, a Veo-t is, amely az OpenAI Sora rendszeréhez hasonlóan nagyfelbontású videókat generál egyszerű szöveges kérések alapján. A Google közölte, hogy egyes alkotók előzetesen megtekinthetik a Veo-t, de egyébként várólistás a hozzáférés. A vállalat arra számít, hogy még ebben az évben a Veo egyes képességeit elérhetővé teszi a YouTube Shorts szolgáltatásában.
A Szilícium-völgyi rendezvényen Sundar Pichai, a Google vezérigazgatója azt mutatta be hogyan fogja az MI-t még mélyebben behálózni a felhasználók életét. Már tavaly májusban azt ígérte, hogy a vállalat a mesterséges intelligenciát fogja használni termékeinek újragondolására, mivel azonban a generatív MI-technológia kockázatokat rejt magában, például hamis információk terjesztését, a Google eddig óvatosan alkalmazta a technológiát. A cégnek hatalmas a felelőssége, a keresőmotorját több mint kétmilliárd ember használja, és tavaly 175 milliárd dolláros bevételt hozott számára. Pichai most bemutatta, hogy a vállalat agresszív MI-fejlesztései végül hogyan csordulnak be a keresőmotorba: e héttől kezdve az amerikai felhasználók egy olyan funkciót, az AI Overviews-t fogják látni, amely a hagyományos keresési eredmények fölött összefoglalókat generál. Ez év végére több mint egymilliárd embernek lesz hozzáférése a technológiához.
Ha az ember nyaralást vagy egy vacsorát szeretne megtervezni, vagy ötleteket gyűjteni a hétvégi kalandokhoz vagy randevúkhoz, a Google széleskörű adattárából kap javaslatokat: értékeléseket, boltok nyitva tartását, útvonaltervet, időjárást, repülőjegyeket, eseményeket és hasonlókat. A Google az "emberekre, helyekre és dolgokra" összpontosít, így képes például megtalálni "a legjobb jóga- és pilates stúdiót Bostonban". Ez egy példa a többlépcsős lekérdezésre, és ehhez még hozzáadhatók a "gyalogos távolságra van a lakásomtól" vagy a "vasárnap is nyitva van" kifejezések is. Az MI áttekintéssel ellátott találatok bővíthetők vagy szűkíthetők olyan változatokkal, mint az "Eredeti", az "Egyszerűbb" és a "Bontás". A kategóriákat az MI generálja, így egy vacsorára vonatkozó keresésnek lehetnek romantikus helyekre, szabadtéri teraszokra, élőzenére és hasonlókra vonatkozó alfejezetei.
Az AI Overviews valószínűleg fokozza majd az aggodalmakat, hogy a webes kiadóknak kevesebb forgalmat fog szállítani a Google, így még nagyobb nyomás helyeződik egy olyan iparágra, amely már eddig is szenvedett a technológiai platformokkal való küzdelmektől. A Google-on a felhasználók hosszabb összefoglalókat láthatnak majd egy-egy témáról, ami csökkentheti a forrásweboldalra való átjárás szükségességét, de a Google lekicsinyelte ezeket az aggodalmakat. „Az MI-áttekintésekben szereplő linkekre több kattintás érkezik a felhasználóktól, mintha hagyományos keresési találatként jelenítenék meg őket - írta Liz Reid, a Google keresésért felelős alelnöke egy blogbejegyzésben. „Továbbra is arra összpontosítunk, hogy értékes forgalmat küldjünk a kiadóknak és az alkotóknak”.
Az MI-áttekintések mellett a Google keresőmotorja rendezett keresési találati oldalakat fog bemutatni, különböző típusú tartalmakat kiemelő generált címsorokkal. A funkció étkezési és receptkeresésekkel indul, később pedig a vásárlásra, utazásra és szórakozásra vonatkozó lekérdezésekre is felajánlják majd. Reid a keresőfrissítésektől a felhasználók időmegtakarítását várja, mivel a Google „több munkát tud elvégezni Ön helyett”. Pichai elmondta, hogy arra számít, hogy az emberek túlnyomó többsége a Google keresőmotorján keresztül lép majd kapcsolatba a Gemini mesterséges intelligencia technológiával. "Zökkenőmentesebbé fogjuk tenni az emberek számára a Geminivel való interakciót” - mondta Pichai.
A vállalat egy sor más kezdeményezést is bemutatott - köztük új chipeket és úgynevezett ügynököket, amelyek segítenek a felhasználóknak a feladatok elvégzésében -, hogy ezzel is igyekezzen fölénybe kerülni a Microsoft és az OpenAI, a ChatGPT készítője elleni csatározásban. "Az MI platformváltás nagyon korai szakaszában vagyunk” - mondta Pichai az I/O fejlesztői konferencián. „Azt akarjuk, hogy mindenki profitáljon abból, amit a Gemini tud”, beleértve a fejlesztőket, a startupokat és a nyilvánosságot is.
A Google bemutatta a zenegeneráló eszközének, a Lyria-nak és a képgenerátornak, az Imagen 3-nak a legújabb verzióját is. Az elmúlt három hónapban több mint egymillió felhasználó regisztrált a Gemini Advancedre, a Google chatbotjának 20 dolláros havi előfizetéssel elérhető változatára - közölte a vállalat. A következő hónapokban a Google hozzáadja a Gemini Live-ot, amely lehetőséget biztosít a felhasználóknak arra, hogy hangutasításokon keresztül beszéljenek a chatbothoz. A Google szerint a chatbot természetes hangon fog válaszolni, és a felhasználók közbevághatnak, hogy tisztázó kérdéseket tegyenek fel. Még ebben az évben a felhasználók kamerájuk segítségével megmutathatják a Gemini Live-nak a körülöttük lévő fizikai világot, és beszélgethetnek a chatrobottal erről.
A Gemini a Gmailben hamarosan képes lesz arra, hogy átkutassa a teljes e-mail állományunkat és egy oldalsávban összefoglalót jelenítsen meg. Ez megold egy hatalmas problémát az e-mailekkel kapcsolatban: míg a keresés egy listát hoz fel az e-mailek témáiról, és mindegyikre rá kell kattintani az elolvasáshoz, addig a mesterséges intelligencia saját maga átnézi a leveleket és összefoglalót készít - ezt más felületen nem lehet megtenni. Tehát ha egy bizonyos feladótól érkező e-mailek összefoglalóját kérjük, akkor egy felsorolásos listát kapunk az eseményekről, alul pedig egy "források" listát, amely egyből egy adott e-mailhez ugrik. Egy másik nagyon érdekes funkció az a képesség, hogy több, egy adott témáról született e-mailt is össze tud foglalni. A cég egyik példája erre a "hasonlítsa össze a tetőjavítási ajánlataimat ár és elérhetőség alapján", amely összegyűjtötte és összegezte a több kapcsolattartótól érkező e-maileket, és megmutatta az egyes vállalkozók árait.