SG.hu
Az Amazon minél gyorsabban MI-t szeretne beültetni Alexa agyába

Az Amazon azon dolgozik, hogy a hanggal vezérelhető digitális asszisztensét, Alexát egy olyan mesterséges intelligenciával rendelkező „ügynökként” indítsa újra, amely gyakorlati feladatok elvégzésére képes, miközben igyekszik megoldani azokat a kihívásokat, amelyek a rendszer felújításával kapcsolatban felmerültek
. Az e-kereskedelmi óriás az elmúlt két évben megpróbálta újratervezni a világszerte 500 millió fogyasztói eszközbe épített Alexa társalgási rendszert, hogy a szoftver „agyát” generatív mesterséges intelligenciával okosítsák fel. Rohit Prasad vezeti az Amazon mesterséges általános intelligencia (AGI) csapatát, aki elmondta, hogy a hangalapú asszisztensnek még számos technikai akadályt kell leküzdenie a bevezetés előtt. Ezek közé tartozik a „hallucinációk” vagy a kitalált válaszok problémájának megoldása, illetve a válaszadási sebesség és a megbízhatóság növelése. „A hallucinációknak a nullához kell közelíteniük” - mondta Prasad. "Ez még mindig nyitott probléma az iparágban, de rendkívül keményen dolgozunk rajta”.
Az Amazon vezetőinek víziója az, hogy az Alexát - amelyet az emberek még mindig csak szűk körű egyszerű feladatokra, például zenelejátszásra és ébresztés beállítására használnak - „ügynöki” termékké alakítsák át, amely személyre szabott komornyikként működik. Ez az éttermek ajánlásától kezdve a hálószobai világításnak az ember alvási ciklusa alapján történő beállításáig bármit magában foglalhat. Alexa újratervezése a Microsoft által támogatott OpenAI chatbotjának 2022 végi elindítása óta folyamatban van. Míg a Microsoft, a Google, a Meta és mások gyorsan beágyazták a generatív MI-t a számítástechnikai platformjaikba és továbbfejlesztették a szoftveres szolgáltatásaikat, addig az Amazon nagyon sok technikai és szervezési nehézséggel szembesült, így nem tudta felvenni a versenyt a riválisokkal.
Több olyan munkatárs szerint, akik az elmúlt években az Amazon hangasszisztens-csapataiban dolgoztak, a társaság erőfeszítéseit több éves MI-kutatás és -fejlesztés előzte meg. Több korábbi dolgozó szerint a bevezetésre való hosszú várakozás nagyrészt olyan váratlan nehézségek miatt történik, amelyek az Alexa egyszerűbb, előre definiált algoritmusainak átállítása és a nagyobb teljesítményű, de kiszámíthatatlan nagy nyelvi modellekkel való kombinálása során merültek fel. Az Amazon persze leszögezte, hogy "keményen dolgozik azon, hogy még proaktívabb és alkalmasabb segítségnyújtást tegyen lehetővé” a hangalapú asszisztensével. Mentegetőzésük szerint egy élő szolgáltatásba és az ügyfelek által világszerte használt eszközkészletbe történő ilyen léptékű technikai beavatkozás példa nélküli, és nem olyan egyszerű, mint egy LLM beágyazása az Alexa szolgáltatásba.
Prasad, az Alexa korábbi vezető fejlesztője elmondta, hogy a múlt hónapban a vállalat házon belüli Amazon Nova modelljeinek - az ő AGI-csapata által vezetett - kiadását részben az optimális sebesség, költség és megbízhatóság iránti különleges igények motiválták, hogy az Alexához hasonló MI-alkalmazásoknak segítsenek „eljutni az utolsó mérföldre, ami nagyon nehéz”. Ahhoz, hogy ügynökként működhessen, Alexa agyának képesnek kell lennie arra, hogy több száz harmadik féltől származó szoftvert és szolgáltatást elő tudjon hívni, mondta Prasad. „Néha alábecsüljük, hogy mennyi szolgáltatás van integrálva az Alexába, és ez hatalmas szám."
A bonyolultság abból adódik, hogy az Alexa felhasználói gyors válaszokat, valamint rendkívül magas szintű pontosságot várnak el. Ezek a tulajdonságok ellentétben állnak a mai generatív MI, azaz a beszéd- és nyelvi minták alapján szavakat előrejelző statisztikai szoftverek eredendően valószínűségi jellegével. Egyes korábbi munkatársak arra is rámutatnak, hogy nehézségekbe ütközik az asszisztens eredeti tulajdonságainak - többek között a következetességnek és a funkcionalitásnak - a megőrzése, miközben olyan új generatív funkciókkal ruházzák fel, mint a kreativitás és a szabad folyású párbeszéd. Az LLM személyre szabottabb, beszédesebb jellege miatt a vállalat azt is tervezte, hogy szakértőket alkalmaz, hogy a mesterséges intelligencia személyiségét és hangját úgy alakítsák, hogy az Alexa-felhasználók számára ismerős maradjon.
Az Alexa csapat egyik korábbi vezető munkatársa elmondta, hogy bár az LLM-ek nagyon kifinomultak, kockázatokat is rejtenek magukban, például ha olyan válaszokat adnak, amelyek teljesen kitaláltak. "Abban a léptékben, ahogyan az Amazon működik, ez naponta nagy számban megtörténhet” - mondták, ami károsíthatja a cég márkáját és a hírnevét.
Tavaly Mihail Eric, az Alexa korábbi gépi tanulási kutatója és a „társalgási modellező csapat” alapító tagja nyilvános kritikát fogalmazott meg, miszerint az Amazon elszalasztotta a lehetőséget annak ellenére, hogy az Alexa a társalgási mesterséges intelligencia egyértelmű piacvezetőjévé vált. Eric szerint annak ellenére, hogy a vállalatnak erős tudományos háttere és hatalmas pénzügyi forrásai voltak, „technikai és bürokratikus problémáktól volt hangos”, "az adatok rosszul voltak címkézve”, és „a dokumentáció nem létezett vagy elavult”. Az Alexa-val kapcsolatos mesterséges intelligencián dolgozó két korábbi alkalmazott szerint a hangalapú asszisztens alapjául szolgáló régi technológia rugalmatlan volt, és nehéz volt gyorsan változtatni rajta, amit egy nehézkes és szervezetlen kódbázis és egy „túlságosan szétszórt” mérnöki csapat nehezített.
Az eredeti Alexa szoftver, amely a brit Evi startup cégtől 2012-ben megvásárolt technológiára épült, egy olyan kérdésmegoldó gép volt, amely a tények meghatározott univerzumában keresve találta meg a megfelelő választ, például a napi időjárást vagy egy adott zeneszámot a zenei könyvtárban. Az új Alexa viszont különböző mesterséges intelligenciamodellek csokrát használja a hangalapú lekérdezések felismerésére, lefordítására és a válaszok generálására, valamint a szabályszegések, például a nem megfelelő válaszok és a hallucinációk felismerésére. Az Alexa-LLM integráció egyik fő akadálya a régi rendszerek és az új MI-modellek közötti adatcseréhez szükséges szoftver megalkotása.
A használt MI-modellek között szerepel az Amazon saját, házon belüli szoftvere, köztük a legújabb Nova modellek, valamint a Claude, az Anthropic startup MI-modellje, amelybe az Amazon 8 milliárd dollárt fektetett be az elmúlt 18 hónap során. "Az MI-ügynökökkel kapcsolatban a legnagyobb kihívást az jelenti, hogy biztonságosak, megbízhatóak és kiszámíthatóak legyenek” - mondta Dario Amodei, az Anthropic vezérigazgatója. Az ügynökszerű MI-szoftvereknek el kell jutniuk arra a pontra, „ahol az emberek valóban megbízhatnak a rendszerben” - tette hozzá. „Amint eljutunk erre a pontra, akkor fogjuk kiadni ezeket a rendszereket”.
Egy jelenlegi alkalmazott szerint még további lépésekre van szükség, például a gyermekbiztonsági szűrők ellenőrzésére és az Alexával való egyedi integrációk, például az intelligens lámpák és a Ring ajtócsengő tesztelésére. "A megbízhatóság a kérdés - hogy az idő közel 100 százalékában működjön” - tette hozzá az alkalmazott. "Ezért tűnik úgy, hogy mi, az Apple vagy a Google lassan és fokozatosan szállítjuk a termékeket”. Az Alexa számára készségeket vagy funkciókat fejlesztő számos harmadik fél elmondta, hogy nem tudják, mikor kerül bevezetésre az új generatív MI-képes eszköz, és hogyan lehet új funkciókat létrehozni hozzá. "Várjuk a részleteket és a megértést” - mondta Thomas Lindgren, a svéd Wanderword tartalomfejlesztő társalapítója. "Amikor elkezdtünk velük dolgozni, sokkal nyitottabbak voltak. Aztán idővel megváltoztak”. Egy másik partner szerint a kezdeti „nyomás” után, amelyet az Amazon gyakorolt a fejlesztőkre, hogy kezdjenek el felkészülni az Alexa következő generációjára, a dolgok elcsendesedtek.
Az Amazon Alexa csapata számára - amelyet 2023-ban nagy elbocsátások sújtottak - tartós kihívás, hogy hogyan lehet pénzt termelni. Jared Roesch, az OctoAI generatív AI csoport társalapítója szerint komoly feladat lenne kitalálni, hogyan lehetne az asszisztenseket „elég olcsón, méretarányosan működtetni”. A megvitatott lehetőségek között szerepel egy új Alexa-előfizetési szolgáltatás létrehozása, vagy az áruk és szolgáltatások értékesítéséből való részesedés. Prasad szerint az Amazon célja az volt, hogy különféle MI-modelleket hozzon létre, amelyek az Alexán túli alkalmazások „építőköveként” szolgálhatnak. "Mi mindig az ügyfelekre és a gyakorlati MI-re alapozunk, tudományt nem a tudomány kedvéért végezzük” - mondta Prasad. "Azért csináljuk ezt, hogy értéket biztosítsunk az ügyfelek számára, ami a generatív MI korszakában fontosabb, mint valaha, mert az ügyfelek a befektetés megtérülését akarják látni.”
. Az e-kereskedelmi óriás az elmúlt két évben megpróbálta újratervezni a világszerte 500 millió fogyasztói eszközbe épített Alexa társalgási rendszert, hogy a szoftver „agyát” generatív mesterséges intelligenciával okosítsák fel. Rohit Prasad vezeti az Amazon mesterséges általános intelligencia (AGI) csapatát, aki elmondta, hogy a hangalapú asszisztensnek még számos technikai akadályt kell leküzdenie a bevezetés előtt. Ezek közé tartozik a „hallucinációk” vagy a kitalált válaszok problémájának megoldása, illetve a válaszadási sebesség és a megbízhatóság növelése. „A hallucinációknak a nullához kell közelíteniük” - mondta Prasad. "Ez még mindig nyitott probléma az iparágban, de rendkívül keményen dolgozunk rajta”.
Az Amazon vezetőinek víziója az, hogy az Alexát - amelyet az emberek még mindig csak szűk körű egyszerű feladatokra, például zenelejátszásra és ébresztés beállítására használnak - „ügynöki” termékké alakítsák át, amely személyre szabott komornyikként működik. Ez az éttermek ajánlásától kezdve a hálószobai világításnak az ember alvási ciklusa alapján történő beállításáig bármit magában foglalhat. Alexa újratervezése a Microsoft által támogatott OpenAI chatbotjának 2022 végi elindítása óta folyamatban van. Míg a Microsoft, a Google, a Meta és mások gyorsan beágyazták a generatív MI-t a számítástechnikai platformjaikba és továbbfejlesztették a szoftveres szolgáltatásaikat, addig az Amazon nagyon sok technikai és szervezési nehézséggel szembesült, így nem tudta felvenni a versenyt a riválisokkal.
Több olyan munkatárs szerint, akik az elmúlt években az Amazon hangasszisztens-csapataiban dolgoztak, a társaság erőfeszítéseit több éves MI-kutatás és -fejlesztés előzte meg. Több korábbi dolgozó szerint a bevezetésre való hosszú várakozás nagyrészt olyan váratlan nehézségek miatt történik, amelyek az Alexa egyszerűbb, előre definiált algoritmusainak átállítása és a nagyobb teljesítményű, de kiszámíthatatlan nagy nyelvi modellekkel való kombinálása során merültek fel. Az Amazon persze leszögezte, hogy "keményen dolgozik azon, hogy még proaktívabb és alkalmasabb segítségnyújtást tegyen lehetővé” a hangalapú asszisztensével. Mentegetőzésük szerint egy élő szolgáltatásba és az ügyfelek által világszerte használt eszközkészletbe történő ilyen léptékű technikai beavatkozás példa nélküli, és nem olyan egyszerű, mint egy LLM beágyazása az Alexa szolgáltatásba.
Prasad, az Alexa korábbi vezető fejlesztője elmondta, hogy a múlt hónapban a vállalat házon belüli Amazon Nova modelljeinek - az ő AGI-csapata által vezetett - kiadását részben az optimális sebesség, költség és megbízhatóság iránti különleges igények motiválták, hogy az Alexához hasonló MI-alkalmazásoknak segítsenek „eljutni az utolsó mérföldre, ami nagyon nehéz”. Ahhoz, hogy ügynökként működhessen, Alexa agyának képesnek kell lennie arra, hogy több száz harmadik féltől származó szoftvert és szolgáltatást elő tudjon hívni, mondta Prasad. „Néha alábecsüljük, hogy mennyi szolgáltatás van integrálva az Alexába, és ez hatalmas szám."
A bonyolultság abból adódik, hogy az Alexa felhasználói gyors válaszokat, valamint rendkívül magas szintű pontosságot várnak el. Ezek a tulajdonságok ellentétben állnak a mai generatív MI, azaz a beszéd- és nyelvi minták alapján szavakat előrejelző statisztikai szoftverek eredendően valószínűségi jellegével. Egyes korábbi munkatársak arra is rámutatnak, hogy nehézségekbe ütközik az asszisztens eredeti tulajdonságainak - többek között a következetességnek és a funkcionalitásnak - a megőrzése, miközben olyan új generatív funkciókkal ruházzák fel, mint a kreativitás és a szabad folyású párbeszéd. Az LLM személyre szabottabb, beszédesebb jellege miatt a vállalat azt is tervezte, hogy szakértőket alkalmaz, hogy a mesterséges intelligencia személyiségét és hangját úgy alakítsák, hogy az Alexa-felhasználók számára ismerős maradjon.

Az Alexa csapat egyik korábbi vezető munkatársa elmondta, hogy bár az LLM-ek nagyon kifinomultak, kockázatokat is rejtenek magukban, például ha olyan válaszokat adnak, amelyek teljesen kitaláltak. "Abban a léptékben, ahogyan az Amazon működik, ez naponta nagy számban megtörténhet” - mondták, ami károsíthatja a cég márkáját és a hírnevét.
Tavaly Mihail Eric, az Alexa korábbi gépi tanulási kutatója és a „társalgási modellező csapat” alapító tagja nyilvános kritikát fogalmazott meg, miszerint az Amazon elszalasztotta a lehetőséget annak ellenére, hogy az Alexa a társalgási mesterséges intelligencia egyértelmű piacvezetőjévé vált. Eric szerint annak ellenére, hogy a vállalatnak erős tudományos háttere és hatalmas pénzügyi forrásai voltak, „technikai és bürokratikus problémáktól volt hangos”, "az adatok rosszul voltak címkézve”, és „a dokumentáció nem létezett vagy elavult”. Az Alexa-val kapcsolatos mesterséges intelligencián dolgozó két korábbi alkalmazott szerint a hangalapú asszisztens alapjául szolgáló régi technológia rugalmatlan volt, és nehéz volt gyorsan változtatni rajta, amit egy nehézkes és szervezetlen kódbázis és egy „túlságosan szétszórt” mérnöki csapat nehezített.
Az eredeti Alexa szoftver, amely a brit Evi startup cégtől 2012-ben megvásárolt technológiára épült, egy olyan kérdésmegoldó gép volt, amely a tények meghatározott univerzumában keresve találta meg a megfelelő választ, például a napi időjárást vagy egy adott zeneszámot a zenei könyvtárban. Az új Alexa viszont különböző mesterséges intelligenciamodellek csokrát használja a hangalapú lekérdezések felismerésére, lefordítására és a válaszok generálására, valamint a szabályszegések, például a nem megfelelő válaszok és a hallucinációk felismerésére. Az Alexa-LLM integráció egyik fő akadálya a régi rendszerek és az új MI-modellek közötti adatcseréhez szükséges szoftver megalkotása.
A használt MI-modellek között szerepel az Amazon saját, házon belüli szoftvere, köztük a legújabb Nova modellek, valamint a Claude, az Anthropic startup MI-modellje, amelybe az Amazon 8 milliárd dollárt fektetett be az elmúlt 18 hónap során. "Az MI-ügynökökkel kapcsolatban a legnagyobb kihívást az jelenti, hogy biztonságosak, megbízhatóak és kiszámíthatóak legyenek” - mondta Dario Amodei, az Anthropic vezérigazgatója. Az ügynökszerű MI-szoftvereknek el kell jutniuk arra a pontra, „ahol az emberek valóban megbízhatnak a rendszerben” - tette hozzá. „Amint eljutunk erre a pontra, akkor fogjuk kiadni ezeket a rendszereket”.

Egy jelenlegi alkalmazott szerint még további lépésekre van szükség, például a gyermekbiztonsági szűrők ellenőrzésére és az Alexával való egyedi integrációk, például az intelligens lámpák és a Ring ajtócsengő tesztelésére. "A megbízhatóság a kérdés - hogy az idő közel 100 százalékában működjön” - tette hozzá az alkalmazott. "Ezért tűnik úgy, hogy mi, az Apple vagy a Google lassan és fokozatosan szállítjuk a termékeket”. Az Alexa számára készségeket vagy funkciókat fejlesztő számos harmadik fél elmondta, hogy nem tudják, mikor kerül bevezetésre az új generatív MI-képes eszköz, és hogyan lehet új funkciókat létrehozni hozzá. "Várjuk a részleteket és a megértést” - mondta Thomas Lindgren, a svéd Wanderword tartalomfejlesztő társalapítója. "Amikor elkezdtünk velük dolgozni, sokkal nyitottabbak voltak. Aztán idővel megváltoztak”. Egy másik partner szerint a kezdeti „nyomás” után, amelyet az Amazon gyakorolt a fejlesztőkre, hogy kezdjenek el felkészülni az Alexa következő generációjára, a dolgok elcsendesedtek.
Az Amazon Alexa csapata számára - amelyet 2023-ban nagy elbocsátások sújtottak - tartós kihívás, hogy hogyan lehet pénzt termelni. Jared Roesch, az OctoAI generatív AI csoport társalapítója szerint komoly feladat lenne kitalálni, hogyan lehetne az asszisztenseket „elég olcsón, méretarányosan működtetni”. A megvitatott lehetőségek között szerepel egy új Alexa-előfizetési szolgáltatás létrehozása, vagy az áruk és szolgáltatások értékesítéséből való részesedés. Prasad szerint az Amazon célja az volt, hogy különféle MI-modelleket hozzon létre, amelyek az Alexán túli alkalmazások „építőköveként” szolgálhatnak. "Mi mindig az ügyfelekre és a gyakorlati MI-re alapozunk, tudományt nem a tudomány kedvéért végezzük” - mondta Prasad. "Azért csináljuk ezt, hogy értéket biztosítsunk az ügyfelek számára, ami a generatív MI korszakában fontosabb, mint valaha, mert az ügyfelek a befektetés megtérülését akarják látni.”