A Boston Dynamics robotkutyája a Google MI-jével le tudja olvasni a műszereket

A Google DeepMind új modellje lehetővé teszi, hogy a Boston Dynamics robotjai mérőórákat és hőmérőket értelmezzenek ipari környezetben.

A Boston Dynamics négylábú Spot nevű robotjai gyárakban és raktárakban járőrözés esetén már pontosan képesek leolvasni az analóg hőmérőket és nyomásmérőket. A fejlődés a Google DeepMind legújabb robotikai MI modelljének köszönhető, amelynek célja a robotok képességeinek javítása az úgynevezett megtestesült következtetés területén, amikor fizikai környezetben kell interakcióba lépniük a világgal. Az új Gemini Robotics-ER 1.6 modell egy a robotok számára készült magas szintű következtetési modell, amely képes feladatokat megtervezni és végrehajtani. Azt a képességet is lehetővé teszi, hogy a robotok pontosan leolvassák az olyan műszereket, mint az összetett mérőórák, és vizuális ellenőrzéseket végezzenek betekintő ablakokon keresztül, amelyek átlátszó felületet biztosítanak a tartályok és csövek belsejébe való bepillantáshoz. Ez a teljesítményjavulás a Google DeepMind és a Boston Dynamics közötti folyamatos együttműködés eredményeként valósult meg.

A Boston Dynamics kifejezetten érdekelt abban, hogy négylábú és humanoid robotmunkásokat teszteljen különböző ipari létesítményekben, beleértve a robotikai vállalat tulajdonosának, a Hyundai Motor Group autógyárait is. A vállalat robotkutyáját, a Spotot jelenleg robotikus ellenőrként tesztelik, amely ipari létesítményekben járőrözik és mindenféle berendezést ellenőriz. Az ilyen ellenőrzési feladatok összetett vizuális következtetést igényelnek ahhoz, hogy a robot értelmezni tudja a különböző műszereken található több mutatót, folyadékszinteket, tartályhatárokat, osztásjeleket és feliratokat.

Az ilyen feladatok kezeléséhez a Gemini Robotics-ER 1.6 modell úgynevezett ügynöki látást biztosít a robotok számára. Ez a megközelítés egyesíti a vizuális következtetést azzal a képességgel, hogy a rendszer kódot futtasson, és így egy vizuális jegyzetfelületet hozzon létre a képek vizsgálatához és manipulálásához. Az ügynöki látás képessége már 2026. januárjában megjelent a Google Gemini 3.0 Flash modelljében. Az ügynöki látás használata jelentősen javítja a robotok teljesítményét a műszerek leolvasásában. A korábbi Gemini Robotics-ER 1.5 modell 23 százalékos pontosságával szemben az új Gemini Robotics-ER 1.6 modell már 98 százalékos pontosságot ér el. Összehasonlításképpen a Gemini 3.0 Flash mindössze 67 százalékos pontosságot biztosított.

Az alap Gemini Robotics-ER 1.6 modell ügynöki látás nélkül is képes 86 százalékos pontosságra a műszerek leolvasásában. Ennek oka, hogy a modell egy olyan folyamatot használ, amelyben a képen látható különböző elemekre mutat rá, így dolgozza fel az összetett feladatokat, például tárgyak megszámlálását vagy a legfontosabb jellemzők azonosítását. A rendszer állítólag fejlettebb többnézetes következtetési képességet is kínál, amely lehetővé teszi, hogy a robot több kamera képét használja fel a környezet jobb megértéséhez.

A Google DeepMind egy példát is bemutatott a teljesítményre. Ebben a Gemini Robotics-ER 1.6 képes volt helyesen azonosítani és megszámolni egy zsúfolt képen a kalapácsokat, ollókat, festőecseteket, fogókat és különböző kerti szerszámokat. Ezzel szemben a korábbi Gemini Robotics-ER 1.5 modell nem tudta pontosan megszámolni a kalapácsokat vagy az ecseteket, teljesen figyelmen kívül hagyta az ollókat, és tévesen azonosított egy nem létező talicskát, mert az szerepelt a felismerési feladatban. Ez arra utal, hogy az újabb modellnél kisebb a hallucinációk problémája, még ha a rendszer továbbra is messze van attól, hogy emberi szintű megértéssel rendelkezzen a környezetéről.

A Google azt is hangsúlyozza, hogy a Gemini Robotics-ER 1.6 a vállalat eddigi legbiztonságosabb robotikai modellje, amely jelentősen javított képességgel rendelkezik a fizikai biztonsági korlátok betartására. Ez lehetővé teszi, hogy a robotok kövessék a biztonsági utasításokat, és biztonságosabb döntéseket hozzanak például folyadékok vagy különböző anyagok kezelése során. Az új modell pontosabban érzékeli az emberek sérülésének kockázatát különböző helyzetekben, például amikor egy kisgyermek egy tárgyat próbál bedugni egy elektromos aljzatba.

A modell valódi értéke akkor derül majd ki, amikor robotikai vállalatok és kutatók több gyakorlati tesztet végeznek a képességeivel. Eddig a robotok akkor bizonyultak a leghatékonyabbnak és legtermelékenyebbnek, amikor erősen specializált gépekként ugyanazokat a feladatokat ismételték meg újra és újra a gyártósorokon, vagy precízen összehangolt mozgásokat hajtottak végre raktári folyosókon. Az olyan vállalatok, mint a Google arra fogadnak, hogy a legújabb MI modellek segíthetnek a robotoknak abban, hogy szabadabban működő munkásokká váljanak, akik összetettebb és kevésbé kontrollált valós környezetekben dolgoznak. Ez azonban nagyobb kockázattal is jár, hiszen ha valami hiba történik, a robotok kárt okozhatnak vagy veszélybe sodorhatják az embereket.

A Boston Dynamics robotkutyája a Google MI-jével le tudja olvasni a műszereket

Kapcsolódó cikkek és linkek

Hozzászólások