SG.hu

Origamit hajtogat a Google MI-vel felturbózott robot

A Google Gemini Robotics mesterséges intelligenciamodellje finom motorikus képességeket és alkalmazkodóképességet biztosít a robotoknak.

A Google DeepMind két új, robotok irányítására tervezett mesterséges intelligenciamodellt jelentett be: Gemini Robotics és Gemini Robotics-ER. A vállalat állítása szerint ezek a modellek a korábbi rendszereknél hatékonyabban és finomabban segítik a különböző formájú és méretű robotokat a fizikai világ megértésében és a vele való interakcióban, megnyitva az utat az olyan alkalmazások előtt, mint például a humanoid robotasszisztensek.

Érdemes megjegyezni, hogy bár a robotplatformok hardvere látszólag egyenletes ütemben fejlődik, még mindig nehézkesnek bizonyul egy olyan MI-modell létrehozása, amely képes ezeket a robotokat autonóm módon, biztonságosan és precízen végigvezetni újszerű helyzeteken. Az iparág által „megtestesült mesterséges intelligenciának” nevezett megoldás továbbra is Szent Grál marad, amely a robotokat potenciálisan a fizikai világ általános használatú munkaerejévé teheti.

A Google új modelljei a Gemini 2.0 nagyméretű nyelvi modell alapjára épülnek, és kifejezetten a robotikai alkalmazásokhoz szükséges képességekkel egészülnek ki. A Gemini Robotics tartalmazza a Google által „látás-nyelv-cselekvés” (VLA) képességeknek nevezett képességeket, amelyek lehetővé teszik a vizuális információk feldolgozását, a nyelvi parancsok megértését és a fizikai mozgások generálását. Ezzel szemben a Gemini Robotics-ER a „megtestesült gondolkodásra” összpontosít, fokozott térbeli megértéssel, lehetővé téve a robotikusok számára, hogy csatlakoztathassák azokat a meglévő robotvezérlő rendszereikhez.

A Gemini Robotics segítségével például meg lehet kérni egy robotot, hogy „vegye fel a banánt, és tegye a kosárba”, és a robot a jelenet kameranézete alapján felismeri a banánt, és egy robotkart irányítva sikeresen végrehajtja a műveletet. Vagy azt is parancsolhatjuk, hogy „hajtogass egy origami rókát”, és a robot az origamiról és a papír gondos hajtogatásáról szerzett tudását fogja felhasználni a feladat végrehajtásához.

A Gemini Robotics jelentősen megnövelt kézügyességet biztosít, amely olyan korábban lehetetlen feladatokat tesz lehetővé, mint az origami hajtogatása és a rágcsálnivalók zárható zacskókba csomagolása. Ez az elmozdulás a csupán parancsokat megértő robotoktól a kényes fizikai feladatok elvégzésére képes robotok felé azt sugallja, hogy a DeepMind talán elkezdte megoldani a robotika egyik legnagyobb kihívását: rávenni a robotokat, hogy „tudásukat” a való világban óvatos, pontos mozdulatokra váltsák.

A DeepMind szerint az új Gemini Robotics rendszer sokkal erősebb általánosítást mutat, vagyis azt a képességet, hogy olyan újszerű feladatokat is el tud végezni, amelyekre nem volt kifejezetten kiképezve, mint a korábbi MI-modellek. A vállalat közleményében azt állítja, hogy a Gemini Robotics „több mint kétszeresére növelte teljesítményét egy átfogó általánosítási benchmarkon más, a legkorszerűbb látás-nyelv-cselekvés modellekhez képest”. Az általánosítás azért fontos, mert az olyan robotok, amelyek minden egyes helyzetre vonatkozó speciális képzés nélkül képesek alkalmazkodni az új forgatókönyvekhez, egy napon kiszámíthatatlan valós környezetben dolgozhatnak majd.


Szakértők továbbra is szkeptikusak azzal kapcsolatban, hogy a humanoid robotok jelenleg mennyire hasznosak, illetve mire képesek. A Tesla tavaly októberben mutatta be Optimus Gen 3 robotját, azt állítva, hogy számos fizikai feladat elvégzésére képes, de továbbra is aggályok merülnek fel az autonóm mesterséges intelligencia képességeinek hitelességével kapcsolatban, miután a vállalat elismerte, hogy a nagyszabású bemutatóján több robotot is ember irányított távolról.

A Google most a valóságot próbálja megvalósítani: egy generalista robotagyat. E célt szem előtt tartva a vállalat bejelentette, hogy partnerséget kötött a texasi székhelyű Apptronikkal, hogy „a Gemini 2.0-val megépítsék a humanoid robotok következő generációját”. Bár elsősorban az ALOHA 2 nevű kétkezi robotplatformon képezték ki, a Google szerint a Gemini Robotics különböző robottípusokat képes irányítani, a kutatás-orientált Franka robotkaroktól kezdve az Apptronik Apollo robotjához hasonló összetettebb humanoid rendszerekig.


Bár a humanoid robotok megközelítése viszonylag új alkalmazása a Google generatív MI-modelljeinek, érdemes megjegyezni, hogy a Google korábban, 2013-2014 körül több robotikai céget is felvásárolt (köztük a humanoid robotokat gyártó Boston Dynamicsot), de később eladta őket. Az Apptronikkal való új partnerség inkább tűnik a humanoid robotika új megközelítésének, mint e korábbi erőfeszítések közvetlen folytatásának.

Más cégek is keményen dolgoznak a humanoid robotok hardverén, mint például a Figure AI (amely 2024 márciusában jelentős finanszírozást gyüjtött humanoid robotjaihoz) és a már említett korábbi Alphabet leányvállalat, a Boston Dynamics (amely tavaly áprilisban mutatta be új Atlas robotját), de egyelőre nem született egy robotokat valóban hasznossá tevő MI „vezérlő”. Ezen a fronton a Google egy tesztelői programon keresztül korlátozott hozzáférést biztosított a Gemini Robotics-ER-hez olyan cégeknek, mint a Boston Dynamics, az Agility Robotics és az Enchanted Tools.


A biztonsági megfontolások tekintetében a Google „többszintű, holisztikus megközelítést” említ, amely fenntartja a hagyományos robotbiztonsági intézkedéseket, mint például az ütközéselkerülés és az erőhatárok. A vállalat leírja, hogy kifejlesztett egy „Robot Alkotmány” keretrendszert, amelyet Isaac Asimov három robotikai törvénye ihletett, és kiad egy „ASIMOV” nevű adathalmazt, amely nem meglepő módon segít a kutatóknak a robotok tevékenységeinek biztonsági következményeit értékelni.

Ez az új ASIMOV-adatkészlet a Google kísérletét jelenti arra, hogy a fizikai sérülések megelőzésén túl szabványosított módszereket hozzon létre a robotok biztonságának értékelésére. Az adatkészlet célja, hogy segítsen a kutatóknak tesztelni, hogy a mesterséges intelligencia modellek mennyire jól értik meg a robotok által különböző forgatókönyvekben végrehajtott cselekvések lehetséges következményeit. A Google közleménye szerint az adatkészlet „segíteni fogja a kutatókat abban, hogy szigorúan mérni tudják a robotok által végzett cselekvések biztonsági következményeit valós helyzetekben”. A vállalat nem jelentette be a rendelkezésre állási határidőket vagy az új mesterséges intelligencia modellek konkrét kereskedelmi alkalmazásait, mert továbbra is kutatási fázisban vannak. Bár a Google által megosztott demóvideók a mesterséges intelligencia által vezérelt képességek fejlődését mutatják, a kontrollált kutatási környezetek még mindig nyitva hagynak kérdéseket azzal kapcsolatban, hogy ezek a rendszerek hogyan működnének kiszámíthatatlan valós körülmények között.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
Nem érkezett még hozzászólás. Legyél Te az első!