Berta Sándor
Edzőtábor robotoknak
A gépek tanítása egyre átfogóbb folyamatot jelent.
A 26 éves doktorandusz, Elvis Nava, az ETH Zürich Mesterséges Intelligencia Központjának, Neuroinformatikai Tanszékének és Lágy Robotika Laboratóriumának a munkatársa a robotokat szóbeli vagy írásbeli parancsok végrehajtására tanítja. Ehhez egy edzőtáborba küldi a gépeket, ahol megtanulják a kép, a szöveg és a mozgásadatok ötvözését. A "lágy robotika" keretében a természettől „kölcsönzött” technológiák teljesen új lendületet adnak a robotika számára. Ezen új technológia alapját a merev anyagok és a darabos mozgások helyett puha, szerves struktúrák és a természetben előforduló mozgások imitációja jelenti.
Egy fehér robotkéz az ETH Zürich Lágy Robotika Laboratóriumában a sörösdoboz után nyúl, felemeli és az asztal másik végén álló pohár fölé vezeti azt, ahol óvatosan jobbra fordítja a kannát és az aranysárga tartalom buborékosan és kiömlés nélkül folyik a pohárba. A robotkezet a Faive Robotics startup fejlesztette ki, az emberi kéz mozgását utánozza és Elvis Nava teszteli. A szakember egy kamerával és érzékelőkkel felszerelt felület fölé tartja a kezét. A robotkéz azt teszi, amit Nava: ha ő széttárja az ujjait, a robotéi is szétnyílnak, ha pedig rámutat valamire, akkor a robotkéz is követi a példát. De ez csak a kezdet. "A jövőben ennek anélkül is működnie kell, hogy megmondanánk a robotnak, hogy pontosan mit csináljon" - mondta a doktorandusz, aki arra is meg akarja tanítani a gépeket, hogy írásos vagy szóbeli utasításokat hajtsanak végre. Olyan okossá akarja tenni a robotokat, hogy képesek legyenek megérteni az embereket, segíteni nekik a különböző feladatokban és gyorsan megtanulni új készségeket.
Míg ma még általában szükség van egy programozó konkrét utasításaira, a jövőben elegendők lesznek az olyan parancsok, mint a "Önts nekem egy sört" vagy "Add ide az almát". E cél elérése érdekében Nava tavaly ösztöndíjat kapott az ETH Zürich Mesterséges Intelligencia Központjától, amelynek a programja olyan tehetségeket támogat, akik hidakat építenek a különböző kutatási tudományágak között és ezáltal új mesterséges intelligencia alkalmazásokat fejlesztenek ki.
De hogyan lehet megtanítani egy gépet parancsokat végrehajtani? Hogyan néz ki a mesterséges intelligencia és a robotika kombinációja? Ehhez meg kell értenie, hogyan működik az emberi agy. A környezetünket különböző érzékszervi ingerek kombinálásával érzékeljük. Az agyunk általában könnyedén integrálja a képeket, hangokat, szagokat, ízeket és tapintási ingereket egy koherens összképpé. Ez a képesség teszi lehetővé az emberek számára, hogy gyorsan alkalmazkodjanak az új helyzetekhez. Intuitív módon felismerjük, hogyan alkalmazzuk a tanultakat az ismeretlen feladatok elsajátítása érdekében.
"A számítógépek és a robotok gyakran még mindig nem rendelkeznek ezzel a képességgel" - magyarázza Nava, aki a milánói tanulmányai után az ETH Zürichbe érkezett, hogy az adattudományi mesterképzést elvégezze. A gépi tanulásnak köszönhetően a számítógépes programok ma már szövegeket írnak, beszélgetéseket folytatnak és képeket rajzolnak, a robotok pedig gyorsan és önállóan mozognak nehéz terepen is. A mögöttük álló tanulási algoritmusok azonban általában csak egy adatforráson alapulnak, informatikai szakzsargonnal élve nem multimodálisak.
Nava számára ez egy döntő akadály az intelligensebb gépek felé vezető úton. A doktorandusz kiemelte: "Az algoritmusokat gyakran csak egy feladatkörre képzik ki nagy online adathalmazok segítségével: a nyelvfeldolgozó modellek képesek nyelvtanilag helyesen használni a 'macska' szót, de azt nem tudják, hogyan néz ki egy macska. A robotok pedig képesek hatékonyan navigálni a nehéz terepen, de általában nem képesek felismerni a nyelvet és a képeket. A mi szakterületünkön néhány évente változik az elképzelés arról, hogy mit jelent felfedezőnek lenni." A szakember ezért olyan tanulási algoritmusokat fejleszt a gépek számára, amelyeknek éppen erre kellene képeseknek lenniük: összekapcsolni a különböző forrásokból származó információkat. "Amikor azt mondom a robotkarnak, hogy „add ide az almát az asztalról”, akkor az alma szót az alma vizuális tulajdonságaival kell összekapcsolnia. Fel kell ismernie az asztalnál lévő almát is és tudnia kell, hogyan nyúljon érte" - ecsetelte Nava.
De hogyan tanítja meg a kutató mindezt a robotkarnak? Némileg leegyszerűsítve Nava egy kétlépcsős edzőtáborba küldi a gépet. A robot egyfajta óvodában először olyan általános készségeket tanul meg, mint a beszéd- és képfelismerés, valamint az egyszerű kézmozdulatok. Ezekre a képességekre már léteznek nyilvánosan elérhető modellek, amelyeket hatalmas szöveges, képi vagy videós adathalmazok felhasználásával képeztek ki. A kutatók például "kutya" vagy "macska" feliratú képek ezreivel táplálnak egy képfelismerő algoritmust. Az algoritmus ezután magától megtanulja, hogy mely jellemzők - ebben az esetben a pixelstruktúrák - alkotják a kutya- vagy macskaképeket.
A doktorandusz feladata most az, hogy a rendelkezésre álló legjobb modelleket egy új tanulási algoritmusban kombinálja. Ennek különböző adatokat, például képeket, szövegeket vagy térbeli információkat kell a robotkar számára egységes parancsnyelvre fordítania. "A 'sör' szót és a 'sör' feliratú képeket ugyanaz a vektor reprezentálja a modellben" - foglalta össze az ETH Zürich munkatársa. Így a robot tudja, hogy mi után kell nyúlnia, amikor azt a feladatot kapja: "Önts nekem egy sört".
A mesterséges intelligenciával intenzívebben foglalkozó tudósok egy ideje már tudják, hogy ígéretes lenne a különböző adatforrások és modellek integrálása. A megfelelő modellek azonban csak a közelmúltban váltak nyilvánosan hozzáférhetővé. Ráadásul ma már elegendő számítási teljesítmény áll rendelkezésre ahhoz, hogy ezek együtt tudjanak működni. Amikor Nava ezekről a dolgokról beszél, akkor azok egyszerűnek és intuitívnak tűnnek. Ez azonban csalóka: "Nem elég csak a legújabb modelleket nagyon jól ismerni. Néha inkább művészet, mint tudomány, hogy ezek együttműködjenek" - taglalta. Az ilyen trükkös problémák különösen izgalmasak a számára. Órákig képes dolgozni rajtuk, újra és újra új megoldásokat kipróbálva.
Miután a robotkar átment az óvodán és megtanult nyelvet érteni, képeket felismerni és egyszerű mozdulatokat végrehajtani, Nava speciális képzésre küldi. Itt például a gép megtanulja utánozni az emberi kéz mozdulatait, amikor sört tölt. "Mivel nagyon speciális mozgássorozatokkal van dolgunk, már nem elegendő a már létező modellekre támaszkodni" - hangsúlyozta a doktorandusz. Az ETH Zürich munkatársa az algoritmusnak videofelvételeket mutat egy sört töltő kézről. Néhány példa alapján a robot megpróbálja utánozni ezt a mozgást. Ennek során az összes olyan mozgásra támaszkodik, amelyet már az óvodában megtanult. Amennyiben a robotkar egyáltalán nem rendelkezne előzetes ismeretekkel, egyszerűen nem lenne képes ilyen összetett mozdulatsort utánozni.
"Amennyiben a gép úgy tölti ki a sört, hogy semmit sem önt ki, akkor azt mondjuk a tanuló algoritmusnak, hogy "jól van", és az megjegyzi ezt a mozdulatsort" - szögezte le Nava. Ezt az eljárást a szakzsargonban megerősítő tanulásnak nevezik. Ezzel a kétlépcsős tanulási stratégiával Nava egy apró lépéssel közelebb szeretne kerülni az intelligens robot álmához. Azt, hogy ez meddig viszi majd, ő maga sem tudja még pontosan. "Nem világos, hogy a gépek ezzel a megközelítéssel olyan feladatokat is el tudnak-e majd végezni, amelyeket korábban nem mutattunk meg nekik" - mutatott rá a szakember.
Sokkal valószínűbbek azonban a robotizált segítők, amelyek szóbeli parancsokat hajtanak végre és olyan feladatokat végeznek, amelyeket már ismernek, vagy amelyek nagyon hasonlítanak hozzájuk. Az, hogy mennyi időbe telik, amíg az ilyen alkalmazásokat az ápolásban, az építőiparban vagy más területeken alkalmazzák, arra Nava nem mer válaszolni, mert a mesterséges intelligencia területén a fejlődés túl gyors és kiszámíthatatlan. Ő maga örülne, ha - miután erre szépen megkérte - a robotkéz valóban odaadná neki a sört, miután megvédte a disszertációját.
A 26 éves doktorandusz, Elvis Nava, az ETH Zürich Mesterséges Intelligencia Központjának, Neuroinformatikai Tanszékének és Lágy Robotika Laboratóriumának a munkatársa a robotokat szóbeli vagy írásbeli parancsok végrehajtására tanítja. Ehhez egy edzőtáborba küldi a gépeket, ahol megtanulják a kép, a szöveg és a mozgásadatok ötvözését. A "lágy robotika" keretében a természettől „kölcsönzött” technológiák teljesen új lendületet adnak a robotika számára. Ezen új technológia alapját a merev anyagok és a darabos mozgások helyett puha, szerves struktúrák és a természetben előforduló mozgások imitációja jelenti.
Egy fehér robotkéz az ETH Zürich Lágy Robotika Laboratóriumában a sörösdoboz után nyúl, felemeli és az asztal másik végén álló pohár fölé vezeti azt, ahol óvatosan jobbra fordítja a kannát és az aranysárga tartalom buborékosan és kiömlés nélkül folyik a pohárba. A robotkezet a Faive Robotics startup fejlesztette ki, az emberi kéz mozgását utánozza és Elvis Nava teszteli. A szakember egy kamerával és érzékelőkkel felszerelt felület fölé tartja a kezét. A robotkéz azt teszi, amit Nava: ha ő széttárja az ujjait, a robotéi is szétnyílnak, ha pedig rámutat valamire, akkor a robotkéz is követi a példát. De ez csak a kezdet. "A jövőben ennek anélkül is működnie kell, hogy megmondanánk a robotnak, hogy pontosan mit csináljon" - mondta a doktorandusz, aki arra is meg akarja tanítani a gépeket, hogy írásos vagy szóbeli utasításokat hajtsanak végre. Olyan okossá akarja tenni a robotokat, hogy képesek legyenek megérteni az embereket, segíteni nekik a különböző feladatokban és gyorsan megtanulni új készségeket.
Míg ma még általában szükség van egy programozó konkrét utasításaira, a jövőben elegendők lesznek az olyan parancsok, mint a "Önts nekem egy sört" vagy "Add ide az almát". E cél elérése érdekében Nava tavaly ösztöndíjat kapott az ETH Zürich Mesterséges Intelligencia Központjától, amelynek a programja olyan tehetségeket támogat, akik hidakat építenek a különböző kutatási tudományágak között és ezáltal új mesterséges intelligencia alkalmazásokat fejlesztenek ki.
De hogyan lehet megtanítani egy gépet parancsokat végrehajtani? Hogyan néz ki a mesterséges intelligencia és a robotika kombinációja? Ehhez meg kell értenie, hogyan működik az emberi agy. A környezetünket különböző érzékszervi ingerek kombinálásával érzékeljük. Az agyunk általában könnyedén integrálja a képeket, hangokat, szagokat, ízeket és tapintási ingereket egy koherens összképpé. Ez a képesség teszi lehetővé az emberek számára, hogy gyorsan alkalmazkodjanak az új helyzetekhez. Intuitív módon felismerjük, hogyan alkalmazzuk a tanultakat az ismeretlen feladatok elsajátítása érdekében.
"A számítógépek és a robotok gyakran még mindig nem rendelkeznek ezzel a képességgel" - magyarázza Nava, aki a milánói tanulmányai után az ETH Zürichbe érkezett, hogy az adattudományi mesterképzést elvégezze. A gépi tanulásnak köszönhetően a számítógépes programok ma már szövegeket írnak, beszélgetéseket folytatnak és képeket rajzolnak, a robotok pedig gyorsan és önállóan mozognak nehéz terepen is. A mögöttük álló tanulási algoritmusok azonban általában csak egy adatforráson alapulnak, informatikai szakzsargonnal élve nem multimodálisak.
Nava számára ez egy döntő akadály az intelligensebb gépek felé vezető úton. A doktorandusz kiemelte: "Az algoritmusokat gyakran csak egy feladatkörre képzik ki nagy online adathalmazok segítségével: a nyelvfeldolgozó modellek képesek nyelvtanilag helyesen használni a 'macska' szót, de azt nem tudják, hogyan néz ki egy macska. A robotok pedig képesek hatékonyan navigálni a nehéz terepen, de általában nem képesek felismerni a nyelvet és a képeket. A mi szakterületünkön néhány évente változik az elképzelés arról, hogy mit jelent felfedezőnek lenni." A szakember ezért olyan tanulási algoritmusokat fejleszt a gépek számára, amelyeknek éppen erre kellene képeseknek lenniük: összekapcsolni a különböző forrásokból származó információkat. "Amikor azt mondom a robotkarnak, hogy „add ide az almát az asztalról”, akkor az alma szót az alma vizuális tulajdonságaival kell összekapcsolnia. Fel kell ismernie az asztalnál lévő almát is és tudnia kell, hogyan nyúljon érte" - ecsetelte Nava.
De hogyan tanítja meg a kutató mindezt a robotkarnak? Némileg leegyszerűsítve Nava egy kétlépcsős edzőtáborba küldi a gépet. A robot egyfajta óvodában először olyan általános készségeket tanul meg, mint a beszéd- és képfelismerés, valamint az egyszerű kézmozdulatok. Ezekre a képességekre már léteznek nyilvánosan elérhető modellek, amelyeket hatalmas szöveges, képi vagy videós adathalmazok felhasználásával képeztek ki. A kutatók például "kutya" vagy "macska" feliratú képek ezreivel táplálnak egy képfelismerő algoritmust. Az algoritmus ezután magától megtanulja, hogy mely jellemzők - ebben az esetben a pixelstruktúrák - alkotják a kutya- vagy macskaképeket.
A doktorandusz feladata most az, hogy a rendelkezésre álló legjobb modelleket egy új tanulási algoritmusban kombinálja. Ennek különböző adatokat, például képeket, szövegeket vagy térbeli információkat kell a robotkar számára egységes parancsnyelvre fordítania. "A 'sör' szót és a 'sör' feliratú képeket ugyanaz a vektor reprezentálja a modellben" - foglalta össze az ETH Zürich munkatársa. Így a robot tudja, hogy mi után kell nyúlnia, amikor azt a feladatot kapja: "Önts nekem egy sört".
A mesterséges intelligenciával intenzívebben foglalkozó tudósok egy ideje már tudják, hogy ígéretes lenne a különböző adatforrások és modellek integrálása. A megfelelő modellek azonban csak a közelmúltban váltak nyilvánosan hozzáférhetővé. Ráadásul ma már elegendő számítási teljesítmény áll rendelkezésre ahhoz, hogy ezek együtt tudjanak működni. Amikor Nava ezekről a dolgokról beszél, akkor azok egyszerűnek és intuitívnak tűnnek. Ez azonban csalóka: "Nem elég csak a legújabb modelleket nagyon jól ismerni. Néha inkább művészet, mint tudomány, hogy ezek együttműködjenek" - taglalta. Az ilyen trükkös problémák különösen izgalmasak a számára. Órákig képes dolgozni rajtuk, újra és újra új megoldásokat kipróbálva.
Miután a robotkar átment az óvodán és megtanult nyelvet érteni, képeket felismerni és egyszerű mozdulatokat végrehajtani, Nava speciális képzésre küldi. Itt például a gép megtanulja utánozni az emberi kéz mozdulatait, amikor sört tölt. "Mivel nagyon speciális mozgássorozatokkal van dolgunk, már nem elegendő a már létező modellekre támaszkodni" - hangsúlyozta a doktorandusz. Az ETH Zürich munkatársa az algoritmusnak videofelvételeket mutat egy sört töltő kézről. Néhány példa alapján a robot megpróbálja utánozni ezt a mozgást. Ennek során az összes olyan mozgásra támaszkodik, amelyet már az óvodában megtanult. Amennyiben a robotkar egyáltalán nem rendelkezne előzetes ismeretekkel, egyszerűen nem lenne képes ilyen összetett mozdulatsort utánozni.
"Amennyiben a gép úgy tölti ki a sört, hogy semmit sem önt ki, akkor azt mondjuk a tanuló algoritmusnak, hogy "jól van", és az megjegyzi ezt a mozdulatsort" - szögezte le Nava. Ezt az eljárást a szakzsargonban megerősítő tanulásnak nevezik. Ezzel a kétlépcsős tanulási stratégiával Nava egy apró lépéssel közelebb szeretne kerülni az intelligens robot álmához. Azt, hogy ez meddig viszi majd, ő maga sem tudja még pontosan. "Nem világos, hogy a gépek ezzel a megközelítéssel olyan feladatokat is el tudnak-e majd végezni, amelyeket korábban nem mutattunk meg nekik" - mutatott rá a szakember.
Sokkal valószínűbbek azonban a robotizált segítők, amelyek szóbeli parancsokat hajtanak végre és olyan feladatokat végeznek, amelyeket már ismernek, vagy amelyek nagyon hasonlítanak hozzájuk. Az, hogy mennyi időbe telik, amíg az ilyen alkalmazásokat az ápolásban, az építőiparban vagy más területeken alkalmazzák, arra Nava nem mer válaszolni, mert a mesterséges intelligencia területén a fejlődés túl gyors és kiszámíthatatlan. Ő maga örülne, ha - miután erre szépen megkérte - a robotkéz valóban odaadná neki a sört, miután megvédte a disszertációját.