Berta Sándor
A robotoknál is beválhat a pozitív megerősítés
Az elsősorban a kutyáknál alkalmazott módszer hatékony lehet a gépeknél is.
A Johns Hopkins Egyetem kutatói kimutatták, hogy egy kizárólag pozitív megerősítéssel lefolytatott tanítás ugyanolyan jó lehet a robotok esetében is, mint például a kutyáknál. Az elvégzett tesztek ugyanis alátámasztották, hogy a Spot nevű gép a pozitív megerősítés alkalmazása mellett sokkal gyorsabban tudott tanulni. A módszer megfelelő használatára egy algoritmus ügyelt. A kedvező eredmények különösen azért fontosak, mert gyakori, hogy a robotoknak bizonyos esetekben viszonylag gyorsan kell megtanulniuk az összetett feladatokat megoldását.
Andrew Hundt doktorandusz elmondta, hogy a gépek kísérletek és tévedések segítségével tanulnak, de a cél az, hogy ezt lehetőleg minél hatékonyabban tegyék. Az új algoritmus megalkotásakor Hundt a kutyáknál alkalmazott pozitív megerősítéses módszert vette alapul. Az algoritmus számos ponttal jutalmazza a robotot, ha jól old meg a feladatot, de semmit sem ad, ha hibázik. A doktorandusz szerint miután a gép minél több pontot akar szerezni, így gyorsan megtanulja a megfelelő viselkedést. Az eljárást először egy szimulált, majd egy valódi robot bevonásával tesztelték.
Hundt hozzátette, hogy eddig a gépeknél egy hónapig tartott, amíg sikerült egy feladat megoldásánál elérni a 100 százalékos pontosságot. Az új eljárással ezt az időt sikerült 2 napra csökkenteni. Ráadásul Spot más képességeket is gyorsan megtanult, többek között azt, hogy miként játsszon egy szimulált navigációs játékkal.
A Johns Hopkins Egyetem kutatói kimutatták, hogy egy kizárólag pozitív megerősítéssel lefolytatott tanítás ugyanolyan jó lehet a robotok esetében is, mint például a kutyáknál. Az elvégzett tesztek ugyanis alátámasztották, hogy a Spot nevű gép a pozitív megerősítés alkalmazása mellett sokkal gyorsabban tudott tanulni. A módszer megfelelő használatára egy algoritmus ügyelt. A kedvező eredmények különösen azért fontosak, mert gyakori, hogy a robotoknak bizonyos esetekben viszonylag gyorsan kell megtanulniuk az összetett feladatokat megoldását.
Andrew Hundt doktorandusz elmondta, hogy a gépek kísérletek és tévedések segítségével tanulnak, de a cél az, hogy ezt lehetőleg minél hatékonyabban tegyék. Az új algoritmus megalkotásakor Hundt a kutyáknál alkalmazott pozitív megerősítéses módszert vette alapul. Az algoritmus számos ponttal jutalmazza a robotot, ha jól old meg a feladatot, de semmit sem ad, ha hibázik. A doktorandusz szerint miután a gép minél több pontot akar szerezni, így gyorsan megtanulja a megfelelő viselkedést. Az eljárást először egy szimulált, majd egy valódi robot bevonásával tesztelték.
Hundt hozzátette, hogy eddig a gépeknél egy hónapig tartott, amíg sikerült egy feladat megoldásánál elérni a 100 százalékos pontosságot. Az új eljárással ezt az időt sikerült 2 napra csökkenteni. Ráadásul Spot más képességeket is gyorsan megtanult, többek között azt, hogy miként játsszon egy szimulált navigációs játékkal.