Berta Sándor
Titkos parancsokkal manipulálhatók a virtuális asszisztensek
Kimondott mondatok, madárhangok és zenék egyaránt felhasználhatók a szolgáltatások félrevezetésére.
A Ruhr Egyetem tudósai azt vizsgálták, hogy mennyire könnyű kijátszani a különböző virtuális asszisztenseket. A szakembereknek sikerült a Kaldi nevű beszédfelismerő rendszerbe titkos parancsokat becsempészniük. A problémát azt jelenti, hogy a módosított hangokat az emberi fül nem tudja felfedezni és kiszűrni, viszont a gépek nagyon is jól felismerik azokat.
A vizsgálatokat végző kutatócsoport tagja volt Lea Schönherr, Dorothea Kolossa professzor és Thorsten Holz professzor, mindannyian a Ruhr Egyetem IT-biztonsági Intézetének munkatársai. Thorsten Holz elmondta, hogy e hiba kihasználható például az online megrendeléseknél alkalmazott virtuális asszisztensek esetében. Ezeknél lehetőség lenne arra, hogy a szakemberek egy rádióban lejátszott zeneszámot úgy manipuláljanak, hogy az azt a parancsot tartalmazza, hogy az adott asszisztens vásároljon meg egy bizonyos terméket a világhálón. Hasonló támadásokra néhány évvel ezelőtt már sor került a képfelismerő szoftverek esetében.
Ahhoz, hogy a parancsokat be lehessen építeni az audiojelekbe, a kutatók a hallás pszichoakusztikus modelljét alkalmazták. Ezzel kapcsolatban Dorothea Kolossa kifejtette, ha az agyunk azzal van elfoglalva, hogy egy meghallott frekvencia egyik hangját dolgozza fel, akkor e frekvencián néhány ezredmásodpercig más, halkabb hangokat már nem tud érzékelni. Ezt használják ki például az MP3 formátumnál is, hiszen a nem hallható tartományokat törlik, ezáltal lehet az MP3-as fájlok méretét csökkenteni.
A szakemberek pont ezeken a területeken rejtették el a titkos parancsokat a virtuális asszisztens számára. A beillesztett hangok az embereknek zörejeknek tűnnek és alig, vagy egyáltalán nem észlelik azokat. A gépeknek viszont nagyon is világos parancsok. Ahhoz, hogy egy 10 másodperc hosszúságú audiofájlt manipulált információkkal lássanak el, csupán kevesebb, mint két percre van szükség. Ez pedig azt jelenti, hogy a módszer sokkal gyorsabb, mint a korábban leírt, beszédfelismerő rendszerek elleni más támadási formák.
Eddig a tudósok a módosított fájlokat közvetlenül a Kaldiba integrálták. A jövőben be akarják mutatni, hogy a támadás akkor is működik, ha a manipulált audiojeleket egy hangszórón keresztül játsszák le. Lea Schönherr ugyanakkor úgy vélte, hogy az utóbbi esetekben - a környezeti háttérzörejek miatt - az akciók már nem lesznek annyira hatékonyak, de akkor is sikeresek lesznek.
A jelenlegi neurális hálózatok, amelyekre a modern beszédasszisztensek épülnek, több rétegből állnak. Van a bemeneti réteg, ami az audiofájl és amit a többi réteg dolgoz fel. Az utolsó réteg generálja a kimeneti anyagot, vagyis ebben az esetben a felismert mondatot. Kolossa rámutatott, hogy a bemenet és a kimenet közötti rétegek funkciói sok alkalmazás esetében még nincsenek meghatározva, amit egy támadó kihasználhat. A cél az, hogy a virtuális asszisztenseket robusztusabbá tegyék a támadásokkal szemben.
Kolossa biztos abban, hogy vannak más lehetőségek is a titkos parancsok elrejtésére és azok más védelmi mechanizmusokat igényelnek majd. Holz hozzátette, hogy miután ezek a rendszerek most még a kényelmet szolgálják, ezért egy ilyen akció következményei jelenleg beláthatatlanok. Miután a virtuális asszisztensek egyre kifinomultabbak lesznek, ezért további védelmi mechanizmusokat kell kidolgozni.
A Ruhr Egyetem tudósai azt vizsgálták, hogy mennyire könnyű kijátszani a különböző virtuális asszisztenseket. A szakembereknek sikerült a Kaldi nevű beszédfelismerő rendszerbe titkos parancsokat becsempészniük. A problémát azt jelenti, hogy a módosított hangokat az emberi fül nem tudja felfedezni és kiszűrni, viszont a gépek nagyon is jól felismerik azokat.
A vizsgálatokat végző kutatócsoport tagja volt Lea Schönherr, Dorothea Kolossa professzor és Thorsten Holz professzor, mindannyian a Ruhr Egyetem IT-biztonsági Intézetének munkatársai. Thorsten Holz elmondta, hogy e hiba kihasználható például az online megrendeléseknél alkalmazott virtuális asszisztensek esetében. Ezeknél lehetőség lenne arra, hogy a szakemberek egy rádióban lejátszott zeneszámot úgy manipuláljanak, hogy az azt a parancsot tartalmazza, hogy az adott asszisztens vásároljon meg egy bizonyos terméket a világhálón. Hasonló támadásokra néhány évvel ezelőtt már sor került a képfelismerő szoftverek esetében.
Ahhoz, hogy a parancsokat be lehessen építeni az audiojelekbe, a kutatók a hallás pszichoakusztikus modelljét alkalmazták. Ezzel kapcsolatban Dorothea Kolossa kifejtette, ha az agyunk azzal van elfoglalva, hogy egy meghallott frekvencia egyik hangját dolgozza fel, akkor e frekvencián néhány ezredmásodpercig más, halkabb hangokat már nem tud érzékelni. Ezt használják ki például az MP3 formátumnál is, hiszen a nem hallható tartományokat törlik, ezáltal lehet az MP3-as fájlok méretét csökkenteni.
A szakemberek pont ezeken a területeken rejtették el a titkos parancsokat a virtuális asszisztens számára. A beillesztett hangok az embereknek zörejeknek tűnnek és alig, vagy egyáltalán nem észlelik azokat. A gépeknek viszont nagyon is világos parancsok. Ahhoz, hogy egy 10 másodperc hosszúságú audiofájlt manipulált információkkal lássanak el, csupán kevesebb, mint két percre van szükség. Ez pedig azt jelenti, hogy a módszer sokkal gyorsabb, mint a korábban leírt, beszédfelismerő rendszerek elleni más támadási formák.
Eddig a tudósok a módosított fájlokat közvetlenül a Kaldiba integrálták. A jövőben be akarják mutatni, hogy a támadás akkor is működik, ha a manipulált audiojeleket egy hangszórón keresztül játsszák le. Lea Schönherr ugyanakkor úgy vélte, hogy az utóbbi esetekben - a környezeti háttérzörejek miatt - az akciók már nem lesznek annyira hatékonyak, de akkor is sikeresek lesznek.
A jelenlegi neurális hálózatok, amelyekre a modern beszédasszisztensek épülnek, több rétegből állnak. Van a bemeneti réteg, ami az audiofájl és amit a többi réteg dolgoz fel. Az utolsó réteg generálja a kimeneti anyagot, vagyis ebben az esetben a felismert mondatot. Kolossa rámutatott, hogy a bemenet és a kimenet közötti rétegek funkciói sok alkalmazás esetében még nincsenek meghatározva, amit egy támadó kihasználhat. A cél az, hogy a virtuális asszisztenseket robusztusabbá tegyék a támadásokkal szemben.
Kolossa biztos abban, hogy vannak más lehetőségek is a titkos parancsok elrejtésére és azok más védelmi mechanizmusokat igényelnek majd. Holz hozzátette, hogy miután ezek a rendszerek most még a kényelmet szolgálják, ezért egy ilyen akció következményei jelenleg beláthatatlanok. Miután a virtuális asszisztensek egyre kifinomultabbak lesznek, ezért további védelmi mechanizmusokat kell kidolgozni.