Berta Sándor
Silent Speech - hangtalan társalgás a számítógéppel
Tanja Schultz 15 éve foglalkozik beszédfelismerő rendszerekkel. Legújabb programja szinte hangtalanul képes kommunikálni a számítógépekkel, elegendő, ha a felhasználó csak tátog.
A Silent Speech Interface lényege, hogy az emberek beszédmozgásával kapcsolatos izommozdulatokat figyeli és azok alapján értelmezi a hangtalanul közölt szavakat. A program lehetővé teheti, hogy valaki úgy telefonáljon például a mobilján, hogy közben ezzel nem zavar másokat vagy hogy egy gégerákban szenvedő ember újra beszélni tudjon.
Tanja Schultz a Karlsruhei Technológiai Intézet (KIT) Antropomatikai Intézetéhez tartozó Kognitív Rendszerek Tanszékén dolgozik. Az intézményt februárban alapították, összesen 120 kutatója van, akik 7 csoportban dolgoznak. Schultz szakterületének az emberi biojeleken alapuló technológiák és alkalmazások számítanak, ide értve az izom- és agyi tevékenységen alapuló beszédfelismerést és -interpretációt. Az antropomatika egy mesterséges szó, amelyet a görög anthropos (ember) és az automatikára utaló matik szavakból hoztak létre. Az antropomatika alatt az ember és a gép szimbiózisát érti a tudomány. A célja az embereken alapuló rendszerek kutatása és fejlesztése informatikai eszközök segítségével.
"A Silent Speech Interface lehetővé teszi, hogy hangtalan beszédet továbbítsunk. Az alapötlet a következő: a beszéddel kiküldött akusztikus jeleket gyakran eltorzítják a háttérzajok, például egy vonaton ülve vagy egy zsúfolt csarnokban. Éppen ezért működik annyira rosszul a beszédfelismerés hangos környezetekben. A technológia az EMG-n, vagyis az izomtevékenység elektromos jeleinek felderítésén és rögzítésén alapul. Vagyis az akusztikai jelek helyett mi ezekre építünk. Ha valaki hangtalanul mozgatja az ajkait, akkor a szájmozgásával kifejtett EMG-jeleket továbbítjuk a számítógépnek. Egy szoftver képes e jelek alakja alapján megmondani, hogy az illető melyik izma mozgott, majd pedig kiszámolja a hangot. A jeleket később beszéddé alakítja át, majd ezt egy számítógépes hang segítségével közvetíti."
"Ez a technika nem csak a beszédfelismerésben használható, hanem lehetőséget ad arra is, hogy akik egy betegség miatt nem tudnak beszélni, újra megtehessék ezt. Ilyenek lehetnek mondjuk a gégerákban szenvedők, akiknek megsérültek a hangszálaik. Ezenkívül lehetőség nyílik a hangtalan telefonálásra. Ez elsősorban olyan embereknek lehet érdekes, akiknek muszáj telefonálniuk, de nem szeretnének hangosak lenni. De szintén érdekes lehet a szoftver az elektronikus banki és más beszédinterfészt használó programok esetében is. Ha valaki a Silent Speech Interface-t használja, még a bizalmas információkat (kódokat, jelszavakat) is biztonsággal lehetne kimondani" - jelentette ki Tanja Schultz.
A szakember elmondta, hogy hat éve dolgozik ezen a projekten. Néhány esztendeje a NASA-nál korábban Chuck Jorgensen már kísérletezett a gégéhez illesztett elektródákkal és ezáltal a hangtalan beszédfelismeréssel. Jorgensen rendszere azonban csak néhány hangos parancsot tudott megkülönböztetni egymástól. A kutatók viszont több elektródát használnak és azokat nem a gégén, hanem az egész arcon, vagyis a beszédizmokhoz közelebb helyezték el. Ez utóbbinak köszönhető, hogy jobb eredményeket értek el.
* Az új interfész hibaaránya erősen függ a viselőtől és attól, hogy az illető mennyire jól vagy rosszul artikulál. A jól artikulálóknál a hibaarány 5-10 százalék, az átlagos hibaarány pedig 100 szó esetében 10-20 százalékos. A rendszert tesztelték már kínai és német nyelvű embereknél is, valamint hamarosan kezdődnek a japán tesztek, de a technológiai gyakorlatilag nyelvfüggetlen.
"A technológia jelenleg még kiforratlan, ráadásul az embereket zavarja is, ha kábelekkel az arcukon kell beszélniük. Ez a megoldás nem túl szép, de kétségtelenül számos előnye van. Bízom ugyanakkor abban, hogy a szenzortechnológia tovább fog fejlődni. Már most vannak kísérletek emberi szervezetbe ültethető EMG-elektródákkal. Az elektródák a jövőben még kisebbek lesznek; eljön az idő, amikor majd egyszerűen beinjekciózhatjuk őket."
"Mindenesetre több fejlődési irány is lehetséges. Egyrészt problémáink vannak az elektródák újrapozícionálásával. Ez azt jelenti, hogy ha valaki leveszi, majd újra felveszi a szenzorokat, akkor megváltozhat a jel, mivel az érzékelő nem ugyanabba a pozícióba került vissza. Ezért dolgozunk egy kompenzációs eljáráson, amely már most viszonylag eredményes. Emellett bővíteni akarjuk a szoftver által ismert szókincset is. A jelenlegi adatbázisa ugyanis ezer szót tartalmaz és a határ most 10 000 szónál van. Továbbá meg kell oldanunk a személyre szabottság problémáját, jelenleg ugyanis ha a rendszert egy emberen teszteljük, akkor később egy másik személynél már nem kapunk olyan jó jeleket. Fontos, hogy a megoldás minden embernél ugyanúgy működjön" - hangsúlyozta Tanja Schultz.
A kutatónő leszögezte, hogy a KIT-nél a kutatások mellett egy külön intézet foglalkozik azzal is, hogy milyen következményekkel járhat a technika bevezetése és alkalmazása. Ez egy nagyon fontos téma. Ha ugyanis valaki valóban adaptálható rendszereket fejleszt, akkor foglalkoznia kell azzal is, hogy ezeknek milyen morális, etikai és szociális következményei lehetnek a társadalomra nézve. Ugyanakkor fel kell ismerni azt is, hogy egy gép csak akkor hasznos, ha képes alkalmazkodni az emberi igényekhez. Napjainkban nagyon sok technika vesz körül minket, de nagyon sok időt és energiát fordítunk arra, hogy ezeket a saját igényeinkhez igazítsuk. Valójában viszont ennek fordítva kellene lennie: a technikának kellene tudnia, hogy mit akarunk és ahhoz kellene megfelelő szolgáltatásokat kínálnia.
A technológiát bemutató videó
A Silent Speech Interface lényege, hogy az emberek beszédmozgásával kapcsolatos izommozdulatokat figyeli és azok alapján értelmezi a hangtalanul közölt szavakat. A program lehetővé teheti, hogy valaki úgy telefonáljon például a mobilján, hogy közben ezzel nem zavar másokat vagy hogy egy gégerákban szenvedő ember újra beszélni tudjon.
Tanja Schultz a Karlsruhei Technológiai Intézet (KIT) Antropomatikai Intézetéhez tartozó Kognitív Rendszerek Tanszékén dolgozik. Az intézményt februárban alapították, összesen 120 kutatója van, akik 7 csoportban dolgoznak. Schultz szakterületének az emberi biojeleken alapuló technológiák és alkalmazások számítanak, ide értve az izom- és agyi tevékenységen alapuló beszédfelismerést és -interpretációt. Az antropomatika egy mesterséges szó, amelyet a görög anthropos (ember) és az automatikára utaló matik szavakból hoztak létre. Az antropomatika alatt az ember és a gép szimbiózisát érti a tudomány. A célja az embereken alapuló rendszerek kutatása és fejlesztése informatikai eszközök segítségével.
"A Silent Speech Interface lehetővé teszi, hogy hangtalan beszédet továbbítsunk. Az alapötlet a következő: a beszéddel kiküldött akusztikus jeleket gyakran eltorzítják a háttérzajok, például egy vonaton ülve vagy egy zsúfolt csarnokban. Éppen ezért működik annyira rosszul a beszédfelismerés hangos környezetekben. A technológia az EMG-n, vagyis az izomtevékenység elektromos jeleinek felderítésén és rögzítésén alapul. Vagyis az akusztikai jelek helyett mi ezekre építünk. Ha valaki hangtalanul mozgatja az ajkait, akkor a szájmozgásával kifejtett EMG-jeleket továbbítjuk a számítógépnek. Egy szoftver képes e jelek alakja alapján megmondani, hogy az illető melyik izma mozgott, majd pedig kiszámolja a hangot. A jeleket később beszéddé alakítja át, majd ezt egy számítógépes hang segítségével közvetíti."
"Ez a technika nem csak a beszédfelismerésben használható, hanem lehetőséget ad arra is, hogy akik egy betegség miatt nem tudnak beszélni, újra megtehessék ezt. Ilyenek lehetnek mondjuk a gégerákban szenvedők, akiknek megsérültek a hangszálaik. Ezenkívül lehetőség nyílik a hangtalan telefonálásra. Ez elsősorban olyan embereknek lehet érdekes, akiknek muszáj telefonálniuk, de nem szeretnének hangosak lenni. De szintén érdekes lehet a szoftver az elektronikus banki és más beszédinterfészt használó programok esetében is. Ha valaki a Silent Speech Interface-t használja, még a bizalmas információkat (kódokat, jelszavakat) is biztonsággal lehetne kimondani" - jelentette ki Tanja Schultz.
A szakember elmondta, hogy hat éve dolgozik ezen a projekten. Néhány esztendeje a NASA-nál korábban Chuck Jorgensen már kísérletezett a gégéhez illesztett elektródákkal és ezáltal a hangtalan beszédfelismeréssel. Jorgensen rendszere azonban csak néhány hangos parancsot tudott megkülönböztetni egymástól. A kutatók viszont több elektródát használnak és azokat nem a gégén, hanem az egész arcon, vagyis a beszédizmokhoz közelebb helyezték el. Ez utóbbinak köszönhető, hogy jobb eredményeket értek el.
* Az új interfész hibaaránya erősen függ a viselőtől és attól, hogy az illető mennyire jól vagy rosszul artikulál. A jól artikulálóknál a hibaarány 5-10 százalék, az átlagos hibaarány pedig 100 szó esetében 10-20 százalékos. A rendszert tesztelték már kínai és német nyelvű embereknél is, valamint hamarosan kezdődnek a japán tesztek, de a technológiai gyakorlatilag nyelvfüggetlen.
"A technológia jelenleg még kiforratlan, ráadásul az embereket zavarja is, ha kábelekkel az arcukon kell beszélniük. Ez a megoldás nem túl szép, de kétségtelenül számos előnye van. Bízom ugyanakkor abban, hogy a szenzortechnológia tovább fog fejlődni. Már most vannak kísérletek emberi szervezetbe ültethető EMG-elektródákkal. Az elektródák a jövőben még kisebbek lesznek; eljön az idő, amikor majd egyszerűen beinjekciózhatjuk őket."
"Mindenesetre több fejlődési irány is lehetséges. Egyrészt problémáink vannak az elektródák újrapozícionálásával. Ez azt jelenti, hogy ha valaki leveszi, majd újra felveszi a szenzorokat, akkor megváltozhat a jel, mivel az érzékelő nem ugyanabba a pozícióba került vissza. Ezért dolgozunk egy kompenzációs eljáráson, amely már most viszonylag eredményes. Emellett bővíteni akarjuk a szoftver által ismert szókincset is. A jelenlegi adatbázisa ugyanis ezer szót tartalmaz és a határ most 10 000 szónál van. Továbbá meg kell oldanunk a személyre szabottság problémáját, jelenleg ugyanis ha a rendszert egy emberen teszteljük, akkor később egy másik személynél már nem kapunk olyan jó jeleket. Fontos, hogy a megoldás minden embernél ugyanúgy működjön" - hangsúlyozta Tanja Schultz.
A kutatónő leszögezte, hogy a KIT-nél a kutatások mellett egy külön intézet foglalkozik azzal is, hogy milyen következményekkel járhat a technika bevezetése és alkalmazása. Ez egy nagyon fontos téma. Ha ugyanis valaki valóban adaptálható rendszereket fejleszt, akkor foglalkoznia kell azzal is, hogy ezeknek milyen morális, etikai és szociális következményei lehetnek a társadalomra nézve. Ugyanakkor fel kell ismerni azt is, hogy egy gép csak akkor hasznos, ha képes alkalmazkodni az emberi igényekhez. Napjainkban nagyon sok technika vesz körül minket, de nagyon sok időt és energiát fordítunk arra, hogy ezeket a saját igényeinkhez igazítsuk. Valójában viszont ennek fordítva kellene lennie: a technikának kellene tudnia, hogy mit akarunk és ahhoz kellene megfelelő szolgáltatásokat kínálnia.
A technológiát bemutató videó