Berta Sándor

Silent Speech - hangtalan társalgás a számítógéppel

Tanja Schultz 15 éve foglalkozik beszédfelismerő rendszerekkel. Legújabb programja szinte hangtalanul képes kommunikálni a számítógépekkel, elegendő, ha a felhasználó csak tátog.

A Silent Speech Interface lényege, hogy az emberek beszédmozgásával kapcsolatos izommozdulatokat figyeli és azok alapján értelmezi a hangtalanul közölt szavakat. A program lehetővé teheti, hogy valaki úgy telefonáljon például a mobilján, hogy közben ezzel nem zavar másokat vagy hogy egy gégerákban szenvedő ember újra beszélni tudjon.

Tanja Schultz a Karlsruhei Technológiai Intézet (KIT) Antropomatikai Intézetéhez tartozó Kognitív Rendszerek Tanszékén dolgozik. Az intézményt februárban alapították, összesen 120 kutatója van, akik 7 csoportban dolgoznak. Schultz szakterületének az emberi biojeleken alapuló technológiák és alkalmazások számítanak, ide értve az izom- és agyi tevékenységen alapuló beszédfelismerést és -interpretációt. Az antropomatika egy mesterséges szó, amelyet a görög anthropos (ember) és az automatikára utaló matik szavakból hoztak létre. Az antropomatika alatt az ember és a gép szimbiózisát érti a tudomány. A célja az embereken alapuló rendszerek kutatása és fejlesztése informatikai eszközök segítségével.

"A Silent Speech Interface lehetővé teszi, hogy hangtalan beszédet továbbítsunk. Az alapötlet a következő: a beszéddel kiküldött akusztikus jeleket gyakran eltorzítják a háttérzajok, például egy vonaton ülve vagy egy zsúfolt csarnokban. Éppen ezért működik annyira rosszul a beszédfelismerés hangos környezetekben. A technológia az EMG-n, vagyis az izomtevékenység elektromos jeleinek felderítésén és rögzítésén alapul. Vagyis az akusztikai jelek helyett mi ezekre építünk. Ha valaki hangtalanul mozgatja az ajkait, akkor a szájmozgásával kifejtett EMG-jeleket továbbítjuk a számítógépnek. Egy szoftver képes e jelek alakja alapján megmondani, hogy az illető melyik izma mozgott, majd pedig kiszámolja a hangot. A jeleket később beszéddé alakítja át, majd ezt egy számítógépes hang segítségével közvetíti."


"Ez a technika nem csak a beszédfelismerésben használható, hanem lehetőséget ad arra is, hogy akik egy betegség miatt nem tudnak beszélni, újra megtehessék ezt. Ilyenek lehetnek mondjuk a gégerákban szenvedők, akiknek megsérültek a hangszálaik. Ezenkívül lehetőség nyílik a hangtalan telefonálásra. Ez elsősorban olyan embereknek lehet érdekes, akiknek muszáj telefonálniuk, de nem szeretnének hangosak lenni. De szintén érdekes lehet a szoftver az elektronikus banki és más beszédinterfészt használó programok esetében is. Ha valaki a Silent Speech Interface-t használja, még a bizalmas információkat (kódokat, jelszavakat) is biztonsággal lehetne kimondani" - jelentette ki Tanja Schultz.

A szakember elmondta, hogy hat éve dolgozik ezen a projekten. Néhány esztendeje a NASA-nál korábban Chuck Jorgensen már kísérletezett a gégéhez illesztett elektródákkal és ezáltal a hangtalan beszédfelismeréssel. Jorgensen rendszere azonban csak néhány hangos parancsot tudott megkülönböztetni egymástól. A kutatók viszont több elektródát használnak és azokat nem a gégén, hanem az egész arcon, vagyis a beszédizmokhoz közelebb helyezték el. Ez utóbbinak köszönhető, hogy jobb eredményeket értek el.
* Az új interfész hibaaránya erősen függ a viselőtől és attól, hogy az illető mennyire jól vagy rosszul artikulál. A jól artikulálóknál a hibaarány 5-10 százalék, az átlagos hibaarány pedig 100 szó esetében 10-20 százalékos. A rendszert tesztelték már kínai és német nyelvű embereknél is, valamint hamarosan kezdődnek a japán tesztek, de a technológiai gyakorlatilag nyelvfüggetlen.

"A technológia jelenleg még kiforratlan, ráadásul az embereket zavarja is, ha kábelekkel az arcukon kell beszélniük. Ez a megoldás nem túl szép, de kétségtelenül számos előnye van. Bízom ugyanakkor abban, hogy a szenzortechnológia tovább fog fejlődni. Már most vannak kísérletek emberi szervezetbe ültethető EMG-elektródákkal. Az elektródák a jövőben még kisebbek lesznek; eljön az idő, amikor majd egyszerűen beinjekciózhatjuk őket."

"Mindenesetre több fejlődési irány is lehetséges. Egyrészt problémáink vannak az elektródák újrapozícionálásával. Ez azt jelenti, hogy ha valaki leveszi, majd újra felveszi a szenzorokat, akkor megváltozhat a jel, mivel az érzékelő nem ugyanabba a pozícióba került vissza. Ezért dolgozunk egy kompenzációs eljáráson, amely már most viszonylag eredményes. Emellett bővíteni akarjuk a szoftver által ismert szókincset is. A jelenlegi adatbázisa ugyanis ezer szót tartalmaz és a határ most 10 000 szónál van. Továbbá meg kell oldanunk a személyre szabottság problémáját, jelenleg ugyanis ha a rendszert egy emberen teszteljük, akkor később egy másik személynél már nem kapunk olyan jó jeleket. Fontos, hogy a megoldás minden embernél ugyanúgy működjön" - hangsúlyozta Tanja Schultz.

A kutatónő leszögezte, hogy a KIT-nél a kutatások mellett egy külön intézet foglalkozik azzal is, hogy milyen következményekkel járhat a technika bevezetése és alkalmazása. Ez egy nagyon fontos téma. Ha ugyanis valaki valóban adaptálható rendszereket fejleszt, akkor foglalkoznia kell azzal is, hogy ezeknek milyen morális, etikai és szociális következményei lehetnek a társadalomra nézve. Ugyanakkor fel kell ismerni azt is, hogy egy gép csak akkor hasznos, ha képes alkalmazkodni az emberi igényekhez. Napjainkban nagyon sok technika vesz körül minket, de nagyon sok időt és energiát fordítunk arra, hogy ezeket a saját igényeinkhez igazítsuk. Valójában viszont ennek fordítva kellene lennie: a technikának kellene tudnia, hogy mit akarunk és ahhoz kellene megfelelő szolgáltatásokat kínálnia.

A technológiát bemutató videó

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • Tetsuo #4
    Ez egy szar.
  • B0nFire #3
    "A rendszert tesztelték már kínai és német nyelvű embereknél is, valamint hamarosan kezdődnek a japán tesztek, de a technológiai gyakorlatilag nyelvfüggetlen. (...) A jelenlegi adatbázisa ugyanis ezer szót tartalmaz és a határ most 10 000 szónál van."

    No, pont itt a hiba, ugyanis egyáltalán nem nyelvfüggetlen. Itt bukik ki a született angol nyelvűek nyelvsovinizmusa, hogy nem tanulnak idegen nyelveket, ezért össze sem tudják őket hasonlítani. A japán is, a magyar is agglutináló (vagyis ragozó) nyelv, az angol pedig flektáló nyelv. (elöljárókkal fejezik ki a viszonyokat, az alap szó csak szűken módosulhat.) Éppen ezért a hibalehetőség is nagyobb, és a szókincs sem elegendő. Angolul 1000 szóval gyakorlatilag bármit el lehet mondani, jó példa erre a kis szókincsű, tanulóknak szánt pár száz szavas könyv, míg a ragozó nyelvben 1000 szó szinte semmi, mert egy szó minden alakját meg kell ismertetni a programmal. Pl egész/ség/ünk/re – egyetlen szó három toldalékkal, nem beszélve a "megszentségteleníthetetlenség"-ről.

    Az angolok ezen olyan nagyvonalúan átlépnek. Pikk-pakk, és kész a helyesírás-ellenőrző modul, mi meg úgy facsarhatjuk-csavarhatjuk az édes anyanyelvünket, ahogy nekünk tetszik. Nekünk nem elég egy ismeretlen szót felvetetni a szótárba, mert az összes ragozott alakjára ugyanúgy rá fog kérdezni.

    De azért ki merik jelenteni, hogy nyelvfüggetlen, amikor nyilvánvalóan nem az. Tessék megnézni a fordítógépeket, miket művelnek, ha egy flektáló nyelvről (angol, latin, spanyol) kell lefordítani valamit egy ragozó nyelvre (magyar, japán). Az esetek 99%-ban olyan értelmetlenséget hajít ki, hogy teljességgel hasznavehetetlen. Angolul persze sokkal könnyebb távvezérelni.
  • ramolito #2
    Szerintem van valami értelme pl zenét hallgatsz a házban míg dolgozol vasalsz porszívózol de mondjuk zenét szeretnél váltani a tobb ezer zeneszámbol amit osszegyujtottél na ezt hogy teszed most odamész a gphez majd klikk és megvan de 1 perc mulva már mást szeretnél na akkor megint odaballagsz és ujjabb klikk míg ezzel a rendszerrel csak elmormolod azt a kulcsszot hogy kovetkezo szám vagy valami hasonlo és voala a gép már mg is oldotta és nem kell odafutkosnod vagy távirányíttót hordoznod meg hasonlo igaz ez csak akkor életképes ha megoldják a hordozhatoságát az érzékeloknek.
  • MacropusRufus #1
    véleményem szerint a hangvezérlés még lassabb mint az egérrel való vezérlés ami viszont jóval lassabb mint a hot-key-ek használata.
    Mire kimondom azt, hogy "Törlés, C: meghajtó Program Files könyvtár PhotoShop alkönyvtárának teljes tartalma" addíg még a bűnrossz Windows Intézőben is réges rég letörőltem amit akartam.
    Ez inkább azoknak lesz segítség akik mozgáskorlátozottak. De ott meg ismét gond lehet, ha a gesztusokért felelős idegrendszer is sérűlt, gy.k. a szoftver nem fogja felismerni az illető arcmimikáját, hiszen sérűlt a betegségnél.
    Akkor már a gondolat vezérelt dolog, ui. ha már az is sérűlt akkor az már mindegy is. Szóval gesztus vezérlés játékban elmegy, de nem hinném, hogy mondjuk tervező mérnökök esetleg könyvelők hanggal utasítanák a gépüket.
    Ez is valami szkifiből megaradt ökörség: hanggal vezérlem a gépet, meg hadonászok a levegőben egy VR kesztyűvel (Különvélemény)...