SG.hu·2011. augusztus 31.

Áttörést ért el a Microsoft a beszédfelismerésben

A tengerentúli konszern munkatársai az International Speech Communaciton Association 12. éves konferenciáján számoltak be a legfrissebb kutatási eredményeikről.

Általában a szoftvereket képezni, fejleszteni kell ahhoz, hogy bármilyen körülmények között képesek legyenek felismerni a felhasználók beszédét, ez azonban a gyakorlatban nem mindig lehetséges, hiszen egy program általában különböző embereket szolgál ki. Elég csak a forródrót-szolgáltatásoknál alkalmazott megoldásokra gondolni. Ezeknek a rendszereknek ugyan nagyon csekély a szókincsük, viszont a legnehezebb helyzetekben is megértik az ügyfél által mondott szavakat.

Dong Yu, a Microsoft redmondi központjának munkatársa és Frank Seide, a Microsoft ázsiai kutatóközpontjának dolgozója arra összpontosította a munkáját, hogy a beszédfelismerés a beszélő személytől függetlenül is megvalósuljon. A cél olyan rendszerek megalkotása, amelyek nagy szókinccsel rendelkeznek és bárki mondja is a szavakat, mindig megértsék azokat, akár előzetes "tréning" nélkül is.

"A mai mobil világban ennek a dolognak nagy jelentősége van. A beszéd egy fontos interfészt képez az okostelefonok és más mobil készülékek számára. Az okostelefonok ideálisak a beszédfelismeréshez, hiszen egyrészt folyamatosan használják őket az emberek, másrészt ezeknek az eszközöknek a teljesítménye is megfelelő. A felhasználók csak akkor alkalmazzák tartósan a beszédfelismerést, ha a kezdeti tapasztalataik jók. A meglévő, tréningre szoruló rendszereknél azonban nem ez a helyzet, így az első tapasztalatok rosszak" - írta blogbejegyzésében Dong Yu.

A Microsoft munkatársainak kutatása a mesterséges neurális hálózatokon (ANN) alapul. A korábbi évtizedekben az úgynevezett ANN-Rejtett Markov Modellek (ANN-HMM) bevetése nagy sikerrel kecsegtetett, azonban a gyakorlatban inkább az úgynevezett tartalomfüggő vegyes megoldásokat (Context-dependent Gaussian Mixture Model HMM, CD-GMM-HMM) alkalmazták. A Microsoft szakértői ezekhez a munkákhoz nyúltak vissza és a céljuk az akkor elért teljesítmények javítása volt. Eddig a szakemberek általában a fonémákkal dolgoztak, Yu és kollégái viszont úgy döntöttek, hogy más úton indulnak el, ezáltal a beszédfelismerés sokkal megbízhatóbb lett. A hibaarány csupán 18,5 százalékos, ami a hagyományos beszédfelismerő rendszerek 33 százalékos hibaarányához képest kiválónak mondható.

A két szakember a tapasztalatait a Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition és a Conversational Speech Transcription Using Context-Dependent Deep Neural Networks című anyagokban összegezte.

Kapcsolódó cikkek és linkek

A gépelést egyre inkább a suttogás váltja fel, de ez nagyon idegesítő tud lenni Beszédsebesség-rekordot értek el egy agy-számítógép interfésszel Intuitív gépvezérlés beszédfelismeréssel A digitális közjavak közé került a Common Voice kezdeményezés Könnyen szintetizálhatóvá válhat a beszéd Egyre méretesebbek a beszédfeldolgozó modellek Beszédhibák esetén segít a Google Új beszédtechnológiai szervezet alakult Microsoft ↗

Hozzászólások

Jelentkezz be a hozzászóláshoz.

Valóban nem elképzelhetetlen, csak kevesen foglalkoznak még vele. Most szórakozom Speech Recognition Macro-sal és állati jó, hasznos. Rövid parancsszavakra programokat indít paraméterezve, vagy hosszú szövegeket másol be, esetleg batch fájlokat futtat.
Sõt visszadumál nekem 😄
De ugye ez még angolul van csak, ami nem is baj, mert legalább gyakorlok. De mennyivel élvezetesebb lenne anyanyelven pampogni a géppel, és az értené, reagálna.

Amit sajnálok hogy a SR-nek nem lehet megadni más "figyelõ parancsot" csak a "Start Listening"-re hallgat.
Csak mert nekem olyan kellene hogy "Computer" megadom a parancsot és utána autómatikusan Sleep-bee megy. Azt be tudnám még állítani talán hogy az összes parancs így mûködjön (a sajtájaimat 100%), és akkor nem lenne olyan hogy kiadok egy parancsot, az asztalon pedig éppen úgy koppan a csuklóm hogy azt "beszédnek értse" (gyakran van ilyen) erre valami marhaságot még csinál. Így parancs után azonnal készenlítbe menne és figyelne a "behívó szóra".
Tehát Listen->parancs->standby.

Másik. Win8-ban vajon már benne lesz ez az új technológia?

Nem mostanaban. 😉

Ezzel szerintem a berekedt megváltozott hang is felismerhetõ.
A többi általad leírt dolog se tûnik elképzelhetetlennek.
Gratulálok. Az ön álmai valóra válnak. 😊

A maci olvast végig kellene vennie a felhasználónak. Így az eszköz megtanulná a hangját.

Én egy olyan beszédfelismerõre várok aminél ha beállítod hogy most Dél-Kínai piaci akcentussal beszélek, akkor tökéletesen (80-90%-ban) felismerje hogy mit is mondok. Ha magyarra állítom és akkor beszélek hozzá magyarul, azt is érti. Sõt ha mondjuk angolon felejtem és franciául kezdek diktálni akkor megkérdezi hogy "Most ugye nem angolul beszélsz? (Tipp: Francia)".
Nekem igazából egy olyan program kellene amit játékok mellett is lehet használni. Azaz beállítom hogy ha azt mondom "Tölt" akkor tárat cserél, ha azt mondom "Rajta" akkor használja az aktuálisan kijelölt tárgyat....stb. Tehát egy segéderõként, plusz kézként funkcionáljon. Ugyanezt egyéb programban.

Olyan Star Trekes beszédfelismerõ még szerintem sokáig nem lesz. "Komjúter, kérek egy kávét, két cukorral, kevés tejszínnel, közép-langyos hõfokon, herendi csészében és jó sok habbal" aztán csinálja.

Másik probléma meg ha mondjuk be van dugulva az orrom és úgy beszélek hozzá. Vagy torokgyuszival rekedten és már nem érti. Mivel ezeket úgy programozzák hogy alap-normál emberi hangra reagáljon.

Azt meg nem tudom lehetséges e egyáltalán hogy mondjuk éppen lejátszok egy filmet, abban megy a duma, de ha én beszólok hogy "Pillanat Állj" akkor felismeri, megérti és alkalmazza. Viszont ha a filmben kiáltják ezt arra nem reagál. (Bár Zoom mikrofonnal a monitoron az aktuális helyzetemre fókuszálva talán mûködne)

Én a Dragon-t próbálgattam egy idõben, de az se volt tökéletes. Igaz arra jó egy ilyen program hogy angolul megtanuljon beszélni az ember 😄
Amúgy nekem eddig a Win7-es alap Speech Recognition jött be leginkább. Az találta el legtöbbször hogy mit beszélek.

Egy-ket szavas parancsokat betanitani a programoknak mar regota nem problema. A gond akkor kezdodik ha mondjuk diktalni szeretnenk vagy komplex mondatok alapjan kene valamit tennie. En nemregen probalkoztam egy jobbfele diktaloszoftverrel es a nagyszamu hibazasok es csalodottsag miatt hamar elvetettem a szoftveres lehetoseget. Elotte lattam valami filmben, hogy a fazon tok szep folyamatosan diktal, gondoltam utananezek hogy all most a beszedfelismeres. Persze nyilvan nagy reszben en voltam a 'hibas' mivel a szornyu magyar akcentusommal igen megkuzdott a gep es gondolom 10-bol legalabb 6x mashogy ejtettem a mar megtanitott szavakat is. Szoval aki nem beszel szinte tokeletes angolsaggal annak az a 33%-os hibaarany legalabb egybol 50%-rol indul. Igy bizony tenyleg nem egy nagy elmeny diktalgatni. Raadasul a torles, visszatorles, pozicionalo parancsokat sem mindig ismeri fel ha rosszul ejted vagy picit halkabban 😊.

én anno szerettem ezt a dolgot. már az xp-hez is volt mind beszédfelismerés, mind szintetizátor. tréning után egész jól megértette a parancsokat is, az agentekkel muris kis appleteket lehetett szkriptelni. persze zenénél nem mûxött, meg anno 30% körüli cpu-t evett a 650 mhz-n. ami persze relatív, de a hasznosságához mérten sok volt.