Berta Sándor
Áttörést ért el a Microsoft a beszédfelismerésben
A tengerentúli konszern munkatársai az International Speech Communaciton Association 12. éves konferenciáján számoltak be a legfrissebb kutatási eredményeikről.
Általában a szoftvereket képezni, fejleszteni kell ahhoz, hogy bármilyen körülmények között képesek legyenek felismerni a felhasználók beszédét, ez azonban a gyakorlatban nem mindig lehetséges, hiszen egy program általában különböző embereket szolgál ki. Elég csak a forródrót-szolgáltatásoknál alkalmazott megoldásokra gondolni. Ezeknek a rendszereknek ugyan nagyon csekély a szókincsük, viszont a legnehezebb helyzetekben is megértik az ügyfél által mondott szavakat.
Dong Yu, a Microsoft redmondi központjának munkatársa és Frank Seide, a Microsoft ázsiai kutatóközpontjának dolgozója arra összpontosította a munkáját, hogy a beszédfelismerés a beszélő személytől függetlenül is megvalósuljon. A cél olyan rendszerek megalkotása, amelyek nagy szókinccsel rendelkeznek és bárki mondja is a szavakat, mindig megértsék azokat, akár előzetes "tréning" nélkül is.
"A mai mobil világban ennek a dolognak nagy jelentősége van. A beszéd egy fontos interfészt képez az okostelefonok és más mobil készülékek számára. Az okostelefonok ideálisak a beszédfelismeréshez, hiszen egyrészt folyamatosan használják őket az emberek, másrészt ezeknek az eszközöknek a teljesítménye is megfelelő. A felhasználók csak akkor alkalmazzák tartósan a beszédfelismerést, ha a kezdeti tapasztalataik jók. A meglévő, tréningre szoruló rendszereknél azonban nem ez a helyzet, így az első tapasztalatok rosszak" - írta blogbejegyzésében Dong Yu.
A Microsoft munkatársainak kutatása a mesterséges neurális hálózatokon (ANN) alapul. A korábbi évtizedekben az úgynevezett ANN-Rejtett Markov Modellek (ANN-HMM) bevetése nagy sikerrel kecsegtetett, azonban a gyakorlatban inkább az úgynevezett tartalomfüggő vegyes megoldásokat (Context-dependent Gaussian Mixture Model HMM, CD-GMM-HMM) alkalmazták. A Microsoft szakértői ezekhez a munkákhoz nyúltak vissza és a céljuk az akkor elért teljesítmények javítása volt. Eddig a szakemberek általában a fonémákkal dolgoztak, Yu és kollégái viszont úgy döntöttek, hogy más úton indulnak el, ezáltal a beszédfelismerés sokkal megbízhatóbb lett. A hibaarány csupán 18,5 százalékos, ami a hagyományos beszédfelismerő rendszerek 33 százalékos hibaarányához képest kiválónak mondható.
A két szakember a tapasztalatait a Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition és a Conversational Speech Transcription Using Context-Dependent Deep Neural Networks című anyagokban összegezte.
Általában a szoftvereket képezni, fejleszteni kell ahhoz, hogy bármilyen körülmények között képesek legyenek felismerni a felhasználók beszédét, ez azonban a gyakorlatban nem mindig lehetséges, hiszen egy program általában különböző embereket szolgál ki. Elég csak a forródrót-szolgáltatásoknál alkalmazott megoldásokra gondolni. Ezeknek a rendszereknek ugyan nagyon csekély a szókincsük, viszont a legnehezebb helyzetekben is megértik az ügyfél által mondott szavakat.
Dong Yu, a Microsoft redmondi központjának munkatársa és Frank Seide, a Microsoft ázsiai kutatóközpontjának dolgozója arra összpontosította a munkáját, hogy a beszédfelismerés a beszélő személytől függetlenül is megvalósuljon. A cél olyan rendszerek megalkotása, amelyek nagy szókinccsel rendelkeznek és bárki mondja is a szavakat, mindig megértsék azokat, akár előzetes "tréning" nélkül is.
"A mai mobil világban ennek a dolognak nagy jelentősége van. A beszéd egy fontos interfészt képez az okostelefonok és más mobil készülékek számára. Az okostelefonok ideálisak a beszédfelismeréshez, hiszen egyrészt folyamatosan használják őket az emberek, másrészt ezeknek az eszközöknek a teljesítménye is megfelelő. A felhasználók csak akkor alkalmazzák tartósan a beszédfelismerést, ha a kezdeti tapasztalataik jók. A meglévő, tréningre szoruló rendszereknél azonban nem ez a helyzet, így az első tapasztalatok rosszak" - írta blogbejegyzésében Dong Yu.
A Microsoft munkatársainak kutatása a mesterséges neurális hálózatokon (ANN) alapul. A korábbi évtizedekben az úgynevezett ANN-Rejtett Markov Modellek (ANN-HMM) bevetése nagy sikerrel kecsegtetett, azonban a gyakorlatban inkább az úgynevezett tartalomfüggő vegyes megoldásokat (Context-dependent Gaussian Mixture Model HMM, CD-GMM-HMM) alkalmazták. A Microsoft szakértői ezekhez a munkákhoz nyúltak vissza és a céljuk az akkor elért teljesítmények javítása volt. Eddig a szakemberek általában a fonémákkal dolgoztak, Yu és kollégái viszont úgy döntöttek, hogy más úton indulnak el, ezáltal a beszédfelismerés sokkal megbízhatóbb lett. A hibaarány csupán 18,5 százalékos, ami a hagyományos beszédfelismerő rendszerek 33 százalékos hibaarányához képest kiválónak mondható.
A két szakember a tapasztalatait a Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition és a Conversational Speech Transcription Using Context-Dependent Deep Neural Networks című anyagokban összegezte.