Berta Sándor
Beszéd közbeni érzelmeket is felismerhetnek a számítógépek
A kimondott szavakon túl az emberi beszéd a hangsúlyokkal érzelmeket is közvetít és a jövőben a számítógépek ezeket is megérthetik.
A Stuttgarti Egyetem Rendszerelméleti és Jelfeldolgozó Tanszékének (LSS) munkatársai azt szeretnék elérni, hogy új funkciókkal bővüljenek az automatikus beszédfelismerő rendszerek. Így már alkalmasak lennének a beszéd közbeni érzelmek megismerésére és megértésére is. Míg az elmúlt évtizedekben a beszédfelismerésben alapvetően a tartalmakat nyelvtudományi szempontokból vizsgálták, addig az LSS kutatói egy teljesen új területen próbálkoztak. Azt akarják, hogy a jövőben a beszédfelismerő alkalmazások ne csak magukat a szavakat, hanem az azokhoz társuló úgynevezett paralingvisztikai tulajdonságokat és jellemzőket is értelmezni tudják. Az utóbbi kategóriába sorolhatók a hangsúlyok, a hangból kiszűrődő düh, a stressz, a félelem, az öröm, a beszélő nemére és korára vonatkozó jellemzők, az általa használt dialektus, amelyből a regionális hovatartozására lehet következtetni. A stuttgarti szakemberek a hagyományos beszédfelismerésben alkalmazott algoritmusokhoz hasonló megoldásokat használnak.
"Olyan tanulásra képes eljárásokat használunk, amelyeknél nincsenek előre meghatározott szabályok. A beszédfelismerő rendszert egy példákat tartalmazó adatbázissal tökéletesítjük. Kihívást jelent, hogy a beszédben fontosak a fonetikus információk, például az úgynevezett karakterisztikus rezonanciafrekvenciák. Nekünk a hang mögé kell tekintenünk és intenzív kutatásokra van szükségünk" - jelentette ki Bin Yang, a tanszék vezetője.
Nem véletlen, hogy az új terület iránt nagy a nemzetközi érdeklődés és a szakember elmondta, hogy már most vannak olyan telefonos rendszerek, ahol érzelemfelismerő megoldásokat tesztelnek. Az egészségügyön kívül a közlekedésben is hasznosak lehetnek ezek a megoldások, hiszen az autó fedélzeti rendszere felismerhetné, hogy a vezető álmos-e vagy stressz érte. Ugyanakkor ezek az alkalmazások hozzájárulhatnak ahhoz is, hogy a jövőben a számítógépes beszédszintetizátorok természetesebbek legyenek és ne száraz gépi hangon közöljék az információkat.
A Stuttgarti Egyetem Rendszerelméleti és Jelfeldolgozó Tanszékének (LSS) munkatársai azt szeretnék elérni, hogy új funkciókkal bővüljenek az automatikus beszédfelismerő rendszerek. Így már alkalmasak lennének a beszéd közbeni érzelmek megismerésére és megértésére is. Míg az elmúlt évtizedekben a beszédfelismerésben alapvetően a tartalmakat nyelvtudományi szempontokból vizsgálták, addig az LSS kutatói egy teljesen új területen próbálkoztak. Azt akarják, hogy a jövőben a beszédfelismerő alkalmazások ne csak magukat a szavakat, hanem az azokhoz társuló úgynevezett paralingvisztikai tulajdonságokat és jellemzőket is értelmezni tudják. Az utóbbi kategóriába sorolhatók a hangsúlyok, a hangból kiszűrődő düh, a stressz, a félelem, az öröm, a beszélő nemére és korára vonatkozó jellemzők, az általa használt dialektus, amelyből a regionális hovatartozására lehet következtetni. A stuttgarti szakemberek a hagyományos beszédfelismerésben alkalmazott algoritmusokhoz hasonló megoldásokat használnak.
"Olyan tanulásra képes eljárásokat használunk, amelyeknél nincsenek előre meghatározott szabályok. A beszédfelismerő rendszert egy példákat tartalmazó adatbázissal tökéletesítjük. Kihívást jelent, hogy a beszédben fontosak a fonetikus információk, például az úgynevezett karakterisztikus rezonanciafrekvenciák. Nekünk a hang mögé kell tekintenünk és intenzív kutatásokra van szükségünk" - jelentette ki Bin Yang, a tanszék vezetője.
Nem véletlen, hogy az új terület iránt nagy a nemzetközi érdeklődés és a szakember elmondta, hogy már most vannak olyan telefonos rendszerek, ahol érzelemfelismerő megoldásokat tesztelnek. Az egészségügyön kívül a közlekedésben is hasznosak lehetnek ezek a megoldások, hiszen az autó fedélzeti rendszere felismerhetné, hogy a vezető álmos-e vagy stressz érte. Ugyanakkor ezek az alkalmazások hozzájárulhatnak ahhoz is, hogy a jövőben a számítógépes beszédszintetizátorok természetesebbek legyenek és ne száraz gépi hangon közöljék az információkat.