Berta Sándor
Az érintőképernyők után a beszédvezérlés lesz a következő nagy durranás
Napjainkban gyakorlatilag nincs olyan piac, amelynek szereplői ne szeretnének bemutatni beszédvezérléses terméket. A legtöbb megoldás a rengeteg magyar alkalmazottat foglalkoztató Nuance fejlesztéseire épül.
Intel, GM, Ford, Samsung, LG, Panasonic, Apple - többek között ezek a multinacionális óriások dobtak piacra olyan termékeket, amelyek a Nuance beszédvezérlési megoldásain alapulnak. A Nuance székhelye Bostonban van, a magyarországi részleget az egykoron a képfeldolgozás területén aktív Recognita Zrt. képviseli, 2011-ben 120 hazai munkatársuk volt. A bostoni vállalat 1992-es alapítása óta foglalkozik beszédvezérléssel, illetve számítógépes beszédfelismeréssel, világszerte összesen 12 000 embert foglalkoztat és ezen a területen vezetőnek számít.
"A beszédfelismerés végeredményben annyira megbízható lesz, mint az érintőképernyőn végrehajtott gesztusok vagy az egérkattintás. Mindez egyben azt jelenti, hogy a kimondott utasítások száma rendkívül gyorsan nőni fog és a számítógépek kezelése is tovább változik majd. Ugyanakkor nem lesz kizárólagos, a különböző kezelési-irányítási koncepciók összjátéka fog igazán számítani. Néhány olyan dolgot, amit eddig az ujjunkkal végeztünk a jövőben kimondunk majd, míg mást hatékonyabb lesz a kezünkkel elvégezni. Ehhez jön még az is, hogy nem minden helyzetben tudunk beszélni."
Peter S. Mahone, a cég marketingvezetője
"A beszéd soha nem fogja kiváltani, legfeljebb kiegészíti majd az billentyűket, az érintőképernyőket és a gesztusokat. Mindent elérhetővé kell tennünk és a felhasználók eldöntik, hogy mit alkalmaznak. A jövőben nem kell azon gondolkoznunk, hogy milyen módon kezeljünk egy eszközt; egyszerűen meg fogjuk tenni, éppen úgy, ahogy jön és ahogy a legegyszerűbb lesz." - szögezte le Peter Mahoney, a Nuance marketingigazgatója.
A vezető kiemelte, hogy az alkalmazási területtől is függ, hogy miként beszélnek az emberek: az autóban például konkrétan megmondják, hogy melyik rádiót akarják hallgatni vagy kit akarnak felhívni. Egy lakásban sokkal természetesebb lesz a kommunikáció, itt a felhasználók idővel ugyanúgy beszélnek majd a tévéjükhöz, mint egy másik személyhez. Az okos televízióknál nem olyan beszédparancsok vannak, hogy "hangosabban", "halkabban" vagy "CNN", hanem elhangzik az a mondat, hogy: "Látni akarom a meccset" és a kezelőszoftver ezt értelmezi és pontosan tudja, hogy az illető Bajnokok Ligája mérkőzést akar nézni, ezért olyan csatornára vált át, ahol azt láthatja.
Mindezt onnan tudja a program, hogy egyrészt felismeri az elhangzó szavakat, másrészt figyelembe veszi azt is, hogy mi az aktuális műsorkínálat és pontosan milyen időpontban hangzik el a mondat. Amennyiben egyszerre két csatornán is közvetítik a meccset, akkor a rendszer megkérdezi, hogy melyiket akarjuk nézni. A felhasználóknak ez tetszik, szeretik, ha a szoftver a nem egyértelmű dolgokra rákérdez. Ezek a részletek természetesebbé teszik az egész folyamatot és azt a hatást keltik, hogy egy intelligenciával beszélgetünk. Ezáltal a nézők is komolyabban veszik a műsorprogramot és létrejön egy igazi párbeszéd.
A kezdeti félelmek fokozatosan eltűnnek majd amikor a technika javul, és egyre jobban megérti az elhangzott szavakat, és az emberek is normálisabban szólnak majd a rendszerekhez. A Nuance mérnökei igyekeznek azáltal is leépíteni a gátlásokat, hogy a szoftvereket személyiséggel ruházzák fel. A cég hollywoodi forgatókönyvírókat kért fel, akik különböző karaktertípusokat alkottak meg. Meghatározták, hogy a szoftver és annak hangja miként reagáljon bizonyos szituációkban.
"A szoftver úgy különbözteti meg az egyes személyeket, hogy miként az ujjlenyomat, úgy a beszéd is egyedi. Éppen ezért gyorsan felismerhető, hogy ki beszél. Van egy kód, amit a felhasználónak ki kell mondania, innen tudja a rendszer, hogy parancsok hangzanak el és nem emberek közötti kommunikáció zajlik. De kutatjuk azokat a lehetőségeket is, amikor a program - a szenzorok, a kamerák és a mikrofonok segítségével - felismeri, hogy beszéltek hozzá."
"Mint minden szolgáltatásnál, itt is igaz, hogy minél adatot osztunk meg, annál jobb lesz a felismerés. A legújabb projektünk, a Wintermute platformfüggetlen és egyaránt használható okostelefonokon, számítógépeken és televíziókon. Amennyiben mindenhonnan csatlakozunk, akkor a generált adatok segítenek a profil tökéletesítésében. Ha például valaki sok focimeccset néz, akkor a játék szó elhangzásakor a rendszer erre fog asszociálni és nem a számítógépes játékokra. Minél többet tud a szoftver a felhasználóról, annál jobban megérti majd és minél többen használják a technológiánkat, annál pontosabb lesz az arra épülő megoldás."
"Amennyiben a partnereink megosztják velünk az ügyfeleik adatait, akkor a szoftverünket kedvező feltételek mellett kínáljuk a számukra. Ez egy üzlet: ők megkapják a technológiánkat, mi pedig az első osztályú piackutatási eredményeket. Különösen az Androidot futtató okostelefonok piacán nőtt meg az érdeklődés a fejlesztéseink iránt. Jelenleg 13 000 alkalmazásban használják a technológiánkat" - ecsetelte a marketingvezető.
"A készülékeken lévő alkalmazások elegendők az egyszerűbb parancsok felismeréséhez, a bonyolultabb utasításokhoz szükség van a felhőszerverek kapacitására. Utóbbi esetben - érthetően - kicsit tovább tart a reagálás. Jelenleg 70 különböző nyelven elhangzó beszédutasításokat támogatunk, a diktálóprogramunk pedig 30 nyelvvel boldogul el. Mindenekelőtt azt tanultuk meg, hogy erősek a kulturális különbségek, például az ázsiai felhasználók másképp kérdeznek és másképp fordulnak az eszközökhöz, mint mondjuk az európaiak. De azt is figyelembe kell venni, hogy a legnagyobb eltérések két ember között vannak. Mindenki másképp beszél és reagál, ezért fontos a rugalmasság, hiszen a rendszernek minden parancsot egyaránt meg kell értenie."
"Kihívást jelentenek még az akcentusok és a nyelvjárások is. Megpróbálunk annyi regionális adatra szert tenni amennyire csak tudunk, azért, hogy ezen a területen is folyamatosan fejlődjünk. Amennyiben tudjuk, hogy valaki mondjuk texasi, akkor az megkönnyíti a dolgunkat. Egyelőre még nem jutottunk el arra a pontra, amikor az intelligens rendszerek túl okosak és ezért az emberek félnek tőlük. Az elmúlt években megváltozott a technika elfogadása. Amennyiben a különböző folyamatok átláthatók maradnak, akkor a felhasználóknak ezzel a dologgal nem lesz problémájuk. A következő években az lesz az igazi kihívás, hogy a beszédfelismerést ötvözzük a mesterséges intelligenciával. Hosszú távon ez azt eredményezheti, hogy a rendszer még azelőtt tudni fogja, hogy mit akarunk mielőtt kimondanánk" - hangsúlyozta végül Peter Mahoney.
Intel, GM, Ford, Samsung, LG, Panasonic, Apple - többek között ezek a multinacionális óriások dobtak piacra olyan termékeket, amelyek a Nuance beszédvezérlési megoldásain alapulnak. A Nuance székhelye Bostonban van, a magyarországi részleget az egykoron a képfeldolgozás területén aktív Recognita Zrt. képviseli, 2011-ben 120 hazai munkatársuk volt. A bostoni vállalat 1992-es alapítása óta foglalkozik beszédvezérléssel, illetve számítógépes beszédfelismeréssel, világszerte összesen 12 000 embert foglalkoztat és ezen a területen vezetőnek számít.
"A beszédfelismerés végeredményben annyira megbízható lesz, mint az érintőképernyőn végrehajtott gesztusok vagy az egérkattintás. Mindez egyben azt jelenti, hogy a kimondott utasítások száma rendkívül gyorsan nőni fog és a számítógépek kezelése is tovább változik majd. Ugyanakkor nem lesz kizárólagos, a különböző kezelési-irányítási koncepciók összjátéka fog igazán számítani. Néhány olyan dolgot, amit eddig az ujjunkkal végeztünk a jövőben kimondunk majd, míg mást hatékonyabb lesz a kezünkkel elvégezni. Ehhez jön még az is, hogy nem minden helyzetben tudunk beszélni."
Peter S. Mahone, a cég marketingvezetője
"A beszéd soha nem fogja kiváltani, legfeljebb kiegészíti majd az billentyűket, az érintőképernyőket és a gesztusokat. Mindent elérhetővé kell tennünk és a felhasználók eldöntik, hogy mit alkalmaznak. A jövőben nem kell azon gondolkoznunk, hogy milyen módon kezeljünk egy eszközt; egyszerűen meg fogjuk tenni, éppen úgy, ahogy jön és ahogy a legegyszerűbb lesz." - szögezte le Peter Mahoney, a Nuance marketingigazgatója.
A vezető kiemelte, hogy az alkalmazási területtől is függ, hogy miként beszélnek az emberek: az autóban például konkrétan megmondják, hogy melyik rádiót akarják hallgatni vagy kit akarnak felhívni. Egy lakásban sokkal természetesebb lesz a kommunikáció, itt a felhasználók idővel ugyanúgy beszélnek majd a tévéjükhöz, mint egy másik személyhez. Az okos televízióknál nem olyan beszédparancsok vannak, hogy "hangosabban", "halkabban" vagy "CNN", hanem elhangzik az a mondat, hogy: "Látni akarom a meccset" és a kezelőszoftver ezt értelmezi és pontosan tudja, hogy az illető Bajnokok Ligája mérkőzést akar nézni, ezért olyan csatornára vált át, ahol azt láthatja.
Mindezt onnan tudja a program, hogy egyrészt felismeri az elhangzó szavakat, másrészt figyelembe veszi azt is, hogy mi az aktuális műsorkínálat és pontosan milyen időpontban hangzik el a mondat. Amennyiben egyszerre két csatornán is közvetítik a meccset, akkor a rendszer megkérdezi, hogy melyiket akarjuk nézni. A felhasználóknak ez tetszik, szeretik, ha a szoftver a nem egyértelmű dolgokra rákérdez. Ezek a részletek természetesebbé teszik az egész folyamatot és azt a hatást keltik, hogy egy intelligenciával beszélgetünk. Ezáltal a nézők is komolyabban veszik a műsorprogramot és létrejön egy igazi párbeszéd.
A kezdeti félelmek fokozatosan eltűnnek majd amikor a technika javul, és egyre jobban megérti az elhangzott szavakat, és az emberek is normálisabban szólnak majd a rendszerekhez. A Nuance mérnökei igyekeznek azáltal is leépíteni a gátlásokat, hogy a szoftvereket személyiséggel ruházzák fel. A cég hollywoodi forgatókönyvírókat kért fel, akik különböző karaktertípusokat alkottak meg. Meghatározták, hogy a szoftver és annak hangja miként reagáljon bizonyos szituációkban.
"A szoftver úgy különbözteti meg az egyes személyeket, hogy miként az ujjlenyomat, úgy a beszéd is egyedi. Éppen ezért gyorsan felismerhető, hogy ki beszél. Van egy kód, amit a felhasználónak ki kell mondania, innen tudja a rendszer, hogy parancsok hangzanak el és nem emberek közötti kommunikáció zajlik. De kutatjuk azokat a lehetőségeket is, amikor a program - a szenzorok, a kamerák és a mikrofonok segítségével - felismeri, hogy beszéltek hozzá."
"Mint minden szolgáltatásnál, itt is igaz, hogy minél adatot osztunk meg, annál jobb lesz a felismerés. A legújabb projektünk, a Wintermute platformfüggetlen és egyaránt használható okostelefonokon, számítógépeken és televíziókon. Amennyiben mindenhonnan csatlakozunk, akkor a generált adatok segítenek a profil tökéletesítésében. Ha például valaki sok focimeccset néz, akkor a játék szó elhangzásakor a rendszer erre fog asszociálni és nem a számítógépes játékokra. Minél többet tud a szoftver a felhasználóról, annál jobban megérti majd és minél többen használják a technológiánkat, annál pontosabb lesz az arra épülő megoldás."
"Amennyiben a partnereink megosztják velünk az ügyfeleik adatait, akkor a szoftverünket kedvező feltételek mellett kínáljuk a számukra. Ez egy üzlet: ők megkapják a technológiánkat, mi pedig az első osztályú piackutatási eredményeket. Különösen az Androidot futtató okostelefonok piacán nőtt meg az érdeklődés a fejlesztéseink iránt. Jelenleg 13 000 alkalmazásban használják a technológiánkat" - ecsetelte a marketingvezető.
"A készülékeken lévő alkalmazások elegendők az egyszerűbb parancsok felismeréséhez, a bonyolultabb utasításokhoz szükség van a felhőszerverek kapacitására. Utóbbi esetben - érthetően - kicsit tovább tart a reagálás. Jelenleg 70 különböző nyelven elhangzó beszédutasításokat támogatunk, a diktálóprogramunk pedig 30 nyelvvel boldogul el. Mindenekelőtt azt tanultuk meg, hogy erősek a kulturális különbségek, például az ázsiai felhasználók másképp kérdeznek és másképp fordulnak az eszközökhöz, mint mondjuk az európaiak. De azt is figyelembe kell venni, hogy a legnagyobb eltérések két ember között vannak. Mindenki másképp beszél és reagál, ezért fontos a rugalmasság, hiszen a rendszernek minden parancsot egyaránt meg kell értenie."
"Kihívást jelentenek még az akcentusok és a nyelvjárások is. Megpróbálunk annyi regionális adatra szert tenni amennyire csak tudunk, azért, hogy ezen a területen is folyamatosan fejlődjünk. Amennyiben tudjuk, hogy valaki mondjuk texasi, akkor az megkönnyíti a dolgunkat. Egyelőre még nem jutottunk el arra a pontra, amikor az intelligens rendszerek túl okosak és ezért az emberek félnek tőlük. Az elmúlt években megváltozott a technika elfogadása. Amennyiben a különböző folyamatok átláthatók maradnak, akkor a felhasználóknak ezzel a dologgal nem lesz problémájuk. A következő években az lesz az igazi kihívás, hogy a beszédfelismerést ötvözzük a mesterséges intelligenciával. Hosszú távon ez azt eredményezheti, hogy a rendszer még azelőtt tudni fogja, hogy mit akarunk mielőtt kimondanánk" - hangsúlyozta végül Peter Mahoney.