Berta Sándor

Az érintőképernyők után a beszédvezérlés lesz a következő nagy durranás

Napjainkban gyakorlatilag nincs olyan piac, amelynek szereplői ne szeretnének bemutatni beszédvezérléses terméket. A legtöbb megoldás a rengeteg magyar alkalmazottat foglalkoztató Nuance fejlesztéseire épül.

Intel, GM, Ford, Samsung, LG, Panasonic, Apple - többek között ezek a multinacionális óriások dobtak piacra olyan termékeket, amelyek a Nuance beszédvezérlési megoldásain alapulnak. A Nuance székhelye Bostonban van, a magyarországi részleget az egykoron a képfeldolgozás területén aktív Recognita Zrt. képviseli, 2011-ben 120 hazai munkatársuk volt. A bostoni vállalat 1992-es alapítása óta foglalkozik beszédvezérléssel, illetve számítógépes beszédfelismeréssel, világszerte összesen 12 000 embert foglalkoztat és ezen a területen vezetőnek számít.

"A beszédfelismerés végeredményben annyira megbízható lesz, mint az érintőképernyőn végrehajtott gesztusok vagy az egérkattintás. Mindez egyben azt jelenti, hogy a kimondott utasítások száma rendkívül gyorsan nőni fog és a számítógépek kezelése is tovább változik majd. Ugyanakkor nem lesz kizárólagos, a különböző kezelési-irányítási koncepciók összjátéka fog igazán számítani. Néhány olyan dolgot, amit eddig az ujjunkkal végeztünk a jövőben kimondunk majd, míg mást hatékonyabb lesz a kezünkkel elvégezni. Ehhez jön még az is, hogy nem minden helyzetben tudunk beszélni."


Peter S. Mahone, a cég marketingvezetője

"A beszéd soha nem fogja kiváltani, legfeljebb kiegészíti majd az billentyűket, az érintőképernyőket és a gesztusokat. Mindent elérhetővé kell tennünk és a felhasználók eldöntik, hogy mit alkalmaznak. A jövőben nem kell azon gondolkoznunk, hogy milyen módon kezeljünk egy eszközt; egyszerűen meg fogjuk tenni, éppen úgy, ahogy jön és ahogy a legegyszerűbb lesz." - szögezte le Peter Mahoney, a Nuance marketingigazgatója.

A vezető kiemelte, hogy az alkalmazási területtől is függ, hogy miként beszélnek az emberek: az autóban például konkrétan megmondják, hogy melyik rádiót akarják hallgatni vagy kit akarnak felhívni. Egy lakásban sokkal természetesebb lesz a kommunikáció, itt a felhasználók idővel ugyanúgy beszélnek majd a tévéjükhöz, mint egy másik személyhez. Az okos televízióknál nem olyan beszédparancsok vannak, hogy "hangosabban", "halkabban" vagy "CNN", hanem elhangzik az a mondat, hogy: "Látni akarom a meccset" és a kezelőszoftver ezt értelmezi és pontosan tudja, hogy az illető Bajnokok Ligája mérkőzést akar nézni, ezért olyan csatornára vált át, ahol azt láthatja.

Mindezt onnan tudja a program, hogy egyrészt felismeri az elhangzó szavakat, másrészt figyelembe veszi azt is, hogy mi az aktuális műsorkínálat és pontosan milyen időpontban hangzik el a mondat. Amennyiben egyszerre két csatornán is közvetítik a meccset, akkor a rendszer megkérdezi, hogy melyiket akarjuk nézni. A felhasználóknak ez tetszik, szeretik, ha a szoftver a nem egyértelmű dolgokra rákérdez. Ezek a részletek természetesebbé teszik az egész folyamatot és azt a hatást keltik, hogy egy intelligenciával beszélgetünk. Ezáltal a nézők is komolyabban veszik a műsorprogramot és létrejön egy igazi párbeszéd.

A kezdeti félelmek fokozatosan eltűnnek majd amikor a technika javul, és egyre jobban megérti az elhangzott szavakat, és az emberek is normálisabban szólnak majd a rendszerekhez. A Nuance mérnökei igyekeznek azáltal is leépíteni a gátlásokat, hogy a szoftvereket személyiséggel ruházzák fel. A cég hollywoodi forgatókönyvírókat kért fel, akik különböző karaktertípusokat alkottak meg. Meghatározták, hogy a szoftver és annak hangja miként reagáljon bizonyos szituációkban.


"A szoftver úgy különbözteti meg az egyes személyeket, hogy miként az ujjlenyomat, úgy a beszéd is egyedi. Éppen ezért gyorsan felismerhető, hogy ki beszél. Van egy kód, amit a felhasználónak ki kell mondania, innen tudja a rendszer, hogy parancsok hangzanak el és nem emberek közötti kommunikáció zajlik. De kutatjuk azokat a lehetőségeket is, amikor a program - a szenzorok, a kamerák és a mikrofonok segítségével - felismeri, hogy beszéltek hozzá."

"Mint minden szolgáltatásnál, itt is igaz, hogy minél adatot osztunk meg, annál jobb lesz a felismerés. A legújabb projektünk, a Wintermute platformfüggetlen és egyaránt használható okostelefonokon, számítógépeken és televíziókon. Amennyiben mindenhonnan csatlakozunk, akkor a generált adatok segítenek a profil tökéletesítésében. Ha például valaki sok focimeccset néz, akkor a játék szó elhangzásakor a rendszer erre fog asszociálni és nem a számítógépes játékokra. Minél többet tud a szoftver a felhasználóról, annál jobban megérti majd és minél többen használják a technológiánkat, annál pontosabb lesz az arra épülő megoldás."

"Amennyiben a partnereink megosztják velünk az ügyfeleik adatait, akkor a szoftverünket kedvező feltételek mellett kínáljuk a számukra. Ez egy üzlet: ők megkapják a technológiánkat, mi pedig az első osztályú piackutatási eredményeket. Különösen az Androidot futtató okostelefonok piacán nőtt meg az érdeklődés a fejlesztéseink iránt. Jelenleg 13 000 alkalmazásban használják a technológiánkat" - ecsetelte a marketingvezető.

"A készülékeken lévő alkalmazások elegendők az egyszerűbb parancsok felismeréséhez, a bonyolultabb utasításokhoz szükség van a felhőszerverek kapacitására. Utóbbi esetben - érthetően - kicsit tovább tart a reagálás. Jelenleg 70 különböző nyelven elhangzó beszédutasításokat támogatunk, a diktálóprogramunk pedig 30 nyelvvel boldogul el. Mindenekelőtt azt tanultuk meg, hogy erősek a kulturális különbségek, például az ázsiai felhasználók másképp kérdeznek és másképp fordulnak az eszközökhöz, mint mondjuk az európaiak. De azt is figyelembe kell venni, hogy a legnagyobb eltérések két ember között vannak. Mindenki másképp beszél és reagál, ezért fontos a rugalmasság, hiszen a rendszernek minden parancsot egyaránt meg kell értenie."

"Kihívást jelentenek még az akcentusok és a nyelvjárások is. Megpróbálunk annyi regionális adatra szert tenni amennyire csak tudunk, azért, hogy ezen a területen is folyamatosan fejlődjünk. Amennyiben tudjuk, hogy valaki mondjuk texasi, akkor az megkönnyíti a dolgunkat. Egyelőre még nem jutottunk el arra a pontra, amikor az intelligens rendszerek túl okosak és ezért az emberek félnek tőlük. Az elmúlt években megváltozott a technika elfogadása. Amennyiben a különböző folyamatok átláthatók maradnak, akkor a felhasználóknak ezzel a dologgal nem lesz problémájuk. A következő években az lesz az igazi kihívás, hogy a beszédfelismerést ötvözzük a mesterséges intelligenciával. Hosszú távon ez azt eredményezheti, hogy a rendszer még azelőtt tudni fogja, hogy mit akarunk mielőtt kimondanánk" - hangsúlyozta végül Peter Mahoney.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • KopaszIsten #27
    Tévedsz, mert nekem már 4 éve nincs a gépemben floppy meghajtó. Semmi értelme nincs. Lassan az optikai meghajtó is csak arra lesz jó, hogy feltegyem a hardverekhez a drivereket installálásnál.
  • Lazarus #26
    "Ugorj a 273. sorra. cseréld ki az if második feltételénél a változót a users tömb id kulcsára"
    Ez így teljesen lehetetlen. Egy interaktív ujjakkal vezérelt nagy képernyőt amin össze vannak drótozva az objektumok UML diagram szerűen inkább érezném járható útnak.
  • Komolytalan #25
    "Persze ma még nem tudsz programozni így, de kérdem én ha átalakítják a nyelveket kódokat olyan formán, hogy azok hangvezérléssel is használhatók legyenek? "
    Bediktálod a hangvezérlőbe, az meg kiküldi pakisztánba, és az ottani coder megírja neked a programot. Kb ez a realitás hangvezérlés meg programozás kapcsolatában.
  • caius marius #24
    Oké, van abban valami amit mondasz, de ha csak abba belegondolsz, hogy amikor'96-ban telefonáltam a villamoson, utcán, stb, akkor hogyan reagáltak az emberek és ez mára mennyit változott, akkor láthatjuk, hogy az ember nagyon gyorsan alkalmazkodik ezekhez a változásokhoz.
    Persze ma még nem tudsz programozni így, de kérdem én ha átalakítják a nyelveket kódokat olyan formán, hogy azok hangvezérléssel is használhatók legyenek?
    Túlkiabálni pedig nem kell senkit, max olyan zaj lenne mint egy telefonközpontban.
    A kódjaimat pedig most sem ütögetem be nyilvános helyen, csak ha nagyon elkerülhetetlen.
  • willcox #23
    Így van. De tegyük hozzá, hogy egyelőre. Több nyelv is letölthető már, amivel megy offline is. Előbb-utóbb szerintem a magyar is letölthető lesz, és akkor menni fog offline is.
  • sanyicks #22
    gugli és az androidos hangfelismerés nagyon jól működik, magyarul is... a baj az vele hogy nem a gépen értelmezi hanem cloudban... így offline nem megy.
  • Tetsuo #21
    :DD Na kb. igy van nalunk is.
  • Tetsuo #20
    A munkamban pont hasznalok egy hangvezerleses raktaros rendszert, neha atom ideges leszek, meg a tobbiek is, aki meg hasznalja, mert neha felreerti amit mondunk :)
  • csimmasz #19
    Persze, ezért is mondom, hogy csak a diktálás, bár lehet akkor is maradnék a billentyűzetnél, talán.
    Az utómunka meg nyilván kényelmesebb a hagyományos módon.
  • willcox #18
    Az autómban van hangvezérlés is. Mindig megérti, hogy mit mondok neki (rengeteg, előre meghatározott parancsok vannak benne gyárilag), pedig nem az az anyanyelvem, amilyen nyelven a parancsot ki kell adni.

    Más:
    - a telefonomban van hangvezérlés is, igaz, az sem magyarul, de működik.
    - a gugli keresője beszélt szöveg alapján is tud keresni, magyarul is tud, és az esetek többségében hibátlanul felismeri, amit mondok neki.