Berta Sándor

Robbanásszerűen fejlődik a beszédfelismerés

Pedro Moreno vezeti a Google Android részlegénél a beszédirányítási és -felismerési fejlesztéseket. A szakember két évtizede foglalkozik a két szakterülettel.

"Nagyon érdekes fejleménynek tartom, hogy a beszédfelismerés hirtelen a középpontba került. Én 20 éve kutatom ezeket rendszereket. Ezen idő alatt volt egy tudományos párbeszéd és sor került számos kutatásra, de három évvel ezelőttig alig érdeklődött valaki a terület iránt. Olyan téma volt, amiről senki sem gondolta igazán, hogy széleskörű haszna lehet. Aztán bekövetkezett a radikális változás. Beszélhetnék az általunk megalkotott fantasztikus új algoritmusokról vagy a neuronhálózatokon alapuló akusztikus modellezés területén elért fontos fejlődésekről, de a valóság ennél sokkal egyszerűbb." - nyilatkozta Pedro Moreno.

"Egyrészt nagyobb számítási teljesítmény áll a rendelkezésünkre, másrészt több elemezhető digitális adatunk van. Ez a két dolog vezetett oda, hogy a beszédfelismerési arány jelentős mértékben javult. Több ezer számítógépünk van, amelyekkel sokezer órányi hangfelvételt elemezhetünk különböző modelleket kipróbálva. Mindennap tíz évnyi hangfelvételt dolgozunk fel. Ezek hatalmas adatmennyiségek. Ennek az infrastruktúrának a segítségével fejleszthetjük tovább a szoftverünket. Emlékszünk a Star Trekben lévő számítógépre, amit a legénység teljesen természetes módon megértett? Mindez kézzel fogható közelségbe került."

"Ehhez jön még, hogy az okostelefonokon való gépelés fárasztó és sokkal több értelmük van a beszédparancsoknak. Minél többen használják azokat, annál gyorsabban valósul meg egy olyan gép, amelyet konvertálásokra lehet alkalmazni. Az okostelefonokkal lehetőség nyílik arra, hogy a világ különböző tájairól gyűjtsünk beszédmintákat és a használati statisztikák alapján megvizsgálható, hogy melyik megoldás működik. Mindez hatalmas kísérletek és számos vizsgálat elvégzését teszi lehetővé. Segít, hogy az Android az okostelefonok esetében a legelterjedtebb operációs rendszer. Ehhez társul még - és ez még fontosabb -, hogy hozzáférhetünk a szöveges kereső adataihoz. Látjuk, hogy az emberek hogyan keresnek és a tapasztalatokat integrálhatjuk a beszédfelismerő rendszerünkbe".


A kutató elmondta, hogy a beszédirányítás integrálása megváltoztatja a felhasználók szörfölési szokásait. Minden nyelv esetében van egy visszatérő minta. Az emberek a mobiljukon először csak bedobják a keresett szavakat, majd egyre inkább arra használják a rendszert, hogy rövid üzeneteket diktáljanak a segítségével. Ezután már a hosszabb e-maileket is elmondják, majd végül az internetes kereséseknél is természetes mondatokat adnak meg, azaz Valódi kérdéseket fogalmaznak meg. Így váltja fel az "étterem kínai belváros" keresést az a kérdés, hogy: "Hol található a belvárosban egy jó kínai étterem?"

Mindez persze új kihívásokat is jelent a Google számára. Eddig a felhasználók úgy finomították a kereséseiket, hogy beírtak még egy szót, most már sokkal inkább azt kell felismernie a szolgáltatásnak, hogy pontosan mire kíváncsi a kérdező. Ehhez szükség van mind a keresési krónika, mind az adott személy szörfölési szokásainak a tanulmányozására. Így pontosan kiderül, hogy az illető egy kérdés feltevésekor mire is gondol. A kontextus a kulcs a beszédfelismeréshez. Meghatározó, hogy ki az adott személy és éppen hol van. A keresőt fejlesztő csapat éppen ezért szorosabban együttműködik a beszédfelismerést kutató csoporttal. Minden adatokat gyűjtő vagy kezelő Google-részleg rendszere elérhető más részlegek számára is, így azok is feldolgozhatják ezeket az információkat. Ők is felhasználják például a Google Könyvek munkatársai által szerzett adatokat, mert azokból jobban megérthetik a különböző nyelveket.

"Az egyik legnagyobb problémát az jelenti, hogy bizonyos szavaknak több értelmük is lehet. Ezeket fel kell ismerni. Nem mindegy például, hogy valaki diktálás közben a pont szót miért és milyen formában használja: írásjelként vagy szóként. A hangsúly is gondokat okoz, elsősorban az ázsiai nyelveknél. Fel kell ismerni, hogy hol ér véget egy szó és hol kezdődik a másik. Kihívást jelentenek azok a nyelvek is, amelyek írása közben számos különleges írásjelet alkalmaznak. A vietnami például ilyen nyelv. Ezért kellett a vietnami keresőnél egy automatikus korrektúrarendszert beépítenünk."


"A személyre szabás segít felismerni az akcentusokat, így például a rendszer megérti az általam beszélt angolt, annak ellenére, hogy spanyol vagyok. Az akcentusok és a dialektusok egyébként nem jelentenek komoly problémát, mert elérhetők számunkra a szöveges keresők, így tudjuk, hogy valamit másként mond egy német és másként egy osztrák személy. Az arab nyelv esetében csak a tévékben használt arabot vettük alapnak, mert azt mindenki megérti, ugyanakkor a mindennapokban senki sem alkalmazza. A káromkodásokkal kapcsolatban megállapodtunk egy szabályról: fel akarjuk ismerni és meg akarjuk fejteni őket. Ez a legjobb tréning, mert az emberek a káromkodások esetében nagyon kreatívak és ezért ezek a szavak állandóan változnak. A káromkodásokat nagyon jól megértjük, de a megjelenítéskor mégis csillagozzuk őket" - tette hozzá a Google munkatársa.

Pedro Moreno hangsúlyozta: először nyelvészeket küldenek az adott országba, a csapat a helyszínen olyan hangfelvételeket rögzít, amelyek bizonyos szavakat, mondatokat, szófordulatokat tartalmaznak. Egyetlen hét alatt több száz órányi hanganyagot gyűjtenek össze. Ez képezi a későbbi munka alapját, ez lesz az a bázis, aminek a segítségével tesztelik és folyamatosan javítják a beszédfelismerő szoftvert. Éppen most zárult le a thaiföldi és az indiai felvételek rögzítése, további ötven nyelv van adatgyűjtési vagy integrálási szakaszban.

A számítógép számára három modellt ötvöznek, ezek az akusztikai, a nyelvi és a lexikonmodell. Az akusztikai az összegyűjtött hanganyagokon alapul; a beszédmodellnél azt nézik, hogy hogyan beszélik az emberek az adott nyelvet, s egyúttal figyelembe veszik a szöveges keresőben lévő információkat is; míg a legnehezebb a lexikonmodell. Az jelenti az igazi kihívást, hogy hány szabály létezik az adott nyelvben. A szuahéli ilyen szempontból könnyű eset, mert mindössze 50 szabály figyelembe vételével jó hangsúlyozási lexikont lehet létrehozni. A dán viszont borzalmas, mert nagyon bonyolult. Minden második héten elemzik a meglévő adatokat és folyamatosan finomítanak az akusztikai és a nyelvi modellen.

"Több mint 3000 nyelv van, és természetesen az lenne az optimális, ha mindegyiket digitalizálhatnánk. Sajnos ekkor lép közbe a költség-haszon szempont: mindig csak olyan nyelvek digitalizálása jöhet szóba, amit sokan beszélnek és amelyekkel kapcsolatban sok internetes tartalom létezik. A Google alapvetően kereséssel foglalkozik, így ha egy adott nyelven alig vannak elérhető webes tartalmak, akkor nincs értelme, hogy azon a nyelven kereshetővé tegyük azokat. A célunk az, hogy 300 nyelvet felismerhetővé és használhatóvá tegyünk a számítógép számára. Ezzel 99 százalékos lefedettséget érnénk el. Minden további fejlődés jóval nehezebb nehezebb, hiszen a felismerés akkor lesz jobb és pontosabb, ha sokan használják majd a szolgáltatást" - szögezte le a szakember.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • sanyicks #5
    már csak azt kéne összehozni, hogy mindez offline is működjön...
  • narumon #4
    Siri is meglepően jól dolgozik, már csak azt kellene fejleszteni, hogy jobban lehessen vele beszélgetni - 1-2 dologra felkészítették (jókat is lehet röhögni), de sokkal több ilyen igazi személyiséget hordozó apróság kellene bele.
  • NEXUS6 #3
    Tényleg látszik valami fejlődés, egy éve még elég kacagtató volt az, amit az androidos mobilom művelt, ma olyan 90%-ban már helyesen ismeri fel a kimondott szavakat.
  • vision5 #2
    feliratelemző = beszédfelismerő :)
  • vision5 #1
    A fő mozgatórugó a terrorizmus elleni harc. A google feliratelemző kezdetekben úgy feliratozta a szöveget hogy az tisztán megmutatta hogy a statisztikai algoritmus milyen kulcsszavakra koncentrál. így lett pl. Gordon Ramsay főzőműsora alatt a félrehallott szöveg izraeli atombomba és társai :D