Hunter
Utazás a géphangok világába
Élvezett már valaki valaha egy gépi hanggal folytatott társalgást? A legújabb kutatások szerint hamarosan erre is sor kerülhet, sőt a mesterséges hang felülmúlhatja az eredetit, véli a kaliforniai Stanford Egyetem professzora.
Ma egyre több helyen találkozunk testtelen hangokkal, melyek mindenáron a megfelelő helyre akarnak minket elirányítani, arra biztatnak, hogy figyelmesen hallgassuk végig az általa felsorolt opciókat, vagy éppen arról győzködnek, hogy milyen fontos is a hívásunk valaki számára. Néha még az autók is úgy vélik, hogy jobban tudják nálunk a dolgokat, aminek egyes modellek hangot is adnak.
Senki sem szereti, ha utasítgatják, amire még rá tesz egy jókora lapáttal az a tény, hogy a jelenlegi mesterséges hangok elég idegesítők, ami a természetes hangokra való ráhangoltságunkból eredhet. A mesterséges változat egyszerűen képtelen visszaadni azt a társadalmi érzetet, amit a mindennapi személyes vagy éppen telefonos beszélgetések adnak. Kutatók most pontosan olyan mesterséges hangokat próbálnak kifejleszteni, amik nem kergetnek az őrületbe, sőt még az eredetinél is jobbak azáltal, hogy nyugtatóbbak és meggyőzőbbek, mellyel kikövezhetik az utat a virtuális üzletkötők és ügyfélszolgálatok előtt, és számtalan helyen válhatnának alkalmazhatóvá anélkül, hogy zavaróak lennének.
A tudósok nagyon régóta foglalkoznak a természetesnek ható mesterséges hang megalkotásának gondolatával, vegyük rögtön Kempelen Farkas 1790-ban készült beszélőgépét. A 20. században már lehetőség nyílt az emberi hang elektronikusan történő újraalkotására. 1939-ben Homer Dudley a Bell Labs égisze alatt bemutatta a Vodert, ami egy hangszínt és fehér zajt alakított beszéddé mechanikus vezérlők egész sorának alkalmazásával, változtathatóvá téve a hang ütemét, hajlítását és a hanglejtést.
Az igazi áttörésre a hetvenes évek digitális forradalmáig kellett várni, amikor végre megvalósult a hangszintézis. 1978-ban a Texas Instruments piacra dobta "Speak'n'Spell" játékát, ami egy billentyűzet alkalmazásával bevitt szavakat alakította át beszéddé matematikai modellek által vezérelt szoftverével. Egy évvel később jelent meg az a technika, ami Stephen Hawking hangját is adja az MIT beszéd laboratóriumának jóvoltából. "Perfect Paul", majd továbbfejlesztett megfelelője "Huge Harry" a hangszintézis úttörőjének, Dennis Klattnek az agyszüleménye, ami szintén a begépelt szöveget alakította hanggá, a szoftver azonban már tisztában volt a nyelvi szabályokkal is. Hasonló szoftverek a nyolcvanas évek közepén már az otthoni számítógépeken is elérhetők voltak, ilyen volt például a Commodore Amiga gépein futó Workbench V1 operációs rendszer beépített beszédprogramja is.
A kilencvenes évek elején fordult egyet a világ és ahelyett, hogy szinte a semmiből teremtettek volna emberi hangot, a fejlesztők valódi hangfelvételeket kezdtek használni, melyeket alkotóelemeikre, fonémáira szedtek, majd ezekből alkottak új szavakat és mondatokat. A 21. század ezen technikán alapuló rendszerei rengeteget fejlődtek az elmúlt 10 évben, nem csupán fonémákat, de difonokat és demifonokat is alkalmazva. Ez által még emberibbnek hat mondandójuk, mégis hiányzik belőlük az érzelem, tönkretéve az összhatást. Ezért is találjuk egy idő után idegesítőnek a velük folytatott társalgást, ami többnyire igen egyoldalú.
A témával alaposan foglalkozó Clifford Nash professzor a New Scientist magazinnak elmondta, hogy mivel több mint 200 000 évnyi evolúcióra tekint vissza az emberi beszéd, ezért agyunk fokozottan érzékennyé vált arra, hogyan is mondják az adott szavakat, és nem elégszik meg azok puszta információ tartalmával, sőt. Ha a hang monoton, akkor unottnak hat és az ember is ennek megfelelően reagál. A kutatások azt is kimutatták, hogy a két nem képviselői sokkal szívesebben fogadnak el tanácsokat, utasításokat saját nemüknek megfelelő gépi hangoktól, ugyanakkor a hang "személyisége" is rendkívül meghatározó lehet, ami elsősorban a virtuális üzletkötők esetében fontos.
Egy másik érdekes kísérletben az autókban alkalmazott digitális hangrendszert vizsgálták, ami már akár élet-halál kérdése is lehet. Nass és kollégái egy vezetési szimulátorba ültették a jelentkezőket, előtte azonban egy szomorú vagy egy vidám filmmel behangolták az önkéntesek lelkivilágát. Ezután egy virtuális útvonalon kellett követniük egy géphangot, ami vagy megegyezett a vezető hangulatával, vagy szöges ellentétben állt vele. Az eredmények megdöbbentőek voltak. Azok a vezetők, akiket az érzelmi állapotukkal megegyező hang irányított, feleannyi virtuális balesetet sem szenvedtek, mint akiknek lehangoltságukban egy vidám hanggal vagy éppen ennek fordítottjával kellett szembesülniük.
A BMW 2001-ben kifejlesztett, a 7-es sorozatba épített műholdas navigációs rendszere azon bukott el, hogy a főként férfi autósok kifejezetten rosszul reagáltak a női géphang által adott utasításokra, mivel "kényelmetlennek, megbízhatatlannak és idegesítőnek" találták ha egy nő mondja meg miként, és merre haladjanak. A bajorok számos hangtípussal próbálkoztak, a végső megoldást a "német mérnök" hangminta némi barátságos aspektussal történő vegyítése adta. Ez a hang mély tónusával és a normálisnál egy kicsit pergőbb ritmusával viszonylag domináns, kellőképpen barátságos és rendkívül határozott lett, az autósok egyáltalán nem tiltakoztak ellene.
A szakértők szerint a siker titka a hasonlóságban rejlik, azaz a gép hangja egyezzen meg használójáéval. Ehhez a rendszereknek fel kellene ismerniük a velük kapcsolatba lépő emberek hangulatát, amire már kezdenek felkészültté válni a jelenleg fejlesztés alatt álló szoftverek. A stresszt viszonylag hatékonyan felismerik, ilyenkor ugyanis a hangszálak megfeszülnek, a beszéd hangszíne kissé érdesebbé válik. A harag már korántsem ilyen egyszerű, mindenki másként kapja fel a vizet. Van aki kiabál, szitkozódik, mások befelé fordulnak, rideggé és szarkasztikussá válnak.
Mindezek tetejébe az emberek eleve nem túl toleránsak a robothangok tulajdonosaival, különösen, ha sürgősen szeretnének elintézni valamit, és végig kell várniuk a gép mondókáját. Ezen a téren talán a német T-Systems fejlesztése a legelőremutatóbb, amit egy beszédelemző rendszerrel láttak el, emellett pedig figyeli a szitkok elhangzását is. A beszédelemző figyeli a hívó hangjának ritmusát, tónusát és erejét, amiből igyekszik megállapítani a hívó frusztráltságát. Az első változat kizárólag a szitkokra figyelt, azonban az ember rendkívül kreatívvá tud válni, ha egy gépi hangot kell becsmérelnie, így a rendszer elképesztő pontatlansággal mérte fel a kényes helyzeteket.
A fejlesztők ezután stratégiát váltottak és a gép általi visszafeleseléssel, "Hogy mer így beszélni velem?!" igyekeztek egyértelművé tenni a hívó lelkiállapotáról gyűjtött információkat. A heves reakciókból egyértelmű, hogy az emberi felet egy nem éppen kellemes csevegésből sikerült kizökkenteni. A módszer 70 százalékos hatékonysággal működött, ami nem rossz, a fejlesztők szerint azonban még közel sem elég. Legalább 98%-os pontosságra van szükség, addig pedig jobbnak látnák az emberekre hagyni a megnyugtatást, egy pontatlan gép ugyanis csak ront a helyzeten.
Számos szakértő szerint azonban a rendszer soha nem lesz tökéletes, a gép gép marad, ugyanúgy ahogy előítéleteink sem illannak el soha, akármennyire élethű és hasznos lesz is a gépi beszéd. Nass professzor azonban hisz benne, hogy az érzelmeinket felismerő és annak megfelelően reagáló számítógépek hatalmas fejlődést jelentenek majd az érzelemmentes robotok világában. Szerinte egy nap eljuthatunk odáig, hogy szívesebben választjuk a digitális segítőket a nem hatékony, hangulatfüggő emberi munkatársaknál.
Ma egyre több helyen találkozunk testtelen hangokkal, melyek mindenáron a megfelelő helyre akarnak minket elirányítani, arra biztatnak, hogy figyelmesen hallgassuk végig az általa felsorolt opciókat, vagy éppen arról győzködnek, hogy milyen fontos is a hívásunk valaki számára. Néha még az autók is úgy vélik, hogy jobban tudják nálunk a dolgokat, aminek egyes modellek hangot is adnak.
Senki sem szereti, ha utasítgatják, amire még rá tesz egy jókora lapáttal az a tény, hogy a jelenlegi mesterséges hangok elég idegesítők, ami a természetes hangokra való ráhangoltságunkból eredhet. A mesterséges változat egyszerűen képtelen visszaadni azt a társadalmi érzetet, amit a mindennapi személyes vagy éppen telefonos beszélgetések adnak. Kutatók most pontosan olyan mesterséges hangokat próbálnak kifejleszteni, amik nem kergetnek az őrületbe, sőt még az eredetinél is jobbak azáltal, hogy nyugtatóbbak és meggyőzőbbek, mellyel kikövezhetik az utat a virtuális üzletkötők és ügyfélszolgálatok előtt, és számtalan helyen válhatnának alkalmazhatóvá anélkül, hogy zavaróak lennének.
A tudósok nagyon régóta foglalkoznak a természetesnek ható mesterséges hang megalkotásának gondolatával, vegyük rögtön Kempelen Farkas 1790-ban készült beszélőgépét. A 20. században már lehetőség nyílt az emberi hang elektronikusan történő újraalkotására. 1939-ben Homer Dudley a Bell Labs égisze alatt bemutatta a Vodert, ami egy hangszínt és fehér zajt alakított beszéddé mechanikus vezérlők egész sorának alkalmazásával, változtathatóvá téve a hang ütemét, hajlítását és a hanglejtést.
Az igazi áttörésre a hetvenes évek digitális forradalmáig kellett várni, amikor végre megvalósult a hangszintézis. 1978-ban a Texas Instruments piacra dobta "Speak'n'Spell" játékát, ami egy billentyűzet alkalmazásával bevitt szavakat alakította át beszéddé matematikai modellek által vezérelt szoftverével. Egy évvel később jelent meg az a technika, ami Stephen Hawking hangját is adja az MIT beszéd laboratóriumának jóvoltából. "Perfect Paul", majd továbbfejlesztett megfelelője "Huge Harry" a hangszintézis úttörőjének, Dennis Klattnek az agyszüleménye, ami szintén a begépelt szöveget alakította hanggá, a szoftver azonban már tisztában volt a nyelvi szabályokkal is. Hasonló szoftverek a nyolcvanas évek közepén már az otthoni számítógépeken is elérhetők voltak, ilyen volt például a Commodore Amiga gépein futó Workbench V1 operációs rendszer beépített beszédprogramja is.
A kilencvenes évek elején fordult egyet a világ és ahelyett, hogy szinte a semmiből teremtettek volna emberi hangot, a fejlesztők valódi hangfelvételeket kezdtek használni, melyeket alkotóelemeikre, fonémáira szedtek, majd ezekből alkottak új szavakat és mondatokat. A 21. század ezen technikán alapuló rendszerei rengeteget fejlődtek az elmúlt 10 évben, nem csupán fonémákat, de difonokat és demifonokat is alkalmazva. Ez által még emberibbnek hat mondandójuk, mégis hiányzik belőlük az érzelem, tönkretéve az összhatást. Ezért is találjuk egy idő után idegesítőnek a velük folytatott társalgást, ami többnyire igen egyoldalú.
A témával alaposan foglalkozó Clifford Nash professzor a New Scientist magazinnak elmondta, hogy mivel több mint 200 000 évnyi evolúcióra tekint vissza az emberi beszéd, ezért agyunk fokozottan érzékennyé vált arra, hogyan is mondják az adott szavakat, és nem elégszik meg azok puszta információ tartalmával, sőt. Ha a hang monoton, akkor unottnak hat és az ember is ennek megfelelően reagál. A kutatások azt is kimutatták, hogy a két nem képviselői sokkal szívesebben fogadnak el tanácsokat, utasításokat saját nemüknek megfelelő gépi hangoktól, ugyanakkor a hang "személyisége" is rendkívül meghatározó lehet, ami elsősorban a virtuális üzletkötők esetében fontos.
Egy másik érdekes kísérletben az autókban alkalmazott digitális hangrendszert vizsgálták, ami már akár élet-halál kérdése is lehet. Nass és kollégái egy vezetési szimulátorba ültették a jelentkezőket, előtte azonban egy szomorú vagy egy vidám filmmel behangolták az önkéntesek lelkivilágát. Ezután egy virtuális útvonalon kellett követniük egy géphangot, ami vagy megegyezett a vezető hangulatával, vagy szöges ellentétben állt vele. Az eredmények megdöbbentőek voltak. Azok a vezetők, akiket az érzelmi állapotukkal megegyező hang irányított, feleannyi virtuális balesetet sem szenvedtek, mint akiknek lehangoltságukban egy vidám hanggal vagy éppen ennek fordítottjával kellett szembesülniük.
A BMW 2001-ben kifejlesztett, a 7-es sorozatba épített műholdas navigációs rendszere azon bukott el, hogy a főként férfi autósok kifejezetten rosszul reagáltak a női géphang által adott utasításokra, mivel "kényelmetlennek, megbízhatatlannak és idegesítőnek" találták ha egy nő mondja meg miként, és merre haladjanak. A bajorok számos hangtípussal próbálkoztak, a végső megoldást a "német mérnök" hangminta némi barátságos aspektussal történő vegyítése adta. Ez a hang mély tónusával és a normálisnál egy kicsit pergőbb ritmusával viszonylag domináns, kellőképpen barátságos és rendkívül határozott lett, az autósok egyáltalán nem tiltakoztak ellene.
A szakértők szerint a siker titka a hasonlóságban rejlik, azaz a gép hangja egyezzen meg használójáéval. Ehhez a rendszereknek fel kellene ismerniük a velük kapcsolatba lépő emberek hangulatát, amire már kezdenek felkészültté válni a jelenleg fejlesztés alatt álló szoftverek. A stresszt viszonylag hatékonyan felismerik, ilyenkor ugyanis a hangszálak megfeszülnek, a beszéd hangszíne kissé érdesebbé válik. A harag már korántsem ilyen egyszerű, mindenki másként kapja fel a vizet. Van aki kiabál, szitkozódik, mások befelé fordulnak, rideggé és szarkasztikussá válnak.
Mindezek tetejébe az emberek eleve nem túl toleránsak a robothangok tulajdonosaival, különösen, ha sürgősen szeretnének elintézni valamit, és végig kell várniuk a gép mondókáját. Ezen a téren talán a német T-Systems fejlesztése a legelőremutatóbb, amit egy beszédelemző rendszerrel láttak el, emellett pedig figyeli a szitkok elhangzását is. A beszédelemző figyeli a hívó hangjának ritmusát, tónusát és erejét, amiből igyekszik megállapítani a hívó frusztráltságát. Az első változat kizárólag a szitkokra figyelt, azonban az ember rendkívül kreatívvá tud válni, ha egy gépi hangot kell becsmérelnie, így a rendszer elképesztő pontatlansággal mérte fel a kényes helyzeteket.
A fejlesztők ezután stratégiát váltottak és a gép általi visszafeleseléssel, "Hogy mer így beszélni velem?!" igyekeztek egyértelművé tenni a hívó lelkiállapotáról gyűjtött információkat. A heves reakciókból egyértelmű, hogy az emberi felet egy nem éppen kellemes csevegésből sikerült kizökkenteni. A módszer 70 százalékos hatékonysággal működött, ami nem rossz, a fejlesztők szerint azonban még közel sem elég. Legalább 98%-os pontosságra van szükség, addig pedig jobbnak látnák az emberekre hagyni a megnyugtatást, egy pontatlan gép ugyanis csak ront a helyzeten.
Számos szakértő szerint azonban a rendszer soha nem lesz tökéletes, a gép gép marad, ugyanúgy ahogy előítéleteink sem illannak el soha, akármennyire élethű és hasznos lesz is a gépi beszéd. Nass professzor azonban hisz benne, hogy az érzelmeinket felismerő és annak megfelelően reagáló számítógépek hatalmas fejlődést jelentenek majd az érzelemmentes robotok világában. Szerinte egy nap eljuthatunk odáig, hogy szívesebben választjuk a digitális segítőket a nem hatékony, hangulatfüggő emberi munkatársaknál.