Berta Sándor
Beszédfelismerés - jobb az embernél a mesterséges intelligencia?
Kutatók áttörést értek el a területen.
A Karlsruhei Technológiai Intézet (KIT) kutatói megalkották a világ első olyan beszédfelismerő rendszerét, amely az embernél jobban ismeri fel a beszédet és a többi mesterséges intelligenciánál gyorsabban dolgozza fel azt.
Egy mindennapi beszélgetés követése és pontos visszaadása az egyik legnagyobb kihívást jelenti a mesterséges intelligencia kutatások során. A KIT munkatársai által kifejlesztett Lecture Translator nevű szoftver képes pontosan visszaadni a spontán beszédet, ráadásul úgy, hogy a folyamat csupán minimális késleltetéssel valósul meg. A szakemberek az elért eredményeiket az ArXiv.org internetes platformon osztották meg.
Alex Waibel, a KIT professzora kijelentette, hogyha emberek beszélnek egymással, akkor vannak dadogások, tétovázások, nevetések, köhögések. A helyzetet súlyosbítja, hogy gyakran a szavakat sem ejtik ki egyértelműen, ezáltal nagyon nehéz pontosan felidézni vagy visszamondani egy korábbi párbeszédet. A mesterséges intelligenciák számára ez a feladat ugyanakkor még nehezebb.
A Lecture Translator azonban még az embereknél is jobban elvégzi ezt a feladatot. Érdekesség, hogy a programot már 2012 óta alkalmazzák az intézet előadótermeiben és a legnagyobb előnye a spontán beszéd felismerése. Az emberi hibaarány 5,5 százalék, míg a rendszeré 5 százalék. De nem csupán a pontosság számít, hanem az is, hogy az anyagokat milyen gyorsan idézi vissza a szoftver. A különböző késleltetéseket sikerült egyetlen másodpercre csökkenteni. Waibel hangsúlyozta, hogy ez a legalacsonyabb érték, amelyet valaha egy beszédfelismerő rendszer esetében sikerült elérni.
De ezek a megoldások nem értik a tartalmakat vagy az összefüggéseket. A fejlesztésnél kizárólag a beszéd akusztikus felismeréséről van szó tudományosan összehasonlítható feltételek mellett. Mindenesetre a programnak köszönhetően a párbeszédekkel, a fordítással és más dolgokkal foglalkozó mesterséges intelligencia modulok is gyorsabbá és pontosabbá válhatnak.
A Karlsruhei Technológiai Intézet (KIT) kutatói megalkották a világ első olyan beszédfelismerő rendszerét, amely az embernél jobban ismeri fel a beszédet és a többi mesterséges intelligenciánál gyorsabban dolgozza fel azt.
Egy mindennapi beszélgetés követése és pontos visszaadása az egyik legnagyobb kihívást jelenti a mesterséges intelligencia kutatások során. A KIT munkatársai által kifejlesztett Lecture Translator nevű szoftver képes pontosan visszaadni a spontán beszédet, ráadásul úgy, hogy a folyamat csupán minimális késleltetéssel valósul meg. A szakemberek az elért eredményeiket az ArXiv.org internetes platformon osztották meg.
Alex Waibel, a KIT professzora kijelentette, hogyha emberek beszélnek egymással, akkor vannak dadogások, tétovázások, nevetések, köhögések. A helyzetet súlyosbítja, hogy gyakran a szavakat sem ejtik ki egyértelműen, ezáltal nagyon nehéz pontosan felidézni vagy visszamondani egy korábbi párbeszédet. A mesterséges intelligenciák számára ez a feladat ugyanakkor még nehezebb.
A Lecture Translator azonban még az embereknél is jobban elvégzi ezt a feladatot. Érdekesség, hogy a programot már 2012 óta alkalmazzák az intézet előadótermeiben és a legnagyobb előnye a spontán beszéd felismerése. Az emberi hibaarány 5,5 százalék, míg a rendszeré 5 százalék. De nem csupán a pontosság számít, hanem az is, hogy az anyagokat milyen gyorsan idézi vissza a szoftver. A különböző késleltetéseket sikerült egyetlen másodpercre csökkenteni. Waibel hangsúlyozta, hogy ez a legalacsonyabb érték, amelyet valaha egy beszédfelismerő rendszer esetében sikerült elérni.
De ezek a megoldások nem értik a tartalmakat vagy az összefüggéseket. A fejlesztésnél kizárólag a beszéd akusztikus felismeréséről van szó tudományosan összehasonlítható feltételek mellett. Mindenesetre a programnak köszönhetően a párbeszédekkel, a fordítással és más dolgokkal foglalkozó mesterséges intelligencia modulok is gyorsabbá és pontosabbá válhatnak.