Berta Sándor

Szájról olvasásban győz a mesterséges intelligencia

Az algoritmusok újabb területen győzedelmeskedtek.

Az Oxfordi Egyetem kutatói egy olyan rendszert fejlesztettek ki, amely a mesterséges intelligencia segítségével jobban tud szájról olvasni, mint egy ember. A LipNet nevű megoldás algoritmusokon és mesterséges intelligencián alapul, s képes egy videóban szereplő személy által elmondott szavakat kizárólag az ajakmozgás megfigyelésével és elemzésével megfejteni. Némi gyakorlás és tanítás után a szoftver még az embereket is túlszárnyalta és 93,4 százalékos pontosságot ért el. A szakemberek a program edzésére közel 29 000 mintát használtak fel. Összehasonlításul: a legjobb emberi eredmény 52,3 százalékos pontosságú volt.


A LipNetet megalkotó kutatók (Yannis Assael, Breendan Shillingford, Shimon Whiteson, Nando de Freitas) kifejtették, hogy a szájról olvasás fontos szerepet játszik, hogy ha az emberi kommunikációról és a beszéd kölcsönös megértéséről van szó. Az Oxfordi Egyetem Számítógép-tudományi Szakának munkatársai ugyanakkor hangsúlyozták, hogy a szájról olvasás komoly feladat az emberek számára. Az ajakmozgásokat ugyanis gyakran csak nagyon nehezen lehet felismerni, ezért az emberek nem igazán tudnak pontosan szájról olvasni.

A csoport célkitűzése az volt, hogy automatizálni tudják a folyamatot és ezzel párhuzamosan növelni tudják az elért pontosságot is. A gépi szájról olvasó rendszerekben hatalmas alkalmazási lehetőségek rejlenek, elsősorban javíthatnak a hallókészülékeken, lehetővé tehetik a hangtalan diktálást nyilvános környezetben, a rejtett beszélgetéseket hangos környezetekben vagy akár a biometriai azonosítást is. Azonban eddig csak az egyes szavak és nem pedig a teljes mondatok felismerésére volt lehetőség. Az igazi fordulópontot majd az jelentheti, ha megjelenik az első szájról olvasó rendszerre épülő kiforrott termék.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • Neocortex #1
    ezt összekötve hang alapú felismeréssel végre tökéletes lesz a beszédfelismerés