Berta Sándor
Szájról olvasásban győz a mesterséges intelligencia
Az algoritmusok újabb területen győzedelmeskedtek.
Az Oxfordi Egyetem kutatói egy olyan rendszert fejlesztettek ki, amely a mesterséges intelligencia segítségével jobban tud szájról olvasni, mint egy ember. A LipNet nevű megoldás algoritmusokon és mesterséges intelligencián alapul, s képes egy videóban szereplő személy által elmondott szavakat kizárólag az ajakmozgás megfigyelésével és elemzésével megfejteni. Némi gyakorlás és tanítás után a szoftver még az embereket is túlszárnyalta és 93,4 százalékos pontosságot ért el. A szakemberek a program edzésére közel 29 000 mintát használtak fel. Összehasonlításul: a legjobb emberi eredmény 52,3 százalékos pontosságú volt.
A LipNetet megalkotó kutatók (Yannis Assael, Breendan Shillingford, Shimon Whiteson, Nando de Freitas) kifejtették, hogy a szájról olvasás fontos szerepet játszik, hogy ha az emberi kommunikációról és a beszéd kölcsönös megértéséről van szó. Az Oxfordi Egyetem Számítógép-tudományi Szakának munkatársai ugyanakkor hangsúlyozták, hogy a szájról olvasás komoly feladat az emberek számára. Az ajakmozgásokat ugyanis gyakran csak nagyon nehezen lehet felismerni, ezért az emberek nem igazán tudnak pontosan szájról olvasni.
A csoport célkitűzése az volt, hogy automatizálni tudják a folyamatot és ezzel párhuzamosan növelni tudják az elért pontosságot is. A gépi szájról olvasó rendszerekben hatalmas alkalmazási lehetőségek rejlenek, elsősorban javíthatnak a hallókészülékeken, lehetővé tehetik a hangtalan diktálást nyilvános környezetben, a rejtett beszélgetéseket hangos környezetekben vagy akár a biometriai azonosítást is. Azonban eddig csak az egyes szavak és nem pedig a teljes mondatok felismerésére volt lehetőség. Az igazi fordulópontot majd az jelentheti, ha megjelenik az első szájról olvasó rendszerre épülő kiforrott termék.
Az Oxfordi Egyetem kutatói egy olyan rendszert fejlesztettek ki, amely a mesterséges intelligencia segítségével jobban tud szájról olvasni, mint egy ember. A LipNet nevű megoldás algoritmusokon és mesterséges intelligencián alapul, s képes egy videóban szereplő személy által elmondott szavakat kizárólag az ajakmozgás megfigyelésével és elemzésével megfejteni. Némi gyakorlás és tanítás után a szoftver még az embereket is túlszárnyalta és 93,4 százalékos pontosságot ért el. A szakemberek a program edzésére közel 29 000 mintát használtak fel. Összehasonlításul: a legjobb emberi eredmény 52,3 százalékos pontosságú volt.
A LipNetet megalkotó kutatók (Yannis Assael, Breendan Shillingford, Shimon Whiteson, Nando de Freitas) kifejtették, hogy a szájról olvasás fontos szerepet játszik, hogy ha az emberi kommunikációról és a beszéd kölcsönös megértéséről van szó. Az Oxfordi Egyetem Számítógép-tudományi Szakának munkatársai ugyanakkor hangsúlyozták, hogy a szájról olvasás komoly feladat az emberek számára. Az ajakmozgásokat ugyanis gyakran csak nagyon nehezen lehet felismerni, ezért az emberek nem igazán tudnak pontosan szájról olvasni.
A csoport célkitűzése az volt, hogy automatizálni tudják a folyamatot és ezzel párhuzamosan növelni tudják az elért pontosságot is. A gépi szájról olvasó rendszerekben hatalmas alkalmazási lehetőségek rejlenek, elsősorban javíthatnak a hallókészülékeken, lehetővé tehetik a hangtalan diktálást nyilvános környezetben, a rejtett beszélgetéseket hangos környezetekben vagy akár a biometriai azonosítást is. Azonban eddig csak az egyes szavak és nem pedig a teljes mondatok felismerésére volt lehetőség. Az igazi fordulópontot majd az jelentheti, ha megjelenik az első szájról olvasó rendszerre épülő kiforrott termék.