SG.hu·2006. augusztus 26.

Új hangfelismerő szoftver

Régóta ismert az a probléma, miszerint nehezen lehet megkülönböztetni egymástól az egyes emberek hangját egy zsúfolt teremben. Amerikai kutatók kifejlesztettek egy szoftvert, amivel megoldható ez a feladat.

A kutatók a bábeli hangzavarra emlékeztető problémát csak koktélparti-effektusnak hívják. Általában jól megfigyelhető, hogy egy hangos társaságban az ember a fül sajátosságai miatt nem tud minden egyes hangra külön koncentrálni és egy idő után mindenképpen elveszíti a fonalat. Gondot jelent, hogy ha két hasonló orgánumú ember van egy helyen, nagyon nehéz megkülönböztetni a hangjukat. A Missouri-Columbia Egyetem kutatói kifejlesztettek egy olyan szoftvert, ami a mind a két problémára megoldást kínál.

A program képes arra, hogy egyes hangokat vagy akár egyetlen hangot is elkülönítsen a környezetétől. Radu Balannak, a Siemens egyik munkatársának és két kollégájának, Dan Casazza és Dan Edidin professzoroknak sikerült egy társasági összejövetelen egy személy beszédét izolálniuk. "Megoldásunkat jelrekonstrukciónak neveztük el és a segítségével akár egy 25 személyes társaságból is külön-külön jól meg tudjuk különböztetni a beszélgetésekben résztvevő emberek hangját. Tehát nemcsak az egyes emberek szavait tudjuk kiszűrni és elkülöníteni, hanem gyakorlatilag egész beszédüket, beszédkarakterisztikájukat. A probléma tehát matematikai úton megoldható volt" - nyilatkozta Dan Edidin.

Az új szoftvert elsősorban a biztonságtechnika területén alkalmazzák majd, mivel a kutatásokat az amerikai Nemzeti Tudományos Alapítvány és a Nemzetbiztonsági Hivatal finanszírozta. A módszer azonban közel sem tökéletes, nem készült hozzá ugyanis algoritmus, így bőven lesz munkájuk a kutatóknak. Mindenesetre ez a szoftver jóval fejlettebb bármelyik másik jelenleg alkalmazott megoldásnál.

Kapcsolódó cikkek és linkek

A szoftvercégek szerint a mesterséges intelligencia nem jelenti az iparág végét Az Anthropic és az OpenAI lépései új versenyhelyzetet teremtenek a szoftverpiacon A szoftverszektor pánikban, az MI közel ezer millárd dollár értéket törölt el A szoftverfejlesztő cégek nem feltétlen örülnek az MI konkurenciájának A Broadcom fejőstehénnek használja a VMware-t és elűzi az ügyfeleket Kalózkodással vádolja a VMware a Siemenst Hatalmas marketingsiker a Duolingo kabalájának megölése Nagyon megdrágult a VMware miután megvette őket a Broadcom National Security Agency ↗

Hozzászólások

Jelentkezz be a hozzászóláshoz.

A cikk (és a német eredeti is) tipikus példája annak, mennyire félretájékoztató tud lenni egy ilyen írás. A koktél-parti probléma lineáris változatait 1992 óta meg tudjuk oldani. Más néven vak forrásszétválasztásnak vagy a független komponens analízis (ICA) lineáris formájú alapfeladatának is hívják. Bár a cikk nem írja le, mibõl is áll a csoport újítása, valószínûleg szó nincs arról, hogy a fenti kutatócsoport "oldotta volna meg" a problémát. Talán csináltak egy jó szoftvercsomagot a célra, vagy megoldottak valami újabb részproblémát a kérdéskörben (amivel egyébként kutatók ezrei foglalkoznak évtizedek óta). Próbáltam megtalálni a kutatók honlapján a vonatkozó cikket, de csak a sajtóhírt találtam: valószínûleg csak a marketingjük jó.

A feladatnak egyébként általában nincs köze a beszédfelismeréshez. Ha huszonöt különbözõ zajforrás lenne adva egy szobában, a szétválasztásuk akkor is megoldható volna a jelek statisztikai elemzésével. Az emberi beszéd nehezebb feladat tud lenni, mert nem feltétlen független forrásokból érkezik a jel, és nem feltétlen áll rendelkezésre annyi mikrofon, ahány beszélõ van.

A cikk nekem is sántít, ugyanis az emberi fülrõl ír. Ez pedig pont ellenkezõ azzal a megállapítással amit még mindig nem tudnak pontosan megmagyarázni a tudósok, miszerint nem értik hogyan tud a fül, az emberi agy pl. egy komolyzenei koncerten csak egy-egy hangszerre koncentrálni, adott hangszer hangját kiszürni.
Na mondjuk az általában nem bábeli hangzavar, lehet hogy ez a különbség?

off
Az OS2/Warp valóban bírta(ja) ezeket a képességeket és, ha van türelmed felolvasni a kért szavakat, azután már elég jól lehet diktálni neki. Úgy emlékszem hogy ezt már az Win NT-be is beépítették, de azt nem próbáltam. Szerintem most nem a diktálás a fõ irányvonal, hanem a hang vezérlés, ami egy picit más terület, bár úgy látszik még elég ingoványos.

on

Nálam inkább az elõbbi, legalábbis nem beszélek hozzá másképp viszont eleinte nálam is akadtak hibák, de most már szinte semmi probléma.
Azt viszont nem kéne elfelejteni, hogy a Vista és a hangfelismerõ rendszer is még béta. Viszont hamarosan jön az RC1, amit bárki letölthet, hasonlóan a Júniusban kiadott beta2-höz.

Nálam ugyan nincs fenn, és ezért végül is akár befoghatnám a számat is.😉

De tíz évvel ezelött win3.1/win95 alá szintén volt már ilyen szoftver, (szal az sem igaz amit a M$ szövegel az egyik lentebbi linken)ami már szintén képes volt a felhasználó hangjához kiejtéséhez alkalmazkodni.

Követelmények: CPU 486-75MHz, 8MB RAM, 40MB HDD(na ez utóbbit egy kicsit húzósnak érzem😉))

Végén mindenki furán darabosan fog beszélni, mert ezt szokja meg Vistázás közben. De jó.

Talán megtanulja a hangodat? Vagy te alkalmazkodsz egyre jobban hozzá...?

Na ja, néha jól mûködik. Ez a legidegesítõbb, amikor valami egyszer mûködik, másszor látható ok nélkül hülyeségeket csinál.

Hát nálam viszonylag jól mûködik, az elsõ használatok idején voltak problémák, de most már egyre jobb, gyakorlatilag hiba nélkül mûkszik.
Ja és egy Celeron 2.4 + 768 MB RAM, kb 3 éves gépen van fent.
Egyébként nálad fent van a Vista?

Hát pont 10 évvel az OS/2 Warp után már ideje volt egy ilyen "forradalmi" dolognak.

Az a különbség, hogy az egy sima 486-oson 16MB RAM-mal mûködött szarul, ennek meg hasonló megbízhatatlansághoz egy core 2 duo kell 1GB RAM-mal.

LOL

Lesz hangfelismerés a Vista-ban

További bejegyzések a fórumban...