Berta Sándor

Új hangfelismerő szoftver

Régóta ismert az a probléma, miszerint nehezen lehet megkülönböztetni egymástól az egyes emberek hangját egy zsúfolt teremben. Amerikai kutatók kifejlesztettek egy szoftvert, amivel megoldható ez a feladat.

A kutatók a bábeli hangzavarra emlékeztető problémát csak koktélparti-effektusnak hívják. Általában jól megfigyelhető, hogy egy hangos társaságban az ember a fül sajátosságai miatt nem tud minden egyes hangra külön koncentrálni és egy idő után mindenképpen elveszíti a fonalat. Gondot jelent, hogy ha két hasonló orgánumú ember van egy helyen, nagyon nehéz megkülönböztetni a hangjukat. A Missouri-Columbia Egyetem kutatói kifejlesztettek egy olyan szoftvert, ami a mind a két problémára megoldást kínál.

A program képes arra, hogy egyes hangokat vagy akár egyetlen hangot is elkülönítsen a környezetétől. Radu Balannak, a Siemens egyik munkatársának és két kollégájának, Dan Casazza és Dan Edidin professzoroknak sikerült egy társasági összejövetelen egy személy beszédét izolálniuk. "Megoldásunkat jelrekonstrukciónak neveztük el és a segítségével akár egy 25 személyes társaságból is külön-külön jól meg tudjuk különböztetni a beszélgetésekben résztvevő emberek hangját. Tehát nemcsak az egyes emberek szavait tudjuk kiszűrni és elkülöníteni, hanem gyakorlatilag egész beszédüket, beszédkarakterisztikájukat. A probléma tehát matematikai úton megoldható volt" - nyilatkozta Dan Edidin.

Az új szoftvert elsősorban a biztonságtechnika területén alkalmazzák majd, mivel a kutatásokat az amerikai Nemzeti Tudományos Alapítvány és a Nemzetbiztonsági Hivatal finanszírozta. A módszer azonban közel sem tökéletes, nem készült hozzá ugyanis algoritmus, így bőven lesz munkájuk a kutatóknak. Mindenesetre ez a szoftver jóval fejlettebb bármelyik másik jelenleg alkalmazott megoldásnál.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • kukacos #20
    A cikk (és a német eredeti is) tipikus példája annak, mennyire félretájékoztató tud lenni egy ilyen írás. A koktél-parti probléma lineáris változatait 1992 óta meg tudjuk oldani. Más néven vak forrásszétválasztásnak vagy a független komponens analízis (ICA) lineáris formájú alapfeladatának is hívják. Bár a cikk nem írja le, miből is áll a csoport újítása, valószínűleg szó nincs arról, hogy a fenti kutatócsoport "oldotta volna meg" a problémát. Talán csináltak egy jó szoftvercsomagot a célra, vagy megoldottak valami újabb részproblémát a kérdéskörben (amivel egyébként kutatók ezrei foglalkoznak évtizedek óta). Próbáltam megtalálni a kutatók honlapján a vonatkozó cikket, de csak a sajtóhírt találtam: valószínűleg csak a marketingjük jó.

    A feladatnak egyébként általában nincs köze a beszédfelismeréshez. Ha huszonöt különböző zajforrás lenne adva egy szobában, a szétválasztásuk akkor is megoldható volna a jelek statisztikai elemzésével. Az emberi beszéd nehezebb feladat tud lenni, mert nem feltétlen független forrásokból érkezik a jel, és nem feltétlen áll rendelkezésre annyi mikrofon, ahány beszélő van.
  • ttt ttt #19
    A cikk nekem is sántít, ugyanis az emberi fülről ír. Ez pedig pont ellenkező azzal a megállapítással amit még mindig nem tudnak pontosan megmagyarázni a tudósok, miszerint nem értik hogyan tud a fül, az emberi agy pl. egy komolyzenei koncerten csak egy-egy hangszerre koncentrálni, adott hangszer hangját kiszürni.
    Na mondjuk az általában nem bábeli hangzavar, lehet hogy ez a különbség?

    off
    Az OS2/Warp valóban bírta(ja) ezeket a képességeket és, ha van türelmed felolvasni a kért szavakat, azután már elég jól lehet diktálni neki. Úgy emlékszem hogy ezt már az Win NT-be is beépítették, de azt nem próbáltam. Szerintem most nem a diktálás a fő irányvonal, hanem a hang vezérlés, ami egy picit más terület, bár úgy látszik még elég ingoványos.

    on
  • moonman #18
    Nálam inkább az előbbi, legalábbis nem beszélek hozzá másképp viszont eleinte nálam is akadtak hibák, de most már szinte semmi probléma.
    Azt viszont nem kéne elfelejteni, hogy a Vista és a hangfelismerő rendszer is még béta. Viszont hamarosan jön az RC1, amit bárki letölthet, hasonlóan a Júniusban kiadott beta2-höz.
  • NEXUS6 #17
    Nálam ugyan nincs fenn, és ezért végül is akár befoghatnám a számat is.;)

    De tíz évvel ezelött win3.1/win95 alá szintén volt már ilyen szoftver, (szal az sem igaz amit a M$ szövegel az egyik lentebbi linken)ami már szintén képes volt a felhasználó hangjához kiejtéséhez alkalmazkodni.

    Követelmények: CPU 486-75MHz, 8MB RAM, 40MB HDD(na ez utóbbit egy kicsit húzósnak érzem;)))
  • dez #16
    Végén mindenki furán darabosan fog beszélni, mert ezt szokja meg Vistázás közben. De jó.
  • dez #15
    Talán megtanulja a hangodat? Vagy te alkalmazkodsz egyre jobban hozzá...?
  • dez #14
    Na ja, néha jól működik. Ez a legidegesítőbb, amikor valami egyszer működik, másszor látható ok nélkül hülyeségeket csinál.
  • saitek #13
    Hát nálam viszonylag jól működik, az első használatok idején voltak problémák, de most már egyre jobb, gyakorlatilag hiba nélkül műkszik.
    Ja és egy Celeron 2.4 + 768 MB RAM, kb 3 éves gépen van fent.
    Egyébként nálad fent van a Vista?
  • NEXUS6 #12
    Hát pont 10 évvel az OS/2 Warp után már ideje volt egy ilyen "forradalmi" dolognak.

    Az a különbség, hogy az egy sima 486-oson 16MB RAM-mal működött szarul, ennek meg hasonló megbízhatatlansághoz egy core 2 duo kell 1GB RAM-mal.

    LOL
  • moonman #11
    Lesz hangfelismerés a Vista-ban