SG.hu
Áttörés küszöbén az agyhullámok folyamatos beszéddé alakítása

Az idegtudósok arra törekszenek, hogy hangot adjanak a beszélni képtelen embereknek úgy, hogy az agyhullámokat a fizikai képességek helyreállítására vagy javítására használják fel. Egyetemek kutatói és olyan cégek, mint a Precision Neuroscience, az agyi implantátumok és a mesterséges intelligencia kombinációjával próbálják elérni a természetes beszéd előállítását.
Már régóta jelentős befektetés és figyelem irányul olyan implantátumokra, amelyek lehetővé teszik a súlyosan fogyatékos emberek számára, hogy számítógépes billentyűzeteket kezeljenek, robotkarokat irányítsanak, vagy visszanyerjék bénult végtagjaik bizonyos fokú használatát. Néhány laboratórium azonban olyan technológiára összpontosítva tesz előrelépéseket, amely a gondolatmintákat beszéddé alakítja.
"A cél az agy és a szintetikus hang közötti olyan szintű kapcsolat elérése, mely mintha két beszélő ember között zajlana.” - mondta Edward Chang, a San Franciscó-i Kaliforniai Egyetem idegsebésze. "Nagy előrelépést értünk el. Az általunk használt mesterséges intelligencia-algoritmusok egyre gyorsabbak, és minden egyes új pácienssel sokat tanulunk.” Chang és kollégái, köztük a Kaliforniai Berkeley Egyetem munkatársai a múlt hónapban a Nature Neuroscience című szaklapban publikálták munkájukat, amelyben részletesen beszámoltak egy kvadriplégiás, vagyis a végtagok és a törzs bénulásában szenvedő nővel végzett munkájukról, aki egy agyvérzés miatt 18 évig nem tudott beszélni.
A nő egy öntanuló neurális hálózatot képzett ki azzal, hogy némán próbált 1024 különböző szó felhasználásával összeállított mondatokat kimondani. A hangját úgy hozták létre, hogy az idegi adatait egy beszédszintetizáló és szövegdekódoló modellbe áramoltatták. A technika a csoport által korábban elért nyolc másodpercről egy másodpercre csökkentette a páciens agyi jelei és az így kapott hang közötti késleltetést. Ez már nagyon közel van a normál beszédnél tapasztalható 100-200 milliszekundumos időkülönbséghez. A rendszer átlagos dekódolási sebessége 47,5 szó volt percenként, ami körülbelül egyharmada a normál beszélgetés sebességének.
Évente sok ezer olyan embernek jelenthet hasznot az úgynevezett hangprotézis, akiknek a kognitív funkcióik többé-kevésbé épek maradnak, de beszédkiesésük van agyvérzés, az ALS neurodegeneratív betegség vagy egyéb agyi állapotok miatt. Ha sikerrel járnak, a kutatók remélik, hogy a technikát ki lehet terjeszteni az olyan emberekre, akiknek a hangadás nehézséget okoz, például agyi bénulás vagy autizmus miatt.
A hang-neuroprotézisekben rejlő lehetőségek kezdik kiváltani a cégek érdeklődését is. A Precision Neuroscience azt állítja, hogy nagyobb felbontású agyi jeleket rögzít, mint az akadémiai kutatók, mivel implantátumainak elektródái sűrűbben vannak elhelyezve. A vállalat eddig 31 beteggel dolgozott, és hamarosan további betegektől tervezi az adatgyűjtést, ami a kereskedelmi forgalomba hozatal lehetséges útját jelenti. A agy-számítógép interfész (BCI) piacon a legismertebb társaság Elon Musk Neuralink nevű vállalata, de ez a cég arra összpontosít, hogy a bénult emberek számára lehetővé tegye a számítógépek irányítását, nem pedig arra, hogy szintetikus hangot adjon nekik.
A Precision megkapta a hatósági engedélyt arra, hogy az érzékelőit legfeljebb 30 napig beültetve hagyja. Ez lehetővé teszi a tudósok számára, hogy a rendszerüket egy éven belül a „Földön létező legnagyobb felbontású neurális adattárral” képezzék ki - mondta Michael Mager vezérigazgató. A következő lépés az lesz, hogy „miniatürizálni kell az alkatrészeket, és hermetikusan lezárt, biokompatibilis csomagokba helyezni őket, hogy örökre a testbe lehessen ültetni őket” - mondta Mager.
Az agy-hang technológia fejlesztésének fontos akadálya, hogy a betegeknek időbe telik megtanulni a rendszer használatát. Az egyik legfontosabb megválaszolatlan kérdés az, hogy a motoros kéreg - az agynak az önkéntes cselekvéseket, köztük a beszédet is irányító része - válaszmintái mennyire térnek el az egyes emberek között. Ha ezek nagyon hasonlóak, akkor a korábbi személyeken betanított gépi tanulási modelleket fel lehet használni az új betegeknél, mondta Nick Ramsey, az Utrechti Orvosi Egyetem BCI-kutatója. Ez felgyorsítaná azt a folyamatot, amely ma „több tíz vagy több száz órát vesz igénybe, hogy elegendő adatot generáljunk azáltal, hogy egy résztvevőnek szavakat mutatunk, és megkérjük, hogy próbálja meg azokat kimondani”.
Ramsey elmondta, hogy az összes agy-hanggal kapcsolatos kutatás a motoros kéregre összpontosít, ahol az idegsejtek aktiválják a beszédben részt vevő izmokat, és nincs bizonyíték arra, hogy a beszédet más agyterületekről vagy a belső gondolatok dekódolásával is elő lehetne állítani. "Még ha sikerülne is, nem akarnánk, hogy más emberek hallják a belső beszédeket” - tette hozzá. "Sok olyan dolog van, amit gondolok, de nem mondok ki hangosan, mert nem lenne előnyömre, vagy megbántana embereket”.
Az egészséges beszédhez hasonló szintű szintetikus hang kifejlesztése még „elég messze van” - mondta Szergej Sztavisky, a Davis-i Kaliforniai Egyetem neuroprotetikai laboratóriumának társigazgatója. Laboratóriuma bebizonyította, hogy 98 százalékos pontossággal képes dekódolni, hogy valaki mit akar mondani - mondta. A hangkimenet azonban nem azonnali, és nem rögzíti a beszéd olyan fontos tulajdonságait, mint például a hangszín. Az sem világos, hogy a rögzítésre használt hardver - azaz az elektródák - lehetővé teszik-e, hogy a szintézis megfeleljen az egészséges emberi hangnak. A tudósoknak mélyebben meg kell érteniük, hogyan végzi az agy a beszéd létrehozását, és jobb algoritmusokat kell kidolgozniuk, hogy az idegi aktivitást lefordítsák hangkimenetekre - tette hozzá Stavisky. "Végső soron egy hang-neuroprotézisnek az emberi hang teljes kifejezési tartományát biztosítania kell, hogy pontosan szabályozhassák például a hangmagasságot és az időzítést, és olyan dolgokat csinálhassanak, mint az éneklés”.
Már régóta jelentős befektetés és figyelem irányul olyan implantátumokra, amelyek lehetővé teszik a súlyosan fogyatékos emberek számára, hogy számítógépes billentyűzeteket kezeljenek, robotkarokat irányítsanak, vagy visszanyerjék bénult végtagjaik bizonyos fokú használatát. Néhány laboratórium azonban olyan technológiára összpontosítva tesz előrelépéseket, amely a gondolatmintákat beszéddé alakítja.
"A cél az agy és a szintetikus hang közötti olyan szintű kapcsolat elérése, mely mintha két beszélő ember között zajlana.” - mondta Edward Chang, a San Franciscó-i Kaliforniai Egyetem idegsebésze. "Nagy előrelépést értünk el. Az általunk használt mesterséges intelligencia-algoritmusok egyre gyorsabbak, és minden egyes új pácienssel sokat tanulunk.” Chang és kollégái, köztük a Kaliforniai Berkeley Egyetem munkatársai a múlt hónapban a Nature Neuroscience című szaklapban publikálták munkájukat, amelyben részletesen beszámoltak egy kvadriplégiás, vagyis a végtagok és a törzs bénulásában szenvedő nővel végzett munkájukról, aki egy agyvérzés miatt 18 évig nem tudott beszélni.
A nő egy öntanuló neurális hálózatot képzett ki azzal, hogy némán próbált 1024 különböző szó felhasználásával összeállított mondatokat kimondani. A hangját úgy hozták létre, hogy az idegi adatait egy beszédszintetizáló és szövegdekódoló modellbe áramoltatták. A technika a csoport által korábban elért nyolc másodpercről egy másodpercre csökkentette a páciens agyi jelei és az így kapott hang közötti késleltetést. Ez már nagyon közel van a normál beszédnél tapasztalható 100-200 milliszekundumos időkülönbséghez. A rendszer átlagos dekódolási sebessége 47,5 szó volt percenként, ami körülbelül egyharmada a normál beszélgetés sebességének.
Évente sok ezer olyan embernek jelenthet hasznot az úgynevezett hangprotézis, akiknek a kognitív funkcióik többé-kevésbé épek maradnak, de beszédkiesésük van agyvérzés, az ALS neurodegeneratív betegség vagy egyéb agyi állapotok miatt. Ha sikerrel járnak, a kutatók remélik, hogy a technikát ki lehet terjeszteni az olyan emberekre, akiknek a hangadás nehézséget okoz, például agyi bénulás vagy autizmus miatt.
A hang-neuroprotézisekben rejlő lehetőségek kezdik kiváltani a cégek érdeklődését is. A Precision Neuroscience azt állítja, hogy nagyobb felbontású agyi jeleket rögzít, mint az akadémiai kutatók, mivel implantátumainak elektródái sűrűbben vannak elhelyezve. A vállalat eddig 31 beteggel dolgozott, és hamarosan további betegektől tervezi az adatgyűjtést, ami a kereskedelmi forgalomba hozatal lehetséges útját jelenti. A agy-számítógép interfész (BCI) piacon a legismertebb társaság Elon Musk Neuralink nevű vállalata, de ez a cég arra összpontosít, hogy a bénult emberek számára lehetővé tegye a számítógépek irányítását, nem pedig arra, hogy szintetikus hangot adjon nekik.
A Precision megkapta a hatósági engedélyt arra, hogy az érzékelőit legfeljebb 30 napig beültetve hagyja. Ez lehetővé teszi a tudósok számára, hogy a rendszerüket egy éven belül a „Földön létező legnagyobb felbontású neurális adattárral” képezzék ki - mondta Michael Mager vezérigazgató. A következő lépés az lesz, hogy „miniatürizálni kell az alkatrészeket, és hermetikusan lezárt, biokompatibilis csomagokba helyezni őket, hogy örökre a testbe lehessen ültetni őket” - mondta Mager.
Az agy-hang technológia fejlesztésének fontos akadálya, hogy a betegeknek időbe telik megtanulni a rendszer használatát. Az egyik legfontosabb megválaszolatlan kérdés az, hogy a motoros kéreg - az agynak az önkéntes cselekvéseket, köztük a beszédet is irányító része - válaszmintái mennyire térnek el az egyes emberek között. Ha ezek nagyon hasonlóak, akkor a korábbi személyeken betanított gépi tanulási modelleket fel lehet használni az új betegeknél, mondta Nick Ramsey, az Utrechti Orvosi Egyetem BCI-kutatója. Ez felgyorsítaná azt a folyamatot, amely ma „több tíz vagy több száz órát vesz igénybe, hogy elegendő adatot generáljunk azáltal, hogy egy résztvevőnek szavakat mutatunk, és megkérjük, hogy próbálja meg azokat kimondani”.
Ramsey elmondta, hogy az összes agy-hanggal kapcsolatos kutatás a motoros kéregre összpontosít, ahol az idegsejtek aktiválják a beszédben részt vevő izmokat, és nincs bizonyíték arra, hogy a beszédet más agyterületekről vagy a belső gondolatok dekódolásával is elő lehetne állítani. "Még ha sikerülne is, nem akarnánk, hogy más emberek hallják a belső beszédeket” - tette hozzá. "Sok olyan dolog van, amit gondolok, de nem mondok ki hangosan, mert nem lenne előnyömre, vagy megbántana embereket”.
Az egészséges beszédhez hasonló szintű szintetikus hang kifejlesztése még „elég messze van” - mondta Szergej Sztavisky, a Davis-i Kaliforniai Egyetem neuroprotetikai laboratóriumának társigazgatója. Laboratóriuma bebizonyította, hogy 98 százalékos pontossággal képes dekódolni, hogy valaki mit akar mondani - mondta. A hangkimenet azonban nem azonnali, és nem rögzíti a beszéd olyan fontos tulajdonságait, mint például a hangszín. Az sem világos, hogy a rögzítésre használt hardver - azaz az elektródák - lehetővé teszik-e, hogy a szintézis megfeleljen az egészséges emberi hangnak. A tudósoknak mélyebben meg kell érteniük, hogyan végzi az agy a beszéd létrehozását, és jobb algoritmusokat kell kidolgozniuk, hogy az idegi aktivitást lefordítsák hangkimenetekre - tette hozzá Stavisky. "Végső soron egy hang-neuroprotézisnek az emberi hang teljes kifejezési tartományát biztosítania kell, hogy pontosan szabályozhassák például a hangmagasságot és az időzítést, és olyan dolgokat csinálhassanak, mint az éneklés”.