1
  • kvp
    #1
    Vegigolvastam a nyilt forraskod fontosabb reszeit, igazabol egy recurrens neuralis halozat van alatta, amit a hangmintakbol kivett feature-okkel etetnek. Tehat a beszedhang voiceprint-jebol kiemeli az emberi hangkepzesben hasznalt felismerheto elemeket es hozzajuk a hangzas reprodukalasahoz szukseges hangszin tulajdonsagokat, ezt tomoritik es viszik at a halozaton, majd a masik oldalon futo modell osszerakja beloluk az informaciot.

    Gyakorlatilag egy hangszint is eltarolo speech to text rendszer, ahol a szoveg nem irott szoveg hanem a hangzasi jelekhez hasonlo szimbolumok formajaban utazik, majd a masik oldal ebbol rak ossze egy text to speech eljarassal az eredeti hanghoz hangzasilag eleg hasonlo hangot. A veszteseges tomorites soran eloszor a hangzashoz tartozo, tehat az ertelmesseget nem befolyasolo, csak a beszelo hangjanak egyediseget ado jeleket dobjak el. Ha direkt minden ilyen jelet eldobnank, akkor a neuralis modell sajat "termesztetes" hangjan hallatszana a masik fel.

    ps: Olyan a mukodese mint amikor az ember elmondja a mondandojat egy futarnak, az elmegy a cimzetthez, majd a futar a felado hangjat a leheto legjobban utanozva mondja el az informaciot.

    Nekem az egyetlen gondom az, hogy a neuralis modell miatt eleg nagy lehetoseg van a tartalom emberileg eszrevehetlen torzulasara az atvitel soran, tehat amikor nem tunik fel a hallgatonak, hogy adatvesztes miatt mast hallott mint amit a beszelo mondott. Magyarban tipikus pelda erre a megolelni es megolni esete, ahol eleg egyetlen hangfoszlany adatcsomaganak elvesznie, hogy a "Legszivesebben megolelnem!" helyett "Legszivesebben megolnem!" jojjon ki a masik oldalon, a neuralis hanggenerator miatt atviteli zavarra semmilyen modon nem utalo hangzassal. A cikkben emlitett codec-et egyebkent mar jelenleg is hasznaljak par kereskedelmi termekben.