SG.hu
Univerzális fordítót fejlesztett a Meta
A Galaxis útikalauz Bábel-halához hasonlatos találmány mögött álló mesterséges intelligencia 100 nyelven képes beszéd vagy szöveg lefordítására.
A Meta bejelentette a SeamlessM4T-t, egy beszéd- és szövegfordításra szánt multimodális MI-modellt. Ez egy olyan neurális hálózat, amely szöveg és hang feldolgozására egyaránt képes. A cég promóciós blogja szerint a modell képes beszédfelismerésre (beszélsz hozzá és azt szöveggé alakítja), beszédből szövegbe fordításra (a beszélt hangot egy másik nyelven adja meg szövegesen), beszédből beszédbe fordításra (beszédre lefordított beszédhangot ad ki), szövegből szövegbe fordításra (hasonlóan a Google Translate működéséhez), és szövegből beszédbe fordításra (a beírt szöveget lefordítja és kimondja egy másik nyelven). A szövegfordítási funkciók mindegyike közel 100 nyelvet támogat, a beszédkimeneti funkciók pedig körülbelül 36 kimeneti nyelvet.
A Meta viszonylag nyíltan kezeli a mesterséges intelligencia fejlesztéseit, így a SeamlessM4T-t is egy olyan kutatási licenc alatt adja ki, amely lehetővé teszi a fejlesztők számára a haszálatát. A cég célja ezzel, hogy a különböző nyelveket beszélő emberek hatékonyabban kommunikálhassanak egymással. Emellett kiadják a SeamlessAlign-t is, amelyet a Meta "az eddigi legnagyobb nyílt multimodális fordítási adathalmaznak nevez, amely összesen 270 000 órányi beszéd- és szövegillesztést tartalmaz". Ezt más kutatók használhatják jövőbeli fordítószoftvereik mesterséges intelligencia-modelljeinek betanításához.
A SeamlessM4T bejelentésében a Meta utal a Douglas Adams klasszikus sci-fi sorozatának kitalált halára, a Bábel-halra, amelyet ha az ember fülébe helyeznek azonnal le tud fordítani bármilyen beszélt nyelvet. Azonban a Galaxis útikalauz stopposoknak című könyvben szereplő fiktív lényhez hasonló univerzális nyelvi fordító megalkotása annyira nehéz, hogy a meglévő beszédből beszédbe és szövegbe fordító rendszerek a világ nyelveinek csak egy kis részét fedik le. Az új fordítóhoz a Seamless4MT kutatási dokumentuma szerint "létrehoztak egy több mint 470 000 órányi, automatikusan összehangolt beszédfordításból álló multimodális korpuszt, amelyet SeamlessAlignnek neveztek el" Ezután "megszűrték ennek a korpusznak egy részhalmazát ember által címkézett és álcímkézett adatokkal".
Szokás szerint a Meta kissé homályosan fogalmaz arról, hogy honnan szerezte a képzési adatokat. A szöveges adatok "ugyanabból az adathalmazból származnak, amelyet az NLLB-ben is alkalmaznak" (a Wikipédiából, hírforrásokból, szkriptelt beszédekből és más forrásokból származó, hivatásos emberi fordítók által lefordított mondathalmazok). A SeamlessM4T beszédadatai pedig "4 millió órányi nyers hanganyagból származnak, amely egy nyilvánosan elérhető webes adattárból származik", amelyből 1 millió óra angol nyelvű volt a kutatási dokumentum szerint. A Meta nem árulta el melyik adattárat használta és nem tette közzé a felhasznált hanganyagok eredetét.
A Meta messze nem az első mesterséges intelligenciával foglalkozó vállalat, amely gépi tanulással működő fordítóeszközöket kínál. A Google Translate 2006 óta működik így és a nagy nyelvi modellek - mint például a GPT-4 - jól ismertek a nyelvek közötti fordítási képességükről. A közelmúltban azonban a technológia felpörgött a hangfeldolgozás frontján. Szeptemberben az OpenAI kiadta saját, nyílt forráskódú beszéd-szöveg fordítási modelljét, a Whisper nevű modellt, amely képes felismerni a beszédet a hangban, és nagy pontossággal lefordítani azt szövegre.
A SeamlessM4T erre a trendre épít, és a multimodális fordítást több nyelvre is kiterjeszti. Ezen túlmenően a Meta szerint a SeamlessM4T "egyrendszeres megközelítést" alkalmaz. Ez azt jelenti, hogy "egy monolitikus MI-modellt ahelyett, hogy több modellt kombinálna egy láncban, ami csökkenti a hibákat és növeli a fordítási folyamat hatékonyságát." A SeamlessM4T működésének további technikai részletei a Meta weboldalán találhatók, a kód és a a tényleges betanított neurális hálózati fájlok pedig a Hugging Face oldaláról tölthetők le.
A Meta bejelentette a SeamlessM4T-t, egy beszéd- és szövegfordításra szánt multimodális MI-modellt. Ez egy olyan neurális hálózat, amely szöveg és hang feldolgozására egyaránt képes. A cég promóciós blogja szerint a modell képes beszédfelismerésre (beszélsz hozzá és azt szöveggé alakítja), beszédből szövegbe fordításra (a beszélt hangot egy másik nyelven adja meg szövegesen), beszédből beszédbe fordításra (beszédre lefordított beszédhangot ad ki), szövegből szövegbe fordításra (hasonlóan a Google Translate működéséhez), és szövegből beszédbe fordításra (a beírt szöveget lefordítja és kimondja egy másik nyelven). A szövegfordítási funkciók mindegyike közel 100 nyelvet támogat, a beszédkimeneti funkciók pedig körülbelül 36 kimeneti nyelvet.
A Meta viszonylag nyíltan kezeli a mesterséges intelligencia fejlesztéseit, így a SeamlessM4T-t is egy olyan kutatási licenc alatt adja ki, amely lehetővé teszi a fejlesztők számára a haszálatát. A cég célja ezzel, hogy a különböző nyelveket beszélő emberek hatékonyabban kommunikálhassanak egymással. Emellett kiadják a SeamlessAlign-t is, amelyet a Meta "az eddigi legnagyobb nyílt multimodális fordítási adathalmaznak nevez, amely összesen 270 000 órányi beszéd- és szövegillesztést tartalmaz". Ezt más kutatók használhatják jövőbeli fordítószoftvereik mesterséges intelligencia-modelljeinek betanításához.
A SeamlessM4T bejelentésében a Meta utal a Douglas Adams klasszikus sci-fi sorozatának kitalált halára, a Bábel-halra, amelyet ha az ember fülébe helyeznek azonnal le tud fordítani bármilyen beszélt nyelvet. Azonban a Galaxis útikalauz stopposoknak című könyvben szereplő fiktív lényhez hasonló univerzális nyelvi fordító megalkotása annyira nehéz, hogy a meglévő beszédből beszédbe és szövegbe fordító rendszerek a világ nyelveinek csak egy kis részét fedik le. Az új fordítóhoz a Seamless4MT kutatási dokumentuma szerint "létrehoztak egy több mint 470 000 órányi, automatikusan összehangolt beszédfordításból álló multimodális korpuszt, amelyet SeamlessAlignnek neveztek el" Ezután "megszűrték ennek a korpusznak egy részhalmazát ember által címkézett és álcímkézett adatokkal".
Szokás szerint a Meta kissé homályosan fogalmaz arról, hogy honnan szerezte a képzési adatokat. A szöveges adatok "ugyanabból az adathalmazból származnak, amelyet az NLLB-ben is alkalmaznak" (a Wikipédiából, hírforrásokból, szkriptelt beszédekből és más forrásokból származó, hivatásos emberi fordítók által lefordított mondathalmazok). A SeamlessM4T beszédadatai pedig "4 millió órányi nyers hanganyagból származnak, amely egy nyilvánosan elérhető webes adattárból származik", amelyből 1 millió óra angol nyelvű volt a kutatási dokumentum szerint. A Meta nem árulta el melyik adattárat használta és nem tette közzé a felhasznált hanganyagok eredetét.
A Meta messze nem az első mesterséges intelligenciával foglalkozó vállalat, amely gépi tanulással működő fordítóeszközöket kínál. A Google Translate 2006 óta működik így és a nagy nyelvi modellek - mint például a GPT-4 - jól ismertek a nyelvek közötti fordítási képességükről. A közelmúltban azonban a technológia felpörgött a hangfeldolgozás frontján. Szeptemberben az OpenAI kiadta saját, nyílt forráskódú beszéd-szöveg fordítási modelljét, a Whisper nevű modellt, amely képes felismerni a beszédet a hangban, és nagy pontossággal lefordítani azt szövegre.
A SeamlessM4T erre a trendre épít, és a multimodális fordítást több nyelvre is kiterjeszti. Ezen túlmenően a Meta szerint a SeamlessM4T "egyrendszeres megközelítést" alkalmaz. Ez azt jelenti, hogy "egy monolitikus MI-modellt ahelyett, hogy több modellt kombinálna egy láncban, ami csökkenti a hibákat és növeli a fordítási folyamat hatékonyságát." A SeamlessM4T működésének további technikai részletei a Meta weboldalán találhatók, a kód és a a tényleges betanított neurális hálózati fájlok pedig a Hugging Face oldaláról tölthetők le.