SG.hu

Univerzális fordítót fejlesztett a Meta

A Galaxis útikalauz Bábel-halához hasonlatos találmány mögött álló mesterséges intelligencia 100 nyelven képes beszéd vagy szöveg lefordítására.

A Meta bejelentette a SeamlessM4T-t, egy beszéd- és szövegfordításra szánt multimodális MI-modellt. Ez egy olyan neurális hálózat, amely szöveg és hang feldolgozására egyaránt képes. A cég promóciós blogja szerint a modell képes beszédfelismerésre (beszélsz hozzá és azt szöveggé alakítja), beszédből szövegbe fordításra (a beszélt hangot egy másik nyelven adja meg szövegesen), beszédből beszédbe fordításra (beszédre lefordított beszédhangot ad ki), szövegből szövegbe fordításra (hasonlóan a Google Translate működéséhez), és szövegből beszédbe fordításra (a beírt szöveget lefordítja és kimondja egy másik nyelven). A szövegfordítási funkciók mindegyike közel 100 nyelvet támogat, a beszédkimeneti funkciók pedig körülbelül 36 kimeneti nyelvet.

A Meta viszonylag nyíltan kezeli a mesterséges intelligencia fejlesztéseit, így a SeamlessM4T-t is egy olyan kutatási licenc alatt adja ki, amely lehetővé teszi a fejlesztők számára a haszálatát. A cég célja ezzel, hogy a különböző nyelveket beszélő emberek hatékonyabban kommunikálhassanak egymással. Emellett kiadják a SeamlessAlign-t is, amelyet a Meta "az eddigi legnagyobb nyílt multimodális fordítási adathalmaznak nevez, amely összesen 270 000 órányi beszéd- és szövegillesztést tartalmaz". Ezt más kutatók használhatják jövőbeli fordítószoftvereik mesterséges intelligencia-modelljeinek betanításához.

A SeamlessM4T bejelentésében a Meta utal a Douglas Adams klasszikus sci-fi sorozatának kitalált halára, a Bábel-halra, amelyet ha az ember fülébe helyeznek azonnal le tud fordítani bármilyen beszélt nyelvet. Azonban a Galaxis útikalauz stopposoknak című könyvben szereplő fiktív lényhez hasonló univerzális nyelvi fordító megalkotása annyira nehéz, hogy a meglévő beszédből beszédbe és szövegbe fordító rendszerek a világ nyelveinek csak egy kis részét fedik le. Az új fordítóhoz a Seamless4MT kutatási dokumentuma szerint "létrehoztak egy több mint 470 000 órányi, automatikusan összehangolt beszédfordításból álló multimodális korpuszt, amelyet SeamlessAlignnek neveztek el" Ezután "megszűrték ennek a korpusznak egy részhalmazát ember által címkézett és álcímkézett adatokkal".

Szokás szerint a Meta kissé homályosan fogalmaz arról, hogy honnan szerezte a képzési adatokat. A szöveges adatok "ugyanabból az adathalmazból származnak, amelyet az NLLB-ben is alkalmaznak" (a Wikipédiából, hírforrásokból, szkriptelt beszédekből és más forrásokból származó, hivatásos emberi fordítók által lefordított mondathalmazok). A SeamlessM4T beszédadatai pedig "4 millió órányi nyers hanganyagból származnak, amely egy nyilvánosan elérhető webes adattárból származik", amelyből 1 millió óra angol nyelvű volt a kutatási dokumentum szerint. A Meta nem árulta el melyik adattárat használta és nem tette közzé a felhasznált hanganyagok eredetét.

A Meta messze nem az első mesterséges intelligenciával foglalkozó vállalat, amely gépi tanulással működő fordítóeszközöket kínál. A Google Translate 2006 óta működik így és a nagy nyelvi modellek - mint például a GPT-4 - jól ismertek a nyelvek közötti fordítási képességükről. A közelmúltban azonban a technológia felpörgött a hangfeldolgozás frontján. Szeptemberben az OpenAI kiadta saját, nyílt forráskódú beszéd-szöveg fordítási modelljét, a Whisper nevű modellt, amely képes felismerni a beszédet a hangban, és nagy pontossággal lefordítani azt szövegre.

A SeamlessM4T erre a trendre épít, és a multimodális fordítást több nyelvre is kiterjeszti. Ezen túlmenően a Meta szerint a SeamlessM4T "egyrendszeres megközelítést" alkalmaz. Ez azt jelenti, hogy "egy monolitikus MI-modellt ahelyett, hogy több modellt kombinálna egy láncban, ami csökkenti a hibákat és növeli a fordítási folyamat hatékonyságát." A SeamlessM4T működésének további technikai részletei a Meta weboldalán találhatók, a kód és a a tényleges betanított neurális hálózati fájlok pedig a Hugging Face oldaláról tölthetők le.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • NEXUS6 #7
    Na még egy szakma ki fog halni. Ki fogja ezekután azokat a frappáns fordításokat csinálni, a F1 futamok utáni sajtótájékoztatókról? XD
  • dyra #6
    A Google Translate nem így dolgozik. A DeePL mérföldekkel job fordítást csinál. A ChatGP meg végképp pazar. Pontosan felismerhető a külömbség. Gondolom a Google Translate AI-nélkül dolgozik és mindent angolra majd onnan az adott nyelvre fordít a DeePL nem tudom hogy müködik de gyanus hogy ott már komolyabb modell van a ChatGP-meg kb minden nyelven tud és képes köztük direketbe fodítani. Sok szófordulatot és szlenget is simán megért. Ez valami hasonló lesz. Egyébként a Teams-be épített Microsoft Fordító is nagyon jó munkát végez jelenleg kb a legrosszabb fordítóprogram a Google Translate.
  • kvp #5
    Ez kb. ugyanaz amit a google translate jelenleg is tud. Raadasul az kepes offline futni a telefonon, ha letoltjuk hozza a nyelvi file-okat. (azaz kepes hang alapu szovegbevitelre, forditasra es a leforditott szoveg felolvasasara) Plusz elo kamerakep alapjan fordit es feliratoz mindenfele szoveget amit felismer. Raadasul mindezt kvazi ingyen a adjak minden android-os telefonhoz. (a google persze elteszi az osszes bevitt mintat)

    A meta ezek szerint most megcsinalta ugyanezt, csak egy mai nyelvi modellel. (a google fele megoldas majd egy evtizedes)
  • wraithLord #4
    Amit az ember kitalál, az vagy felrobban, vagy az életet könnyíti.
    Ez az utóbbi kategóriába tartozik, szóval csak egy újabb vívmány, ami ugyanúgy "ellustít" az élet valamelyik területén, mint az azt megelőző többi számtalan valamilyen feladatot, életet könnyítő vívmány.

    Egyébként eddig is volt ilyesmi célhardver (kis zenelejátszószerű izé), csak az a Google fordító szolgáltatásait vette igénybe, vagy legalábbis ahhoz hasonlóan működött, tehát ehhez az elképzeléshez képest eléggé korlátozott volt.
  • Cat #3
    Egy nyelv megtanulása egy másik kultúra megismerése is egyben, attól teljes mértékben szétválaszthatatlan. Persze turistáknak jó lesz.
  • RJoco #2
    A Star Trek-es Hoshi által megalkotott univerzális fordítótól akkor még messze vagyunk?

    Amúgy ez egy jó irány. Kicsi, hordozható kivitelben nagyon hasznos lenne. Akár külföldi nyaralás, akár találkozó, nem lenne gond az értés, megértetés.
    Viszont ez is ellustítja az embereket és egyre kevesebb dolgot fogunk megtanulni, egyre jobban fogunk támaszkodni a technológiára. Ez elég csúnyán visszaüthet.
  • dyra #1
    Megváltás lenne egy prima real - time fordító.