MTI

Több száz milliárd szóból tanul fordítani a Google

A Google ingyenes fordító szolgáltatása 52 nyelven elérhető, és hetente több száz millió alkalommal használják internetes oldalak és más szövegek átültetésére. ENSZ és EU dokumentumokon tréningezik.

Még 2004-ben történt, hogy a Google vezetőit gondolkodóba ejtette egy dél-koreai felhasználó e-mailje. A levélíró koreai nyelven arról tájékoztatta a céget, hogy a Google a kedvenc keresőmotorja, ám amikor az üzenetet Sergey Brin, a cég egyik alapítója angolul akarta olvasni, a Google fordítóprogramja a következő szöveget adta ki: The sliced raw fish shoes it wishes. Google green onion thing! (A szeletelt nyershal cipőz neki kívánságokat. Google zöldhagyma dolog!)

Brin rögtön kijelentette, hogy "ennél azért a cégnek többet illene tudnia!" Ma, hat évvel később, a Google ingyenes fordító szolgáltatása 52 nyelven elérhető, és hetente több száz millió alkalommal használják internetes oldalak és más szövegek átültetésére. Alon Lavie pittsburghi egyetemi tanár a fordítót méltatva egyebek között azt emelte ki, hogy a program széles körű nyelvi szolgáltatást nyújt, és nem korlátozódik kijelölt témákra.

A megállapítás azért fontos, mert a vállalat ambíciói a keresőprogramon kívüli területeken eddig vegyes sikerrel jártak: digitális könyvtárával kapcsolatos tervéért bíróságokon kell küzdenie, az általa indított Buzz közösségi hálózat pedig adatvédelmi aggodalmakat keltett. A Google gyors előretörése a fordítási bizniszben ellenben éppen azt példázza, hogy milyen remek eredményeket lehet elérni, ha a rendelkezésére álló nyers számítógépes kapacitást céltudatosan, összetett problémák megoldására fordítja. Az általa kiépített webes adatközpontok együttesen lényegében a világ legnagyobb számítógépét alkotják, és ezt a lehetőséget a Google szemlátomást a fordítási technológia határainak kiterjesztésére aknázza ki. Nemrég például képelemzéssel kombinálta a fordítóprogramot, lehetővé téve, hogy egy mobiltelefonos fotó német nyelvű szövege angolul is olvasható legyen.

A mesterséges értelem számára a fordítás jelenti az egyik legnagyobb feladatot. A számítógépes tudósok évtizedeken át a nyelvi szabályokra alapozódó megközelítéssel kísérleteztek: megtanították a komputernek a két kiválasztott nyelv grammatikáját, egyidejűleg pedig elátták a megfelelő szókészletekkel. Az 1990-es évektől azonban egyre inkább a statisztikai módszert helyezik előtérbe. Ugyanis úgy találták, hogy ha a számítógépbe betárolnak több százezer vagy több millió oldal szöveget és azok emberek által készített fordítását, a program meglehetősen pontosan el fogja találni a jó megoldást új szövegek átültetésekor.

Persze ehhez a technikához óriási adatmennyiségre és nagy számítógépes háttérre van szükség - a Google éppen ezeken a területeken van előnyben. "A mi infrastruktúránk nagyszerűen megfelel ennek, olyan kapacitásokkal rendelkezünk, amelyekről mások még csak nem is álmodhatnak" - mondta Vic Gundotra, a Google egyik alelnöke az amerikai lapnak.

Az automatikus fordítógépek távolról sem tökéletesek, a fordítóknak még sokáig nem kell félteniük állásukat. A szakértők szerint egy mondat feldarabolása, átültetése és újbóli összeillesztése olyan feladat, amely a számítógép számára rendkívül nehéz. Ám a Google szolgáltatása elég lehet ahhoz, hogy egy újságcikk lényegét visszaadja, és így milliók számára biztosítsa a gyors megértést. "Ha hipp-hopp nyersfordítás kell, a Google a jó forrás" - véli Philip Resnik, a Marylandi Egyetem szakértője.

Akárcsak vetélytársai, amelyek közül az IBM és a Microsoft a legjelentősebb, a Google is betáplálja gépeibe az ENSZ hat nyelven készülő dokumentumait és az Európai Parlament vitáinak huszonhárom nyelven rögzített jegyzőkönyveit: ezzel a nyersanyaggal fejleszti folyamatosan a legelterjedtebb nyelvek átültetésére szolgáló programját. Emellett a világhálóról és könyvdigitalizálójából is kimásolt szövegeket, hogy még több nyelvre tanítsa meg a fordítót, sőt ezekből a szövegekből eszközcsomagot is készít, amely letölthető, és segíti a felhasználókat. Ez ugyan soha nem fog jelentős pénzt hozni, legalábbis az online hirdetésekhez képest, de több szempontból is hasznos lehet.

Mivel a Google-reklámok mindenütt megjelennek, minden, ami előmozdítja megértésüket, a cég hasznára válik. Új alkalmazások is adódnak. Nemrég a társaság bejelentette, hogy beszédfelismerő programot dolgozott ki, amelynek segítségével írott szövegaláírást kapcsolhatnak az angol nyelvű You Tube videofelvételekhez, ami aztán további 50 nyelven is olvasható lesz. "Ez a technológia ledöntheti a nyelvi korlátokat, segítségével bárki érintkezhet bárki mással" - jelentette ki Franz Och kutató, aki a Google gépi fordítóprogramját fejlesztő csoport vezetője.

Och korábban egyetemen dolgozott, és kezdetben vonakodott belépni a Google-hoz, mert attól félt, hogy a cég csupán melléktémának tekinti majd a fordítási projektet. Csak akkor fogadta el az ajánlatot, amikor Larry Page, a Google másik alapítója személyesen is felhívta, hogy biztosítsa arról: elsőrendű fontosságú számukra a fordítás tökéletesítése. A kutató végül 2004-ben csatlakozott a Google-hoz, és hamarosan megtapasztalhatta, hogy minden segítséget megkap.

Míg más cégek hasonló programjai egymilliárd szóból álló szövegmintával teremtenek meg egy nyelvi modellt, a Google jóval messzebbre ment: több száz milliárd angol szóból álló szöveget táplált be az alkalmazás céljára. "Minél több szöveget dolgoztunk fel, annál jobb lett a modell" - magyarázza Ochs. A vállalat nem véletlenül nyerte el a komplex fordítóprogramok értékelésére kiírt kormánypályázatot. A kutató persze elismeri, hogy van még tennivaló bőven, de a "javulás üteme gyors". A magyar nyelv esetében talán ez az ütem kissé lassúbb, ugyanis az utóbbi mondat angol eredetijét - The translation system still needs improvement, but it is getting better fast - a Google ma még így ülteti át Petőfi nyelvére: "A fordító rendszer továbbra is szükség van javulás, de egyre jobb gyorsan".

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • krajcsovszkig #7
    Németről magyarra elég fura sorrendben adja a szavakat :D

    De sikerült már vele megértenem orosz, francia és kínai szövegeket, úgyhogy azért már van értelme.
  • opeca #6
    Német-angol fordítás 99%-os, mivel a nyelvtan gyakorlatilag ugyanazon az alapelven alapul.

    Az más kérdés, hogy emiatt a németek sokkal könnyebben tudják megtanulni az angolt, és éppen emiatt pont nekik lenne a legkevéssbé szükségük a google fordítóra.

    És persze ugyanez igaz az angolajkúakra is:)
  • Wittgen #5
    Igaz, hogy még kiforratlan, de egy nagyon jó dolog + egy újabb mérföldkő a különböző nyelveket beszélő nációk kommunikációjának javítására.
  • vasedeny2 #4
    pont úgy ragza a magyart mint polgár jenő
  • mynameisbence #3
    Nekem ezt adta ki: "Ez a technológia a hajtás a nyelvi korlátok, bármilyen kapcsolatot senkivel"
  • Magnum PI #2
    Azért a magyar nyelv egy külön kategória a nyelvek között és még kevesen is használják a többi google által ismert nyelvhez képest. Arra lennék kíváncsi hogy egy német-angol forditással hogy boldogul. Szerintem nagyságrendekkel jobban
  • phoenix1 #1
    Magyar:
    "Ez a technológia ledöntheti a nyelvi korlátokat, segítségével bárki érintkezhet bárki mással"

    Angol fordítás:
    "This technology is a folding of the language barriers, using any contact with anyone else"

    Mindenesetre még van mit dolgozniuk rajta. ;)