Je to v nádeji
Prekladateľ
Táto stránka bola automaticky preložená službou Prekladač strojového prekladu spoločnosti Microsoft. Dozvedieť sa viac

Microsoft prekladateľ blog

Politicky nesprávne stroje

Aj keď sme na strojový preklad tímu boli svedkami rastúci prevádzku na naše rôzne ponuky v posledných niekoľkých mesiacoch, sme si všimli náhle bump v prevádzke včera. S vyrástol na Agatha Christie a Sherlock Holmes, takéto tajomstvá sú neodolateľné pre mňa-a rad ďalších ľudí na tím bol rovnako zvedavý zistiť, čo spôsobilo tento náhly Bump. Zistili sme, že IE8 aktivita/Accelerator, Messenger topánok, Vyhľadávanie prekladov, Preklady balíka Office boli všetci vykazujú rovnaký vzostupný trend ako dni predtým, a tak neboli špecifickým dôvodom pre tento Bump.

Nakoniec sme boli schopní identifikovať jeden potenciálny dôvod, prečo sme boli svedkami tohto hrotu. Naša užívateľská komunita zistila zvláštnosť v tom, ako strojový preklad motor spracoval preklad pre niekoľko mien z angličtiny do nemčiny. Malo by sa očakávať, že keď motor prekladá meno kandidáta jednej strany na niekoho z druhej strany, vzhľadom k súčasnej politickej atmosfére v behu do volieb v USA, že by skončiť ako novinky. Aj keď sme určite Vítame všetkých nových užívateľov, ktorí prišli na kontrolu tohto javu von-chceli sme sa podeliť s našimi užívateľmi dôvod, prečo také veci sa zdá, že sa stalo čas od času s štatisticky vyškolenými systémami strojového prekladu od nás a ďalšie.

Štatistický strojový preklad motora je vyškolený na veľa a veľa paralelných dát, to znamená, že údaje, ktoré existujú v zdrojovom jazyku (napr. angličtina) a cieľový jazyk (napr. nemčina), kde zdroj a cieľ sú preklady navzájom. Náš motor je vyškolený na milióny viet pre každý jazyk pár podporujeme. Aby bolo možné trénovať na konkrétnom korpusu dát-možno veľké množstvo Newswire články v angličtine, ktoré boli preložené do nemčiny-najprv musíme zlomiť, že korpusu do vety. Potom, čo corpus je veta zlomený, budeme kŕmiť výsledné vety do vety aligner, ktorého jediným účelom je nájsť to, čo vety na strane zdroja zladiť s vetami na cieľovej strane. To nie je triviálne úloha, pretože veta na jednej strane by mohla mysliteľne zladiť s jednou alebo viacerými vetami na cieľ (alebo možno vôbec žiadny!). Aligner bude niekedy robiť chyby, a Nesúďte jednu vetu s inou, ktorá je v skutočnosti nie je preklad. To môže viesť k niektorým mistranslations, najmä ak sú slová v zdroji a cieľ, ktoré sú zriedka vyskytujúce. Vzhľadom k tomu, náš preklad motor je štatistický, je veľmi závislá na co-výskyt frekvencií medzi slovami v zdrojových a cieľových dát. Ak sú určité slová zriedka vyskytujúce sa, napríklad mená ľudí sa môžu vyskytnúť len niekoľkokrát v rámci korpusu miliónov viet-nedostatok frekvencie môže viesť k chybám vyplývajúce z nesprávnych "odhady" medzi zdroj a cieľ (tj nízka na konkrétne zdrojové a cieľové slová). To môže viesť k niektorým komické gaffes v našom preklade systému.

Tak, to je, ako sa "stroj" sa rozhodol preložiť spôsobom, ktorý skončil s komunitou pripisovať to zmysel pre humor nášho tímu. Aj keď budeme aj naďalej tvrdo pracovať, aby zabezpečili správne zarovnanie, je potrebné očakávať od štatistického systému, ktorý je postavený na milióny až miliardy slov, že takáto situácia by mohla opakovať.

Aktuálny problém s zarovnanie by teraz mali byť vyriešené, ale žiadame našu komunitu užívateľov, aby nám pomohli identifikovať takéto situácie kontaktovaním nás prostredníctvom tohto blogu.

-Vikram

Vikram dendi vedie obchodná stratégia & plánovanie produktov pre tím Microsoft Translator