Salt la conținutul principal
Translator
Această pagină a fost tradusă automat de serviciul de traducere automată Microsoft Translator. Aflați mai multe

Blogul Microsoft Translator

Masini incorecte politic

În timp ce noi cei de la Machine traducere echipa au fost văzând creșterea traficului pentru ofertele noastre diferite în ultimele câteva luni, am observat un cucui bruscă în trafic ieri. După ce a crescut pe Agatha Christie și Sherlock Holmes, astfel de mistere sunt irezistibil pentru mine-și un număr de alți oameni de pe echipa au fost la fel de curios pentru a afla ce a cauzat acest cucui bruscă. Ne-am gândit că Activitatea IE8/Accelerator, se Messenger bot, Caută traduceri, Traduceri Office au fost toate arată aceeași tendință ascendentă ca zile înainte și, astfel, nu au fost motivul specific pentru acest cucui.

În cele din urmă, am reușit să identificăm un potențial motiv pentru care vedeam acest vârf. Comunitatea noastră de utilizatori a găsit o ciudățenie în modul în care motorul de traducere mașină prelucrate de traducere pentru mai multe nume din limba engleză în germană. Era de așteptat ca, atunci când motorul traduce numele candidatului uneia dintre părți la cineva de la cealaltă parte, având în prezent atmosfera politică actuală în termen de până la alegerile din SUA, că ar ajunge ca știri. În timp ce noi cu siguranță bun venit tuturor noilor utilizatori care au venit de a verifica acest fenomen out-am vrut să împartă cu utilizatorii noștri motivul pentru care astfel de lucruri par să se întâmple din timp în timp cu sisteme de traducere instruit statistic de la noi și altele.

Un motor de traducere statistică Machine este instruit pe loturi și o mulțime de date paralele, adică, date care există în ambele o limbă sursă (de exemplu, limba engleză) și o limbă țintă (de exemplu, germană), în cazul în care sursa și țintă sunt traduceri unul de altul. Motorul nostru este antrenat pe milioane de fraze pentru fiecare pereche de limbi pe care o sprijinim. În scopul de a instrui pe un anumit corpus de date-poate un număr mare de articole Newswire în limba engleză, care au fost traduse în limba germană-trebuie mai întâi să rupă acest Corpus în jos în fraze. După ce corpul este teză rupt, vom hrăni propozițiile care rezultă într-o propoziție aligner, unicul scop al care este de a găsi ce propoziții pe partea sursă alinia cu fraze pe partea țintă. Aceasta nu este o sarcină banal, deoarece o propoziție pe de o parte ar putea să se alinieze cu una sau mai multe fraze pe țintă (sau, eventual, nici unul la toate!). Aligator va face uneori greșeli, și de a alinia o propoziție cu un alt care este, de fapt, nu o traducere. Acest lucru poate duce la unele mistranslations, mai ales dacă există cuvinte în sursă și țintă care sunt rareori apar. Deoarece motorul nostru de traducere este statistic, se bazează foarte mult pe frecvențele de co-apariție între cuvinte în datele sursă și țintă. Dacă anumite cuvinte apar rar — numele oamenilor, de exemplu, pot apărea doar de câteva ori într-un corpus de milioane de propoziții — lipsa frecvenței poate duce la erori de traducere care rezultă din "presupuneri" incorecte între sursă și țintă (de exemplu, mici probabilități atribuite anumitor cuvinte sursă și țintă). Acest lucru poate duce la unele gafe comic în sistemul nostru de traducere.

Deci, că este modul în care "masina" a decis să traducă într-un mod care a ajuns cu comunitatea atribuindu-l la simțul umorului al echipei noastre. În timp ce continuăm să muncim din greu pentru a asigura aliniamente adecvate, este de așteptat de la un sistem statistic care este construit pe milioane de miliarde de cuvinte pe care o astfel de situație ar putea repeta.

Problema actuală cu alinierea ar trebui să fie acum rezolvate, dar ne îndeamnă comunitatea noastră de utilizatori pentru a ne ajuta să identifice orice astfel de situații prin contactarea ne prin intermediul acestui blog.

-Vikram

Vikram Dendi conduce Business Strategy & planificarea produselor pentru echipa Microsoft Translator