Neurala maskin översättning aktivera mänsklig paritet innovationer i molnet

Bokförd på 17 juni, 201921 juni, 2019vid Microsoft Translator

I mars 2018 Meddelade (Hassan et al. 2018) ett genombrott resultat där vi för första gången visade ett maskin översättnings system som kunde utföra samt mänskliga översättare (i ett specifikt scenario-kinesisk-engelsk nyhets översättning). Detta var ett spännande genombrott inom maskin översättnings forskning, men det system vi byggde för detta projekt var ett komplext, tungviktsforsknings system som innehåller flera Ban brytande tekniker. Även om vi släppte utdata från det här systemet på flera test uppsättningar, var själva systemet inte lämpligt för distribution i ett real tids maskin översättnings moln-API.

Idag är vi glada att tillkännage tillgängligheten i produktionen av vår senaste generationen av neurala maskin översättnings modeller. Dessa modeller införlivar det mesta av det goda i vårt forsknings system och är nu tillgängliga som standard när du använder Microsoft Translator API. Dessa nya modeller finns idag på kinesiska, tyska, franska, hindi, italienska, spanska, japanska, koreanska och ryska, från och till engelska. Fler språk kommer snart.

Ta sig från forsknings papper till moln-API

Under det gångna året har vi letat efter sätt att få mycket av kvaliteten på vårt mänskliga paritet system i Microsoft Translator API, samtidigt som man fortsätter att erbjuda billig real tids översättning. Här är några av stegen på den resan.

Lärare-student utbildning

Vårt första steg var att byta till en "Teacher-student" ram, där vi tränar en lätt real tid elev att efterlikna en tungviktare lärare nätverk (BA och Caruana 2014). Detta åstadkoms genom att utbilda studenten inte på de parallella data som MT-system vanligt vis utbildas på, men på översättningar som produceras av läraren (Kim och Rush 2016). Detta är en enklare uppgift än att lära av rå data, och tillåter en grundare, enklare elev att mycket noga följa den komplexa läraren. Som man kan förvänta sig, våra första försök fortfarande lidit kvalitet droppar från lärare till elev (ingen fri lunch!), men vi ändå tog första plats i WNMT 2018 delad uppgift om effektiv avkodning (Junczys-Dowmunt et al. 2018a). Några särskilt spännande resultat från denna ansträngning var att transformator (Vaswani et al. 2017) modeller och deras ändringar spela bra med lärare-student utbildning och är häpnadsväckande effektiv under inferens på PROCESSORN.

Att lära av dessa initiala resultat och efter en hel del iteration upptäckte vi ett recept som gör att vår enkla elev att ha nästan samma kvalitet som den komplexa läraren (ibland finns det en gratis lunch trots allt?). Nu var vi fria att bygga stora, komplexa lärar modeller för att maximera kvaliteten, utan att oroa dig för Real tids begränsningar (för mycket).

Real tids Översättning

Vårt beslut att byta till ett ramverk för lärar studerande motiverades av det stora arbete som Kim och Rush (2016) för enkla RNN-baserade modeller. Vid den tidpunkten var det oklart om de redovisade fördelarna skulle manifesteras för transformator modellerna också (se Vaswani et al. 2017 för mer information om denna modell). Men vi upptäckte snabbt att detta verkligen var fallet.

Transformatorn studenten kan använda en kraftigt förenklad avkodning algoritm (girig sökning) där vi bara plocka den enda bästa översatt ord vid varje steg, snarare än den vanliga metoden (beam-sökning) som innebär att söka igenom det enorma utrymmet av möjliga Översättningar. Denna förändring hade minimal kvalitets påverkan men ledde till stora förbättringar i översättnings hastigheten. Däremot skulle en lärare modell drabbas av en betydande ned gång i kvalitet när du byter från beam-search till girig-sökning.

Samtidigt insåg vi att i stället för att använda den senaste neurala arkitekturen (transformator med egen uppmärksamhet) i dekodern, kan studenten modifieras för att använda en drastiskt förenklad och snabbare återkommande (RNN) arkitektur. Detta betyder att även om Transformatorkodaren kan beräknas över hela käll meningen parallellt, genereras mål meningen ett enda ord i taget, så att avkodarens hastighet har stor inverkan på den totala översättnings hastigheten. Jämfört med egen uppmärksamhet, minskar återkommande dekoder algoritmisk komplexitet från kvadratisk till linjär i mål meningen längd. Särskilt i lärar-student inställning, såg vi ingen förlust i kvalitet på grund av dessa modifieringar, varken för automatisk eller för mänsklig utvärdering resultat. Flera ytterligare förbättringar såsom parameter delning ledde till ytterligare minskningar i komplexitet och ökad hastighet.

En annan fördel med läraren-student ram vi var mycket glada över att se är att kvalitets förbättringar över tiden för den ständigt växande och föränderliga lärare är lätt föras över till en icke-föränderlig student arkitektur. I de fall där vi såg problem i detta avseende skulle en liten ökning av student modellens kapacitet minska klyftan igen.

Dubbelt lärande

Den viktigaste insikten bakom Dual Learning (Han et al. 2016) är "rund resa översättning" kontrol lera att människor ibland använder för att kontrol lera översättnings kvalitet. Antag att vi använder en online översättare för att gå från engelska till italienska. Om vi inte läser italienska, hur vet vi om det är gjort ett bra jobb? Innan du klickar på Skicka på ett e-postmeddelande kan vi välja att kontrol lera kvaliteten genom att översätta den italienska tillbaka till engelska (kanske på en annan webbplats). Om den engelska vi får tillbaka har avvikit alltför långt från originalet, är chansen en av översättningarna gick utanför rälsen.

Dual Learning använder samma metod för att utbilda två system (t. ex. engelska-> italienska och italienska-> engelska) parallellt, med hjälp av rund resa översättning från ett system för att göra mål, validera och utbilda det andra systemet.

Dual Learning var en viktig bidragande orsak till vår mänsklig paritet forsknings resultat. I att gå från forsknings systemet till vårt produktions recept, vi generaliserat denna strategi i stort. Inte nog med att vi samtränar par av system på var and ' s produktion, vi använde också samma kriterium för filtrering av våra parallella data.

Rensa felaktiga data

Maskin översättnings system är utbildade på "parallella data", d.v.s. par av dokument som är översättningar av varandra, idealiskt skapade av en mänsklig översättare. Som det visar sig, denna parallella data är ofta full av felaktiga översättningar. Ibland dokumenten är inte riktigt parallella utan bara lösa parafraser av varandra. Mänskliga översättare kan välja att utelämna käll material eller infoga ytterligare information. Data kan innehålla stavfel, stavfel, grammatiska fel. Ibland luras våra algoritmer för data utvinning av liknande men icke parallella data, eller till och med av meningar på fel språk. Värst av allt, en hel del av de webb sidor vi ser är spam, eller kan i själva verket vara maskin översättningar snarare än mänskliga översättningar. Neurala system är mycket känsliga för denna typ av inexaktheten i data. Vi fann att bygga neurala modeller för att automatiskt identifiera och bli av med dessa felaktigheter gav starka förbättringar i kvaliteten på våra system. Vårt förhållnings sätt till data filtrering resulterade i första hand i WMT18 parallell Corpus filtrering benchmark (Junczys-Dowmunt 2018a) och hjälpte till att bygga ett av de starkaste engelsk-tyska översättnings systemen i WMT18 nyheter översättnings uppgift (Junczys-Dowmunt 2018b). Vi använde förbättrade versioner av denna metod i de produktions system vi släppte idag.

Räknade ord representationer

När man flyttar en forsknings teknik till produktion, uppstår flera verkliga utmaningar. Att få siffror, datum, tider, kapitalisering, mellanrum etc. rätt betyder mycket mer i produktionen än i ett forsknings system.

Överväg utmaningen av kapitalisering. Om vi översätter meningen "titta på CAT-videor här". Vi vet hur man översätter "katt". Vi skulle vilja översätta "CAT" på samma sätt. Men nu anser "titta på oss fotboll här". Vi vill inte förväxla ordet "oss" och förkortningen "US" i detta sammanhang.

För att hantera detta använde vi en metod som kallas för maskin översättning (Koehn och Hoang 2007, Sennrich och Haddow 2016) som fungerar på följande sätt. I stället för en enda numerisk representation ("inbäddning") för "Cat" eller "CAT" använder vi flera inbäddningar, så kallade "faktorer". I det här fallet skulle den primära inbäddning vara densamma för "katt" och "katt" men en separat faktor skulle representera versaler, vilket visar att det var alla-Caps i en instans, men gemener i den andra. Liknande faktorer används på källan och mål sidan.

Vi använder liknande faktorer för att hantera ordfragment och mellanrum mellan ord (ett komplext problem i språk som inte är avstånd eller som är halvt avstånd, till exempel kinesiska, koreanska, japanska eller thailändska).

Faktorer också dramatiskt förbättrad översättning av siffror, vilket är avgörande i många scenarier. Tal översättning är oftast en algoritmisk omvandling. Till exempel kan 1 234 000 skrivas som 12, 34000 på hindi, 1.234.000 på tyska och 123,4 万 på kinesiska. Traditionellt representeras tal som ord, som tecken grupper av varierande längd. Detta gör det svårt för maskin inlärning att upptäcka algoritmen. I stället matar vi varenda siffra i ett tal separat, med faktorer som markerar början och. Detta enkla trick robust och tillförlitligt bort nästan alla nummer översättnings fel.

Snabbare modell träning

När vi tränar ett enda system mot ett enda mål, som vi gjorde för Human-paritet forskningsprojektet, förväntar vi oss att kasta stort antal hård vara på modeller som tar veckor att träna. När utbildning produktions modeller för 20 + språkpar, detta tillvägagångs sätt blir ohållbar. Vi behöver inte bara rimliga turn-around tider, men vi måste också dämpa våra hård varu krav. För det här projektet gjorde vi ett antal prestanda förbättringar för att Marian NMT (Junczys-Dowmunt et al. 2018b).

Marian NMT är Open-Source neural MT Toolkit som Microsoft Translator är baserat på. Marian är en ren C++ neurala maskin översättnings verktyg, och som ett resultat, extremt effektiv, inte kräver GPU vid körning, och mycket effektiv på tränings tid

På grund av sin självständiga karaktär, är det ganska lätt att optimera Marian för NMT specifika uppgifter, vilket resulterar i en av de mest effektiva NMT verktyg tillgängliga. Ta en titt på Riktmärken. Om du är intresse rad av neural MT forskning och utveckling, vänligen gå och bidra till Community på GitHub.

Våra förbättringar gällande blandad precisions träning och avkodning, liksom för stora modell utbildningar kommer snart att göras tillgängliga i den offentliga GitHub-lagringsplatsen.

Vi är entusiastiska över framtiden för neurala maskin översättning. Vi kommer att fortsätta att rulla ut den nya modellen arkitektur till de återstående språken och Anpassad översättare under hela året. Våra användare kommer automatiskt att få betydligt bättre kvalitet översättningar genom Translator APIVåra Translator app, Microsoft Office och Edge-webbläsaren. Vi hoppas att de nya förbättringarna hjälper dina personliga och yrkesmässiga liv och ser fram emot din feedback.

Referenser

Jimmy BA och Rich Caruana. 2014. behöver Deep Nets verkligen vara djupt? Förskott i neurala informations behandlings system 27. Sidorna 2654-2662. https://papers.nips.cc/paper/5484-do-deep-nets-really-need-to-be-deep
Hany Hassan, Anthony Aue, Chang Chen, Vishal Chowdhary, Jonathan Clark, Christian Federmann, Xuedong Huang, Marcin Junczys-Dowmunt, William Lewis, Mu Li, Shujie LiU, Tie-Yan LiU, Renqian Luo, Arul Menezes, Tao Qin, Frank Seide, Xu Tan, Fei Tian, Lijun Wu, Shuangzhi Wu, Yingce Xia, Dongdong Zhang, Zhirui Zhang, Ming Zhou. 2018. uppnå mänsklig paritet på automatisk kinesiska till engelska nyheter översättning. http://arxiv.org/abs/1803.05567
Han, di och Xia, Yingce och Qin, Tao och Wang, Liwei och Yu, Nenghai och LiU, Tie-Yan och Ma, Wei-Ying. 2016. Dual Learning för maskin översättning. Förskott i neurala informations behandlings system 29. Sidorna 820-828. https://papers.nips.cc/paper/6469-dual-learning-for-machine-translation
Marcin Junczys-Dowmunt. 2018a. Dual villkorlig Cross-Entropy filtrering av bullriga parallella corpora. Förfarandet vid den tredje konferensen om maskin översättning: delade arbets dokument. Belgien, sidorna 888-895. https://aclweb.org/anthology/papers/W/W18/W18-6478/
Marcin Junczys-Dowmunt. 2018b. Microsofts inlämning till WMT2018 nyheter översättnings uppgift: hur jag lärde mig att sluta oroa och älska data. Förfarandet vid den tredje konferensen om maskin översättning: delade arbets dokument. Belgien, sidorna 425-430. https://www.aclweb.org/anthology/W18-6415/
Marcin Junczys-Dowmunt, Kenneth Heafield, Hieu Hoang, Roman Grundkiewicz, Anthony Aue. 2018a. Marian: kostnads effektiv hög kvalitet neurala maskin översättning i C++. Proceedings av 2nd workshop om neurala maskin översättning och generation. Melbourne, Australien, sidorna 129-135. https://aclweb.org/anthology/papers/W/W18/W18-2716/
Marcin Junczys-Dowmunt, Roman Grundkiewicz, Tomasz Dwojak, Hieu Hoang, Kenneth Heafield, Tom Neckermann, Frank Seide, Ulrich Germann, Alham Fikri Aji, Nikolay Bogoychev, André F. T. Martins, Alexandra Birch. 2018b. Marian: snabb neurala maskin översättning i C++. Proceedings av ACL 2018, system demonstrationer. Melbourne, Australien, sidorna 116-121. https://www.aclweb.org/anthology/P18-4020/
Yoon Kim och Alexander M. Rush. 2016. kunskaps destillation på sekvensnivå. I Proceedings of the 2016 konferensen om empiriska metoder i naturligt språk Processing, EMNLP 2016, Austin, Texas, USA, november 1-4, 2016, sidorna 1317 – 1327. https://aclweb.org/anthology/papers/D/D16/D16-1139/
Philipp Koehn, Hieu Hoang. 2007. facerade översättnings modeller. Förfarandet vid den 2007 gemensamma konferensen om empiriska metoder för behandling av naturligt språk och datorbaserad inlärning av naturligt språk (EMNLP-CoNLL). Prag, Tjeckien, sidorna 868-876. https://www.aclweb.org/anthology/D07-1091/
Rico Sennrich, Barry Haddow. 2016. lingvistiska input funktioner förbättra neurala maskin översättning. Proceedings från den första konferensen om maskin översättning: volym 1, forsknings rapporter. Berlin, Tyskland, sidorna 83-91. https://www.aclweb.org/anthology/W16-2209/
Vaswani, Ashish och Shazeer, Noam och Parmar, Niki och Uszkoreit, Jakob och Jones, Llion och Gomez, Aidan N och Kaiser, Lukasz och Polosukhin, Illia. 2017. uppmärksamhet är allt du behöver. Förskott i neurala informations behandlings system 30. Sidorna 5998-6008. https://papers.nips.cc/paper/7181-attention-is-all-you-need

Microsoft Translator blogg