Neurale maskinoversættelse aktivering af human paritets innovationer i skyen

Slået fra 17. juni 201921. juni 2019ved Microsoft Translator

I marts 2018 Annonceret (Hassan et al. 2018) et banebrydende resultat, hvor vi for første gang viste et maskinoversættelsessystem, der kunne udføre såvel som menneskelige oversættere (i et specifikt scenarie – kinesisk-engelsk nyheds oversættelse). Dette var et spændende gennembrud inden for maskin oversættelses forskning, men det system, vi byggede til dette projekt, var et komplekst, sværvægts forskningssystem, der inkorporerer flere banebrydende teknikker. Mens vi frigivet produktionen af dette system på flere testsæt, selve systemet var ikke egnet til udrulning i en real-time maskinoversættelse Cloud API.

I dag er vi glade for at annoncere tilgængeligheden i produktionen af vores nyeste generation af neurale maskinoversættelse modeller. Disse modeller inkorporerer det meste af vores forsknings Systems godhed og er nu tilgængelige som standard, når du bruger Microsoft Translator API. Disse nye modeller er tilgængelige i dag på kinesisk, tysk, fransk, hindi, italiensk, spansk, japansk, koreansk og russisk, fra og til engelsk. Flere sprog kommer snart.

Kom fra Research Paper til Cloud API

I løbet af det seneste år har vi været på udkig efter måder at bringe meget af kvaliteten af vores menneskelige paritet system i Microsoft Translator API, og samtidig fortsætte med at tilbyde billig real-time oversættelse. Her er nogle af trinene på denne rejse.

Uddannelse af lærer studerende

Vores første skridt var at skifte til en "lærer-studerende" ramme, hvor vi træner en let real-time studerende til at efterligne et sværvægts lærernetværk (BA og Caruana 2014). Dette opnås ved at træne den studerende ikke på de parallelle data, som MT-systemer normalt er uddannet på, men på oversættelser produceret af læreren (Kim og Rush 2016). Dette er en enklere opgave end at lære af rå data, og giver en shallower, enklere studerende til meget nøje at følge den komplekse lærer. Som man kunne forvente, vores indledende forsøg stadig lidt kvalitet dråber fra lærer til studerende (ingen gratis frokost!), men vi tog først plads i WNMT 2018 delt opgave om effektiv afkodning (Junczys-Dowmunt et al. 2018a). Nogle særligt spændende resultater fra denne indsats var, at Transformer (Vaswani et al. 2017) modeller og deres modifikationer spiller godt med lærer-studerende uddannelse og er forbløffende effektiv under slutning på CPU'en.

Læring fra disse første resultater og efter en masse iteration vi opdagede en opskrift, der gør det muligt for vores enkle studerende at have næsten samme kvalitet som den komplekse lærer (nogle gange er der en gratis frokost efter alle?). Nu var vi fri til at bygge store, komplekse lærer modeller til at maksimere kvaliteten, uden at bekymre sig om real-time begrænsninger (for meget).

Real-time Oversættelse

Vores beslutning om at skifte til en lærer-studerende ramme var motiveret af det store arbejde ved Kim og Rush (2016) til enkle RNN-baserede modeller. På det tidspunkt var det uklart, om de rapporterede fordele ville manifestere for transformator modeller samt (Se Vaswani et al. 2017 for detaljer om denne model). Men vi opdagede hurtigt, at dette faktisk var tilfældet.

Den Transformer studerende kunne bruge en stærkt forenklet dekodning algoritme (grådige søgning), hvor vi bare vælge den enkelt bedste oversat ord på hvert trin, snarere end den sædvanlige metode (Beam-Search), som involverer søgning gennem den enorme plads af mulige Oversættelser. Denne ændring havde minimal kvalitets effekt, men førte til store forbedringer i oversættelseshastigheden. I modsætning hertil ville en lærer model lider et betydeligt fald i kvaliteten, når du skifter fra Beam-Search til grådige-søgning.

På samme tid, vi indså, at i stedet for at bruge den nyeste neurale arkitektur (Transformer med selv-opmærksomhed) i dekoderen, kunne den studerende ændres til at bruge en drastisk forenklet og hurtigere tilbagevendende (RNN) arkitektur. Dette betyder, fordi mens Transformer Encoder kan beregnes over hele kilde sætningen parallelt, er målet sætning genereres et enkelt ord ad gangen, så hastigheden af dekoderen har en stor indflydelse på den samlede hastighed af oversættelsen. Sammenlignet med selv-opmærksomhed, den tilbagevendende dekoder reducerer algoritmisk kompleksitet fra kvadratiske til lineær i Target punktum længde. Især i den lærer-studerende indstilling, vi så ingen tab af kvalitet på grund af disse ændringer, hverken for automatisk eller for menneskelig evaluering resultater. Flere yderligere forbedringer såsom parameter deling førte til yderligere reduktioner i kompleksitet og øget hastighed.

En anden fordel ved den lærer-studerende ramme vi var meget glade for at se, er, at kvaliteten forbedringer over tid af de stadigt voksende og skiftende lærere er let overføres til en ikke-skiftende studenter arkitektur. I tilfælde, hvor vi så problemer i denne henseende, ville små stigninger i studenter model kapacitet lukke hullet igen.

Dobbelt læring

Den vigtigste indsigt bag Dual Learning (Han et al. 2016) er den "Round-Trip oversættelse" kontrollere, at folk undertiden bruger til at kontrollere oversættelseskvalitet. Antag, at vi bruger en online oversætter til at gå fra engelsk til italiensk. Hvis vi ikke læser italiensk, hvordan kan vi vide, om det er gjort et godt stykke arbejde? Før du klikker på Send på en e-mail, kan vi vælge at kontrollere kvaliteten ved at oversætte den italienske tilbage til engelsk (måske på en anden hjemmeside). Hvis den engelske vi kommer tilbage er forvildet for langt fra originalen, chancerne er en af de oversættelser gik væk fra skinnerne.

Dual Learning bruger samme fremgangsmåde til at træne to systemer (f. eks. engelsk-> italiensk og italiensk-> engelsk) parallelt ved at bruge rundrejsen fra ét system til at score, validere og træne det andet system.

Dobbelt læring var en vigtig bidragyder til vores forskningsresultat for menneskelige pariteter. I at gå fra forskningssystemet til vores produktion opskrift, vi generaliserede denne tilgang bredt. Ikke alene har vi Co-træne par af systemer på hinandens output, vi også brugt det samme kriterium for filtrering af vores parallelle data.

Oprydning af unøjagtige data

Maskinoversættelsessystemer er uddannet på "parallelle data", dvs par af dokumenter, der er oversættelser af hinanden, ideelt skabt af en menneskelig oversætter. Da det viser sig, at disse parallelle data er ofte fuld af unøjagtige oversættelser. Nogle gange er dokumenterne ikke helt parallelle, men kun løse omskrivninger af hinanden. Menneskelige oversættere kan vælge at udelade noget kildemateriale eller indsætte yderligere oplysninger. Dataene kan indeholde slåfejl, stavning, grammatiske fejl. Sommetider er vores algoritmer til datamining blevet narret af lignende, men ikke-parallelle data, eller endda af sætninger på det forkerte sprog. Værst af alt, en masse af de websider, vi ser, er spam, eller kan faktisk være maskinoversættelser snarere end menneskelige oversættelser. Neurale systemer er meget følsomme over for denne form for unøjagtighed i dataene. Vi fandt, at bygge neurale modeller til automatisk at identificere og slippe af med disse unøjagtigheder gav stærke forbedringer i kvaliteten af vores systemer. Vores tilgang til datafiltrering resulterede i første omgang i WMT18 benchmark til filtrering af parallel Corpus (Junczys-Dowmunt 2018a) og hjalp med at bygge et af de stærkeste engelsk-tyske oversættelsessystemer i WMT18 nyheds oversættelsesopgave (Junczys-Dowmunt 2018b). Vi brugte forbedrede versioner af denne tilgang i de produktionssystemer, vi udgav i dag.

Factored Word-repræsentationer

Når en forsknings teknologi flyttes til produktion, opstår der flere udfordringer i den virkelige verden. Hentning af tal, datoer, klokkeslæt, store bogstaver, afstand osv. ret betyder meget mere i produktionen end i et forskningssystem.

Overvej udfordringen med kapitalisering. Hvis vi oversætter sætningen "WATCH CAT videoer her". Vi ved, hvordan man oversætter "kat". Vi vil gerne oversætte "CAT" på samme måde. Men nu overveje "Watch US Soccer her". Vi ønsker ikke at forveksle ordet "os" og akronym "USA" i denne sammenhæng.

Til at håndtere dette, vi brugte en tilgang kendt som indregnes maskinoversættelse (Koehn og Hoang 2007, Sennrich og Haddow 2016), der fungerer på følgende måde. I stedet for en enkelt numerisk repræsentation ("indlejring") for "Cat" eller "CAT" bruger vi flere integreringerne, kendt som "faktorer". I dette tilfælde ville den primære indlejring være den samme for "CAT" og "Cat", men en separat faktor ville repræsentere kapitaliseringen, der viser, at det var All-Caps i én instans, men små bogstaver i den anden. Lignende faktorer anvendes på kilde-og målsiden.

Vi bruger lignende faktorer til at håndtere ord fragmenter og mellemrum mellem ord (et komplekst problem i ikke-mellemrum eller semi-mellemrum sprog som kinesisk, koreansk, japansk eller thailandsk).

Faktorer også dramatisk forbedret oversættelse af tal, som er kritisk i mange scenarier. Nummer oversættelse er for det meste en algoritmisk transformation. For eksempel kan 1.234.000 skrives som 12, 34000 i hindi, 1.234.000 på tysk og 123,4 万 på kinesisk. Traditionelt er tal repræsenteret som ord, som grupper af tegn af varierende længde. Dette gør det svært for maskinel indlæring at opdage algoritmen. I stedet føder vi hvert enkelt ciffer af et nummer separat, med faktorer, der markerer begyndelsen og slutningen. Denne enkle trick robust og pålideligt fjernet næsten alle nummer-oversættelse fejl.

Hurtigere model uddannelse

Når vi uddanner et enkelt system mod et enkelt mål, som vi gjorde for det menneskelige paritets forskningsprojekt, forventer vi at smide et stort antal hardware på modeller, der tager uger at træne. Når man træner produktionsmodeller for 20 + sprogpar, bliver denne fremgangsmåde uholdbar. Ikke alene har vi brug for fornuftige turn-around tider, men vi er også nødt til at moderere vores hardwarekrav. Til dette projekt foretog vi en række forbedringer af ydeevnen for at Marian NMT (Junczys-Dowmunt et al. 2018b).

Marian NMT er den open source-Neural MT Toolkit, som Microsoft Translator er baseret på. Marian er en ren C++ neurale maskine oversættelse Toolkit, og som et resultat, ekstremt effektiv, ikke kræver GPU'er på kørselstidspunktet, og meget effektiv til træning tid

På grund af sin selvstændige karakter, er det ganske nemt at optimere Marian for NMT specifikke opgaver, hvilket resulterer i en af de mest effektive NMT værktøjssæt til rådighed. Tag et kig på Benchmarks. Hvis du er interesseret i Neural MT forskning og udvikling, bedes du deltage og bidrage til community på GitHub.

Vores forbedringer vedrørende blandet præcisions træning og afkodning samt for stor model træning vil snart blive gjort tilgængelige i det offentlige GitHub repository.

Vi er begejstrede for fremtiden for neurale maskinoversættelser. Vi vil fortsætte med at udrulle den nye model arkitektur til de resterende sprog og Brugerdefineret Oversætter i løbet af året. Vores brugere vil automatisk få den væsentligt bedre kvalitet oversættelser gennem Translator APIVores Translator app, Microsoft Office og Edge-browseren. Vi håber, at de nye forbedringer hjælper dine personlige og professionelle liv og ser frem til din feedback.

Referencer

Jimmy BA og Rich Caruana. 2014. har dybe nets virkelig brug for at være dyb? Fremskridt i neurale informationsbehandlingssystemer 27. Sider 2654-2662. https://papers.nips.cc/paper/5484-do-deep-nets-really-need-to-be-deep
Hany Hassan, Anthony Aue, Chang Chen, Vishal Chowdhary, Jonathan Clark, Christian Federmann, Xuedong Huang, Marcin Junczys-Dowmunt, William Lewis, mu Li, Shujie Liu, tie-Yan Liu, Renqian Luo, Arul Menezes, Tao Qin, Frank Seide, Xu Tan, Fei Tian, Lijun Wu, Shuangzhi Wu, Yingce Xia, Dongdong Zhang, Zhirui Zhang, Ming Zhou. 2018. opnåelse af menneskelig paritet på automatisk kinesisk til engelsk News Translation. http://arxiv.org/abs/1803.05567
Han, di og Xia, Yingce og Qin, Tao og Wang, Liwei og Yu, Nenghai og Liu, tie-Yan og MA, Wei-Ying. 2016. Dual Learning til maskinoversættelse. Fremskridt i Neural information Processing Systems 29. Sider 820-828. https://papers.nips.cc/paper/6469-dual-learning-for-machine-translation
Marcin Junczys-Dowmunt. 2018a. dobbelt betinget Cross-Entropy filtrering af støjende parallel corpora. Arbejdet på den tredje konference om maskinoversættelse: fælles opgave dokumenter. Belgien, side 888-895. https://aclweb.org/anthology/papers/W/W18/W18-6478/
Marcin Junczys-Dowmunt. 2018b. Microsofts indsendelse til WMT2018 News oversættelsesopgave: hvordan jeg lærte at stoppe bekymrende og elske data. Arbejdet på den tredje konference om maskinoversættelse: fælles opgave dokumenter. Belgien, side 425-430. https://www.aclweb.org/anthology/W18-6415/
Marcin Junczys-Dowmunt, Kenneth Heafield, Hieu Hoang, Roman Grundkiewicz, Anthony Aue. 2018a. Marian: omkostningseffektiv høj kvalitet neurale maskine oversættelse i C++. Arbejde i 2nd workshop om neurale maskinoversættelse og generation. Melbourne, Australien, side 129-135. https://aclweb.org/anthology/papers/W/W18/W18-2716/
Marcin Junczys-Dowmunt, Roman Grundkiewicz, Tomasz Dwojak, Hieu Hoang, Kenneth Heafield, Tom Neckermann, Frank Seide, Ulrich Germann, Alham Fikri Aji, Nikolay Bogoychev, André F. T. Martins, Alexandra Birch. 2018b. Marian: hurtig neurale maskinoversættelse i C++. Procedurer af ACL 2018, system demonstrationer. Melbourne, Australien, side 116-121. https://www.aclweb.org/anthology/P18-4020/
Yoon Kim og Alexander M. Rush. 2016. destillation af viden på sekvens niveau. I retssager af 2016 konference om empiriske metoder i naturlige sprogbehandling, EMNLP 2016, Austin, Texas, USA, november 1-4, 2016, sider 1317 – 1327. https://aclweb.org/anthology/papers/D/D16/D16-1139/
Philipp Koehn, Hieu Hoang. 2007. der er indregnet oversættelses modeller. Drøftelser i forbindelse med den 2007 fælles konference om empiriske metoder til behandling af naturlige sprog og datamatisk natur sprogindlæring (EMNLP-CoNLL). Prag, Den Tjekkiske Republik, side 868-876. https://www.aclweb.org/anthology/D07-1091/
Rico Sennrich, Barry Haddow. 2016. sproglige input funktioner forbedre neurale maskinoversættelse. Arbejdet på den første konference om maskinoversættelse: bind 1, forskningspapirer. Berlin, Tyskland, side 83-91. https://www.aclweb.org/anthology/W16-2209/
Vaswani, Ashish og shazeer, Noam og Parmar, Niki og Uszkoreit, Jakob og Jones, Llion og Gomez, Aidan N og Kaiser, Lukasz og Polosukhin, ILLIA. 2017. opmærksomhed er alt hvad du behøver. Fremskridt i Neural information Processing Systems 30. Sider 5998-6008. https://papers.nips.cc/paper/7181-attention-is-all-you-need

Microsoft Translator blog