Neurónové strojový preklad umožňujúci ľudské parity inovácie v cloude

Zverejnené na Júna 17, 2019Júna 21, 2019od Microsoft Translator

V marci 2018 sme Oznámila (Hassan et al. 2018) prielom výsledok, kedy sme ukázali prvýkrát strojový preklad systém, ktorý by mohol vykonávať aj ľudské prekladateľov (v konkrétnom scenári-čínsky-anglický spravodajský preklad). To bol vzrušujúci prielom v oblasti strojového prekladu výskumu, ale systém sme vybudovali pre tento projekt bol zložitý, Heavyweight výskumný systém, zahŕňajúci viac rezanie-hrana techniky. Aj keď sme vydali výstup tohto systému na niekoľko testovacích súprav, samotný systém nebol vhodný pre nasadenie v reálnom čase strojový preklad cloud API.

Dnes sme nadšení, oznamuje dostupnosť vo výrobe našej najnovšej generácie modelov neurónové strojový preklad. Tieto modely obsahujú väčšinu dobroty nášho výskumného systému a sú teraz k dispozícii v predvolenom nastavení, keď používate Microsoft Translator API. Tieto nové modely sú dnes k dispozícii v čínštine, nemčine, francúzštine, Hindčina, taliančina, španielčina, japončina, kórejčina a ruština, z a do angličtiny. Ďalšie jazyky sú už čoskoro.

Získanie z výskumného papiera do cloudu API

Za uplynulý rok sme hľadali spôsoby, ako priviesť veľkú časť kvality nášho ľudského paritného systému do Microsoft Prekladateľ API, zatiaľ čo naďalej ponúkať nízkonákladové Real-time prekladu. Tu sú niektoré z krokov na tejto ceste.

Učiteľ-Študentská odborná príprava

Naším prvým krokom bolo prejsť na "učiteľ-študent" rámec, kde trénujeme ľahký Real-time študent napodobňujú ťažkej váhe učiteľ siete (Ba a Caruana 2014). To je dosiahnuté školenie študenta nie na paralelné údaje, ktoré MT systémy sú zvyčajne vyškolení, ale na preklady vyrobené učiteľom (Kim a Rush 2016). To je jednoduchšia úloha, než učenie zo surového dát, a umožňuje plytšiu, jednoduchší študent veľmi pozorne sledovať komplexný učiteľ. Ako by sa dalo očakávať, naše počiatočné pokusy stále utrpel kvalitné kvapky od učiteľa k študentovi (bez obeda!), ale napriek tomu sme sa na prvom mieste v WNMT 2018 zdieľanú úlohu v oblasti efektívneho dekódovania (Junczys-Dowmunt et al. 2018a). Niektoré obzvlášť vzrušujúce výsledky z tohto úsilia bolo, že transformátor (Vaswani et al. 2017) modely a ich modifikácie hrajú dobre s učiteľom-študent školenia a sú neuveriteľne efektívne počas záver na CPU.

Učenie z týchto počiatočných výsledkov a po mnohých iterácii sme objavili recept, ktorý umožňuje našim jednoduchým študentom mať takmer rovnakú kvalitu ako komplexný učiteľ (niekedy je voľný obed po všetkom?). Teraz sme boli voľne budovať veľké, komplexné modely učiteľov maximalizovať kvalitu, bez obáv o Real-time obmedzenia (príliš veľa).

Preklad v reálnom čase

Naše rozhodnutie prejsť na učiteľ-študent rámec bol motivovaný veľkou prácou Kim a Rush (2016) pre jednoduché modely založené na RNN. V tomto bode nebolo jasné, či sa vykazované prínosy prejavia aj pre modely transformátorov (pozri Vaswani et al. 2017 Podrobnosti o tomto modeli). Avšak, sme rýchlo zistili, že to bol naozaj prípad.

Transformátor študent mohol použiť veľmi zjednodušené dekódovanie algoritmus (chamtivý vyhľadávanie), kde sme len vybrať jediné najlepšie preložené slovo na každom kroku, skôr než obvyklé metódy (lúč-Search), ktorý zahŕňa vyhľadávanie cez obrovský priestor možných Preklady. Táto zmena mala minimálny vplyv na kvalitu, ale viedla k veľkému zlepšeniu rýchlosti prekladu. Naopak, model učiteľa by utrpel výrazný pokles kvality pri prechode z lúča-vyhľadávanie na chamtivých-vyhľadávanie.

Zároveň sme si uvedomili, že skôr než pomocou najnovšej neurálnej architektúry (transformátor s self-pozornosť) v dekodéri, študent by mohol byť upravený tak, aby používali drasticky zjednodušené a rýchlejšie opakujúce sa (RNN) architektúra. To je dôležité, pretože zatiaľ čo Transformer Encoder môže byť vypočítaná na celom zdroji vety paralelne, cieľová veta je generovaný jediné slovo v čase, takže rýchlosť dekodér má veľký vplyv na celkovú rýchlosť prekladu. V porovnaní s self-pozornosť, opakujúce sa dekodér znižuje algoritmické zložitosti od Kvadratická na lineárne v cieľovej vety dĺžky. Najmä v nastavení učiteľ-študent, sme nevideli žiadne straty kvality v dôsledku týchto úprav, a to ani pre automatické ani pre ľudské Hodnotenie výsledkov. Niekoľko ďalších vylepšení, ako napríklad zdieľanie parametrov, viedlo k ďalšiemu zníženiu zložitosti a zvýšenej rýchlosti.

Ďalšou výhodou učiteľa-študent rámca sme boli veľmi potešení, je, že zlepšenie kvality v priebehu času stále rastúce a meniace sa učitelia sú ľahko prenesené do non-meniace sa študentskej architektúry. V prípadoch, keď sme v tejto súvislosti videli problémy, mierne zvýšenie kapacity študentských modelov by opäť uzavriete medzeru.

Duálne učenie

Kľúčovým pohľadom za duálne učenie (HE et al. 2016) je "spiatočný preklad" Skontrolujte, či ľudia niekedy používajú na kontrolu kvality prekladu. Predpokladajme, že sme pomocou on-line prekladateľ ísť z angličtiny do taliančiny. Ak nebudeme čítať taliansky, ako vieme, či je to urobiť dobrú prácu? Pred kliknutím Odoslať na e-mail, mohli by sme sa rozhodnúť pre kontrolu kvality prekladaním talianskej späť do angličtiny (možno na rôznych webových stránkach). V prípade, že angličtina sa dostaneme späť sa odchýlili príliš ďaleko od originálu, šance sú jedným z prekladov odišiel z koľajníc.

Duálne učenie používa rovnaký prístup k vlaku dvoch systémov (napr. Angličtina-> taliančina a taliančina-> angličtine) paralelne, pomocou kola-Trip prekladu z jedného systému na skóre, overenie a vlak iný systém.

Duálne vzdelávanie bolo významným prispievateľom k nášmu výsledku výskumu ľudskej parity. V prebiehajúcej z výskumného systému na našu produkciu recept, sme zovšeobecniť tento prístup široko. Nielenže sme Co-vlak párov systémov na druhej strane výstupu, sme tiež použili rovnaké kritérium pre filtrovanie našich paralelných dát.

Vyčistenie nesprávnych údajov

Strojový preklad systémy sú vyškolení na "paralelné dáta", tj dvojica dokumentov, ktoré sú preklady navzájom, v ideálnom prípade vytvoril ľudský prekladateľ. Ako to dopadá, tieto paralelné údaje sú často plné nesprávnych prekladov. Niekedy dokumenty nie sú skutočne paralelné, ale len voľné parafrázami navzájom. Ľudia prekladatelia sa môžu rozhodnúť opustiť nejaký zdrojový materiál alebo vložiť ďalšie informácie. Údaje môžu obsahovať preklepy, pravopisné chyby, gramatické chyby. Niekedy naše dáta ťažobné algoritmy sú zmiasť podobnými, ale non-paralelné dáta, alebo dokonca vety v zlom jazyku. Najhoršie zo všetkého, veľa webových stránok vidíme, sú spam, alebo môže byť v skutočnosti stroj preklady skôr ako ľudské preklady. Neurónové systémy sú veľmi citlivé na tento druh nepresnosti v údajoch. Zistili sme, že stavebné neurónové modely automaticky identifikovať a zbaviť sa týchto nepresností dal silné zlepšenie kvality našich systémov. Náš prístup k filtrovaniu údajov viedol na prvom mieste v WMT18 paralelný corpus filtrovanie benchmark (Junczys-Dowmunt 2018a) a pomohli vybudovať jeden z najsilnejších anglických prekladateľských systémov WMT18 novinový preklad úloha (Junczys-Dowmunt 2018b). Použili sme vylepšenú verziu tohto prístupu vo výrobných systémoch, ktoré sme dnes vydali.

Premietané slovné zastúpenia

Pri pohybe výskumné technológie na výrobu, niekoľko reálnych výziev vznikajú. Získanie čísla, dátumy, časy, kapitalizácie, medzery, atď správne záležitosti oveľa viac vo výrobe, ako vo výskumnom systéme.

Zvážte výzvu kapitalizácie. Ak budeme prekladať vetu "Sledujte CAT videá tu". Vieme, ako preložiť "mačka". Chceli by sme preložiť "mačka" rovnakým spôsobom. Ale teraz zvážte "Sledujte nás futbal tu". Nechceme zmiasť slovo "nás" a akronym "nás" v tejto súvislosti.

Na zvládnutie tohto, sme použili prístup známy ako faktored strojový preklad (Koehn a Hoang 2007, Sennrich a Haddow 2016), ktorý funguje nasledovne. Namiesto jediného číselného zastúpenia ("embedding") pre "mačku" alebo "CAT" používame viac embeddings, známych ako "faktory". V tomto prípade by bolo primárne vkladanie rovnaké pre "MAČKU" a "mačka", ale samostatný faktor by predstavoval kapitalizáciu, čo ukazuje, že to bolo všetko-čiapky v jednom prípade, ale malé v druhej. Podobné faktory sa používajú na zdroji a cieľovej strane.

Podobné faktory používame na spracovanie fragmentov slov a medzier medzi slovami (zložitý problém v nemedzier alebo polomedzier jazykov, ako sú čínština, kórejčina, japončina alebo thajčina).

Faktory tiež dramaticky zlepšil preklad čísel, čo je rozhodujúce v mnohých scenároch. Počet preklad je väčšinou algoritmické transformácie. Napríklad, 1 234 000 možno zapísať ako 12, 34000 v Hindčina, 1.234.000 v nemčine, a 123,4 万 v čínštine. Tradične, čísla sú zastúpené ako slová, ako skupiny postáv rôznej dĺžky. To je ťažké pre strojové učenie objavovať algoritmus. Namiesto toho sme sa kŕmiť každý jednotlivý číslice číslo oddelene, s faktormi značenie začiatok a koniec. Tento jednoduchý trik robustne a spoľahlivo odstrániť takmer všetky čísla-prekladu chyby.

Rýchlejší model školenia

Keď sme tréning jednotného systému smerom k dosiahnutiu jediného cieľa, ako sme urobili pre ľudské-parity výskumný projekt, očakávame, že hodiť obrovské množstvo hardware na modely, ktoré trvať týždne trénovať. Pri príprave modelov výroby pre 20 + jazykové páry sa tento prístup stáva nepevnejší. Nielenže potrebujeme rozumné otočenie-okolo krát, ale musíme tiež zmierniť naše hardvérové nároky. Pre tento projekt sme vykonali niekoľko zlepšení výkonnosti, ktoré Marian NMT (Junczys-Dowmunt et al. 2018b).

Marian NMT je open-source neural MT Toolkit, ktorý je založený na Microsoft Translator. Marian je čistý c + + neurónové strojový preklad Toolkit, a v dôsledku toho, veľmi efektívne, nevyžaduje GPU v behu, a veľmi efektívny v čase tréningu

Vzhľadom k svojej sebestačný charakter, je pomerne jednoduché optimalizovať Marian pre NMT špecifické úlohy, čo má za následok jeden z najúčinnejších NMT nástrojov k dispozícii. Sa pozrieť na Kritériá. Ak máte záujem o neurónové MT výskum a vývoj, prosím, pripojiť a prispieť k komunita na GitHub.

Naše vylepšenia týkajúce sa zmiešaných presných školení a dekódovania, ako aj pre veľký modelový tréning budú čoskoro sprístupnené vo verejnom úložisku github.

Sme nadšení budúcnosť neurónové strojový preklad. Budeme naďalej zavádzanie novej modelovej architektúry do zostávajúcich jazykov a Vlastné prekladateľ počas tohto roka. Naši používatelia automaticky získajú výrazne kvalitnejšie preklady prostredníctvom Prekladateľ APINaši Prekladateľ App, Microsoft Office a Edge browser. Dúfame, že nové vylepšenia pomôžu vášmu osobnému a profesionálnom živote a tešíme sa na vašu spätnú väzbu.

Odkazy

Jimmy ba a bohatý Caruana. 2014. sú hlboké siete skutočne potrebné hlboko? Pokrok v systémoch na spracovanie neurónových informácií 27. Strán 2654-2662. https://papers.nips.cc/paper/5484-do-deep-nets-really-need-to-be-deep
Hany Hassan, Anthony Aue, Chang Chen, Vishal Chowdhary, Jonathan Clark, Christian Federmann, Xuedong Huang, Marcin Junczys-Dowmunt, William Lewis, mu li, Shujie Liu, tie-Yan Liu, Renqian Luo, Arul Menezes, Tao Qin, Frank Seide, Xu Tan, Fei Tian, Lijun Wu, Shuangzhi Wu, Yingce Xia, Dongdong Zhang, Zhirui Zhang, Ming Zhou. 2018. dosiahnutie ľudskej parity na automatický čínsky anglický spravodajský preklad. http://arxiv.org/abs/1803.05567
On, di a Xia, Yingce a Qin, Tao a Wang, Liwei a Yu, Nenghai a Liu, tie-Yan a ma, Wei-Ying. 2016. duálne učenie pre strojový preklad. Pokrok v systémoch na spracovanie neurónových informácií 29. Strán 820-828. https://papers.nips.cc/paper/6469-dual-learning-for-machine-translation
Marcin Junczys-Dowmunt. 2018a. duálny podmienený cross-entropia filtrovanie hlučných paralelných corpora. Konanie tretej konferencie o strojový preklad: zdieľané úlohy papiere. Belgicko, strany 888-895. https://aclweb.org/anthology/papers/W/W18/W18-6478/
Marcin Junczys-Dowmunt. 2018b. Microsoft podanie na WMT2018 News Translation úloha: ako som sa naučil prestať starať a milovať dáta. Konanie tretej konferencie o strojový preklad: zdieľané úlohy papiere. Belgicko, strany 425-430. https://www.aclweb.org/anthology/W18-6415/
Marcin Junczys-Dowmunt, Kenneth Heafield, Hieu Hoang, Roman Grundkiewicz, Anthony Aue. 2018a. Marian: nákladovo efektívny vysoko kvalitný neurónové strojový preklad v C++. Konanie 2. seminár o neurónové strojový preklad a generácie. Melbourne, Austrália, stránky 129-135. https://aclweb.org/anthology/papers/W/W18/W18-2716/
Marcin Junczys-Dowmunt, Roman Grundkiewicz, Tomasz Dwojak, Hieu Hoang, Kenneth Heafield, tom Neckermann, Frank Seide, Ulrich Germann, Alham Fikri Aji, Nikolay Bogoychev, André F. T. Martins, Alexandra breza. 2018b. Marian: rýchle neurónové strojový preklad v c + +. Konanie ACL 2018, ukážky systému. Melbourne, Austrália, stránky 116-121. https://www.aclweb.org/anthology/P18-4020/
Yoon Kim a Alexander M. Rush. 2016. destilácia vedomostí na úrovni sekvencie. V konaniach na konferencii 2016 o empirických metódach v prirodzenom jazykovom spracovaní, EMNLP 2016, Austin, Texas, USA, november 1-4, 2016, Pages 1317 – 1327. https://aclweb.org/anthology/papers/D/D16/D16-1139/
Philipp Koehn, Hieu Hoang. 2007. premietané prekladové modely. Konanie 2007 spoločnej konferencie o empirických metódach v prirodzenom jazykovom spracovaní a výpočtových prírodných jazykovom vzdelávaní (EMNLP-CoNLL). Praha, Česká republika, strany 868-876. https://www.aclweb.org/anthology/D07-1091/
Rico Sennrich, Barry Haddow. 2016. jazykové vstupné funkcie zlepšujú neurónové strojový preklad. Konanie prvej konferencie o strojový preklad: Zväzok 1, výskumné dokumenty. Berlín, Nemecko, stránky 83-91. https://www.aclweb.org/anthology/W16-2209/
Vaswani, Ashish a shazeer, Noam a Parmar, Niki a Uszkoreit, Jakob a Jones, Llion a Gomez, Aidan N a Kaiser, Lukasz a Polosukhin, Illia. 2017. pozornosť je všetko, čo potrebujete. Zálohy v systémoch neurónové informácie o spracovaní 30. Strán 5998-6008. https://papers.nips.cc/paper/7181-attention-is-all-you-need

Microsoft prekladateľ blog