Prijevod neuronske mašine omogućavanje inovacija u oblaku za ljudsku paritet

Objavljeno na Lipanj 17, 2019Lipanj 21, 2019pored Microsoft Prevoditelj

U ožujku 2018 smo Najavio (Hassan et Al. 2018) rezultat otkrića u kojem smo prvi put pokazali sustav strojnog prevođenja koji bi mogao obavljati kao i ljudski prevoditelji (u određenom scenariju – Kineski-Engleski prijevod vijesti). Ovo je bio uzbudljiv napredak u istraživanju strojnog prevođenja, ali sustav koji smo izgradili za ovaj projekt bio je složen, težak istraživački sustav, koji je ugrađujući višestruke najmodernije tehnike. Dok smo objavili izlaz ovog sustava na nekoliko ispitnih skupova, sam sustav nije bio prikladan za implementaciju u stvarnom vremenu strojnog prijevoda u oblaku API.

Danas smo uzbuđeni da najavimo dostupnost u proizvodnji naše najnovije generacije neuronskih mašina prevođenja modela. Ovi modeli uključuju većinu dobrote našeg istraživačkog sustava i sada su dostupni po zadanom kada koristite Microsoft Translator API. Ovi novi modeli su dostupni danas na kineskom, njemačkom, francuskom, hindskom, talijanskom, španjolskom, japanskom, korejskom, i ruskom, od i do engleskog. Još jezika dolazi uskoro.

Dobivanje iz istraživanja papira u cloud API

Tijekom protekle godine, tražili smo načine kako donijeti mnogo kvalitete našeg sustava ljudskog pariteta u Microsoft Prevoditelj API, dok Nastavljajući nuditi niske troškove prevođenja u realnom vremenu. Evo nekih koraka na tom putovanju.

Učitelj-studentski trening

Naš prvi korak bio je prelazak na okvir "učitelj-učenik", gdje obučavamo laganog studenta u stvarnom vremenu kako bi oponašao mrežu nastavnika u teškoj kategoriji (Ba i Caruana 2014). To se postiže osposobljavanjem polaznika koji nije na paralelnim podacima na kojima su MT sustavi obično obučeni, ali na prijevodima koje je izradio učitelj (Kim i Rush 2016). To je jednostavniji zadatak od učenja iz sirovih podataka, i omogućuje plićaku, jednostavniji učenik vrlo pozorno slijediti složen učitelj. Kao što se može očekivati, naši početni pokušaji i dalje su pretrpjeli kvalitetne kapi od učitelja do učenika (bez besplatnog ručka!), ali smo ipak preuzeli prvo mjesto u WNMT 2018 zajedničkom zadatku za učinkovito dekodiranje (Junczys-Dowmunt et Al. 2018a). Neki posebno uzbudljivi rezultati ovog napora bili su da transformator (Vaswani et Al. 2017) modeli i njihove izmjene igraju dobro s nastavnika-student obuke i su zapanjujuće učinkovit tijekom zaključka na CPU.

Učenje iz ovih početnih rezultata i nakon puno iteracije otkrili smo recept koji omogućuje našem jednostavnom učeniku da ima gotovo istu kvalitetu kao i složeni učitelj (ponekad postoji besplatan ručak nakon svega?). Sada smo bili slobodni graditi velike, složene modele nastavnika kako bi povećali kvalitetu, bez brige o stvarnom vremenu ograničenja (previše).

Prijevod u stvarnom vremenu

Naša odluka o prebacivanju na okvir učitelja i učenika bila je motivirana velikim radom Kim i Rush (2016) za jednostavne modele koji se temelje na RNN. U tom trenutku bilo je nejasno ako su prijavljene koristi će se manifestirati za Transformer modela kao i (vidi Vaswani et Al. 2017 za detalje o ovom modelu). Međutim, brzo smo otkrili da je to doista slučaj.

Pretvarač transformator može koristiti uvelike pojednostavljeni algoritam dekodiranja (pohlepni pretraživanje) gdje smo samo odabrati jedan najbolji prevedeni riječ na svakom koraku, a ne uobičajena metoda (zrake-Search) koji uključuje pretraživanje kroz ogroman prostor moguće Prijevodi. Ta je promjena imala minimalan utjecaj na kvalitetu, ali je dovela do velikih poboljšanja u brzini prevođenja. S druge strane, model učitelja bi pretrpio značajan pad kvalitete pri prebacivanju sa zračnog traženja na pohlepno pretraživanje.

Istovremeno smo shvatili da je, umjesto da koristimo najnoviju neuronsku arhitekturu (transformator s samopažnjom) u dekoderu, učenik mogao biti izmijenjen kako bi koristio drastično pojednostavljenu i brže Ponavljajuća (RNN) arhitekturu. To je važno jer dok transformator kodera može se izračunati preko cijele izvorišne rečenice paralelno, ciljna rečenica generira jednu riječ u isto vrijeme, tako da je brzina dekoder ima veliki utjecaj na ukupnu brzinu prijevoda. U usporedbi s samopažnjom, ponavljajuća dekoder smanjuje algoritamsku složenost od kvadratna do linearnog u duljini ciljne rečenice. Posebno u okruženju učitelja i učenika, nismo vidjeli gubitak kvalitete zbog tih izmjena, niti za automatsku niti za rezultate za ljudsku ocjenu. Nekoliko dodatnih poboljšanja kao što je dijeljenje parametara dovelo je do daljnjeg smanjenja složenosti i povećane brzine.

Još jedna prednost učitelja-studentskog okvira bili smo vrlo uzbuđeni što ćemo vidjeti da su poboljšanja kvalitete tijekom vremena sve većeg i promjenjive nastavnice lako prenesena na studentsku arhitekturu koja se ne mijenja. U slučajevima kada smo vidjeli probleme u tom pogledu, blagi povećanje kapaciteta učenika model će zatvoriti jaz opet.

Dvojno učenje

Ključni uvid u dvojno učenje (On et Al. 2016) je "povratni prijevod" Provjerite da ljudi ponekad koriste za provjeru kvalitete prevođenja. Pretpostavimo da koristimo online prevoditelja da odemo s engleskog na talijanski. Ako ne čitamo talijanski, kako ćemo znati je li to učinio dobar posao? Prije klika na Poslati na e-poruci možemo odabrati provjeru kvalitete prevođenjem talijanskog natrag na engleski (možda na drugoj web stranici). Ako su Englezi koji smo se vratili, predaleko od originala, šanse su da je jedan od prijevoda otišao s tračnica.

Dvojno učenje koristi isti pristup za obuku dvaju sustava (npr. Engleski-> Talijanski i talijanski-> English) paralelno, koristeći kružno prevođenje iz jednog sustava za rezultat, provjeru i obuku drugog sustava.

Dvojno učenje bio je veliki doprinos našem istraživanju za ljudsku paritet. U odnosu na sustav istraživanja na naš proizvodni recept, generalizirali smo ovaj pristup široko. Ne samo da smo kotreniramo parove sustava na izlazu, već smo koristili isti kriterij za filtriranje paralelnih podataka.

Čišćenje netočnih podataka

Sustavi strojnog prevođenja obučeni su na "paralelne podatke", tj. parova dokumenata koji su prijevodi jedni druge, idealno stvoren od strane ljudskog prevoditelja. Kako se ispostavilo, ovaj paralelni podaci često su puni netočnih prijevoda. Ponekad dokumenti nisu stvarno paralelni, nego samo labavi parafrazi jedan od drugog. Prevoditelji ljudi mogu odabrati ostaviti neki izvorni materijal ili umetnuti dodatne informacije. Podaci mogu sadržavati pogreške, gramatičke pogreške. Ponekad su naši algoritmi podataka zavarani sličnim, ali ne-paralelnim podacima, ili čak po rečenicama na pogrešnom jeziku. Najgore od svega, puno web stranica koje vidimo su spam, ili zapravo mogu biti strojni prijevodi, a ne ljudski prijevodi. Neuralni sustavi su vrlo osjetljivi na ovu vrstu netočnosti u podacima. Pronašli smo da zgrada neuronske modele za automatsko prepoznavanje i dobili osloboditi od tih netočnosti dao jaka poboljšanja u kvaliteti naših sustava. Naš pristup filtriranju podataka uzrokovao je prvo mjesto u WMT18 paralelno Corpus filtriranje referentna vrijednost (Junczys-Dowmunt 2018a) i pomogla izgraditi jedan od najsnažnijih prevoditeljskih sustava engleskog i njemačkog WMT18 zadatak prevođenja vijesti (Junczys-Dowmunt 2018b). Iskoristili smo poboljšane verzije ovog pristupa u proizvodnim sustavima koje smo danas objavili.

Izjava o aspektima riječi

Pri premještanju istraživačke tehnologije u proizvodnju, nastaju nekoliko izazova u stvarnom svijetu. Dobivanje brojeva, datuma, vremena, velikih slova, razmaka, itd. pravo važno je puno više u proizvodnji nego u istraživačkom sustavu.

Razmotrite izazov kapitalizacije. Ako ćemo prevoditi rečenicu "Gledaj CAT VIDEOS ovdje". Znamo kako prevesti "mačka". Mi bi željeli prevesti "CAT" na isti način. Ali sada razmotrite "gledati američki nogomet ovdje". Ne želimo zbuniti riječ "mi" i akronim "US" u ovom kontekstu.

Da bismo to rješili, koristili smo pristup poznat kao faktored Machine Translation (Koehn i Hoang 2007, Sennrich i Haddow 2016) koji djeluje kako slijedi. Umjesto jedne numeričke prezentacije ("ugradnja") za "Cat" ili "CAT", koristimo višestruke ugrađivanje, poznate kao "čimbenici". U tom slučaju, primarna ugradnja bi bila ista za "CAT" i "mačka", ali bi zaseban faktor predstavljao veliko slovo, pokazujući da su sve gornje granice u jednoj instanci, ali mala slova u drugoj. Slični čimbenici koriste se na izvoru i na ciljanoj strani.

Koristimo slične čimbenike za rukovanje fragmentima i razmaku riječi između riječi (složen problem u nerazmaku ili polurazmaku jezika kao što su kineski, korejski, japanski ili Tajlandski).

Faktori također dramatično poboljšana prijevod brojeva, što je ključno u mnogim scenarijima. Prijevod broja je uglavnom Algoritamska transformacija. Na primjer, 1.234.000 može biti napisan kao 12, 34000 na Hindi, 1.234.000 na njemačkom i 123,4 万 na kineskom jeziku. Tradicionalno, brojevi su predstavljeni kao riječi, kao grupe znakova različite dužine. To čini teško za strojno učenje otkriti algoritam. Umjesto toga, mi hranimo svaku znamenku broja odvojeno, s čimbenicima koji obilježavaju početak i kraj. Ovaj jednostavni trik Robustno i pouzdano uklanja gotovo sve pogreške broj-prevođenja.

Brži model treninga

Kada uvježbavamo jedan sustav prema jednom cilju, kao što smo učinili za istraživački projekt humane paritet, očekujemo da ćemo baciti ogroman broj hardvera na modele koji će trebati tjednima trenirati. Pri osposobljavanju modela proizvodnje za 20 + jezični parovi, ovaj pristup postaje neodrživo. Ne samo da nam je potrebno razumno skretanje-oko vremena, ali također moramo umjereni naše hardverske zahtjeve. Za ovaj projekt napravili smo niz poboljšanja performansi Marian NMT (Junczys-Dowmunt et Al. 2018b).

Marian NMT je otvoreni izvor za neurološki MT na kojem se temelji Microsoft Translator. Marian je čist C++ neuro stroj prijevod Toolkit, i, kao rezultat toga, izuzetno učinkovit, ne zahtijeva GPUs na Runtime, i vrlo učinkovit u vrijeme treninga

Zbog svoje self-sadržane prirode, vrlo je lako optimizirati Marian za NMT specifične zadatke, što rezultira jednim od najučinkovitijih NMT toolsetova dostupan. Pogledajte Mjerila. Ako ste zainteresirani za neuro MT istraživanje i razvoj, pridružite se i doprinosite zajednica na GitHub.

Naša poboljšanja u vezi mješovitog treninga i dekodiranja, kao i za velike modele treninga će uskoro biti dostupan u javnom GitHub repozitoriju.

Uzbuđeni smo zbog budućeg prevođenja neuronske mašine. Nastavit ćemo s novim modelom arhitekture na preostale jezike i Prilagođeni prevoditelj tijekom ove godine. Naši korisnici automatski će dobiti znatno bolju kvalitetu prijevoda putem Prevoditelj APINaše Prevoditelj aplikacija, Microsoft Office i Edge preglednik. Nadamo se da će nova poboljšanja pomoći vašim osobnim i profesionalnim životima i radujemo se vašim povratnim informacijama.

Reference

Jimmy ba i Rich Caruana. 2014. da li duboke mreže stvarno trebaju biti duboke? Napredak u neuronske informacijske sustave za obradu 27. Stranice 2654-2662. https://papers.nips.cc/paper/5484-do-deep-nets-really-need-to-be-deep
On je. Chang Chen, Vishal Chowdhary, Jonathan Clark, Christian Federmann, Xuedong Huang, Marcin Junczys-Dowmunt, William Lewis, mu li, Shujie Liu, Tie-Yan Liu, Renqian Luo, Arul Menezes, Tao Qin, Frank seide, Xu Tan, Fei Tian, LIJUN Wu, Shuangzhi Wu, Yingce Xia, Dongdong Zhang, Zhirui Zhang, Ming Zhou. 2018. postizanje ljudskog pariteta u vezi s automatskim kineskim prevoditeljskim vijestima. http://arxiv.org/abs/1803.05567
On, di i Xia, Yingce i Qin, Tao i Wang, Liwei i Yu, Nenghai i Liu, Tie-Yan i mama, Wei-Ying. 2016. dual učenje za strojno prevođenje. Napredak u neuronske informacijske sustave za obradu 29. Stranice 820-828. https://papers.nips.cc/paper/6469-dual-learning-for-machine-translation
Marcin Junczys-Dowmunt. 2018a. dvostruki uvjetni Cross-Entropy filtriranje bučnih paralelnih korporacija. Postupak treće konferencije o strojnu prijevodu: zajednički zadaci. Belgija, stranice 888-895. https://aclweb.org/anthology/papers/W/W18/W18-6478/
Marcin Junczys-Dowmunt. 2018b. Microsoftovo podnošenje na zadatak prijevoda WMT2018 News: kako sam naučio prestati brinuti i voljeti podatke. Postupak treće konferencije o strojnu prijevodu: zajednički zadaci. Belgija, stranice 425-430. https://www.aclweb.org/anthology/W18-6415/
Marcin Junczys-Dowmunt, Kenneth Heafield, Hieu Hoang, roman Grundkiewicz, Anthony Aue. 2018a. Marian: troškovno učinkovit visokokvalitetni neuro stroj prijevod u C++. Postupak 2. Melbourne, Australija, stranice 129-135. https://aclweb.org/anthology/papers/W/W18/W18-2716/
Marcin Junczys-Dowmunt, roman Grundkiewicz, Tomasz Dwojak, Hieu Hoang, Kenneth Heafield, Toma Neckermann, Frank seide, Ulrich Germann, Alham Fikri aji, Nikolay Bogoychev, André F. T. Martins, Alexandra Birch. 2018b. Marian: brzo neuro stroj prijevod u C++. Postupak ACL 2018, demonstracije sustava. Melbourne, Australija, stranice 116-121. https://www.aclweb.org/anthology/P18-4020/
Yoon Kim i Alexander M. Rush. 2016. destilacija znanja na razini niza. U postupku konferencije 2016 o empirijskim metodama u obradi prirodnih jezika, EMNLP 2016, Austin, Texas, sad, Studeni 1-4, 2016, Pages 1317 – 1327. https://aclweb.org/anthology/papers/D/D16/D16-1139/
Philipp Koehn, Hieu Hoang. 2007. modeli prijevoda. Postupak za 2007 zajedničku konferenciju o empirijskim metodama u obradi prirodnih jezika i računskom učenju prirodnog jezika (EMNLP-CoNLL). Prag, Češka Republika, stranice 868-876. https://www.aclweb.org/anthology/D07-1091/
Rico Sennrich, Barry Haddow. 2016. jezične funkcije unosa poboljšanje neuro stroj prijevod. Postupak prve konferencije o mašinskom prijevodu: volumen 1, istraživački papiri. Berlin, Njemačka, stranice 83-91. https://www.aclweb.org/anthology/W16-2209/
Vaswani, Ashish i Shazeer, Noam i Parmar, Niki i Uszkoreit, Jakob i Jones, Llion i Gomez, Aidan N i Kaiser, Lukasz i Polosukhin, Illia. 2017. pažnja je sve što vam je potrebno. Napredak u neuronske informacijske sustave za obradu 30. Stranice 5998-6008. https://papers.nips.cc/paper/7181-attention-is-all-you-need

Blog Microsoft prevoditelj