Neuromachine tõlkimine, mis võimaldab inimestel parity uuendused pilve

Postitas Juuni 17, 2019Juuni 21, 2019poolt Tõlkija

Märtsis 2018 Teatas (Hassan et al. 2018) läbimurde tulemus, kus me näitasime esimest korda masintõlke süsteem, mis võiks teha ka tõlkijad (konkreetses stsenaariumis – Hiina-inglise uudiste tõlge). See oli põnev läbimurre masintõlke uurimistööd, kuid selle projekti jaoks ehitatud süsteem oli keerukas, raskekaalu uurimissüsteem, mis sisaldab mitut tipptasemel tehnikat. Kuigi me välja väljund selle süsteemi mitu test komplekti, süsteem ise ei sobi juurutamine reaalajas masin tõlge pilve API.

Täna oleme põnevil, et teatada kättesaadavusest meie uusima põlvkonna närvimasintõlke mudelid. Need mudelid sisaldavad enamiku meie uurimissüsteemi headust ja on nüüd vaikimisi saadaval Microsoft Translator API kasutamisel. Need uued mudelid on saadaval täna Hiina, saksa, prantsuse, hindi, Itaalia, Hispaania, Jaapani, Korea ja vene, alates ja inglise. Varsti tuleb veel keeli.

Saada teadusuuringute paber pilve API

Viimase aasta jooksul oleme otsinud viise, kuidas tuua palju meie inimparity süsteemi kvaliteeti Microsoft Tõlkija API, jätkates samal ajal madalate kuludega reaalajas tõlkimist. Siin on mõned sammud sellel reisil.

Õpetaja-üliõpilaste koolitus

Meie esimene samm oli minna "õpetaja-õpilase" raamistikku, kus me koolitame kerge reaalajas õpilane jäljenda raskekaalu õpetaja võrgustik (BA ja Caruana 2014). Seda saab teha koolitades õpilane mitte paralleelsete andmete, et MT süsteemid on tavaliselt koolitatud, kuid tõlgete õpetaja (Kim ja Rush 2016). See on lihtsam ülesanne kui õppida töötlemata andmed, ja võimaldab shallower, lihtsam õpilane väga tähelepanelikult jälgida keerulise õpetaja. Nagu võib eeldada, meie esialgsed katsed ikka kannatanud kvaliteedi langeb õpetaja õpilane (no tasuta lõunasöök!), kuid me siiski võeti esimene koht WNMT 2018 jagatud ülesanne tõhus dekodeerimine (Junczys-Dowmunt et al. 2018a). Mõned eriti põnevaid tulemusi sellest jõupingutustest olid, et trafo (Vaswani et al. 2017) mudelid ja nende Modifikatsioonid mängivad hästi õpetaja-õpilase koolitust ja on hämmastavalt tõhus jooksul järeldada CPU.

Õppimine nende esialgsete tulemuste ja pärast palju iteratsiooni avastasime retsepti, mis võimaldab meie lihtne õpilane on peaaegu sama kvaliteediga kui keerukas õpetaja (mõnikord on ka tasuta lõunasöök pärast kõike?). Nüüd olime vabad ehitada suur, keeruline õpetaja mudelid maksimeerida kvaliteeti, muretsemata reaalajas piiranguid (liiga palju).

Reaalajas tõlge

Meie otsus minna õpetaja-õpilase raamistikku oli motiveeritud suur töö Kim ja Rush (2016) lihtsate RNN-põhiste mudelite puhul. Sel hetkel oli ebaselge, kas teatatud kasu avaldub ka Transformer mudelite puhul (vt Vaswani et al. 2017 üksikasju selle mudeli kohta). Kuid me avastasime kiiresti, et see oli tõepoolest nii.

Trafo õpilane võiks kasutada oluliselt lihtsustatud dekodeerimine algoritmi (ahne otsing), kus me lihtsalt valida ühtse parima tõlgitud sõna igal sammul, mitte tavaline meetod (tala-Search), mis hõlmab otsides läbi tohutu ruumi võimalik Tõlked. Sellel muutusega oli minimaalne mõju, kuid see tõi kaasa tõlkekiiruse suure paranemise. Seevastu õpetaja mudel kannatab oluliselt kvaliteedi langus, kui üleminek tala-otsingut ahne-otsing.

Samal ajal mõistsin, et selle asemel, et kasutada viimast närviarhitektuuri (trafo enesekontrolliga) dekooder, saab õpilast muuta nii, et see kasutaks äärmuslikult lihtsustatud ja kiiremat korduvat (RNN) arhitektuuri. See on oluline, sest kuigi Transformer Encoder saab arvutada üle kogu allika lause paralleelselt, Target lause luuakse üks sõna korraga, nii kiirus dekooder on suur mõju üldine kiirus tõlge. Võrreldes enesetähelepanuga vähendab korduv dekooder algoritmset keerukust, mis erineb sektorist lineaarselt sihtlause pikkuses. Eriti õpetaja-õpilase seadmisel ei näinud me nende muudatuste tõttu kvaliteedi langust, ei automaatset ega inimese hindamise tulemusi. Mitmed täiendavad parandused, nagu parameetrite jagamine viinud veelgi keerukust ja kiiruse suurenemist.

Teine eelis õpetaja-õpilase raamistik olime väga põnevil, et näha on, et kvaliteedi parandamist aja jooksul üha kasvab ja muutuv õpetajad on kergesti üle muutuvale üliõpilaste arhitektuur. Juhul, kui me nägime sellega seoses probleeme, sulgeb õpilaste mudelvõimsuse vähene tõus taas lünga.

Kahekordne õppimine

Peamine ülevaade kahesuguse õppe (Ta et al. 2016) on "edasi-tagasi tõlge" kontrollida, et inimesed kasutavad mõnikord kontrollida tõlke kvaliteeti. Oletame, et kasutame online-tõlkijat, et minna inglise keelest Itaaliani. Kui me Itaaliast ei loe, siis kuidas me teame, kas see on tehtud head tööd? Enne klõpsamist Saata e-posti, võime kontrollida kvaliteeti tõlkides Itaalia tagasi inglise (võib-olla teise veebisaidi). Kui inglise keelt me tagasi on liiga kaugel originaal, võimalused on üks tõlked läks rööbastel.

Duaalne õppimine kasutab sama lähenemist kahe süsteemi (nt inglise-> Itaalia ja Itaalia-> inglise keeles) koolitamisel paralleelselt, kasutades ühest süsteemist saadud edasi-tagasi tõlkimist, et kontrollida ja treenida teises süsteemis.

Kaksikõpe oli meie inimparalisuse uuringute tulemuste peamine toetaja. Minnes teadussüsteemist meie toodangu retsepti, me üldistada seda lähenemist laialt. Me ei teinud mitte ainult üksteise väljundit süsteemide paari, me kasutasime ka sama kriteeriumi meie paralleelsete andmete filtreerimiseks.

Ebatäpsete andmete puhastamine

Masintõlkesüsteemid on koolitatud "paralleelsete andmete", st dokumentide paari, mis on üksteise tõlked, ideaaljuhul loodud inimese tõlkija poolt. Nagu selgub, need paralleelsed andmed on sageli täis ebatäpseid tõlkeid. Mõnikord dokumendid ei ole tõesti paralleelsed, kuid ainult lahtised parafrases üksteisest. Inimese tõlkijad võivad valida, kas jätta välja mõni lähtematerjal või lisada lisateavet. Andmed võivad sisaldada kirjavigu, õigekirjasilte, grammatilisi tõrkeid. Mõnikord on meie andmete kaevandamise algoritmid petta sarnased, kuid mitte-paralleelsed andmed või isegi laused vales keeles. Kõige hullem, palju veebilehti näeme on rämpsposti või tegelikult olla masintõlke asemel inimese tõlked. Närvisüsteemid on väga tundlikud andmete sellise ebatäpsuse suhtes. Leidsime, et hoone närvimudeleid automaatselt tuvastada ja vabaneda need ebatäpsused andsid tugevat paranemist meie süsteemide kvaliteeti. Meie lähenemine andmete filtreerimisele põhjustas esimese koha WMT18 paralleelne korpus filtreerimine võrdlusalus (Junczys-Dowmunt 2018a) ja aitas ehitada üks tugevamaid inglise-saksa tõlkesüsteeme WMT18 uudiste tõlke ülesanne (Junczys-Dowmunt 2018b). Me kasutasime täna avaldatud tootmissüsteemides selle lähenemise täiustatud versioone.

Factored sõna kinnitused

Teadustehnoloogia tootmisele liikumisel tekivad mitmed reaalmaailma väljakutsed. Numbrite, kuupäevade, kellaaegade, suurtähestuse, reasammu jne saamine loeb tootmises palju rohkem kui uurimissüsteemis.

Kaaluge suurtähestuse väljakutset. Kui me Tõlgin lause "WATCH CAT videod siin". Me teame, kuidas tõlkida "kass". Me tahame tõlkida "CAT" samal viisil. Aga nüüd mõtle "Vaata meile jalgpalli siin". Me ei taha selles kontekstis segadusse ajada sõna "meid" ja akronüümi "USA".

Selle käsitlemiseks kasutasime meetodit, mida tuntakse kui arvutatud maandumisdistantsi masintõlke (Koehn ja Hoang 2007, Sennrich ja Haddow 2016), mis toimib järgmiselt. Asemel ühe numbriline esitus ("manustamine") jaoks "Cat" või "CAT", me kasutame mitut manustamist, nimetatakse "tegurid". Sel juhul on esmane manustamine sama "CAT" ja "Cat" puhul, kuid eraldi teguriks oleks suurtähestus, mis näitab, et see oli kõik-Caps ühe eksemplari, kuid väiketäed teises. Sarnaseid tegureid kasutatakse allika ja sihtmärgi poolel.

Me kasutame sarnaseid tegureid, et käsitleda sõna fragmente ja vahet sõnade vahel (keerukas küsimus mitte-vahe-või poolvahed keeled nagu Hiina, Korea, Jaapani või Tai).

Tegurid ka oluliselt paranenud tõlke numbrid, mis on kriitiline paljudel juhtudel. Number tõlge on enamasti Algoritmiline ümberkujundamine. Näiteks 1 234 000 saab kirjutada 12, 34000 hindi, 1.234.000 saksa keeles ja 123,4 万 Hiina keeles. Traditsiooniliselt on arvud tähistatud sõnadega nagu erineva pikkusega tähemärkide grupid. See raskendab masinõppe algoritmi avastada. Selle asemel toidame iga numbrit eraldi numbriga, mille alguses ja lõpus on märke. See lihtne trikk on jõuliselt ja usaldusväärselt eemaldatud peaaegu kõik arvu tõlke vead.

Kiirem mudel koolitus

Kui me treenime ühtset süsteemi ühe eesmärgi suunas, nagu me tegime inimparity uurimisprojekti jaoks, loodame me visata tohutut arvu riistvara mudelitel, mis võtavad nädalaid rongi. Kui koolitus tootmise mudelid 20 + keelepaarid, see lähenemine muutub mittetenable. Mitte ainult me ei vaja mõistliku Turn-umbes korda, kuid me peame ka mõõdukat oma riistvara nõudmisi. Selle projekti puhul tegime mitmeid tulemuslikkuse parandusi, et Marian NMT (Junczys-Dowmunt et al. 2018b).

Marian NMT on avatud lähtekoodiga Neural MT tööriistakomplekt, mille Microsoft Translator põhineb. Marian on puhas C++ närvimasintõlke tööriistakomplekt, ja selle tulemusena, väga tõhus, ei nõua GPUs käitusajal, ja väga tõhus treeningu ajal

Tänu oma olemuselt iseloomu, see on üsna lihtne optimeerida Marian NMT konkreetsete ülesannete, mis põhjustab üks kõige tõhusam NMT tööriistakomplektid saadaval. Vaadake Võrdlusnäitajad. Kui olete huvitatud Neural MT uurimis-ja arendustegevust, Palun ühinege ja panustavad Community on GitHub.

Meie parandusi, mis puudutavad täppiskoolitust ja dekodeerimist, samuti suure mudeli koolitust tehakse peagi kättesaadavaks avalikus github hoidla.

Me oleme põnevil närvi masintõlke tulevikust. Jätkame uue mudeli ülesehituse uut ülesehitust ülejäänud keelte ja Kohandatud tõlkija kogu selle aasta jooksul. Meie kasutajad saavad automaatselt parema kvaliteediga tõlkeid läbi Tõlkija APIMeie Tõlkija App, Microsoft Office ja Edge brauser. Loodame, et uued parandused aitavad teie isiklikku ja professionaalset elu ning ootan teie tagasisidet.

Viited

Jimmy BA ja Rich Caruana. 2014. Kas Deep Nets peab tõesti sügav olema? Edusammud Neural teabe töötlemise süsteemides 27. Lehekülgi 2654-2662. https://papers.nips.cc/paper/5484-do-deep-nets-really-need-to-be-deep
Hany Hassan, Anthony Aue, Chang Chen, Vishal Chowdhary, Jonathan Clark, Christian Federmann, Xuedong Huang, Marcin Junczys-Dowmunt, William Lewis, mu Li, Shujie Liu, tie-Yan Liu, Renqian Luo, Arul Menezes, Tao Qin, Frank Seide, Xu tan, Fei Tian, Lijun Wu, Shuangzhi Wu, Yingce XIa, Dongdong Zhang, Zhirui Zhang, Ming Zhou. 2018. inimeste pariteedi saavutamine automaatse Hiinaga inglise uudiste tõlkimiseks. http://arxiv.org/abs/1803.05567
Tema, di ja XIa, Yingce ja Qin, Tao ja Wang, Liwei ja Yu, Nenghai ja Liu, tie-Yan ja ma, Wei-Ying. 2016. Dual õppimine masintõlke jaoks. Edusammud Neural teabe töötlemise süsteemides 29. Lehekülgi 820-828. https://papers.nips.cc/paper/6469-dual-learning-for-machine-translation
Marcin Junczys-Dowmunt. 2018a. Dual tingimuslik Cross-Entropy filtreerimine lärmakas paralleelselt Kapra. Masintõlke kolmanda konverentsi menetlused: jagatud töödokumendid. Belgia, lk 888-895. https://aclweb.org/anthology/papers/W/W18/W18-6478/
Marcin Junczys-Dowmunt. 2018b. Microsofti esitatud WMT2018 uudiste tõlke ülesanne: Kuidas ma õppisin, et lõpetada muretsemine ja armastada andmeid. Masintõlke kolmanda konverentsi menetlused: jagatud töödokumendid. Belgia, lk 425-430. https://www.aclweb.org/anthology/W18-6415/
Marcin Junczys-Dowmunt, Kenneth Heafield, Hieu Hoang, Roman Grundkiewicz, Anthony Aue. 2018a. Marian: kulutõhus kõrge kvaliteediga Närvimasintõlke C++. Neuromasintõlke ja põlvkonna 2. seminari menetlus. Melbourne, Austraalia, lk 129-135. https://aclweb.org/anthology/papers/W/W18/W18-2716/
Marcin Junczys-Dowmunt, Roman Grundkiewicz, Tomasz Dwojak, Hieu Hoang, Kenneth Heafield, Tom Neckermann, Frank Seide, Ulrich Germann, Alham Fikri Aji, Nikolay Bogoychev, André F. T. Martins, Alexandra Birch. 2018b. Marian: Fast Neural masin tõlge C++. ACL 2018, süsteemi demonstratsioonide menetlused. Melbourne, Austraalia, lk 116-121. https://www.aclweb.org/anthology/P18-4020/
Yoon Kim ja Alexander M. Rush. 2016. järjestuse tasemel teadmiste destilleerimine. 2016 konverentsi empiirilisi meetodeid looduslike keelte töötlemise menetlustes, EMNLP 2016, Austin, Texas, USA, November 1-4, 2016, lehekülgi 1317 – 1327. https://aclweb.org/anthology/papers/D/D16/D16-1139/
Filip Koehn, Hieu Hoang. 2007. factored Tõlkemudelid. 2007 empiirilisi meetodeid käsitleva ühiskonverentsi (EMNLP-CoNLL) menetlus. Praha, Tšehhi Vabariik, lk 868-876. https://www.aclweb.org/anthology/D07-1091/
Rico Sennrich, Barry Haddow. 2016. keeleline sisend funktsioonid parandavad Närvimasintõlke. Masintõlke esimese konverentsi menetlus: 1. Köide, teadusdokumendid. Berliin, Saksamaa, lk 83-91. https://www.aclweb.org/anthology/W16-2209/
Vaswani, ashish ja shazeer, Noam ja Parmar, Niki ja Uszkoreit, Jakob ja Jones, llion ja Gomez, Aidan N ja Kaiser, Lukasz ja Polosukhin, Illia. 2017. tähelepanu on kõik, mida vajate. Edusammud Neural teabe töötlemise süsteemides 30. Lehekülgi 5998-6008. https://papers.nips.cc/paper/7181-attention-is-all-you-need

Microsofti tõlkija blogi