Nöral makine çevirisi bulutta ınsan eşlik yenilikleri etkinleştirme

Deftere nakledildi 17 Haziran 201921 Haziran 2019tarafından Microsoft Translator

2018 Mart ayında biz Açıkladı (Hassan ve ark. 2018) biz ilk kez bir makine çeviri sistemi gibi insan tercümanları (belirli bir senaryoda – Çince-Ingilizce haber çevirisi) gerçekleştirebileceği gösterdi bir atılım sonucu. Bu makine çevirisi araştırma heyecan verici bir atılım oldu, ama bu proje için inşa sistemi karmaşık, ağır araştırma sistemi, birden fazla son teknolojiye teknikleri birleştiren oldu. Biz birkaç test setleri bu sistemin çıktısını yayımladı iken, sistem kendisi gerçek zamanlı makine çeviri bulut API dağıtımı için uygun değildi.

Bugün en son nesil nöral makine çeviri modellerinin üretiminde mevcudiyeti duyurmaktan heyecanlı bulunuyoruz. Bu modeller bizim araştırma sistemi iyiliğinin çoğunu dahil ve Microsoft Translator API kullandığınızda artık varsayılan olarak kullanılabilir. Bu yeni modeller bugün Çince, Almanca, Fransızca, Hintçe, Italyanca, Ispanyolca, Japonca, Korece ve Rusça, gelen ve Ingilizce mevcuttur. Daha fazla dil yakında geliyor.

Araştırma kağıdından bulut API 'sine Başlarken

Son bir yıl içinde, biz yolları için bizim insan-parite sisteminin kalitesini çok getirmek için arıyoruz Microsoft Translator API, düşük maliyetli gerçek zamanlı çeviri sunmaya devam ederken. İşte bu yolculuğun bazı adımları.

Öğretmen-öğrenci eğitimi

Bizim ilk adım bir "öğretmen-öğrenci" çerçevesi, biz bir ağır öğretmen ağı taklit etmek için hafif bir gerçek zamanlı öğrenci eğitmek geçiş oldu (Ba ve Caruana 2014). Bu, öğrenci tarafından MT sistemlerinin genellikle eğitildiği paralel veri üzerinde değil, öğretmen tarafından üretilen tercümeler üzerine eğitim vererek gerçekleştirilir (Kim ve Rush 2016). Bu ham veri öğrenme daha basit bir görevdir ve bir sığ, basit öğrenci çok yakından karmaşık öğretmen takip sağlar. Bir bekleyebileceğiniz gibi, bizim ilk girişimleri hala öğrenci (Hayır ücretsiz öğle yemeği) öğretmeninden kaliteli damla yaşadı, ama biz yine de ilk yer aldı WNMT 2018 paylaşılan görev etkin kod çözme üzerinde (Junczys-Dowmunt ve al. 2018a). Bu çabadan bazı özellikle heyecan verici sonuçlar bu transformatör (Vaswani ve ark. 2017) modelleri ve onların modifikasyonları öğretmen-öğrenci eğitimi ile iyi oynayın ve CPU üzerinde çıkarma sırasında şaşırtıcı derecede etkilidir.

Bu ilk sonuçları öğrenme ve yineleme bir sürü sonra bizim basit öğrenci karmaşık öğretmen gibi neredeyse aynı kalitede sahip sağlayan bir tarifi keşfetti (bazen tüm sonra ücretsiz bir öğle yemeği var?). Şimdi, gerçek zamanlı kısıtlamalar (çok fazla) hakkında endişelenmeden, kalitesini maksimize etmek için büyük, karmaşık öğretmen modelleri inşa etmek için özgürler.

Gerçek zamanlı çeviri

Öğretmen-öğrenci çerçevesine geçiş yapma kararımız, büyük çalışma tarafından motive edildi Kim ve Rush (2016) basit RNN tabanlı modeller için. Bu noktada, bildirilen faydalar Transformer modelleri için de tezahür olsaydı belirsiz oldu (bkz. Vaswani ve ark. 2017 Bu model hakkında ayrıntılı bilgi için). Ancak, hızlı bir şekilde bu gerçekten durum olduğunu keşfetti.

Transformatör öğrenci büyük ölçüde basitleştirilmiş kod çözme algoritması kullanabilirsiniz (doyumsuz arama) Biz sadece her adımda tek en iyi tercüme kelime pick, yerine olağan yöntemi (kiriş arama) hangi mümkün olan büyük alan üzerinden arama içerir Çeviri -leri. Bu değişikliğin minimal kalite etkisi vardı ama çeviri hızında büyük gelişmeler oldu. Buna karşılık, bir öğretmen modeli, ışın-arama doyumsuz arama geçiş yaparken kalite önemli bir düşüş acı olurdu.

Aynı zamanda, kod çözücüde en son nöral mimariyi (kendinden dikkatli transformatör) kullanmak yerine, öğrenci büyük ölçüde basitleştirilmiş ve daha hızlı tekrarlayan (RNN) mimarisini kullanacak şekilde değiştirilebilir. Bu önemli çünkü Transformer kodlayıcı paralel olarak tüm kaynak cümle üzerinde hesaplanan, hedef cümle tek bir sözcük bir defada oluşturulur, böylece kod çözücüsünün hızını çeviri genel hızı üzerinde büyük bir etkisi vardır. Kendinden dikkat ile karşılaştırıldığında, tekrarlayan kod çözücü, ikinci dereceden doğrusal hedef cümle uzunluğundan algoritmik karmaşıklığı azaltır. Özellikle öğretmen-öğrenci ayarında, bu değişikliklerden dolayı kalite kaybı yok, ne otomatik ne de insan değerlendirme sonuçları için gördük. Parametre paylaşımı gibi çeşitli ek geliştirmeler karmaşıklık ve artan hızda daha fazla indirimleri yol açtı.

Öğretmen-öğrenci çerçevesinin bir başka avantajı da görmek için çok heyecanlıydık. sürekli büyüyen ve değişen öğretmenler zamanla kalite iyileştirmeler kolayca olmayan bir değişen öğrenci mimarisi üzerinde taşınan olduğunu. Bu konuda sorunlar gördüğümüz durumlarda, öğrenci modeli kapasitesinde hafif artışlar yine boşluğu kapatacaktır.

Çift öğrenme

Çift öğrenme arkasındaki önemli anlayış (O ve ark. 2016), insanlar bazen çeviri kalitesini kontrol etmek için kullanmak "gidiş-dönüş çeviri" kontrol edilir. Ingilizce 'den Italyanca 'ya gitmek için çevrimiçi bir çevirmen kullandığınızı varsayalım. Eğer Italyanca okumıyorsanız, iyi bir iş olup olmadığını nasıl biliyoruz? Tıklamadan önce Gönder bir e-posta üzerinde, biz Ingilizce (Belki farklı bir Web sitesinde) Italyanca geri çevirerek kalitesini kontrol etmek tercih olabilir. Eğer Ingilizce geri almak orijinal çok uzak saplandı, şans tercümeleri raylar gitti.

Çift öğrenme, paralel olarak iki sistemi (örn. Italyanca ve Italyanca-> Ingilizce) eğitmek için aynı yaklaşımı kullanır, tek bir sistemden gidiş-dönüş çevirisini kullanarak diğer sistemi puanlamak, doğrulamak ve eğitmek.

İkili öğrenme, insan parite araştırma sonuçlarımıza önemli bir katkı oldu. Araştırma sisteminden üretim Tarifimize giderek, bu yaklaşımı geniş ölçüde genelleştirdik. Sadece biz birbirleriyle çıkış sistemleri çiftleri birlikte tren, aynı zamanda paralel veri filtreleme için aynı kriteri kullandık.

Yanlış verileri temizleme

Makine çeviri sistemleri "paralel veri", yani birbirlerinin çevirileri, ideal bir insan çevirmen tarafından oluşturulan belgeler çiftleri üzerinde eğitilmiştir. Ortaya çıktığı gibi, bu paralel veriler genellikle yanlış Çeviriler dolu. Bazen belgeler gerçekten paralel ama sadece gevşek Paraphrases birbirleriyle değildir. İnsan tercümanları bazı kaynak materyalleri dışarı bırakabilir veya ek bilgi ekleyebilir. Veriler, yazım hataları ve dilbilgisi hatalarını içerebilir. Bazen veri madenciliği algoritmaları benzer ancak paralel olmayan veri, hatta yanlış dilde cümleler tarafından kandırılan. En kötüsü, biz görmek Web sayfaları bir çok spam, ya da aslında makine çevirileri yerine insan çevirileri olabilir. Nöral sistemler bu tür verilerdeki indoğruluk için çok duyarlıdır. Biz yapı nöral modelleri otomatik olarak tanımlamak ve bu yanlışlıklar kurtulmak için sistemlerimizin kalitesinde güçlü iyileştirmeler verdi bulundu. Veri filtreleme yaklaşımımız ilk sırada sonuçlandı WMT18 paralel korpus filtreleme benchmark (Junczys-Dowmunt 2018a) ve en güçlü Ingilizce-Almanca çeviri sistemlerinden birini oluşturmaya yardımcı oldu WMT18 haber çevirisi görevi (Junczys-Dowmunt 2018b). Bugün piyasaya sürülmiş olduğumuz üretim sistemlerinde bu yaklaşımın geliştirilmiş sürümlerini kullandık.

Factored Word temsilleri

Bir araştırma teknolojisini üretime taşıdığınızda, birçok gerçek dünya zorlukları ortaya çıkar. Sayılar, tarihler, saatler, kapitalizasyon, Aralık, vb doğru almak bir araştırma sistemi daha üretimde çok daha fazla önemlidir.

Büyük harfe çevirme zorluk düşünün. Eğer cümleyi "ıZLEMEK CAT VIDEOLARıNı buraya" çeviriyorsanız. "Cat" i nasıl tercüme ettiğimizi biliyoruz. Biz de aynı şekilde "CAT" çevirmek istiyoruz. Ama şimdi "bıze futbol Izle" düşünün. Biz "bize" kelimesini ve bu bağlamda "ABD" kısaltmasına karışmak istemiyoruz.

Bunu ele almak için, biz saplanmış makine çevirisi olarak bilinen bir yaklaşım kullandık (Koehn ve Hoang 2007, Sennrich ve Haddow 2016) aşağıdaki gibi çalışır. "Cat" veya "CAT" için tek bir sayısal gösterimi ("katıştırma") yerine, "etkenler" olarak bilinen birden çok katıştırma kullanırız. Bu durumda, birincil katıştırma "CAT" ve "Cat" için aynı olacaktır, ancak ayrı bir faktör büyük harfe çevirmeyi temsil eder, bunun tek bir örnekle tüm CAPS olduğunu gösteren ancak diğer küçük harfle gösterilir. Benzer faktörler kaynak ve hedef tarafında kullanılır.

Sözcük parçalarını ve sözcükler arasındaki boşluğu işlemek için benzer faktörler kullanırız (Çince, Korece, Japonca veya Tay dili gibi boşluk olmayan veya yarı Aralık dillerinde karmaşık bir sorun).

Faktörler de önemli ölçüde birçok senaryolarda kritik sayılar, çeviri geliştirilmiş. Sayı çevirisi çoğunlukla algoritmik bir dönüşümdür. Örneğin, 1.234.000 olarak yazılabilir 12, 34000 Hintçe, 1.234.000 Almanca, ve 123,4 万 Çince. Geleneksel olarak, sayılar değişen uzunlukta karakter grupları olarak sözcükler gibi temsil edilir. Bu, makine öğrenmenin algoritmayı keşfetmesini zorlaştırır. Bunun yerine, bir sayının her bir rakamını ayrı olarak, başlangıç ve bitiş işaretleme faktörleri ile besler. Bu basit hüner sağlam ve güvenilir neredeyse tüm sayı-çeviri hataları kaldırıldı.

Daha hızlı model eğitimi

Biz insan-parite araştırma projesi için yaptığımız gibi, tek bir hedefe doğru tek bir sistem eğitim olduğunuzda, biz eğitmek için haftalar sürer modellerde donanım büyük sayıda atmak bekliyoruz. 20 + dil çiftleri için üretim modellerini eğitirken, bu yaklaşım kaçınılmaz hale gelir. Sadece makul dönüş süreleri gerekir, ama biz de donanım talepleri ılımlı gerekir. Bu proje için, bir dizi performans geliştirmeleri yaptık Marian NMT (Junczys-Dowmunt ve ark. 2018b).

Marian NMT, Microsoft Translator 'ın temel alan açık kaynaklı neural MT Toolkit 'tir. Marian saf bir C++ nöral makine çeviri Toolkit, ve sonuç olarak, son derece verimli, çalışma zamanında GPU gerektiren değil, ve çok verimli eğitim süresi

Kendine has doğası nedeniyle, Marian 'ın NMT özel görevleri için optimize edilmesi oldukça kolaydır, bu da en verimli NMT Araç Kitlerinden birini elde eder. Bir göz atın Kriter. Eğer neural MT araştırma ve geliştirme ilgileniyorsanız, katılmak ve katkıda bulunmak için lütfen GitHub 'da topluluk.

Karışık hassasiyetli eğitim ve kod çözme ile ilgili gelişmeler, hem de büyük model eğitimi için yakında kamu GitHub deposunda kullanılabilir hale gelecek.

Nöral makine çevirisi geleceği konusunda heyecanlıyız. Biz kalan dillerde yeni model mimarisi dışarı rulo devam edecek ve Özel çevirmen Bu yıl boyunca. Kullanıcılarımız otomatik olarak önemli ölçüde daha iyi kalitede Çeviriler elde edecektir Translator API-lerimiz Çevirmen uygulaması, Microsoft Office ve Edge tarayıcısı. Biz yeni iyileştirmeler kişisel ve profesyonel yaşamlarına yardımcı ve geri bildirimlerinizi sabırsızlanıyoruz umuyoruz.

Başvuru

Jimmy ba ve Rich Caruana. 2014. derin ağlar gerçekten Deep olması gerekir mi? Nöral bilgi Işleme sistemlerinde gelişmeler 27. Sayfa 2654-2662. https://papers.nips.cc/paper/5484-do-deep-nets-really-need-to-be-deep
Hany Hassan, Anthony Aue, Chang Chen, Vishal Chowcılk, Jonathan Clark, Christian Federmann, Xuedong Huang, Marcin Junczys-Dowmunt, William Lewis, mu li, Shujie Liu, Tie-yan Liu, Renqian Luo, arul Menezes, Tao Qin, Frank Seide, Xu tan, Fei Tian, lijun Wu, Shuangzhi Wu, Yingce Xia, Dongdong Zhang, Zhirui Zhang, Ming Zhou. 2018. Ingilizce haber çevirisi otomatik Çince üzerinde ınsan parite elde. http://arxiv.org/abs/1803.05567
O, di ve Xia, Yingce ve Qin, Tao ve Wang, Liwei ve Yu, Nenghai ve Liu, Tie-yan ve Anne, Wei-Ying. 2016. makine çevirisi için çift öğrenme. Nöral bilgi Işleme sistemlerinde gelişmeler 29. Sayfa 820-828. https://papers.nips.cc/paper/6469-dual-learning-for-machine-translation
Marcin Junczys-Dowmunt. 2018a. çift koşullu çapraz entropi gürültülü paralel corpora filtreleme. Makine çevirisi üçüncü konferans bildirileri: paylaşılan görev kağıtları. Belçika, sayfa 888-895. https://aclweb.org/anthology/papers/W/W18/W18-6478/
Marcin Junczys-Dowmunt. 2018b. Microsoft 'un WMT2018 haber çevirisi görevine gönderilmesi: endişesi durdurmayı ve verileri sevmeyi nasıl öğrendim. Makine çevirisi üçüncü konferans bildirileri: paylaşılan görev kağıtları. Belçika, sayfa 425-430. https://www.aclweb.org/anthology/W18-6415/
Marcin Junczys-Dowmunt, Kenneth Heafield, Hieu Hoang, roman Grundkiewicz, Anthony Aue. 2018a. Marian: C++ ' ta uygun maliyetli yüksek kaliteli nöral makine çevirisi. 2. Çalıştayı nöral makine çevirisi ve üretimi hakkında bildiriler. Melbourne, Avustralya, sayfa 129-135. https://aclweb.org/anthology/papers/W/W18/W18-2716/
Marcin Junczys-Dowmunt, roman Grundkiewicz, Tomasz Dwojak, Hieu Hoang, Kenneth Heafield, Tom Neckermann, Frank Seide, Ulrich Germann, alham fikri Aji, Nikolay Bogoyçev, André F. T. Martins, Alexandra Birch. 2018b. Marian: C++ ' ta hızlı nöral makine çevirisi. ACL 2018, sistem gösterileri bildirileri. Melbourne, Avustralya, sayfa 116-121. https://www.aclweb.org/anthology/P18-4020/
Yoon kim ve Alexander M. Rush. 2016. sıra düzeyinde bilgi damıtma. Doğal dil Işleme, EMNLP 2016, Austin, Texas, ABD, Kasım 1-4, 2016, sayfa 1317-1327 yılında ampirik yöntemler hakkında 2016 konferans bildiriler. https://aclweb.org/anthology/papers/D/D16/D16-1139/
Philipp Koehn, Hieu Hoang. 2007. factored çeviri modelleri. 2007, doğal dil Işleme ve hesaplamalı doğal dil öğreniminde (EMNLP-CoNLL) ampirik yöntemlerle yapılan ortak konferansın bildirilmesi. Prag, Çek Cumhuriyeti, sayfa 868-876. https://www.aclweb.org/anthology/D07-1091/
Rico Sennrich, Barry Haddow. 2016. Linguistic giriş özellikleri neural makine çevirisi geliştirin. Makine çevirisi Ilk konferans bildirileri: Cilt 1, araştırma kağıtları. Berlin, Almanya, sayfa 83-91. https://www.aclweb.org/anthology/W16-2209/
Vaswani, Ashish ve shazeer, Noam ve Parmar, Niki ve Uszkorelit, Jakob ve Jones, Llion ve Gomez, Aidan N ve Kaiser, Lukasz ve Polosukhin, Illia. 2017. ihtiyacınız olan tek şey dikkat. Nöral bilgi Işleme sistemlerinde gelişmeler 30. Sayfa 5998-6008. https://papers.nips.cc/paper/7181-attention-is-all-you-need

Microsoft Translator blog