Блог на Microsoft преводач

Машина за превод на невронни машини разрешаване на човешкия паритет иновации в облака

Публикувано на 17 юни 2019.21 юни 2019.от Преводач На Microsoft

През март 2018 Обяви (2018.) резултат от пробив, при който за първи път показахме система за машинен превод, която би могла да изпълнява, както и човешки преводачи (в конкретен случай – китайски – български новинарски превод). Това беше вълнуващ пробив в изследванията на машинен превод, но системата, която създадохме за този проект, беше сложна система за научни изследвания в тежка категория, включваща множество авангардни техники. Докато пуснахме изхода на тази система на няколко тестови комплекта, самата система не беше подходяща за разполагане в облак за машинен превод в реално време.

Днес ние сме развълнувани да обявим наличността в производството на нашето последно поколение на невронни машини превод модели. Тези модели включват повечето от добротата на нашата система за изследвания и сега са на разположение по подразбиране, когато използвате API на Microsoft преводач. Тези нови модели са на разположение днес на китайски, немски, френски, хинди, италиански, испански, японски, корейски, и руски, от и на английски език. Още езици идват скоро.

Получаване от изследователски документ към Cloud API

През изминалата година търсехме начини да донесе голяма част от качеството на нашата система за човешки паритет в Microsoft Преводач API, като същевременно продължава да предлага ниска цена на превода в реално време. Ето някои от стъпките на това пътешествие.

Учителско-Студентски обучение

Първата ни стъпка беше да преминете към рамка "учител-студент", където тренираме лек студент в реално време, за да имитират мрежа от учители в тежка категория (Ба и Каруана 2014). Това се постига чрез обучение на студента не на паралелни данни, че MT системи обикновено са обучени, но за преводи, изготвени от учителя (Ким и Ръш 2016). Това е по-проста задача, отколкото да се научат от суровите данни, и позволява по-плитко, по-прост ученик да следват много отблизо сложен учител. Както може да се очаква, първоначалните ни опити все още претърпяха качествени капки от учител на студент (без безплатен обяд!), но въпреки това ние взехме първо място в WNMT 2018 споделена задача за ефективно декодиране (Junczys-Dowmunt et al. 2018a). Някои особено вълнуващи резултати от тези усилия бяха, че трансформатор (Ваванани и Ал. 2017) модели и техните модификации играят добре с обучение учител-студент и са поразително ефективни по време на заключението на ПРОЦЕСОРА.

Научаването от тези първоначални резултати и след много итерации открихме рецепта, която позволява на нашия прост ученик да има почти същото качество като сложния учител (понякога има безплатен обяд в края на краищата?). Сега бяхме свободни да изградим големи, комплексни модели на учителите, за да увеличим качеството, без да се притесняваме за ограниченията в реално време (твърде много).

Превод в реално време

Нашето решение да преминете към рамка за учители-учащи се мотивира от Ким и Ръш (2016) за обикновени модели, базирани на RNN. В този момент не беше ясно дали съобщените ползи ще се проявят и за моделите на трансформатора (вж. Ваванани и Ал. 2017 за подробности относно този модел). Ние обаче бързо установихме, че това наистина е така.

Ученикът на трансформатора може да използва значително опростен алгоритъм за декодиране (алчни търсене), където ние просто избираме най-добрата преведена дума на всяка стъпка, а не обичайният метод (търсене на лъч), който включва търсене през огромното пространство на възможни Преводи. Тази промяна има минимално въздействие върху качеството, но доведе до големи подобрения в скоростта на превода. За разлика от това, моделът на учителя ще претърпи значителен спад в качеството, когато превключва от търсене на лъч към алчен търсене.

В същото време, ние разбрахме, че вместо да използвате най-новата невронна архитектура (трансформатор със самовнимание) в декодера, ученикът може да бъде променен, за да използва драстично опростена и по-бърза повтаряща се (RNN) архитектура. Това е от значение, защото докато трансформатора може да бъде изчислен през цялото изречение източник успоредно, целевото изречение се генерира една дума в даден момент, така че скоростта на декодера има голямо влияние върху общата скорост на превода. В сравнение със самовниманието, повтарящият се декодер намалява сложността от квадратно до линейно с дължина на целевото изречение. Особено в настройката учител-студент, ние не видяхме загуба на качество поради тези модификации, нито за автоматични, нито за човешки оценка резултати. Няколко допълнителни подобрения, като например споделяне на параметри, доведоха до допълнително намаляване на сложността и повишена скорост.

Друго предимство на рамката учител-студент ние бяхме много развълнувани да видим е, че подобренията на качеството във времето на все по-нарастващите и променящите се учители лесно се пренасят в Непроменящата се студентска архитектура. В случаите, когато видяхме проблеми в това отношение, лекото нарастване на капацитета на студентските модели ще закрие отново пропастта.

Двойно обучение

Ключовият поглед зад двойното обучение (2016.) е "двупосочен превод" Проверете дали хората понякога използват за проверка на качеството на превода. Да предположим, че използваме онлайн преводач, за да отидем от английски на италиански. Ако не четем италиански, как да разберем дали е свършена добра работа? Преди да кликнете Изпрати на имейл можем да изберем да проверим качеството, като превеждам италианския обратно на английски (може би на друг уеб сайт). Ако англичаните се върнат твърде далеч от оригинала, шансовете са, че един от преводите се е отклонил от релсите.

Двойното обучение използва един и същ подход за обучение на две системи (напр. English-> италиански и италиански-> английски) паралелно, като се използва двупосочен превод от една система за оценка, валидиране и обучение на другата система.

Двойното обучение беше основен принос към нашия резултат от изследване на човешкия паритет. Като вървим от системата за изследвания към нашата производствена рецепта, обобщавате този подход широко. Не само, че сме съобучили двойките системи на изхода на другия, ние също използвахме същия критерий за филтриране на нашите паралелни данни.

Изчистване на неточни данни

Системите за машинен превод са обучени на "паралелни данни", т. е. двойки документи, които са преводи един на друг, в идеалния случай създадени от човешки преводач. Както се оказва, тези паралелни данни често са пълни с неточни преводи. Понякога документите не са наистина успоредни, а само разрохкавази един на друг. Човешките преводачи могат да изберат да оставят някои изходни материали или да вмъкват допълнителна информация. Данните могат да съдържат правописни и правописни грешки, граматични грешки. Понякога нашите алгоритми за извличане на данни са измамени от подобни, но непаралелни данни, или дори от изречения на грешен език. Най-лошото от всички, че много от уеб страниците, които виждаме са спам, или всъщност може да бъде машинен превод, а не човешки преводи. Невронните системи са много чувствителни към този вид неточност в данните. Открихме, че изграждането на невронни модели за автоматично идентифициране и премахване на тези неточности даде солидни подобрения в качеството на нашите системи. Подходът ни към филтрирането на данни доведе до първото място в WMT18 филтриране на паралелни корпус еталон (Junczys-Dowmunt 2018a) и спомогна за изграждането на една от най-силните английско-германски WMT18 задача за превод на новини (Junczys-Dowmunt 2018b). Използвахме подобрени версии на този подход в производствените системи, които пуснахме днес.

Отразени Word представителства

При преместването на изследователска технология за производство, възникват няколко реални предизвикателства. Получаване на числа, дати, времена, главни букви, разредка и т. н. правилните въпроси много повече в производството, отколкото в научноизследователска система.

Помислете за предизвикателството на главни букви. Ако ние преведваме изречението "WATCH CAT видео тук". Ние знаем как да преведем "котка". Искаме да преведем "CAT" по същия начин. Но сега помислете "Гледайте американски футбол тук". Не искаме да Объркваме думата "ние" и акроним "САЩ" в този контекст.

За да се справим с това, използвахме подход, известен като препосочен машинен превод (Koehn и Hoang 2007, Сенрич и Хадоу 2016), който работи по следния начин. Вместо едно цифрово представителство ("вграждане") за "Cat" или "CAT", ние използваме няколко ембеддингс, известни като "фактори". В този случай основното вграждане ще бъде едно и също за "CAT" и "Cat", но отделен фактор ще представлява капитализацията, което показва, че това е всичко-капачки в един екземпляр, но малки в другата. Подобни фактори се използват за източника и целевата страна.

Ние използваме подобни фактори, за да се справим с фрагменти от думи и разредка между думите (сложен проблем в неразредка или полу-разредка езици като китайски, корейски, японски или тайландски).

Фактори също драматично подобрена превод на числа, което е критично в много сценарии. Преводът на номера е предимно трансформация. Например, 1 234 000 могат да бъдат написани като 12, 34000 на хинди, 1.234.000 на немски и 123,4 万 на китайски. Традиционно числата са представени като думи, като групи от знаци с различна дължина. Това го прави трудно за машинно обучение, за да открият алгоритъма. Вместо това, ние храним всяка една цифра на число отделно, с фактори, които маркират началото и края. Този прост трик енергично и надеждно отстранява почти всички грешки номер-превод.

По-бърз модел обучение

Когато ние сме обучение на една система към една единствена цел, както направихме за изследователски проект човешки паритет, ние очакваме да хвърлят голям брой хардуер при модели, които отнемат седмици, за да се обучават. Когато се обучават производствени модели за 20 + езикови двойки, този подход става неприемливо. Не само имаме нужда от разумни моменти на обръщане, но също така трябва да модерираме нашите хардуерни изисквания. За този проект направихме редица подобрения на производителността, за да Мариан NMT (Junczys-Dowmunt et al. 2018b).

Мариан NMT е отворен код невронни MT инструментариум, че Microsoft преводач се основава на. Мариан е чист C++ невромашинен превод инструментариум, и, в резултат на това, изключително ефективен, не изисква графични процесори по време на изпълнение, и много ефективно в времето за обучение

Поради самостоятелното си естество, това е доста лесно да се оптимизира Мариан за NMT специфични задачи, което води до един от най-ефективните NMT инструменти на разположение. Погледнете Показатели. Ако се интересувате от невронни MT изследвания и развитие, моля Присъединете се и да допринесе за общност на GitHub.

Нашите подобрения, свързани със смесено прецизно обучение и декодиране, както и за голям модел обучение, скоро ще бъдат предоставени в публичното GitHub хранилище.

Ние сме развълнувани за бъдещето на невралната машинен превод. Ще продължим да преправим архитектурата на новия модел на останалите езици и Персонализиран преводач през тази година. Нашите потребители автоматично ще получат значително по-добро качество на преводите чрез Преводач APIНаши Преводач ап, Microsoft Office и браузъра Edge. Надяваме се новите подобрения да помогнат на личния и професионалния ви живот и да очакваме вашата обратна връзка.

Препратки

Джими ба и Рич Каруана. 2014. дали дълбоките мрежи наистина трябва да са дълбоки? Напредък в невронните системи за обработка на информация 27. Страници 2654-2662. https://papers.nips.cc/paper/5484-do-deep-nets-really-need-to-be-deep
Хани Хасан, Антъни Уауе, Чанг Чен, Вишал Чогури, Джонатан Кларк, Кристиан Федърман, Суедон Хуанг, Марцин Юнчай-Дамунт, Уилям Луис, му ли, Шуджи Лиу, вратовръзка-Ян Лиу, Ренкио Луо, Arul Menezes, Тао Кин, Франк Сийд, Ксу Тан, Фей Гангжи Ву, Йиндже Сия, Донгдонг Джан, Жируй Джан, Минг Джоу. 2018. постигане на човешки паритет на автоматичен китайски към английски новини превод. http://arxiv.org/abs/1803.05567
Той, ди и Сия, Инге и Кин, Тао и Уанг, Лиуей и ю, Ненхай и Лиу, вратовръзка-Ян и мама, Уей-Инг. 2016. двойно обучение за машинен превод. Подобрения в невронните системи за обработка на информация 29. Страници 820-828. https://papers.nips.cc/paper/6469-dual-learning-for-machine-translation
Марцин Джънчли-Дамунт. 2018a. Dual условно кръстосване на ентропията филтриране на шумни паралелни корпоративни. Процедура на третата конференция за машинен превод: споделени документи за задачи. Белгия, страници 888-895. https://aclweb.org/anthology/papers/W/W18/W18-6478/
Марцин Джънчли-Дамунт. 2018b. Microsoft подаване на WMT2018 новини превод задача: как се научих да спре притеснявате и обичам данните. Процедура на третата конференция за машинен превод: споделени документи за задачи. Белгия, страници 425-430. https://www.aclweb.org/anthology/W18-6415/
Марцин Джънчри-Дамунт, Кенет Хеафиелд, Хиес оун, роман Чжкевич, Антъни Ауе. 2018a. Мариан: разходно-ефективен висококачествен невронни машина Превод в C++. Производство на 2-ра работилница за превод и генериране на невронни машини. Мелбърн, Австралия, страници 129-135. https://aclweb.org/anthology/papers/W/W18/W18-2716/
Марцин Юнчис-Дамунт, роман Гчкевич, Томаз Двожак, Хиес ОНД, Кенет Хеафиелд, Том Неккерман, Франк Сеид, Улрих Герман, Алхам Фикри Джи, Николай Божичев, Андре к. т. Мартинс, Александра Бърч. 2018b. Мариан: бърза неврална машина Превод в C++. Производство на ACL 2018, системни демонстрации. Мелбърн, Австралия, страници 116-121. https://www.aclweb.org/anthology/P18-4020/
Йон Ким и Александър Ръш. 2016. дестилация на знания на ниво последователност. В рамките на 2016 конференция за емпиричните методи при обработката на естествени езици, EMNLP 2016, Остин, Тексас, САЩ, 1-4 ноември 2016, стр. https://aclweb.org/anthology/papers/D/D16/D16-1139/
Филип Коен. 2007. отразени модели на превода. Заседанията на съвместната конференция на 2007 за емпиричните методи при обработката на естествени езици и изчислителни естествени езикови обучения (EMNLP-CoNLL). Прага, Чешка република, страници 868-876. https://www.aclweb.org/anthology/D07-1091/
Рико Зенрич, Бари Хаддоу. 2016. езикови функции за въвеждане подобряване на превод на невронни машина. Процедура на първата конференция за машинен превод: Том 1, изследователски документи. Берлин, Германия, страници 83-91. https://www.aclweb.org/anthology/W16-2209/
Вазани, Ашиш и Шаир, Ноам и Пармар, Ники и Лушкорей, Якоб и Джоунс, Лайън и Гомез, Ейдън N и Кайзер, Люкаши и Полосукхин, Илия. 2017. внимание е всичко, което трябва. Напредък в невронните системи за обработка на информация 30. Страници 5998-6008. https://papers.nips.cc/paper/7181-attention-is-all-you-need