Нейромашинного перекладу дозволяє людського паритету інновації у хмарі

Опубліковано на 17 червня, 201921 червня, 2019за Microsoft Перекладач

В березні 2018 ми Оголосив (Хасан і ін. 2018) прорив результат, де ми показали в перший раз система машинного перекладу, які могли б виконувати, а також людських перекладачів (в певному сценарії-китайсько-англійський переклад новин). Це був захоплюючий прорив у дослідженнях машинного перекладу, але система, яку ми побудували для цього проекту було складним, важкоатлет дослідницької системи, що включає кілька передових методів. Хоча ми випустили вихід цієї системи на кілька тестових наборів, сама система не була придатна для розгортання в режимі реального часу машинного перекладу Cloud API.

Сьогодні ми раді оголосити про доступність у виробництві нашого новітнього покоління моделей нейромашинного перекладу. Ці моделі включають в себе більшу частину добра нашої дослідницької системи і тепер доступні за умовчанням при використанні Microsoft Translator API. Ці нові моделі доступні сьогодні китайською, німецькою, французькою, хінді, італійською, іспанською, японською, корейською та російською мовами, з і на англійську мову. Подробнее мови найближчим часом.

Отримання від досліджень папери хмара API

За минулий рік ми шукали способи, щоб принести більшу частину якості нашої людини-паритету системи в Microsoft Перекладач API, продовжуючи пропонувати низька вартість перекладу в реальному часі. Ось деякі з кроків на цій дорозі.

Вчитель-навчання студентів

Наш перший крок повинен був перейти на "вчитель-студент" рамки, де ми Тренуємо легкий студента в режимі реального часу імітувати важкоатлет вчителя мережі (Ба і Каруана 2014). Це досягається шляхом підготовки студента не на паралельних даних, що MT системи, як правило, навчені, але на переклади, вироблені вчителем (Кім і Раш 2016). Це просте завдання, ніж навчання з необроблених даних, і дозволяє більш дрібні, простіші студента дуже уважно стежити за складним учителем. Як можна очікувати, наші початкові спроби, як і раніше постраждав якість крапель від вчителя до студента (без вільних обідів!), але ми все ж таки посів перше місце в МЛМТ 2018 спільна задача на ефективне декодування (Junczys-Dowmunt і ін. 2018a). Деякі особливо захоплюючі результати з цих зусиль було те, що трансформатор (Вавані і ін. 2017) моделі та їх модифікації добре грати з вчителем-студентом навчання і є нескінченно ефективними під час виведення на ПРОЦЕСОРІ.

Навчання з цих початкових результатів і після багатьох ітерації ми виявили рецепт, який дозволяє нашим простим студентом мати майже таку ж якість, як комплексний вчитель (іноді є вільний обід врешті-решт?). Тепер ми були вільні будувати великі, комплексні моделі вчителя для максимальної якості, не турбуючись про реальні обмеження часу (занадто багато).

Переклад в режимі реального часу

Наше рішення про перехід на вчителя-студентське рамки було продиктоване великою роботою Кім і Раш (2016) для простих RNN-моделей. У цей момент неясно, якщо повідомили вигоди будуть проявлятися для трансформаторних моделей, а також (див. Вавані і ін. 2017 Докладніше про цю модель). Тим не менш, ми швидко виявили, що це дійсно так.

Трансформатор студент може використовувати дуже спрощений алгоритм декодування (жадібний пошук), де ми просто вибрати один краще перекладається слово на кожному кроці, а не звичайний метод (промінь-пошук), який включає в себе пошук через величезний простір можливого Переклади. Ця зміна мала мінімальний вплив на якість, але призвело до великих покращень у швидкості перекладу. На відміну від цього, вчитель модель буде страждати значне зниження якості при перемиканні з променя-пошук жадібним пошуку.

У той же час, ми зрозуміли, що замість того, щоб використовувати останню нейронної архітектури (трансформатор з самостійною увагою) в декодер, студент може бути змінений, щоб використовувати різке спрощене і швидке повторення (RNN) архітектури. Це має значення, тому що в той час як кодувальник може бути обчислений по всій пропозиції джерело паралельно, цільова пропозиція генерується одне слово в той час, так що швидкість декодера має великий вплив на загальну швидкість перекладу. У порівнянні з самостійною увагою, рецидивуючих декодер зменшує алгоритмічні складності від квадратичної до лінійної в цільовому реченні довжини. Особливо в учитель-студент обстановці, ми не бачили втрати якості з-за цих змін, ні для автоматичної, ні для результатів оцінки. Кілька додаткових поліпшень, таких як обмін параметрами призвело до подальшого скорочення складності і збільшення швидкості.

Ще однією перевагою вчитель-студент рамки ми були дуже раді бачити, що поліпшення якості з плином часу постійно зростаючих і мінливих вчителів легко переноситься до немінливих студентських архітектура. У тих випадках, коли ми побачили проблеми у зв'язку з цим, незначне збільшення потенціалу студентської моделі буде закривати розрив знову.

Подвійне навчання

Основні знання за подвійне навчання (Він і ін. 2016) є "тур в обидва кінці" перевірити, що люди іноді використовують для перевірки якості перекладу. Припустимо, ми використовуємо Онлайн-перекладач йти з англійської на італійську. Якщо ми не читали італійську, як ми знаємо, якщо він зробив хорошу роботу? Перед натисканням Відправити по електронній пошті, ми можемо вибрати, щоб перевірити якість, перекладаючи італійський назад на англійську мову (можливо, на іншому веб-сайті). Якщо англійський ми повернемося відхилився занадто далеко від оригіналу, швидше за все, є одним з перекладів пішов рейок.

Подвійне навчання використовує той же підхід до підготовки двох систем (наприклад, Англійська-> Італійська та Італійська-> Англійська) паралельно, використовуючи круглі переклади з однієї системи забити, перевіряти і навчати іншої системи.

Подвійне навчання було основним вкладником в наш людський-ПАРИТЕТ результат дослідження. У переході від дослідницької системи до нашої продукції рецепт, ми узагальнив цей підхід в цілому. Не тільки ми спільного поїзд пари систем на виході один одного, ми також використовували той же критерій для фільтрації наших паралельних даних.

Очищення неточних даних

Системи машинного перекладу навчаються за "паралельними даними", тобто парами документів, які є переклади один одного, ідеально створений людиною перекладачем. Як з'ясовується, ці паралельні дані часто повні неточні переклади. Іноді документи не по-справжньому паралельні, але тільки вільні Парафраз перекладі один від одного. Перекладачі людини можуть вибрати, щоб залишити якийсь вихідний матеріал або Вставити додаткову інформацію. Дані можуть містити помилки, орфографічні помилки, граматичні помилки. Інколи алгоритми інтелектуального аналізу даних є обдурими подібними, але не паралельними даними, або навіть реченнями у неправильному мовою. Найгірше, багато веб-сторінок, які ми бачимо, є спамом, або може насправді бути машинного перекладу, а не людські переклади. Нейронні системи дуже чутливі до такого роду неточність у даних. Ми виявили, що побудова нейронних моделей для автоматичного виявлення і позбутися цих неточностей дало сильні поліпшення якості наших систем. Наш підхід до фільтрації даних привів в першу чергу на WMT18 паралельні еталоном фільтрація (Junczys-Dowmunt 2018a) і допомогли побудувати один з найсильніших англо-німецькі системи перекладу в WMT18 завдання перекладу новин (Дзюнчина-Dowmunt 2018b). Ми використовували вдосконалені версії цього підходу у виробничих системах, які ми випустили сьогодні.

Враховані подання слів

При переміщенні науково-дослідних технологій для виробництва, ряд реальних проблем виникають. Початок числа, дати, час, капіталізація, інтервал і т. д. право питання набагато більше у виробництві, ніж у дослідницькій системі.

Розгляньте завдання з капіталізації. Якщо ми перекладаємо вирок "дивитися відео КІШКА тут". Ми вміємо перекладати «кота». Ми хотіли б перекласти "кіт" так само. Але тепер розглянемо "дивитися нам футбол тут". Ми не хочемо, щоб заплутати слово "нас" і акронім "нас" в цьому контексті.

Щоб впоратися з цим, ми використовували підхід, відомий як враховані Машинний переклад (Koehn і Хоанг 2007, Sennrich і Хаддоу 2016), яка працює наступним чином. Замість одного числового представництва ("вбудовування") для "Cat" або "CAT", ми використовуємо кілька embeddings, відомі як "фактори". У цьому випадку первинна вбудовування буде однаковим для "КОТА" і "кота", але окремий фактор буде представляти капіталізація, показуючи, що це було все-капсул в одному екземплярі, але в нижньому регістрі. Аналогічні фактори використовуються на першоджерело і цільовій стороні.

Ми використовуємо аналогічні фактори для обробки фрагментів слів і інтервалів між словами (комплексне питання в не-інтервали або напівінтервали мови, такі як Китайська, корейська, японська або Тайська).

Чинники також значно поліпшили переклад чисел, що критично важливі в багатьох сценаріях. Номер перекладу в основному алгоритмічної трансформації. Наприклад, 1 234 000 можна записати як 12, 34000 на хінді, 1.234.000 німецькою та 123,4 万 китайською мовою. Традиційно, номери представлені як слова, як групи символів різної довжини. Це робить його жорстким для машинного навчання виявити алгоритм. Замість цього, ми Годуйте кожну цифру числа окремо, з факторами маркування початку і кінця. Цей простий трюк рішуче і надійно вилучаються майже всі помилки перекладу номера.

Швидша модель навчання

Коли ми навчання єдиної системи в напрямку однієї мети, як ми зробили для людини-ПАРИТЕТ дослідницького проекту, ми очікуємо, щоб кинути величезну кількість апаратних моделей, які беруть тижнів на поїзд. При підготовці моделі виробництва для 20 + мовних пар, такий підхід стає неспроможним. Ми не тільки потрібні розумні часи в околицях, але ми також повинні помірковано наші вимоги до обладнання. Для цього проекту ми зробили низку покращень у Маріан NMT (Junczys-Dowmunt і ін. 2018b).

Маріан NMT є відкритим вихідним кодом нейронні MT інструментарій, який Microsoft перекладач на основі. Маріан є чисто c + + нейронні машини переклад Toolkit, і, як наслідок, надзвичайно ефективним, не вимагаючи gpus під час виконання, і дуже ефективна в навчанні час

Завдяки своїй самодостатній природі, це досить легко оптимізувати Маріан для конкретних завдань NMT, що призводить до однієї з найбільш ефективних інструментальних засобів NMT доступні. Погляньте на Критеріїв. Якщо ви зацікавлені в нейронні MT досліджень і розробок, будь ласка, Приєднуйтесь і сприяти спільнота на GitHub.

Наші удосконалення щодо змішаного високоточної підготовки та декодування, а також для великої моделі підготовки незабаром буде доступна в суспільному GitHub репозиторії.

Ми раді, про майбутнє нейромашинного перекладу. Ми будемо продовжувати відкотити нову модель архітектури, що залишилися мови і Користувальницький Перекладач протягом цього року. Наші користувачі автоматично отримають значно кращу якість перекладу через Перекладач APIНаші Програма-Перекладач, Microsoft Office і EDGE-браузер. Ми сподіваємося, що нові поліпшення допоможуть вашим особистим і професійним життям і з нетерпінням чекаємо ваших відгуків.

Посилання

Джиммі БА і багатий Caruana. 2014. робити глибокі сітки дійсно потрібно бути глибоким? Досягнення в системах Нейрообробки інформації 27. Сторінок 2654-2662. https://papers.nips.cc/paper/5484-do-deep-nets-really-need-to-be-deep
Хані Хасан, Ентоні Aue, Чанг Чень, Вишал Choddhary, Джонатан Кларк, Крістіан Федерманн, Xuedong Хуан, Марцин Junczys-Dowmunt, Вільям Льюїс, му Лі, Shujie Лю, краватка-Ян Лю, Renqan луо, Арул Мензеш, Тао Цин, Френк Сейд, Сюй Тан, Фей Тянь, Lijun Wu, Shuangzhi Wu, Yingce ся, Dongdong Чжан, Zhirui Чжан, мін Чжоу. 2018. досягнення людської паритету на автоматичний китайський-англійський переклад новин. http://arxiv.org/abs/1803.05567
Він, ді і ся, Yingce і Цин, Тао і Ван, Liwei і ю. Nenghai і Лю, краватка-Ян і ма, Вей-ін. 2016. подвійне навчання машинного перекладу. Аванси в Нейросистемах обробки інформації 29. Сторінок 820-828. https://papers.nips.cc/paper/6469-dual-learning-for-machine-translation
Марцін Junczys-Dowmunt. 2018a. подвійна умовна Міжентропія фільтрація шумного паралельної частини. Матеріали третьої конференції з машинного перекладу: спільні статті з завданнями. Бельгія, стор. 888-895. https://aclweb.org/anthology/papers/W/W18/W18-6478/
Марцін Junczys-Dowmunt. 2018b. додаток Microsoft в WMT2018 завдання перекладу новин: як я дізнався, щоб перестати турбуватися і любити дані. Матеріали третьої конференції з машинного перекладу: спільні статті з завданнями. Бельгія, стор. 425-430. https://www.aclweb.org/anthology/W18-6415/
Марчін Junczys-Dowmunt, Кеннет Heafield, Hieu Хоанг, Роман Грінкевич, Ентоні Aue. 2018a. Маріан: рентабельним високоякісним Нейромашинний переклад на C++. Провадження 2-го семінару з Нейромашинного перекладу та генерації. Мельбурн, Австралія, стор 129-135. https://aclweb.org/anthology/papers/W/W18/W18-2716/
Марцін Junczys-Dowmunt, Роман Гронкевич, Томаш Dwojak, Hieu Хоанг, Кеннет Heafield, Тома Neckermann, Френк Сейд, Ульріх Германн, Алхам Фікрі Аджи, Микола Бочєчев, Андре ф. т. Мартінс, Олександра береза. 2018b. Маріан: швидкий Нейромашинний переклад на C++. Праці ACL 2018, системні демонстрації. Мельбурн, Австралія, стор 116-121. https://www.aclweb.org/anthology/P18-4020/
Юн Кім і Олександр м. Раш. 2016. послідовність на рівні знань дистиляції. У справі про 2016 конференції з емпіричних методів в обробці природної мови, EMNLP 2016, Остін, Техас, США, Листопад 1-4, 2016, сторінки 1317 – 1327. https://aclweb.org/anthology/papers/D/D16/D16-1139/
Філіп Koehn, Hieu Хоанг. 2007. враховані моделі перекладу. 2007 спільна конференція з емпіричних методів в обробці природної мови та обчислювальної природної мови навчання (EMNLP-CoNLL). Прага, Чехія, стор 868-876. https://www.aclweb.org/anthology/D07-1091/
Ріко Sennrich, Баррі Хаддоу. 2016. Особливості лінгвістичного вводу покращують Машинний переклад. Матеріали першої конференції з машинного перекладу: Том 1, наукові статті. Берлін, Німеччина, стор. 83-91. https://www.aclweb.org/anthology/W16-2209/
Vaswani, Ashish і Shazeer, Ноам і Пармар, Ніки і Uszkoreit, Якоб і Джонс, Лліон і Гомес, Айдан N і Кайзер, Лукаш і Polosukhin, Ілля. 2017. увага – це все, що вам потрібно. Аванси в Нейросистемах обробки інформації 30. Сторінок 5998-6008. https://papers.nips.cc/paper/7181-attention-is-all-you-need

Microsoft Перекладач блог