Гендерные переводы Bing решают проблему предвзятости в переводе
![Гендерная предвзятость](https://www.microsoft.com/en-us/translator/blog/wp-content/uploads/sites/13/2023/02/GettyImages-1314046616-scaled.jpg)
Мы рады сообщить, что на сегодняшний день при переводе с английского на испанский, французский или итальянский языки доступны альтернативные переводы мужского и женского рода. Вы можете опробовать эту новую функцию в обоих Поиск Bing И Переводчик Bing Вертикалей.
За последние несколько лет область машинного перевода (МТ) была революционизирована появлением моделей трансформаторов, что привело к огромным улучшениям качества. Однако модели, оптимизированные для захвата статистических свойств данных, собранных из реального мира, непреднамеренно изучают или даже усиливают социальные предубеждения, обнаруженные в этих данных.
Наш последний выпуск является шагом к уменьшению одной из этих предубеждений, в частности гендерной предвзятости, которая распространена в системах MT. Переводчик Bing всегда производил один перевод для вводного предложения, даже когда переводы могли иметь другие гендерные вариации, включая женский и мужской варианты. В соответствии с Принципы ответственного ИИ корпорации Майкрософт, мы хотим убедиться, что мы предоставляем правильные альтернативные переводы и более инклюзивны для всех полов. В рамках этого путешествия нашим первым шагом является предоставление вариантов женского и мужского переводов.
Гендер выражается по-разному в разных языках. Например, в английском языке слово lawyer может относиться либо к мужчине, либо к женщине, но в испанском языке: абогада будет относиться к женщине-адвокату, в то время как abogado будет относиться к мужскому. При отсутствии информации о роде существительного, такого как «юрист» в исходном предложении, модели МТ могут прибегнуть к выбору произвольного рода для существительного на целевом языке. Часто эти произвольные гендерные назначения совпадают со стереотипами, увековечивая вредные социальные предубеждения (Stanovsky et al., 2019; Ciora et al., 2021) и приводит к переводам, которые не являются полностью точными.
В приведенном ниже примере вы заметили, что при переводе гендерно-нейтральных предложений с английского на испанский переведенный текст следует стереотипной гендерной роли, т.е. юрист переводится как мужчина.
![Перевод с гендерной предвзятостью](https://www.microsoft.com/en-us/translator/blog/wp-content/uploads/sites/13/2023/03/Picture00.png)
Поскольку в исходном предложении нет контекста, подразумевающего пол адвоката, создание перевода с предположением о том, что адвокат мужского или женского пола будет действительным. В настоящее время Bing Translator производит переводы как женского, так и мужского рода.
![Перевод гендерно-неоднозначного английского текста на испанский язык](https://www.microsoft.com/en-us/translator/blog/wp-content/uploads/sites/13/2023/03/Picture01.png)
Проектирование системы
Мы стремились разработать нашу систему в соответствии со следующими ключевыми критериями для предоставления гендерных альтернатив:
- Женский и мужской варианты должны иметь минимальные различия, за исключением тех, которые необходимы для передачи пола.
- Мы хотели охватить широкий спектр предложений, где возможны несколько гендерных альтернатив.
- Мы хотели убедиться, что переводы сохраняют смысл предложения первоисточника.
Выявление гендерной двусмысленности
Чтобы точно обнаружить гендерную двусмысленность в исходном тексте, мы используем модель coreference для анализа входных данных, содержащих одушевленные существительные. Например, если данный вводимый текст содержит гендерно-нейтральное профессиональное слово, мы хотим предоставить для него гендерные альтернативы только тогда, когда его пол не может быть определен другой информацией в предложении. Например: При переводе английского предложения «Адвокат встретила своего водителя в холле отеля» на французский язык мы можем определить, что адвокат - женщина, в то время как пол водителя неизвестен.
![Перевод гендерно-неоднозначного английского текста на французский](https://www.microsoft.com/en-us/translator/blog/wp-content/uploads/sites/13/2023/03/Picture02.png)
Создание альтернативного перевода
Когда исходное предложение неоднозначно гендерно, мы изучаем результаты нашей системы перевода, чтобы решить, возможна ли альтернативная гендерная интерпретация. Если это так, мы приступаем к определению наилучшего способа пересмотра перевода. Мы начинаем с создания набора целевых переводов кандидатов путем переписывания оригинального перевода. Мы применяем лингвистические ограничения, основанные на зависимостных отношениях, чтобы обеспечить согласованность в предлагаемых альтернативах и обрезать ошибочных кандидатов.
Тем не менее, во многих случаях, даже после применения наших ограничений, мы остаемся с несколькими кандидатами на переписывание для гендерного альтернативного перевода. Чтобы определить лучший вариант, мы оцениваем каждого кандидата, оценивая его с помощью нашей модели перевода. Используя тот факт, что хороший гендерный рерайт также будет точным переводом исходного предложения, мы можем обеспечить высокую точность в нашем конечном результате.
![Системное проектирование гендерного перегиба](https://www.microsoft.com/en-us/translator/blog/wp-content/uploads/sites/13/2023/03/Picture03.png)
Использование управляемых сетевых конечных точек в Машинном обучении Azure
Гендерная альтернативная функция в Bing размещена на управляемые сетевые конечные точки в Машинном обучении Azure. Управляемые сетевые конечные точки предоставляют унифицированный интерфейс для вызова и управления развертываниями моделей на управляемых корпорацией Майкрософт вычислениях «под ключ». Они позволяют нам использовать преимущества масштабируемых и надежных конечных точек, не беспокоясь об управлении инфраструктурой. Эта среда вывода также позволяет обрабатывать большое количество запросов с низкой задержкой. Наши возможности по созданию и развертыванию службы гендерной дебиас с использованием новейших платформ и технологий были значительно улучшены благодаря использованию функций управляемого вывода в Машинном обучении Azure. Используя эти функции, мы смогли поддерживать низкий уровень COGS (Cost of Goods Sold) и обеспечить простое соответствие требованиям безопасности и конфиденциальности.
Как вы можете внести свой вклад?
Для содействия прогрессу в сокращении гендерных предрассудков в МТ мы выпускаем тестовый корпус, содержащий гендерно-неоднозначные примеры перевода с английского на испанский, французский и итальянский языки. Каждое английское исходное предложение сопровождается несколькими переводами, охватывающими каждую возможную гендерную вариацию.
Наш тестовый набор построен так, чтобы быть сложным, морфологически богатым и лингвистически разнообразным. Этот корпус сыграл важную роль в нашем процессе разработки. Он был разработан с помощью двуязычных лингвистов со значительным опытом перевода. Мы также выпускаем технический документ, в котором подробно обсуждается корпус тестов, а также методология и инструменты оценки.
GATE: Задача, поставленная перед примерами гендерно-неоднозначных переводов – Документ
GATE: Набор задач для примеров перевода с гендерной неоднозначностью – Тестовый набор
Путь вперед
Посредством этой работы мы стремимся улучшить качество выпуска МТ в случаях неоднозначного пола источника, а также способствовать разработке лучших и более инклюзивных инструментов обработки естественного языка (НЛП) в целом. Наш первый выпуск посвящен переводу с английского на испанский, французский и итальянский языки. В дальнейшем мы планируем перейти на новые языковые пары, а также охватить дополнительные сценарии и типы предубеждений.
Кредиты:
Ранджита Наик, Спенсер Раррик, Сундар Пудель, Варун Матхур, Джешвант Кумар Чандрала, Чаран Мохан, Ли Шварц, Стивен Нгуен, Амит Бхагват, Вишал Чоудхари.