Генериране на създаване на договор за създаване на "създаване на...
Преводач
Тази страница е преведена автоматично от услугата за машинен превод на Microsoft. Разберете повече

Блог на Microsoft преводач

Преводите на Bing, свързани с пола, се занимават с предубежденията в превода

Отстраняване на различията между половете
3D визуализация на символите на пола.

С радост съобщаваме, че от днес са налични алтернативни преводи в мъжки и женски род при превод от английски на испански, френски или италиански език. Можете да изпробвате тази нова функция както в Търсене в Bing И Транслатор на Bing вертикали.

През последните няколко години в областта на машинния превод (МТ) настъпи революция с появата на трансформационни модели, което доведе до огромни подобрения в качеството. Въпреки това моделите, оптимизирани за улавяне на статистическите свойства на данните, събрани от реалния свят, по невнимание научават или дори засилват социалните пристрастия, открити в тези данни.

Последното ни издание е стъпка към намаляване на едно от тези отклонения, а именно отклонението, свързано с пола, което е широко разпространено в системите за МТ. Bing Translator винаги е изготвял един-единствен превод за входно изречение, дори когато преводите можеха да имат и други варианти, включително женски и мъжки род. В съответствие с Принципи на отговорния изкуствен интелект на Microsoft, искаме да гарантираме, че предоставяме правилни алтернативни преводи и сме по-приобщаващи за всички полове. Като част от това пътуване първата ни стъпка е да предоставим варианти на превода за женски и мъжки род.

Полът се изразява по различен начин в различните езици. Например в английския език думата "адвокат" може да се отнася за лице от мъжки или женски пол, но в испанския език, abogada ще се отнася за жена адвокат, а abogado ще се отнася за мъж. При липса на информация за пола на съществително като "адвокат" в изходното изречение, MT моделите могат да прибягнат до избор на произволен род за съществителното в езика-цел. Често тези произволни определения на пола съответстват на стереотипите, като затвърждават вредни обществени предразсъдъци (Stanovsky et al., 2019; Ciora et al., 2021) и водят до преводи, които не са напълно точни.

В примера по-долу забелязвате, че при превода на неутрални по отношение на пола изречения от английски на испански език преведеният текст следва стереотипната роля на пола, т.е. адвокат е преведен като мъж.

Превод с пристрастия към пола
Снимка на екрана на превод на английския текст "Нека да получим мнението на нашия адвокат по този въпрос" на испански език, в който има джендър пристрастия.

Тъй като в изходното изречение няма контекст, който да подсказва пола на адвоката, преводът, при който се предполага, че става дума за адвокат от мъжки пол или за адвокат от женски пол, би бил валиден и в двата случая. Сега Bing Translator създава преводи с форми както за женски, така и за мъжки род.

Превод на двусмислен английски текст на испански език
Снимка на екрана на превод на английския текст "Нека да получим мнението на нашия адвокат по този въпрос" на испански език с преводи, специфични за пола.

Проектиране на системата

Целта ни беше да разработим нашата система така, че да отговаря на следните основни критерии за предоставяне на алтернативи, свързани с пола:

  1. Вариантите за женски и мъжки род трябва да имат минимални разлики, освен тези, които са необходими за предаване на пола.
  2. Искахме да обхванем широк спектър от изречения, в които са възможни множество алтернативи, свързани с пола.
  3. Искахме да гарантираме, че преводите запазват смисъла на оригиналното изречение.

Откриване на двусмисленост на пола

За да открием точно двусмислието на пола в изходния текст, използваме модел за кореференция, за да анализираме входни данни, съдържащи одушевени съществителни. Например, ако даден входен текст съдържа неутрална по пол професионална дума, искаме да предоставим алтернативи за нея само когато полът ѝ не може да бъде определен от друга информация в изречението. Например: При превода на английското изречение "Адвокатката срещна шофьора си във фоайето на хотела." на френски език можем да определим, че адвокатката е жена, докато полът на шофьора е неизвестен.

Превод на двусмислен английски текст на френски език
Снимка на екрана на превода на английски език на текста "The lawyer met her driver at the hotel lobby." на френски език.

Генериране на алтернативен превод

Когато изходното изречение е двусмислено по отношение на пола, ние проверяваме резултатите от преводаческата система, за да решим дали е възможно алтернативно тълкуване на пола. Ако това е така, пристъпваме към определяне на най-добрия начин за преразглеждане на превода. Започваме с конструиране на набор от кандидат-преводи, като пренаписваме оригиналния превод. Прилагаме лингвистични ограничения, основани на отношения на зависимост, за да осигурим съгласуваност на предложените алтернативи и да отстраним грешните кандидати.

В много случаи обаче, дори и след прилагането на нашите ограничения, остават множество кандидати за преписване на алтернативния превод с род. За да определим най-добрия вариант, оценяваме всеки кандидат, като го оценяваме с нашия модел на превод. Като използваме факта, че добрият препис на пола ще бъде и точен превод на изходното изречение, можем да осигурим висока точност на крайния резултат.

Проектиране на системата за повторно отразяване на пола
Диаграма, показваща дизайна на системата за повторно отразяване на пола.

Използване на управлявани онлайн крайни точки в Azure Machine Learning

Алтернативната функция за половете в Bing е разположена в управлявани онлайн крайни точки в Azure Machine Learning. Управляваните онлайн крайни точки осигуряват унифициран интерфейс за извикване и управление на разгръщането на модели в управлявани от Microsoft изчисления "до ключ". Те ни позволяват да се възползваме от мащабируеми и надеждни крайни точки, без да се притесняваме за управлението на инфраструктурата. Тази среда за изводи също така позволява обработката на голям брой заявки с ниска латентност. Възможността ни да създаваме и внедряваме услугата джендър дебис с най-новите рамки и технологии беше значително подобрена чрез използването на управляваните функции за извеждане в Azure Machine Learning. Като използвахме тези функции, успяхме да поддържаме ниски разходи за продадени стоки (COGS) и да осигурим пряко съответствие със сигурността и поверителността.

Как можете да допринесете?

За да улесним напредъка в намаляването на отклоненията от пола в МТ, публикуваме тестови корпус, съдържащ примери за превод от английски на испански, френски и италиански език, които са еднозначни по отношение на пола. Всяко английско изходно изречение е придружено от няколко превода, обхващащи всяка възможна вариация на пола.

Нашият набор от тестове е съставен така, че да бъде предизвикателен, богат на морфология и разнообразен в езиково отношение. Този корпус е от съществено значение за процеса на разработване. Той беше разработен с помощта на двуезични лингвисти със значителен опит в превода. Публикуваме и технически документ, в който подробно се обсъждат тестовият корпус, както и методологията и инструментите за оценка.

GATE: Предизвикателство, поставено за примери за превод на двусмислени текстове, свързани с пола - Документ

GATE: Набор от предизвикателства за примери за превод на недвусмислени текстове, свързани с пола - тестови набор

Път напред

С тази работа целим да подобрим качеството на резултатите от МТ в случаи на двусмислен изход на род, както и да улесним разработването на по-добри и по-всеобхватни инструменти за обработка на естествен език (НЛП) като цяло. Първоначалното ни издание е насочено към превод от английски на испански, френски и италиански език. В бъдеще планираме да разширим обхвата на нови езикови двойки, както и да обхванем допълнителни сценарии и видове отклонения.

Кредити:

Ранджита Наик, Спенсър Рарик, Сундар Пудел, Варун Матур, Джешвант Кумар Чандрала, Чаран Мохан, Лий Шварц, Стивън Нгуен, Амит Бхагват, Вишал Чоудхари.