İçeriğe özkan
Translator
Bu sayfa, Microsoft Translator'ın makine çeviri hizmeti tarafından otomatik olarak çevrilmiştir. Daha fazla bilgi edinin

Microsoft Translator blog

Bing'in cinsiyete dayalı çevirileri çevirideki önyargıları ele alıyor

Cinsiyet ayrımcılığından arındırma
Cinsiyet sembollerinin 3D gösterimi.

Bugünden itibaren İngilizce'den İspanyolca, Fransızca veya İtalyanca'ya çeviri yaparken eril ve dişil alternatif çevirilerin kullanılabileceğini duyurmaktan heyecan duyuyoruz. Bu yeni özelliği her iki dilde de deneyebilirsiniz Bing arama Ve Bing çevirmen dikeyler.

Son birkaç yılda, Makine Çevirisi (MT) alanı, dönüştürücü modellerin ortaya çıkmasıyla devrim yaratmış ve kalitede muazzam iyileşmelere yol açmıştır. Ancak, gerçek dünyadan toplanan verilerin istatistiksel özelliklerini yakalamak için optimize edilen modeller, yanlışlıkla bu verilerde bulunan sosyal önyargıları öğrenir ve hatta güçlendirir.

Son sürümümüz, bu önyargılardan birini, özellikle de MT sistemlerinde yaygın olan cinsiyet önyargısını azaltmaya yönelik bir adımdır. Bing Translator, çevirilerde dişil ve eril varyantlar da dahil olmak üzere başka cinsiyet varyasyonları olsa bile, bir giriş cümlesi için her zaman tek bir çeviri üretmiştir. Buna uygun olarak Microsoft sorumlu yapay zeka ilkeleridoğru alternatif çeviriler sunduğumuzdan ve tüm cinsiyetler için daha kapsayıcı olduğumuzdan emin olmak istiyoruz. Bu yolculuğun bir parçası olarak ilk adımımız dişil ve eril çeviri varyantları sunmaktır.

Cinsiyet farklı dillerde farklı şekillerde ifade edilir. Örneğin, İngilizce'de avukat kelimesi erkek ya da kadın bir bireyi ifade edebilirken, İspanyolca'da bu durum farklıdır, abogada kadın bir avukata atıfta bulunurken abogado bir erkeğe atıfta bulunacaktır. Kaynak cümledeki 'avukat' gibi bir ismin cinsiyeti hakkında bilgi olmadığında, MT modelleri hedef dildeki isim için keyfi bir cinsiyet seçmeye başvurabilir. Çoğu zaman, bu keyfi cinsiyet atamaları, zararlı toplumsal önyargıları sürdürerek (Stanovsky vd., 2019; Ciora vd., 2021) ve tam olarak doğru olmayan çevirilere yol açarak kalıp yargılarla uyumludur.

Aşağıdaki örnekte, cinsiyetten bağımsız cümleleri İngilizce'den İspanyolca'ya çevirirken, çevrilen metnin kalıplaşmış cinsiyet rolünü izlediğini, yani avukatın erkek olarak çevrildiğini fark ediyorsunuz.

Cinsiyet önyargılı çeviri
İngilizce "Bu konuda avukatımızın görüşünü alalım." metninin cinsiyet önyargısı içeren İspanyolca diline çevirisinin ekran görüntüsü.

Kaynak cümlede avukatın cinsiyetini ima eden bir bağlam olmadığından, erkek veya kadın avukat varsayımıyla bir çeviri üretmek her ikisi de geçerli olacaktır. Şimdi, Bing Translator hem dişil hem de eril formlarla çeviriler üretiyor.

Cinsiyeti Belirsiz İngilizce Metnin İspanyolcaya Çevirisi
İngilizce "Let's get our lawyer's opinion on this issue." metninin cinsiyete özel çevirilerle İspanyolca diline çevirisinin ekran görüntüsü.

Sistem tasarımı

Sistemimizi, cinsiyete dayalı alternatifler sağlamak için aşağıdaki temel kriterleri karşılayacak şekilde tasarlamayı amaçladık:

  1. Dişil ve eril varyantlar, cinsiyeti ifade etmek için gerekli olanlar dışında minimum farklılıklara sahip olmalıdır.
  2. Birden fazla cinsiyetli alternatifin mümkün olduğu geniş bir cümle yelpazesini kapsamak istedik.
  3. Çevirilerin orijinal kaynak cümlenin anlamını koruduğundan emin olmak istedik.

Cinsiyet belirsizliğini tespit etme

Kaynak metindeki cinsiyet belirsizliğini doğru bir şekilde tespit etmek için, canlı isimler içeren girdileri analiz etmek için bir coreference modeli kullanıyoruz. Örneğin, belirli bir girdi metni cinsiyet açısından nötr bir meslek kelimesi içeriyorsa, yalnızca cinsiyeti cümledeki diğer bilgilerle belirlenemediğinde cinsiyetli alternatifler sunmak istiyoruz. Örneğin: "Avukat, şoförüyle otel lobisinde buluştu." şeklindeki İngilizce bir cümleyi Fransızcaya çevirirken avukatın kadın olduğunu belirleyebiliriz, ancak şoförün cinsiyeti bilinmemektedir.

Cinsiyeti Belirsiz İngilizce Metnin Fransızcaya Çevirisi
İngilizce "Avukat şoförüyle otel lobisinde buluştu." metninin Fransızcaya çevirisinin ekran görüntüsü.

Alternatif çeviri oluşturma

Kaynak cümle belirsiz bir şekilde cinsiyetlendirildiğinde, alternatif bir cinsiyet yorumunun mümkün olup olmadığına karar vermek için çeviri sistemimizin çıktısını inceleriz. Eğer öyleyse, çeviriyi revize etmenin en iyi yolunu belirlemeye devam ederiz. Orijinal çeviriyi yeniden yazarak bir dizi aday hedef çeviri oluşturarak başlıyoruz. Önerilen alternatiflerde tutarlılığı sağlamak ve hatalı adayları budamak için bağımlılık ilişkilerine dayalı dilbilimsel kısıtlamalar uyguluyoruz.

Ancak, birçok durumda, kısıtlamalarımızı uyguladıktan sonra bile, cinsiyetlendirilmiş alternatif çeviri için birden fazla aday yeniden yazımla baş başa kalıyoruz. En iyi seçeneği belirlemek için, her adayı çeviri modelimizle puanlayarak değerlendiriyoruz. İyi bir cinsiyet yeniden yazımının aynı zamanda kaynak cümlenin doğru bir çevirisi olacağı gerçeğinden yararlanarak, nihai çıktımızda yüksek doğruluk sağlayabiliyoruz.

Toplumsal cinsiyetin yeniden yansıtılması için sistem tasarımı
Cinsiyetin yeniden yansıtılmasına ilişkin sistem tasarımını gösteren bir diyagram.

Azure Machine Learning'de yönetilen çevrimiçi uç noktalardan yararlanma

Bing'deki cinsiyete dayalı alternatif özellik şu adreste barındırılmaktadır yönetilen çevrimiçi uç noktalar Azure Machine Learning'de. Yönetilen çevrimiçi uç noktalar, Microsoft tarafından yönetilen bilgi işlemdeki model dağıtımlarını anahtar teslim bir şekilde çağırmak ve yönetmek için birleşik bir arabirim sağlar. Altyapı yönetimi konusunda endişe duymadan ölçeklenebilir ve güvenilir uç noktalardan yararlanmamızı sağlarlar. Bu çıkarım ortamı aynı zamanda çok sayıda talebin düşük gecikme süresiyle işlenmesini de sağlıyor. Azure Machine Learning'deki yönetilen çıkarım özelliklerini kullanarak en yeni çerçeveler ve teknolojilerle toplumsal cinsiyet debias hizmetini oluşturma ve dağıtma becerimiz büyük ölçüde geliştirildi. Bu özelliklerden yararlanarak, düşük COGS (Satılan Malın Maliyeti) sağlayabildik ve doğrudan güvenlik ve gizlilik uyumluluğu sağladık.

Siz nasıl katkıda bulunabilirsiniz?

MT'de cinsiyet önyargısının azaltılmasında ilerlemeyi kolaylaştırmak için, İngilizce'den İspanyolca, Fransızca ve İtalyanca'ya cinsiyete açık çeviri örnekleri içeren bir test derlemi yayınlıyoruz. Her İngilizce kaynak cümleye, olası her cinsiyet varyasyonunu kapsayan birden fazla çeviri eşlik etmektedir.

Test setimiz zorlu, morfolojik olarak zengin ve dilsel olarak çeşitli olacak şekilde oluşturulmuştur. Bu derlem, geliştirme sürecimizde etkili olmuştur. Önemli çeviri deneyimine sahip iki dilli bir dilbilimcinin yardımıyla geliştirilmiştir. Test derlemini ve değerlendirme yöntem ve araçlarını ayrıntılı olarak ele alan teknik bir makale de yayınlıyoruz.

GATE: Cinsiyet Eşitsiz Çeviri Örnekleri için bir meydan okuma seti - Bildiri

GATE: Cinsiyet Eşitsiz Çeviri Örnekleri için bir meydan okuma seti - Test seti

İleriye giden yol

Bu çalışma sayesinde, kaynak cinsiyetin belirsiz olduğu durumlarda MT çıktısının kalitesini artırmayı ve genel olarak daha iyi ve daha kapsayıcı doğal dil işleme (NLP) araçlarının geliştirilmesini kolaylaştırmayı amaçlıyoruz. İlk sürümümüz İngilizce'den İspanyolca, Fransızca ve İtalyanca'ya çeviriye odaklanıyor. İleride, yeni dil çiftlerinin yanı sıra ek senaryoları ve önyargı türlerini de kapsamayı planlıyoruz.

Krediler:

Ranjita Naik, Spencer Rarrick, Sundar Poudel, Varun Mathur, Jeshwanth Kumar Chandrala, Charan Mohan, Lee Schwartz, Steven Nguyen, Amit Bhagwat, Vishal Chowdhary.