Pereiti prie pagrindinio turinio
Vertėjas
Šis puslapis automatiškai išverstas į "Microsoft Translator" mašininio vertimo tarnybą. Sužinokite daugiau

Microsoft Translator Dienoraštis

"Bing" lyčių vertimai sprendžia vertimo šališkumo problemą

Lyčių skirtumų panaikinimas
3D lyčių simbolių atvaizdavimas.

Džiaugiamės galėdami pranešti, kad nuo šiandien verčiant iš anglų kalbos į ispanų, prancūzų arba italų kalbą galima naudoti vyriškosios ir moteriškosios giminės alternatyvius vertimus. Šią naują funkciją galite išbandyti "Bing" ieška Ir "Bing" Vertėjas vertikalės.

Per pastaruosius kelerius metus mašininio vertimo (MT) srityje įvyko revoliucija, nes atsirado transformavimo modeliai, dėl kurių labai pagerėjo kokybė. Tačiau modeliai, optimizuoti taip, kad atspindėtų iš realaus pasaulio surinktų duomenų statistines savybes, netyčia išmoksta ar net sustiprina tuose duomenyse esančius socialinius šališkumus.

Mūsų naujausia versija - tai žingsnis siekiant sumažinti vieną iš šių šališkumų, ypač MT sistemose paplitusį lyčių šališkumą. "Bing Translator" visada pateikdavo vieną įvesties sakinio vertimą, net jei vertime galėjo būti kitų lyčių variantų, įskaitant moteriškosios ir vyriškosios giminės variantus. Pagal "Microsoft" atsakingo dirbtinio intelekto principainorime užtikrinti, kad pateiktume teisingus alternatyvius vertimus ir labiau įtrauktume visų lyčių atstovus. Pirmasis mūsų žingsnis šioje kelionėje - pateikti moteriškosios ir vyriškosios giminės vertimo variantus.

Įvairiose kalbose lytis išreiškiama skirtingai. Pavyzdžiui, anglų kalboje žodis "advokatas" gali reikšti tiek vyriškos, tiek moteriškos lyties asmenį, o ispanų kalboje, abogada būtų kalbama apie teisininkę, o abogado reikštų vyriškos lyties atstovą. Jei šaltinio sakinyje nėra informacijos apie daiktavardžio "advokatas" lytį, MT modeliai gali rinktis savavališką daiktavardžio lytį tikslinėje kalboje. Dažnai šie savavališki lyčių priskyrimai atitinka stereotipus, įtvirtindami žalingą visuomenės šališkumą (Stanovsky et al., 2019; Ciora et al., 2021) ir lemdami ne visiškai tikslius vertimus.

Toliau pateiktame pavyzdyje pastebėjote, kad verčiant lyčiai neutralius sakinius iš anglų į ispanų kalbą, išverstas tekstas atitinka stereotipinį lyčių vaidmenį, t. y. advokatas verčiamas kaip vyras.

Vertimas su lyčių šališkumu
Angliško teksto "Let's get our lawyer's opinion on this issue." vertimo į ispanų kalbą su lyčių paklaida ekrano nuotrauka.

Kadangi originalo sakinyje nėra konteksto, kuris leistų spręsti apie advokato lytį, vertimas, kuriame daroma prielaida, kad advokatas yra vyras arba moteris, būtų teisingas. Dabar "Bing Translator" pateikia vertimus su moteriškosios ir vyriškosios giminės formomis.

Dviprasmiško teksto anglų kalba vertimas į ispanų kalbą
Angliško teksto "Let's get our lawyer's opinion on this issue." vertimo į ispanų kalbą su vertimu pagal lytį ekrano nuotrauka.

Sistemos projektavimas

Siekėme, kad mūsų sistema atitiktų šiuos pagrindinius lyčių alternatyvų teikimo kriterijus:

  1. Moteriškosios ir vyriškosios giminės variantų skirtumai turėtų būti minimalūs, išskyrus tuos, kurie reikalingi lyčiai išreikšti.
  2. Norėjome aprėpti daugybę sakinių, kuriuose galimos kelios lyčių alternatyvos.
  3. Norėjome užtikrinti, kad vertimuose išliktų originalaus pirminio sakinio prasmė.

Lyčių dviprasmiškumo nustatymas

Siekdami tiksliai aptikti lyties dviprasmybę šaltinio tekste, naudojame koreferencijos modelį, kad išanalizuotume įvestis, kuriose yra animacinių daiktavardžių. Pavyzdžiui, jei tam tikrame įvesties tekste yra lyčiai neutralus profesinis žodis, norime pateikti jo lyties alternatyvas tik tada, kai jo lyties negalima nustatyti pagal kitą sakinyje esančią informaciją. Pavyzdžiui: verčiant anglišką sakinį "The lawyer met her driver at the hotel lobby." į prancūzų kalbą galima nustatyti, kad advokatė yra moteris, o vairuotojo lytis nežinoma.

Dviprasmiško pagal lytį angliško teksto vertimas į prancūzų kalbą
Angliško teksto "The lawyer met her driver at the hotel lobby." vertimo į prancūzų kalbą ekrano kopija.

Pakaitinio vertimo generavimas

Kai pirminis sakinys yra dviprasmiškos lyties, tikriname mūsų vertimo sistemos išvestį, kad nuspręstume, ar įmanoma alternatyvi lyties interpretacija. Jei taip, toliau nustatome, kaip geriausiai pataisyti vertimą. Pradedame nuo to, kad, perrašydami originalo vertimą, sudarome galimų tikslinių vertimų rinkinį. Taikome priklausomybės ryšiais pagrįstus kalbinius apribojimus, kad užtikrintume siūlomų alternatyvų nuoseklumą, ir pašaliname klaidingus kandidatus.

Tačiau daugeliu atvejų, net ir pritaikius mūsų apribojimus, lieka daugybė alternatyvaus vertimo su lytimi variantų. Norėdami nustatyti geriausią variantą, įvertiname kiekvieną kandidatą, skirdami jam balus pagal mūsų vertimo modelį. Pasinaudodami tuo, kad geras lyčių perrašymas taip pat bus tikslus pirminio sakinio vertimas, galime užtikrinti aukštą galutinio rezultato tikslumą.

Sistemos, skirtos lyčių pakartotiniam atspindėjimui, projektavimas
Sistemos dizaino schema, kurioje pavaizduota lyčių pakartotinio atspindėjimo sistema.

Valdomų internetinių galinių taškų naudojimas "Azure Machine Learning

"Bing" lyčių alternatyvos funkcija yra patalpinta valdomi internetiniai galiniai taškai "Azure Machine Learning". Valdomi internetiniai galiniai taškai suteikia vieningą sąsają, skirtą "Microsoft" valdomų modelių diegimui "Microsoft" valdomuose kompiuteriuose inicijuoti ir valdyti. Jos leidžia pasinaudoti keičiamo dydžio ir patikimumo galiniais taškais nesirūpinant infrastruktūros valdymu. Ši išvedimo aplinka taip pat leidžia apdoroti didelį skaičių užklausų su mažu vėlavimu. Mūsų galimybės kurti ir diegti lyties debias paslaugą su naujausiais karkasais ir technologijomis labai pagerėjo naudojant valdomas inferencijos funkcijas "Azure Machine Learning". Naudodamiesi šiomis funkcijomis galėjome išlaikyti mažą COGS (parduotų prekių savikainą) ir užtikrinti paprastą saugumo ir privatumo reikalavimų laikymąsi.

Kaip galite prisidėti?

Siekdami palengvinti pažangą mažinant lyčių paklaidą MT, skelbiame testinį korpusą, kuriame yra vertimo iš anglų kalbos į ispanų, prancūzų ir italų kalbas pavyzdžių. Prie kiekvieno angliško pradinio sakinio pridedami keli vertimai, apimantys visus galimus lyčių variantus.

Mūsų testų rinkinys sudarytas taip, kad būtų sudėtingas, morfologiškai turtingas ir lingvistiškai įvairus. Šis korpusas buvo labai svarbus mūsų kūrimo procese. Jį sukurti padėjo dvikalbiai lingvistai, turintys didelę vertimo patirtį. Taip pat išleidžiame techninį dokumentą, kuriame išsamiai aptariamas testų korpusas ir vertinimo metodika bei priemonės.

GATE: lyčių požiūriu dviprasmiškų vertimo pavyzdžių uždavinys - dokumentas

GATE: Lyčių lygybės vertimo pavyzdžių rinkinys - testų rinkinys

Kelias į priekį

Šiuo darbu siekiame pagerinti MT rezultatų kokybę dviprasmiškų šaltinių lyčių atvejais, taip pat palengvinti geresnių ir labiau įtraukiančių natūralios kalbos apdorojimo (NLP) priemonių kūrimą apskritai. Mūsų pradinė versija skirta versti iš anglų kalbos į ispanų, prancūzų ir italų kalbas. Ateityje planuojame išplėsti šią sritį ir įtraukti naujas kalbų poras, taip pat aprėpti papildomus scenarijus ir šališkumo tipus.

kreditai:

Ranjita Naik, Spencer Rarrick, Sundar Poudel, Varun Mathur, Jeshwanth Kumar Chandrala, Charan Mohan, Lee Schwartz, Steven Nguyen, Amit Bhagwat, Vishal Chowdhary.