Fara í aðalefni
Þýðandi
Þetta page hefur verið sjálfkrafa þýtt með því að Microsoft Þýðandi er vél þýðing þjónustu. Læra meira

Microsoft Þýðandi Blogg

Kynbundnar þýðingar Bing takast á við hlutdrægni í þýðingum

Kynjamisrétti
3D flutningur á kynjatáknum.

Við erum spennt að tilkynna að frá og með deginum í dag eru karlkyns og kvenlegar aðrar þýðingar í boði þegar þýtt er úr ensku yfir á spænsku, frönsku eða ítölsku. Þú getur prófað þennan nýja eiginleika í báðum Bing Leit og Bing Þýðandi lóðréttar.

Undanfarin ár hefur sviði vélþýðinga (MT) verið gjörbylt með tilkomu spennilíkana, sem leiðir til gífurlegra gæðabóta. Hins vegar voru líkön bjartsýni til að fanga tölfræðilega eiginleika gagna sem safnað er frá raunveruleikanum óvart læra eða jafnvel magna félagslega hlutdrægni sem finnast í þeim gögnum.

Nýjasta útgáfan okkar er skref í átt að því að draga úr einni af þessum hlutdrægni, sérstaklega kynjahlutdrægni sem er ríkjandi í MT kerfum. Bing Translator hefur alltaf gefið út eina þýðingu fyrir innsláttarsetningu, jafnvel þótt þýðingarnar hefðu getað haft annan kynjabreytileika, þ.m.t. kvenleg og karlmannleg afbrigði. Í samræmi við Meginreglur Microsoft um ábyrga gervigreind, viljum við tryggja að við bjóðum upp á réttar þýðingar og að allar kynin séu opnari. Sem hluti af þessari vegferð er fyrsta skrefið okkar að bjóða upp á kvenleg og karlmannleg þýðingarafbrigði.

Kyn er tjáð á mismunandi hátt á mismunandi tungumálum. Til dæmis, á ensku, gæti orðið lögfræðingur átt við annað hvort karl eða konu einstakling, en á spænsku, Abogada myndi vísa til kvenkyns lögfræðings, en Abogado myndi vísa til karlmanns. Ef ekki liggja fyrir upplýsingar um kyn nafnorðs eins og "lögfræðingur" í heimildarsetningu geta MT-líkön gripið til þess ráðs að velja handahófskennt kyn fyrir nafnorðið á markmálinu. Oft samræmast þessi handahófskenndu kynjaverkefni staðalímyndum og viðhalda skaðlegri samfélagslegri hlutdrægni (Stanovsky o.fl., 2019; Ciora o.fl., 2021) og leiðir til þýðinga sem eru ekki að fullu nákvæmar.

Í dæminu hér að neðan tekur þú eftir því að á meðan verið er að þýða kynhlutlausar setningar úr ensku yfir á spænsku fylgir þýddi textinn staðalímynduðu kynhlutverki, þ.e. lögfræðingur er þýddur sem karlkyns.

Þýðing með kynjamisrétti
Skjámynd af þýðingu á enskum texta "Við skulum fá álit lögfræðings okkar á þessu máli." á spænsku með kynjahlutdrægni.

Þar sem ekkert samhengi er í heimildarsetningunni sem felur í sér kyn lögmannsins væri bæði gilt að framleiða þýðingu með forsendu annað hvort karlkyns eða kvenkyns lögmanns. Nú framleiðir Bing Translator þýðingar með bæði kvenlegum og karlkyns formum.

Þýðing á tvíræðum enskum texta á spænsku
Skjámynd af þýðingu á enskum texta "Við skulum fá álit lögfræðings okkar á þessu máli." á spænsku með kynbundnar þýðingar.

Kerfishönnun

Við stefndum að því að hanna kerfið okkar þannig að það uppfylli eftirfarandi lykilviðmið til að bjóða upp á kynbundna valkosti:

  1. Kvenlegu og karlmannlegu afbrigðin ættu að hafa lágmarks mun nema þau sem þarf til að koma kyni á framfæri.
  2. Við vildum ná yfir margs konar setningar þar sem margir kynbundnir valkostir eru mögulegir.
  3. Við vildum tryggja að þýðingarnar varðveittu merkingu upprunalegu heimildarsetningarinnar.

Að greina tvíræðni kynjanna

Til þess að greina nákvæmlega tvíræðni kynjanna í frumtexta notum við coreference líkan til að greina inntak sem inniheldur lifandi nafnorð. Til dæmis, ef tiltekinn innsláttartexti inniheldur kynhlutlaust fagorð, viljum við aðeins bjóða upp á kynbundna valkosti fyrir það þegar ekki er hægt að ákvarða kyn þess út frá öðrum upplýsingum í setningunni. Til dæmis: Við þýðingu enskrar setningar "Lögfræðingurinn hitti bílstjórann sinn í anddyri hótelsins." á frönsku getum við ákvarðað að lögfræðingurinn sé kvenkyns en kyn bílstjórans er óþekkt.

Þýðing á tvíræðum enskum texta á frönsku
Skjámynd af þýðingu á enskum texta "Lögfræðingurinn hitti bílstjórann sinn í anddyri hótelsins." á frönsku.

Búa til aðra þýðingu

Þegar heimildarsetningin er tvíkynja kynbundin skoðum við niðurstöður þýðingarkerfisins til að ákveða hvort önnur kynjatúlkun sé möguleg. Ef svo er, höldum við áfram að ákvarða hvernig best sé að endurskoða þýðinguna. Við byrjum á því að smíða safn af þýðingar sem koma til greina með því að endurskrifa upprunalegu þýðinguna. Við beitum tungumálatakmörkunum sem byggjast á tengslum við ósjálfstæði til að tryggja samræmi í fyrirhuguðum valkostum og klippa ranga frambjóðendur.

Hins vegar, í mörgum tilfellum, jafnvel eftir að hafa beitt þvingunum okkar, sitjum við eftir með margar endurskrifanir frambjóðenda fyrir kynbundna aðra þýðingu. Til að ákvarða besta kostinn metum við hvern frambjóðanda með því að skora hann með þýðingarlíkaninu okkar. Með því að nýta þá staðreynd að góð kynjaumritun verður einnig nákvæm þýðing á heimildarsetningunni getum við tryggt mikla nákvæmni í lokaútkomu okkar.

Kerfishönnun kynleiðréttingar
Skýringarmynd sem sýnir kerfishönnun kynleiðréttingar.

Nýta stýrða endapunkta á netinu í Azure Machine Learning

Kynbundinn valkostur í Bing er hýstur á Stýrðir endapunktar á netinu í Azure Machine Learning. Stýrðar endastöðvar á netinu bjóða upp á sameinað viðmót til að kalla fram og stjórna uppsetningu líkana í útreikningum sem stjórnað er af Microsoft á afgerandi hátt. Þeir gera okkur kleift að nýta stigstærða og áreiðanlega endapunkta án þess að hafa áhyggjur af stjórnun innviða. Þetta ályktunarumhverfi gerir einnig kleift að vinna úr miklum fjölda beiðna með litla biðtíma. Geta okkar til að búa til og dreifa kynjaafritunarþjónustunni með nýjustu ramma og tækni hefur verið bætt til muna með því að nota stýrða ályktunareiginleika í Azure Machine Learning. Með því að nýta þessa eiginleika höfum við getað viðhaldið lágum COGS (kostnaður við seldar vörur) og tryggt einfalt öryggi og persónuvernd.

Hvernig getur þú lagt þitt af mörkum?

Til að auðvelda framfarir í minnkun kynjamisréttis í MT erum við að gefa út prófmálheild sem inniheldur kynjatvíræð þýðingardæmi úr ensku yfir á spænsku, frönsku og ítölsku. Hverri enskri heimildarsetningu fylgja margar þýðingar sem ná yfir hvern mögulegan kynjabreytileika.

Prófunarsettið okkar er smíðað til að vera krefjandi, formfræðilega ríkt og tungumálalega fjölbreytt. Þessi málheild hefur gegnt lykilhlutverki í þróunarferli okkar. Það var þróað með hjálp tvítyngdra málfræðinga með umtalsverða þýðingarreynslu. Við erum einnig að gefa út tæknilega grein sem fjallar ítarlega um prófmálheildina og aðferðafræði og verkfæri til mats.

GATE: Áskorun sett fyrir kynbundin tvíræð þýðingardæmi - pappír

GATE: Áskorunarsett fyrir kynjatvíræð þýðingardæmi - Prófunarsett

Slóð áfram

Með þessari vinnu stefnum við að því að bæta gæði MT framleiðslu þegar um er að ræða tvírætt upprunakyn, auk þess að auðvelda þróun betri og innihaldsríkari náttúrulegra tungumálavinnsluverkfæra (NLP) almennt. Upphafleg útgáfa okkar leggur áherslu á að þýða frá ensku yfir á spænsku, frönsku og ítölsku. Áfram ætlum við að stækka í ný tungumálapör, auk þess að fjalla um fleiri sviðsmyndir og tegundir hlutdrægni.

Nafnalisti:

Ranjita Naik, Spencer Rarrick, Sundar Poudel, Varun Mathur, Jeshwanth Kumar Chandrala, Charan Mohan, Lee Schwartz, Steven Nguyen, Amit Bhagwat, Vishal Chowdhary.