Je to v nádeji
Prekladateľ
Táto stránka bola automaticky preložená službou Prekladač strojového prekladu spoločnosti Microsoft. Dozvedieť sa viac

Microsoft prekladateľ blog

Rodovo podmienené preklady Bing riešia predsudky v preklade

Odstránenie rodovej zaujatosti
3D vykreslenie rodových symbolov.

S radosťou vám oznamujeme, že od dnešného dňa sú pri preklade z angličtiny do španielčiny, francúzštiny alebo taliančiny k dispozícii alternatívne preklady mužského a ženského rodu. Túto novú funkciu si môžete vyskúšať v oboch Vyhľadávanie Bing A Prekladač Bing vertikálne.

Za posledných niekoľko rokov sa v oblasti strojového prekladu (MT) uskutočnila revolúcia vďaka príchodu transformačných modelov, čo viedlo k obrovskému zlepšeniu kvality. Modely optimalizované na zachytenie štatistických vlastností údajov zozbieraných z reálneho sveta sa však neúmyselne učia alebo dokonca posilňujú sociálne predsudky, ktoré sa v týchto údajoch nachádzajú.

Naše najnovšie vydanie je krokom k zníženiu jednej z týchto predpojatostí, konkrétne rodovej predpojatosti, ktorá je v systémoch MT rozšírená. Bing Translator vždy vytvoril pre vstupnú vetu jeden preklad, aj keď preklad mohol mať iné rodové varianty vrátane ženského a mužského rodu. V súlade s Zásady zodpovednej umelej inteligencie spoločnosti Microsoft, chceme zabezpečiť, aby sme poskytovali správne alternatívne preklady a aby sme boli inkluzívnejší pre všetky pohlavia. V rámci tejto cesty je naším prvým krokom poskytnúť varianty prekladu v ženskom a mužskom rode.

Rod sa v rôznych jazykoch vyjadruje rôzne. Napríklad v angličtine sa slovo právnik môže vzťahovať na muža alebo ženu, ale v španielčine, abogada by sa vzťahoval na právničku, zatiaľ čo abogado by sa vzťahoval na muža. Pri absencii informácií o rode podstatného mena ako "právnik" v zdrojovej vete sa MT modely môžu uchýliť k výberu ľubovoľného rodu pre podstatné meno v cieľovom jazyku. Často je toto ľubovoľné priradenie pohlavia v súlade so stereotypmi, čo udržiava škodlivé spoločenské predsudky (Stanovsky a kol., 2019; Ciora a kol., 2021) a vedie k prekladom, ktoré nie sú úplne presné.

V nasledujúcom príklade si môžete všimnúť, že pri preklade rodovo neutrálnych viet z angličtiny do španielčiny sa preložený text riadi stereotypnou rodovou rolou, t. j. právnik je preložený ako muž.

Preklad s rodovou predpojatosťou
Snímka obrazovky prekladu anglického textu "Let's get our lawyer's opinion on this issue." do španielčiny s rodovými predsudkami.

Keďže vo východiskovej vete nie je žiadny kontext, ktorý by naznačoval pohlavie právnika, platný by bol preklad s predpokladom, že ide o právnika mužského alebo ženského pohlavia. Teraz Bing Translator vytvára preklady s ženským aj mužským rodom.

Preklad rodovo nejednoznačného anglického textu do španielčiny
Snímka obrazovky prekladu anglického textu "Let's get our lawyer's opinion on this issue." do španielčiny s rodovo špecifickým prekladom.

Návrh systému

Naším cieľom bolo navrhnúť náš systém tak, aby spĺňal nasledujúce kľúčové kritériá poskytovania rodových alternatív:

  1. Varianty pre ženský a mužský rod by sa mali líšiť len minimálne, okrem tých, ktoré sú potrebné na vyjadrenie rodu.
  2. Chceli sme pokryť širokú škálu viet, v ktorých je možné použiť viacero rodových alternatív.
  3. Chceli sme zabezpečiť, aby preklady zachovali význam pôvodnej východiskovej vety.

Zisťovanie nejednoznačnosti pohlavia

Na presné odhalenie rodovej nejednoznačnosti v zdrojovom texte využívame koreferenčný model na analýzu vstupov obsahujúcich animálne podstatné mená. Ak napríklad daný vstupný text obsahuje rodovo neutrálne profesijné slovo, chceme preň poskytnúť rodové alternatívy len vtedy, keď sa jeho rod nedá určiť na základe iných informácií vo vete. Napríklad: Pri preklade anglickej vety "The lawyer met her driver at the hotel lobby." do francúzštiny môžeme určiť, že právnička je žena, zatiaľ čo rod vodiča je neznámy.

Preklad rodovo nejednoznačného anglického textu do francúzštiny
Screenshot prekladu anglického textu "The lawyer met her driver at the hotel lobby." do francúzštiny.

Generovanie náhradného prekladu

Ak je zdrojová veta nejednoznačne rodovo označená, preskúmame výstup nášho prekladového systému a rozhodneme, či je možná alternatívna rodová interpretácia. Ak áno, pristúpime k určeniu najlepšieho spôsobu revízie prekladu. Začneme zostavením súboru kandidátskych cieľových prekladov prepísaním pôvodného prekladu. Aplikujeme jazykové obmedzenia založené na závislostných vzťahoch, aby sme zabezpečili konzistentnosť navrhovaných alternatív a vyradili chybných kandidátov.

V mnohých prípadoch nám však aj po uplatnení našich obmedzení zostáva viacero kandidátov na prepis rodového alternatívneho prekladu. Aby sme určili najlepšiu možnosť, vyhodnotíme každý kandidátsky prepis pomocou nášho prekladového modelu. Využitím skutočnosti, že dobrý rodový prepis bude zároveň presným prekladom zdrojovej vety, dokážeme zabezpečiť vysokú presnosť nášho konečného výstupu.

Návrh systému opätovnej reflexie pohlavia
Schéma znázorňujúca návrh systému opätovnej reflexie pohlavia.

Využitie spravovaných koncových bodov online v Azure Machine Learning

Rodová alternatíva v službe Bing je umiestnená na spravované koncové body online v Azure Machine Learning. Spravované online koncové body poskytujú jednotné rozhranie na vyvolanie a správu nasadenia modelov na počítači spravovanom spoločnosťou Microsoft na kľúč. Umožňujú nám využívať výhody škálovateľných a spoľahlivých koncových bodov bez toho, aby sme sa museli starať o správu infraštruktúry. Toto inferenčné prostredie umožňuje aj spracovanie veľkého počtu požiadaviek s nízkou latenciou. Naša schopnosť vytvárať a nasadzovať službu gender debias s najnovšími rámcami a technológiami sa výrazne zlepšila vďaka využívaniu funkcií riadenej inferencie v Azure Machine Learning. Využitím týchto funkcií sa nám podarilo udržať nízke COGS (Cost of Goods Sold - náklady na predaný tovar) a zabezpečiť priame dodržiavanie bezpečnosti a ochrany osobných údajov.

Ako môžete prispieť?

S cieľom uľahčiť pokrok v oblasti znižovania rodovej zaujatosti v MT vydávame testovací korpus obsahujúci príklady rodovo jednoznačného prekladu z angličtiny do španielčiny, francúzštiny a taliančiny. Každá anglická zdrojová veta je sprevádzaná viacerými prekladmi, ktoré pokrývajú všetky možné rodové varianty.

Náš testovací súbor je zostavený tak, aby bol náročný, morfologicky bohatý a jazykovo rôznorodý. Tento korpus nám pomohol v procese vývoja. Bol vytvorený s pomocou dvojjazyčných lingvistov s významnými prekladateľskými skúsenosťami. Vydávame aj technický dokument, ktorý podrobne rozoberá testovací korpus a metodiku a nástroje na vyhodnotenie.

GATE: Súbor úloh pre rodovo nejednoznačné príklady na preklad - dokument

GATE: Súbor úloh pre rodovo nejednoznačné príklady na preklad - testovací súbor

Cesta vpred

Prostredníctvom tejto práce sa snažíme zlepšiť kvalitu výstupov MT v prípadoch nejednoznačného zdrojového rodu, ako aj uľahčiť vývoj lepších a inkluzívnejších nástrojov na spracovanie prirodzeného jazyka (NLP) vo všeobecnosti. Naša úvodná verzia sa zameriava na preklad z angličtiny do španielčiny, francúzštiny a taliančiny. V budúcnosti plánujeme rozšíriť túto oblasť na nové jazykové páry, ako aj pokryť ďalšie scenáre a typy skreslení.

Kredity:

Ranjita Naik, Spencer Rarrick, Sundar Poudel, Varun Mathur, Jeshwanth Kumar Chandrala, Charan Mohan, Lee Schwartz, Steven Nguyen, Amit Bhagwat, Vishal Chowdhary.