Microsoft Translator släpper litterär kinesisk översättning

Bokförd på den 25 augusti 2021den 30 augusti 2021vid Microsoft Translator

När du läser forntida Kinesiska poesi, vi förundras ofta över de mycket underbara ord som forntida författare kan använda för att beskriva människor, händelser, föremål och scener. Detta är en fantastisk kulturskatt som har lämnats kvar för oss. Men liknar Shakespeare'verser i det engelska språket är de litterära kineser som används av dessa poeter ofta svåra för moderna människor att förstå, och de betydelser och subtiliteter som är inbäddade i det går ofta förlorade.

För att lösa detta problem antog forskare vid Microsoft Research Asia de senaste neurala maskinöversättningsteknikerna för att träna direkta översättningsmodeller mellan litterär kinesiska och moderna kineser, vilket också resulterar i att skapa översättningskapacitet mellan litterär kinesiska och mer än 90 andra språk och dialekter i Microsoft Translator. För närvarande har litterär kinesisk översättning integrerats i Microsoft Translator app, Azure Cognitive Services Översättareoch ett antal Microsoft-produkter som stöds av Microsoft Translator-tjänster.

Bild: Målningen från "West Mountain in Misty Rain" av Shen Zhou, Mingdynastin. Den antika kinesiska dikten om målningen är från Yong Liu, norra sångdynastin. Dikten skildrar vårlandskapet i södra Kina under Qingmingfestivalen och det sociala livets välstånd.

Gör det möjligt för fler att uppskatta charmen i traditionell kinesisk kultur

Litterär kinesiska är en viktig bärare av traditionell kinesisk kultur. Voluminösa böcker och texter från antiken har spelat in Kina'rika och djupa kultur under de senaste fem tusen åren. De tankar och visdom som ackumuleras och finns i dem är värda kontinuerlig utforskning och tänkande.

Med hjälp av maskinöversättning kan turister nu förstå antika kinesiska texter och dikter skrivna på historiska byggnader och monument, studenter har nu ett extra verktyg för att hjälpa dem att lära sig kinesiska, och forskare som är engagerade i att samla in och översätta antika texter kan vara mer produktiva.

Dongdong Zhang, en huvudforskare vid Microsoft Research Asia, sa: "Ur ett tekniskt perspektiv kan litterära kineser betraktas som ett separat språk. När översättningen mellan litterär kinesiska och modern kinesiska har förverkligats blir översättningen mellan litterära kinesiska och andra språk som engelska, franska och tyska en självklarhet."

Största svårigheten med litterär kinesisk översättning AI-modell: Lite träningsdata

Det mest kritiska inslaget i AI-modellutbildning är data. Endast när datavolymen är tillräckligt stor och kvaliteten tillräckligt hög Kan Du träna en mer exakt modell. I maskinöversättning kräver modellens utbildning tvåspråkiga data: ursprungliga textdata och målspråksdata. Översättningen av litterär kinesiska är mycket speciell, som det"det är inte ett språk som används i det dagliga livet. Jämfört med översättningen av andra språk är därför utbildningsdata för litterär kinesisk översättning mycket små, vilket inte bidrar till utbildning av maskinöversättningsmodeller.

Även om Microsoft Research Asia-forskare samlade in många offentligt tillgängliga litterära och moderna kinesiska data i de tidiga stadierna, kan de ursprungliga uppgifterna inte användas direkt. Datarengöring måste utföras för att normalisera data från olika källor, olika format samt full bredd/skiljetecken med halv bredd, som ett sätt att minimera störningar av ogiltiga data på modellutbildning. På så sätt minskas de faktiska tillgängliga uppgifterna av hög kvalitet ytterligare.

Enligt Shuming Ma, forskare vid Microsoft Research Asia, har forskare för att minska data sparseness-frågan genomfört en stor mängd datasyntes- och förstärkningsarbete, inklusive:

För det första, vanligt tecken– baserad anpassning och expansion för att öka träningsdatastorleken. Skiljer sig från översättningar mellan kinesiska och andra språk som engelska, franska, ryska, etc., litterär kinesiska och moderna kineser använder samma teckenuppsättning. Genom att dra nytta av den här funktionen har forskare vid Microsoft Research Asia använt innovativa algoritmer för att tillåta maskinöversättning att återkalla vanliga tecken, genomföra naturlig anpassning och sedan ytterligare expandera till ord, fraser och korta meningar och därigenom syntetisera en stor mängd användbara data.

För det andra deformerar du meningsstrukturen för att förbättra maskinöversättningens robusthet. Angående pauser i texter och dikter har forskare lagt till ett antal varianter för att göra maskiner mer omfattande i att lära sig antika dikter. För människor, även när de ser en mening som är strukturerad onormalt, till exempel en dikt segmenterad i rader baserade på rytm snarare än fullständiga meningar, kan de fortfarande sätta ihop delarna och förstå det. Men för en översättningsmodell som aldrig har sett en sådan segmentering tidigare kommer den sannolikt att bli förvirrad. Därför kan omvandling av dataformat inte bara utöka mängden träningsdata, utan också förbättra robustheten i översättningsmodellutbildningen.

För det tredje, genomföra traditionell och förenklad karaktärsöversättningsutbildning för att öka modellens anpassningsförmåga. På kinesiska finns traditionella karaktärer på både litterära och moderna kinesiska. När forskare tränade modellen, för att förbättra modellens anpassningsförmåga, utnyttjade de inte bara data på förenklad kinesiska, utan lade också till data på traditionell kinesiska, liksom data blandade med traditionella och förenklade tecken. Således kan modellen förstå både det traditionella och förenklade innehållet, vilket leder till mer exakta översättningsresultat.

För det fjärde, öka utbildningen av ord på främmande språk för att förbättra översättningens riktighet. När man översätter moderna kineser till litterär kinesiska finns det ofta moderna ord som härrör från främmande språkord och nya ord som aldrig har dykt upp på forntida kinesiska, till exempel "Microsoft", "dator", "höghastighetsjärnväg" och många andra gillar det. För att hantera denna fråga utbildade forskare en liten modell för att känna igen enheter. Modellen översatte först innebörden av ordet utanför entiteten och fyllde sedan i entiteten igen för att säkerställa maskinens noggrannhet'behandling av de främmande orden.

Bild: THan litterär kinesiska översättningsprocess

Dessutom, för informella skrivstilar som bloggar, forum, Weibo och så vidare, har maskinöversättningsmodellen utbildats specifikt för att ytterligare förbättra robustheten i översättningen mellan moderna och litterära kineser.

Dongdong Zhang uttryckte, "Baserat på det nuvarande översättningssystemet kommer vi att fortsätta att berika datauppsättningen och förbättra modellutbildningsmetoden för att göra den mer robust och mångsidig. I framtiden kan metoden inte bara användas för litterär kinesisk översättning, utan kan också utvidgas till andra applikationsscenarier."

Microsoft Translator blogg