Microsoft Translator gir ut litterær kinesisk oversettelse

postet på 25. august 202130. august 2021av Microsoft Translator

Når du leser gammel Kinesisk poesi, vi undrer oss ofte over de helt fantastiske ordene gamle forfattere kunne bruke for å beskrive mennesker, hendelser, objekter og scener. Dette er en fantastisk kulturskatt som har blitt etterlatt for oss. Imidlertid lik Shakespeare's vers på det engelske språket, er den litterære kineseren som brukes av disse poeterne ofte vanskelig for moderne mennesker å forstå, og betydningen og finessene som er innebygd i den, går ofte tapt.

For å løse dette problemet har forskere ved Microsoft Research Asia vedtatt de nyeste nevrale teknikkene for maskinoversettelse for å trene direkte oversettelsesmodeller mellom litterær kinesisk og moderne kinesisk, noe som også resulterer i å skape oversettelsesmuligheter mellom litterær kinesisk og mer enn 90 andre språk og dialekter i Microsoft Translator. For tiden har litterær kinesisk oversettelse blitt integrert i Microsoft Translator app, Azure Cognitive Services Oversetter, og en rekke Microsoft -produkter som støttes av Microsoft Translator -tjenester.

Bilde: Maleriet fra "West Mountain in Misty Rain" av Shen Zhou, Ming -dynastiet. Det gamle kinesiske diktet på maleriet er fra Yong Liu, Northern Song -dynastiet. Diktet skildrer vårlandskapet i Sør -Kina under Qingming -festivalen og velstanden i det sosiale livet.

Gjør det mulig for flere mennesker å sette pris på sjarmen til tradisjonell kinesisk kultur

Litterær kinesisk er en viktig bærer av tradisjonell kinesisk kultur. Omfattende bøker og tekster fra antikken har registrert Kina's rike og dype kultur de siste fem tusen årene. Tankene og visdommen som er akkumulert og inneholdt i dem, er verdig til kontinuerlig utforskning og tenkning.

Ved hjelp av maskinoversettelse kan turister nå forstå gamle kinesiske tekster og dikt skrevet på historiske bygninger og monumenter, studentene har nå et ekstra verktøy for å lære dem kinesisk, og forskere som er engasjert i å samle og oversette gamle tekster kan være mer produktive .

Dongdong Zhang, hovedforsker ved Microsoft Research Asia, sa: "Fra et teknisk perspektiv kan litterær kinesisk betraktes som et eget språk. Når oversettelsen mellom litterær kinesisk og moderne kinesisk er realisert, blir oversettelsen mellom litterær kinesisk og andre språk som engelsk, fransk og tysk en selvfølge. ”

Største vanskeligheten med litterær kinesisk oversettelse AI -modell: Lite opplæringsdata

Det mest kritiske elementet i AI -modellopplæring er data. Bare når datavolumet er stort nok og kvaliteten høy nok Kan Du trene en mer nøyaktig modell. I maskinoversettelse krever opplæringen av modellen tospråklige data: originale tekstdata og målspråkdata. Oversettelsen av litterær kinesisk er veldig spesiell, som det 'er ikke et språk som brukes i dagliglivet. Derfor, sammenlignet med oversettelse av andre språk, er treningsdataene for litterær kinesisk oversettelse veldig små, noe som ikke bidrar til opplæring av maskinoversettelsesmodeller.

Selv om forskere fra Microsoft Research Asia samlet mange offentlig tilgjengelige litterære og moderne kinesiske data i de tidlige stadiene, kan de originale dataene ikke brukes direkte. Datarensing må utføres for å normalisere data fra forskjellige kilder, forskjellige formater, samt fullbredde/skilletegn i halv bredde, som et middel for å minimere forstyrrelsen av ugyldige data på modellopplæring. På denne måten reduseres de faktiske tilgjengelige dataene av høy kvalitet ytterligere.

Ifølge Shuming Ma, en forsker ved Microsoft Research Asia, har forskere gjennomført en stor mengde datasyntese og forstørrelsesarbeid, inkludert:

Først felles karakter– basert justering og utvidelse for å øke størrelsen på treningsdata. Annerledes enn oversettelser mellom kinesisk og andre språk som engelsk, fransk, russisk, etc., litterær kinesisk og moderne kinesisk bruker det samme tegnsettet. Ved å dra nytte av denne funksjonen har forskere ved Microsoft Research Asia brukt innovative algoritmer for å la maskinoversettelse huske vanlige tegn, utføre naturlig justering og deretter utvide til ord, fraser og korte setninger, og derved syntetisere en stor mengde brukbare data.

For det andre, deformere setningsstrukturen for å forbedre robustheten til maskinoversettelse. Angående brudd i tekster og dikt, har forskere lagt til en rekke varianter for å gjøre maskiner mer omfattende for å lære gamle dikt. For mennesker, selv når de ser en setning som er strukturert unormalt, for eksempel et dikt segmentert i linjer basert på rytme i stedet for fulle setninger, kan de fortsatt sette delene sammen og forstå det. Men for en oversettelsesmodell som aldri har sett slik segmentering før, vil det sannsynligvis være forvirret. Derfor kan transformasjon av dataformat ikke bare utvide mengden treningsdata, men også forbedre robustheten i oversettelsesmodellopplæringen.

For det tredje, gjennomfør tradisjonell og forenklet tegnoversettelsestrening for å øke modelltilpasningsevnen. På kinesisk eksisterer tradisjonelle tegn både i litterær og moderne kinesisk. Når forskere trente modellen, for å forbedre modellens tilpasningsevne, utnyttet de ikke bare data på forenklet kinesisk, men la også til data på tradisjonell kinesisk, samt data blandet med tradisjonelle og forenklede tegn. Dermed kan modellen forstå både det tradisjonelle og forenklede innholdet, noe som fører til mer nøyaktige oversettelsesresultater.

For det fjerde, øke opplæringen av fremmedspråklige ord for å forbedre nøyaktigheten av oversettelsen. Når man oversetter moderne kinesisk til litterær kinesisk, er det ofte moderne ord som stammer fra fremmedspråklige ord og nye ord som aldri har dukket opp på gammel kinesisk, for eksempel "Microsoft", "datamaskin", "høyhastighetsjernbane" og mange andre liker det. For å håndtere dette problemet trente forskere en liten modell for å gjenkjenne enheter. Modellen oversatte først betydningen av ordet utenfor enheten, og fylte deretter enheten tilbake for å sikre maskinens nøyaktighet's behandling av fremmedordene.

Bilde: THan litterær kinesisk oversettelsesprosess

I tillegg, for uformelle skrivestiler som blogger, fora, Weibo og så videre, har maskinoversettelsesmodellen blitt spesielt opplært for å forbedre oversettelsens robusthet mellom moderne og litterær kinesisk.

Dongdong Zhang uttrykte: “Basert på det nåværende oversettelsessystemet, vil vi fortsette å berike datasettet og forbedre modellopplæringsmetoden for å gjøre den mer robust og allsidig. I fremtiden kan metoden ikke bare brukes til litterær kinesisk oversettelse, men kan også utvides til andre applikasjonsscenarier. ”

Microsoft oversetter blogg