Microsoft Translator objavio književni kineski prijevod

Posted on 25. avgusta 202130. avgusta 2021by Microsoft Prevodilac

Prilikom čitanja drevni Kineski poezije, često se čudimo vrlo divnim riječima koje su stari pisci mogli koristiti za opisivanje ljudi, događaja, objekata i scena. Ovo je veličanstveno kulturno blago koje nam je ostalo. Međutim, slično kao i Shakespeare'stihove na engleskom jeziku, književni kineski koji koriste ovi pjesnici često je modernim ljudima teško razumjeti, a značenja i suptilnosti ugrađene u njega često se gube.

Da bi riješili ovaj problem, istraživači iz Microsoft Research Asia usvojili su najnovije tehnike neuronskog strojnog prevođenja za obuku modela direktnog prevođenja između književnog kineskog i modernog kineskog jezika, što također rezultira stvaranjem prevodilačkih mogućnosti između književnog kineskog i više od 90 drugih jezika i dijalekti u Microsoft Translator -u. Trenutno je književni kineski prijevod integriran u Microsoft Prevodilac aplikaciju, Azure kognitivne usluge prevodilac, i brojni Microsoft proizvodi koje podržavaju usluge Microsoft Translator.

Slika: Slika iz "Zapadne planine u maglovitoj kiši", Shen Zhou, dinastija Ming. Drevna kineska pjesma na slici potiče iz Yong Liu, sjeverna dinastija Song. Pjesma prikazuje proljetne krajolike u južnoj Kini za vrijeme Qingming festivala i prosperitet društvenog života.

Omogućavanje većem broju ljudi da cijene šarm tradicionalne kineske kulture

Književni kineski je važan nosilac tradicionalne kineske kulture. Obimne knjige i tekstovi iz davnih vremena bilježe Kinu'bogata i duboka kultura u posljednjih pet hiljada godina. Misli i mudrost akumulirane i sadržane u njima vrijedne su stalnog istraživanja i razmišljanja.

Uz pomoć strojnog prevođenja, turisti sada mogu razumjeti drevne kineske tekstove i pjesme napisane na povijesnim zgradama i spomenicima, studenti sada imaju dodatni alat koji im pomaže u učenju kineskog, a istraživači koji se bave prikupljanjem i prevođenjem drevnih tekstova mogu biti produktivniji .

Dongdong Zhang, glavni istraživač u Microsoft Research Asia, rekao je: „S tehničke perspektive, književni kineski se može smatrati zasebnim jezikom. Jednom kada se ostvari prijevod između književnog kineskog i modernog kineskog jezika, prijevod između književnog kineskog i drugih jezika, poput engleskog, francuskog i njemačkog, postaje sasvim normalno. ”

Najveća poteškoća literarnog kineskog prijevodnog AI modela: Mali podaci o obuci

Najkritičniji element treninga AI modela su podaci. Samo kada je količina podataka dovoljno velika i njegov kvalitet dovoljno visok Može ti trenirati precizniji model. U mašinskom prevođenju, za obuku modela potrebni su dvojezični podaci: izvorni tekstualni podaci i podaci o ciljnom jeziku. Prijevod književnog kineskog jezika je vrlo poseban, kao što'nije jezik koji se koristi u svakodnevnom životu. Stoga su, u usporedbi s prevođenjem drugih jezika, podaci o obuci književnog kineskog prijevoda vrlo mali, što nije pogodno za obuku modela strojnog prevođenja.

Iako su istraživači Microsoftovog istraživanja u Aziji u ranim fazama prikupili mnogo javno dostupnih literarnih i modernih kineskih podataka, izvorni se podaci ne mogu izravno koristiti. Potrebno je provesti čišćenje podataka za normalizaciju podataka iz različitih izvora, različitih formata, kao i pune širine/interpunkcije na pola širine, kao sredstvo za smanjenje smetnji nevažećih podataka u obuci modela. Na ovaj način se dodatno smanjuju stvarni dostupni visokokvalitetni podaci.

Prema Shuming Ma, istraživaču iz Microsoftovog istraživačkog centra Azija, kako bi smanjili problem oskudnosti podataka, istraživači su proveli veliku količinu rada na sintezi i povećanju podataka, uključujući:

Prvo, zajednički karakter– bazirano poravnanje i proširenje radi povećanja veličine podataka za obuku. Razlicito od prijevodi između kineskog i drugih jezika, poput engleskog, francuskog, ruskog itd., književni kineski i moderni kineski koriste isti skup znakova. Iskorištavajući ovu značajku, istraživači iz Microsoftovog istraživačkog centra Azija koristili su inovativne algoritme kako bi omogućili mašinskom prevođenju da se prisjeti uobičajenih znakova, izvrši prirodno poravnanje, a zatim se dodatno proširi na riječi, fraze i kratke rečenice, sintetizirajući tako veliku količinu upotrebljivih podataka.

Drugo, deformirajte strukturu rečenice kako biste poboljšali robusnost strojnog prevođenja. U vezi pauze u tekstovima i pjesmama, istraživači su dodali brojne varijante kako bi mašine učinile sveobuhvatnijim učenje starih pjesama. Za ljude, čak i kad vide rečenicu koja je abnormalno strukturirana, kao što je pjesma segmentirana u redove zasnovane na ritmu, a ne na cijelim rečenicama, oni i dalje mogu sastaviti dijelove i razumjeti je. Ali za prijevodni model koji nikada prije nije vidio takvu segmentaciju, vjerojatno će biti zbunjen. Stoga, transformacija formata podataka ne može samo povećati količinu podataka o obuci, već i poboljšati robusnost obuke po modelu prevođenja.

Treće, provedite tradicionalnu i pojednostavljenu obuku prevođenja znakova kako biste povećali prilagodljivost modela. U kineskom jeziku tradicionalni znakovi postoje i u književnom i u modernom kineskom. Kada su istraživači obučavali model, kako bi poboljšali prilagodljivost modela, ne samo da su koristili podatke na pojednostavljenom kineskom, već su dodali i podatke na tradicionalnom kineskom, kao i podatke pomiješane s tradicionalnim i pojednostavljenim znakovima. Dakle, model može razumjeti i tradicionalne i pojednostavljene sadržaje, što dovodi do preciznijih rezultata prijevoda.

Četvrto, povećati obučenost stranih jezika radi poboljšanja tačnosti prevoda. Prilikom prevođenja modernog kineskog na književni kineski, često postoje moderne riječi izvedene iz riječi na stranom jeziku i novih riječi koje se nikada nisu pojavile u starom kineskom, poput "Microsoft", "računalo", "brza željeznica" i mnoge druge volim to. Kako bi se pozabavili ovim pitanjem, istraživači su obučili mali model za prepoznavanje entiteta. Model je prvo preveo značenje riječi izvan entiteta, a zatim ga ponovo ispunio kako bi osigurao tačnost stroja's obrada stranih riječi.

Slika: TOn književni kineski proces prevođenja

Osim toga, za neformalne stilove pisanja, kao što su blogovi, forumi, Weibo itd., Model strojnog prevođenja posebno je osposobljen za dodatno poboljšanje robusnosti prijevoda između modernog i književnog kineskog.

Dongdong Zhang je izrazio: „Na osnovu trenutnog sistema prevođenja, nastavićemo da obogaćujemo skup podataka i poboljšavamo metod obuke modela kako bismo ga učinili robusnijim i svestranijim. U budućnosti se ova metoda ne može koristiti samo za književno prevođenje kineskog jezika, već se može proširiti i na druge scenarije primjene. ”

Microsoft blog za prevodjenje