Salt la conținutul principal
Translator
Această pagină a fost tradusă automat de serviciul de traducere automată Microsoft Translator. Aflați mai multe

Blogul Microsoft Translator

Microsoft Translator lansează traducere literară chineză

Când citiți antic Chineză poezie, ne minunăm adesea de cuvintele foarte minunate pe care scriitorii antici le-ar putea folosi pentru a descrie oameni, evenimente, obiecte și scene. Aceasta este o comoară culturală splendidă care a fost lăsată în urmă pentru noi. Cu toate acestea, similar cu Shakespeare'versurile în limba engleză, chineza literară folosită de acești poeți este adesea dificil de înțeles pentru oamenii din zilele noastre, iar semnificațiile și subtilitățile încorporate în ea sunt adesea pierdute.  

Pentru a rezolva această problemă, cercetătorii de la Microsoft Research Asia au adoptat cele mai recente tehnici de traducere automată neuronală pentru a instrui modele de traducere directă între chineza literară și chineza modernă, ceea ce duce, de asemenea, la crearea capacităților de traducere între chineza literară și mai mult de 90 de alte limbi și dialecte în Microsoft Translator. În prezent, traducerea literară chineză a fost integrată în Microsoft Translator app, Translator de servicii cognitive Azureși o serie de produse Microsoft care sunt acceptate de serviciile Microsoft Translator. 

Imagine: Pictura din "West Mountain in Misty Rain" de Shen Zhou, dinastia Ming. Poemul antic chinezesc de pe pictură este de la Yong Liu, dinastia Song de Nord. Poemul descrie peisajul de primăvară din sudul Chinei în timpul Festivalului Qingming și prosperitatea vieții sociale.

Permițând mai multor oameni să aprecieze farmecul culturii tradiționale chineze 

Chineza literară este un purtător important al culturii tradiționale chineze. Cărți voluminoase și texte din cele mai vechi timpuri au înregistrat China'e cultură bogată și profundă în ultimii cinci mii de ani. Gândurile și înțelepciunea acumulate și conținute în ele sunt demne de explorare și gândire continuă.  

Cu ajutorul traducerii automate, turiștii pot înțelege acum textele și poeziile antice chinezești scrise pe clădiri și monumente istorice, studenții au acum un instrument suplimentar pentru a-i ajuta să învețe limba chineză, iar cercetătorii care sunt implicați în asamblarea și traducerea textelor antice pot fi mai productivi.     

Dongdong Zhang, cercetător principal la Microsoft Research Asia, a declarat: "Din punct de vedere tehnic, chineza literară poate fi privită ca o limbă separată. Odată realizată traducerea între chineza literară și chineza modernă, traducerea între chineza literară și alte limbi, ar fi engleza, franceza și germana, devine o chestiune de curs.  

Cea mai mare dificultate a modelului AI de traducere literară chineză: Puține date de instruire 

Cel mai important element al formării modelelor AI sunt datele. Numai atunci când volumul de date este suficient de mare și calitatea sa suficient de mare Cna tu antrenați un model mai precis. În traducerea automată, instruirea modelului necesită date bilingve: date text originale și date privind limba țintă. Traducerea chineza literară este foarte specială, ca ea'nu este un limbaj folosit în viața de zi cu zi.  Prin urmare, în comparație cu traducerea altor limbi, datele de formare ale traducerii literare chineze sunt foarte mici, ceea ce nu este favorabil formării modelelor de traducere automată.   

Deși cercetătorii Microsoft Research Asia au colectat o mulțime de date literare și moderne chinezești disponibile public în stadiile incipiente, datele originale nu pot fi utilizate direct. Curățarea datelor trebuie efectuată pentru a normaliza datele din diferite surse, diferite formate, precum și lățimea completă /semne de punctuație pe jumătate lățime, ca mijloc de a minimiza interferența datelor nevalide privind formarea modelelor. În acest fel, datele reale disponibile de înaltă calitate sunt reduse și mai mult.  

Potrivit lui Shuming Ma, cercetător la Microsoft Research Asia, pentru a reduce problema rarității datelor, cercetătorii au efectuat o cantitate mare de lucrări de sinteză și augmentare a datelor, inclusiv: 

În primul rând, caracterul comun alinierea și extinderea pe bază pentru a crește dimensiunea datelor de instruire. Diferit de traducerile între chineză și alte limbi, cum ar fi engleza, franceza, rusa etc., chineza literară și chineza modernă folosesc același set de caractere. Profitând de această caracteristică, cercetătorii de la Microsoft Research Asia au folosit algoritmi inovatori pentru a permite traducerii automate să reamintească caracterele comune, să efectueze alinierea naturală și apoi să se extindă în continuare la cuvinte, fraze și propoziții scurte, sintetizând astfel o cantitate mare de date utilizabile.  

În al doilea rând, deformați structura propoziției pentru a îmbunătăți robustețea traducerii automate. Cu referire la pauze în texte și poezii, cercetătorii au adăugat o serie de variante pentru a face mașinile mai cuprinzătoare în învățarea poemelor antice. Pentru oameni, chiar și atunci când văd o propoziție care este structurată anormal, ar fi o poezie segmentată în linii bazate pe ritm, mai degrabă decât propoziții complete, ei pot pune totuși părțile împreună și o pot înțelege. Dar pentru un model de traducere care nu a mai văzut niciodată o astfel de segmentare, probabil că va fi confuz. Prin urmare, transformarea formatului de date nu numai că poate extinde cantitatea de date de instruire, ci și poate îmbunătăți robustețea instruirii modelului de traducere.  

În al treilea rând, efectuați cursuri de formare tradiționale și simplificate de traducere a caracterelor pentru a crește adaptabilitatea modelului. În chineză, personajele tradiționale există atât în chineză literară, cât și în cea modernă. Când cercetătorii au instruit modelul, pentru a îmbunătăți adaptabilitatea modelului, ei nu numai că au utilizat date în chineză simplificată, ci au adăugat și date în chineză tradițională, precum și date amestecate cu caractere tradiționale și simplificate. Astfel, modelul poate înțelege atât conținutul tradițional, cât și conținutul simplificat, ceea ce duce la rezultate de traducere mai precise.   

În al patrulea rând, creșteți formarea cuvintelor în limbi străine pentru a îmbunătăți acuratețea traducerii. Atunci când traduceți chineza modernă în chineză literară, există adesea cuvinte moderne derivate din cuvinte în limbi străine și cuvinte noi care nu au apărut niciodată în chineză antică, cum ar fi "Microsoft", "computer", "cale ferată de mare viteză" și multe altele ca ea. Pentru a rezolva această problemă, cercetătorii au instruit un mic model pentru a recunoaște entitățile. Modelul a tradus mai întâi sensul cuvântului în afara entității, apoi a completat entitatea înapoi pentru a asigura acuratețea mașinii's prelucrarea cuvintelor străine.    

Imagine: TEl chineză literară procesul de traducere

În plus, pentru stilurile informale de scriere, ar fi blogurile, forumurile, Weibo și așa mai departe, modelul de traducere automată a fost instruit special pentru a îmbunătăți în continuare robustețea traducerii între chineza modernă și cea literară.  

Dongdong Zhang a exprimat: "Pe baza sistemului actual de traducere, vom continua să îmbogățim setul de date și să îmbunătățim metoda de instruire a modelului pentru a-l face mai robust și mai versatil. În viitor, metoda poate fi folosită nu numai pentru traducerea literară chineză, ci poate fi extinsă și la alte scenarii de aplicare."