Overslaan naar hoofdinhoud
Translator
Deze pagina is automatisch vertaald door de machine vertaalservice van Microsoft Translator. Meer informatie

Microsoft Translator Blog

Microsoft Translator brengt literaire Chinese vertaling uit

Bij het lezen antiek Chinees poëzie, verbazen we ons vaak over de zeer prachtige woorden die oude schrijvers kunnen gebruiken om mensen, gebeurtenissen, objecten en scènes te beschrijven. Dit is een prachtige culturele schat die voor ons is achtergelaten. Echter, vergelijkbaar met Shakespeare's verzen in de Engelse taal, de literaire Chinees gebruikt door deze dichters is vaak moeilijk te begrijpen voor de moderne mensen, en de betekenissen en subtiliteiten ingebed in het zijn vaak verloren.  

Om dit probleem op te lossen, hebben onderzoekers van Microsoft Research Asia de nieuwste neurale machinevertalingstechnieken gebruikt om directe vertaalmodellen tussen literair Chinees en modern Chinees te trainen, wat ook resulteert in het creëren van vertaalmogelijkheden tussen literair Chinees en meer dan 90 andere talen en dialecten in Microsoft Translator. Momenteel is literaire Chinese vertaling geïntegreerd in de Microsoft Translator app, Azure Cognitive Services Translatoren een aantal Microsoft-producten die worden ondersteund door Microsoft Translator-services. 

Afbeelding: Het schilderij van "West Mountain in Misty Rain" door Shen Zhou, Ming Dynasty. Het oude Chinese gedicht op het schilderij is van Yong Liu, Noordelijke Song Dynastie. Het gedicht toont het lentelandschap in het zuiden van China tijdens het Qingming Festival en de welvaart van het sociale leven.

Waardoor meer mensen de charme van de traditionele Chinese cultuur kunnen waarderen 

Literair Chinees is een belangrijke drager van de traditionele Chinese cultuur. Volumineuze boeken en teksten uit de oudheid hebben China vastgelegd'de rijke en diepgaande cultuur van de afgelopen vijfduizend jaar. De gedachten en wijsheid die erin zijn verzameld en vervat, zijn het waard om voortdurend te worden onderzocht en te denken.  

Met behulp van machinevertaling kunnen toeristen nu oude Chinese teksten en gedichten begrijpen die op historische gebouwen en monumenten zijn geschreven, studenten hebben nu een extra hulpmiddel om hen te helpen Chinees te leren, en onderzoekers die zich bezighouden met het verzamelen en vertalen van oude teksten kunnen productiever zijn.     

Dongdong Zhang, hoofdonderzoeker bij Microsoft Research Asia, zei: "Vanuit een technisch perspectief kan literair Chinees worden beschouwd als een aparte taal. Zodra de vertaling tussen literair Chinees en modern Chinees is gerealiseerd, wordt de vertaling tussen literair Chinees en andere talen zoals Engels, Frans en Duits een vanzelfsprekendheid."  

Grootste moeilijkheid van literair Chinees vertaal AI-model: weinig trainingsgegevens 

Het meest kritieke element van AI-modeltraining is data. Alleen als het gegevensvolume groot genoeg is en de kwaliteit hoog genoeg is can U een nauwkeuriger model trainen. Bij machinevertaling vereist de training van het model tweetalige gegevens: originele tekstgegevens en doeltaalgegevens. De vertaling van literair Chinees is heel bijzonder, als het'is geen taal die in het dagelijks leven wordt gebruikt.  Daarom zijn de opleidingsgegevens van literaire Chinese vertalingen, in vergelijking met de vertaling van andere talen, erg klein, wat niet bevorderlijk is voor de opleiding van machinevertalingsmodellen.   

Hoewel onderzoekers van Microsoft Research Asia in de beginfase veel openbaar beschikbare literaire en moderne Chinese gegevens verzamelden, kunnen de oorspronkelijke gegevens niet direct worden gebruikt. Gegevensreiniging moet worden uitgevoerd om gegevens uit verschillende bronnen, verschillende formaten en volledige breedte te normaliseren/leestekens van halve breedte, als middel om de interferentie van ongeldige gegevens op modeltraining te minimaliseren. Op deze manier worden de daadwerkelijk beschikbare hoogwaardige gegevens verder verminderd.  

Volgens Shuming Ma, een onderzoeker bij Microsoft Research Asia, hebben onderzoekers, om het probleem van de gegevensschaarste te verminderen, een grote hoeveelheid gegevenssynthese- en augmentatiewerk uitgevoerd, waaronder: 

Ten eerste, gemeenschappelijk karakter gebaseerde uitlijning en uitbreiding om de grootte van trainingsgegevens te vergroten. Anders dan vertalingen tussen Chinees en andere talen zoals Engels, Frans, Russisch, enz., literair Chinees en modern Chinees gebruiken dezelfde tekenset. Door gebruik te maken van deze functie hebben onderzoekers van Microsoft Research Asia innovatieve algoritmen gebruikt om machinevertalingen in staat te stellen veelvoorkomende tekens te herinneren, natuurlijke uitlijning uit te voeren en vervolgens verder uit te breiden naar woorden, zinnen en korte zinnen, waardoor een grote hoeveelheid bruikbare gegevens wordt gesynthetiseerd.  

Ten tweede, vervorm de zinsstructuur om de robuustheid van machinevertaling te verbeteren. Betreffende breuken in teksten en gedichten, onderzoekers hebben een aantal varianten toegevoegd om machines uitgebreider te maken in het leren van oude gedichten. Voor mensen, zelfs als ze een zin zien die abnormaal gestructureerd is, zoals een gedicht gesegmenteerd in regels op basis van ritme in plaats van volledige zinnen, kunnen ze de delen nog steeds in elkaar zetten en begrijpen. Maar voor een vertaalmodel dat nog nooit zo'n segmentatie heeft gezien, zal het waarschijnlijk in de war raken. Daarom kan transformatie van gegevensformaat niet alleen de hoeveelheid trainingsgegevens uitbreiden, maar ook de robuustheid van de vertaalmodeltraining verbeteren.  

Ten derde, voer traditionele en vereenvoudigde karaktervertalingstrainingen uit om het aanpassingsvermogen van modellen te vergroten. In het Chinees bestaan traditionele personages in zowel literair als modern Chinees. Toen onderzoekers het model trainden, om het aanpassingsvermogen van het model te verbeteren, maakten ze niet alleen gebruik van gegevens in vereenvoudigd Chinees, maar voegden ze ook gegevens toe in traditioneel Chinees, evenals gegevens gemengd met traditionele en vereenvoudigde tekens. Zo kan het model zowel de traditionele als de vereenvoudigde inhoud begrijpen, wat leidt tot nauwkeurigere vertaalresultaten.   

Ten vierde, verhoog de opleiding van woorden in vreemde talen om de nauwkeurigheid van vertalingen te verbeteren. Bij het vertalen van modern Chinees naar literair Chinees, zijn er vaak moderne woorden afgeleid van anderstalige woorden en nieuwe woorden die nooit in het oude Chinees zijn verschenen, zoals "Microsoft", "computer", "hogesnelheidstrein", en vele anderen vinden het leuk. Om dit probleem aan te pakken, trainden onderzoekers een klein model om entiteiten te herkennen. Het model vertaalde eerst de betekenis van het woord buiten de entiteit en vulde vervolgens de entiteit weer in om de nauwkeurigheid van de machine te garanderen's verwerking van de vreemde woorden.    

Afbeelding: THge literair Chinees vertaalproces

Daarnaast is voor informele schrijfstijlen zoals blogs, forums, Weibo, enzovoort, het machinevertalingsmodel speciaal getraind om de robuustheid van vertaling tussen modern en literair Chinees verder te verbeteren.  

Dongdong Zhang: "Op basis van het huidige vertaalsysteem zullen we de dataset blijven verrijken en de modeltrainingsmethode verbeteren om deze robuuster en veelzijdiger te maken. In de toekomst kan de methode niet alleen worden gebruikt voor literaire Chinese vertalingen, maar kan deze ook worden uitgebreid naar andere toepassingsscenario's."