微軟翻譯發佈文學中文譯本

張貼在 2021年8月25日2021年8月30日由 Microsoft 線上翻譯

閱讀時古代中文詩歌，我們經常驚歎於古代作家用來描述人、事件、對象和場景的非常美妙的詞。這是留給我們的燦爛文化瑰寶。然而，類似於莎士比亞'這些詩人使用的漢語在英語中的詩句，常常是現代人難以理解的，其蘊含的含義和微妙之處也常常丟失。

為了解決這個問題，微軟亞洲研究院的研究人員採用了最新的神經機器翻譯技術，培養了中國文學與現代漢語之間的直接翻譯模式，同時也創造了中國文學與現代漢語之間的翻譯能力。超過90種其他語言和微軟翻譯的方言。目前，文學中文翻譯已融入微軟的翻譯應用程式, Azure 認知服務翻譯。，以及微軟翻譯服務支援的一些微軟產品。

圖為明代沈周《霧雨中的西山》畫作。畫中的中國古詩是從 永 劉，北宋。這首詩描繪了清明節期間中國南方的春風和社會生活的繁榮。

讓更多的人領略中國傳統文化的魅力

文學漢語是中國傳統文化的重要載體。古代大量的書籍和文字記錄了中國'五千年來豐富而深厚的文化底蘊。思想和智慧的積累和蘊含，值得不斷探索和思考。

在機器翻譯的説明下，遊客現在可以瞭解寫在歷史建築和古跡上的中國古代文字和詩歌，現在學生有了額外的工具來幫助他們學習漢語，從事古文字整理和翻譯的研究人員可以更有成效。

微軟亞洲研究院首席研究員張東東表示：「從技術角度來看，文學漢語可以看作是一種單獨的語言。一旦實現了文學漢語和現代漢語之間的翻譯，文學漢語與英語、法語、德語等其他語言之間的翻譯就成了理所當然的事情。

文學中文翻譯AI模型的最大難點：培訓數據少

AI 模型培訓的最關鍵要素是數據。只有當數據量足夠大，質量足夠高時可以你訓練一個更準確的模型。在機器翻譯中，模型的培訓需要雙語數據：原始文本數據和目標語言數據。文學中文的翻譯很特別, 因為它 '不是日常生活中使用的語言。因此，與其他語言的翻譯相比，文學漢語翻譯的訓練數據非常少，不利於機器翻譯模型的培養。

雖然微軟亞洲研究院的研究人員在早期階段收集了大量公開的文學和現代中文數據，但原始數據無法直接使用。需要進行數據清理，使來自不同來源、不同格式以及全寬度的數據正常化/半寬標點符號, 作為盡量減少模型培訓中無效數據干擾的一種手段。這樣，實際可用的高質量數據將進一步減少。

據微軟亞洲研究院研究員馬樹明介紹，為了減少數據稀疏問題，研究人員進行了大量的數據合成和擴增工作，包括：

首先，共同的性格– 基於對齊和擴展以增加培訓數據大小。 不同於中文與英語、法語、俄語等語言的翻譯，文學漢語和現代漢語使用相同的字元集。利用這一功能，微軟亞洲研究院的研究人員利用創新的演算法，使機器翻譯能夠回憶常見字元，進行自然對齊，然後進一步擴展到單詞、短語和短句，從而合成大量可用數據。

二是變形句結構，提高機器翻譯的穩健性。 關於在文本和詩歌的中斷，研究人員增加了一些變種，使機器在學習古詩更全面。對於人們來說，即使他們看到一個結構異常的句子，比如根據節奏而不是完整的句子分成幾行的詩句，他們仍然可以把部分放在一起並理解它。但對於一個以前從未見過這種細分的翻譯模型來說，它可能會感到困惑。因此，數據格式的轉換不僅可以擴大培訓數據的數量，還可以提高翻譯模型培訓的穩健性。

三是開展繁體字和簡體字翻譯培訓，提高模型適應性。 在漢語中，繁體字存在於文學和現代漢語中。當研究人員訓練模型時，為了提高模型的適應性，他們不僅利用了簡體中文的數據，還用繁體中文添加了數據，以及與繁體字和簡體字混合的數據。因此，模型可以理解傳統和簡化的內容，從而產生更準確的翻譯結果。

四是加大外語單詞培訓力度，提高翻譯精度。 在將現代漢語翻譯成文學漢語時，往往有一些現代詞源自外語單詞和新詞，這些詞語在古代漢語中從未出現過，如"微軟"、"計算機"、"高鐵"等。為了解決這個問題，研究人員訓練了一個小模型來識別實體。該模型首先在實體之外翻譯單詞的含義，然後將實體填回，以確保機器的準確性'處理外來詞。

圖片： T他古文翻譯過程

此外，對於博客、論壇、微博等非正式寫作方式，還專門培訓了機器翻譯模式，以進一步提高現代漢語和文學中文翻譯的穩健性。

"張東東表示，"在現有翻譯系統的基礎上，我們將繼續豐富數據集，改進模型培訓方法，使其更加穩健和多功能。將來，該方法不僅可用於文學中文翻譯，還可以擴展到其他應用場景。

微軟翻譯博客