跳轉至主要內容
線上翻譯

微軟翻譯博客

Azure AI 自定義翻譯器神經詞典:提供更高的術語翻譯品質 

今天,我們非常高興地宣佈發佈神經詞典,這是我們平臺翻譯品質的重大改進。在這篇博文中,我們將探討神經字典功能。

介紹  

神經詞典是我們的 動態詞典短語詞典 Azure AI Translator 中的功能。兩者都允許我們的用戶通過為特定術語或短語提供自己的翻譯來自定義翻譯輸出。我們之前的方法使用逐字詞典,這是一個精確的查找和替換操作。神經詞典通過讓機器翻譯模型調整術語和上下文以產生更流暢的翻譯,提高了可能包含一個或多個術語翻譯的句子的翻譯品質。同時,它保留了較高的術語翻譯準確性。  

以下英語-德語示例演示了在請求自定義術語翻譯時兩種方法之間的翻譯輸出差異: 

輸入:   Basic Knowledge of <mstrans:dictionary translation=”regelmäßiges Testen”>Periodic Maintenance</mstrans:dictionary>   
逐字詞典:   Grundkenntnisse der regelmäßig葉斯 測試zh 
神經詞典:   Grundkenntnisse 德斯 regelmäßigzh 測試ENS格式 

品質改進 

下圖說明瞭新功能對汽車行業中常見的公開術語測試集(https://aclanthology.org/2021.eacl-main.271)、健康 (https://aclanthology.org/2021.emnlp-main.477) 和 Covid-19 域 (https://aclanthology.org/2021.wmt-1.69) 使用我們的通用翻譯模型。 

我們還對自定義翻譯器平臺和神經詞典模型進行了一系列客戶評估。我們測量了有和沒有神經詞典擴展的模型之間客戶數據的翻譯品質提升。五家客戶參與其中,涵蓋不同業務領域的德語、西班牙文和法語。

下圖顯示了 彗星 在英語-德語、英語-西班牙文和英語-法語的教育領域;左邊是通用型號,右邊是定製型號。藍色色條表示沒有神經字典的一般翻譯品質,橙色色條表示使用神經字典的翻譯品質。這些是整個測試集的總體平均改進。對於包含一個或多個客戶字典條目的細分(介於 19% 和 63% 之間),改進高達 +6.3 到 +12.9 COMET 點。 

 支援的語言  

  • 目前可用(截至 2023 年 12 月 6 日):簡體中文、法語、德語、義大利語、日語、韓語、波蘭語、俄語、西班牙文和瑞典文 - 互譯英語。  
  • 我們將在未來添加更多內容。有關更新,請參閱 自定義翻譯器發行說明 

神經詞典的工作原理 

神經詞典在處理自定義術語翻譯時不採用精確的查找和替換操作。相反,它以最適合整個上下文的方式翻譯字典中的術語或短語。這意味著該術語可以變形或具有不同的大小寫,或者可以調整周圍的單詞,從而產生更流暢和連貫的翻譯。  

例如,假設我們有以下英語輸入句子,並將其翻譯成波蘭語,沒有任何字典短語,如下所示:  

輸入:   我們需要一個可以理解的快速解決方案。  
標準翻譯:   Potrzebujemy szybkiego rozwiązania, które będzie zrozumiałe.  

如果要確保“解決方案”被翻譯為”交替納蒂瓦“(英語中的”替代“),您可以添加動態字典註釋來實現:  

輸入:   We need a fast <mstrans:dictionary translation=”交替納蒂瓦“>solution</mstrans:dictionary> that will be understandable.  
逐字詞典:   Potrzebujemy szybki自我 交替納蒂瓦, który Będzie zrozumiały.  
神經詞典:   Potrzebujemy szybkiej 交替性王寅, któr一個 Będzie zrozumiał一個.  

由於違反了語法性別一致性,因此前一種方法產生的輸出不流暢。神經詞典通過 a) 對請求的替換進行屈折和 b) 在需要時更改周圍的單詞來產生流暢的輸出。在某些情況下,它還可以更改大小寫,如以下示例所示:  

輸入:   This company’s <mstrans:dictionary translation=”阿克切“>stock</mstrans:dictionary> is cheap.  
逐字詞典:   阿克切 泰吉·菲爾米 開玩笑 TA技術.  
神經詞典:   阿克恰 泰吉·菲爾米 TA技術.   

神經詞典期望以基本語法形式提供術語的請求翻譯。還支援多詞術語,並應作為名詞短語提供,即單詞不應獨立詞形化(例如,“愛沙尼亞議會選舉”將比“愛沙尼亞議會選舉”更好)。 

如何啟用神經詞典 

對於上面列出的所有受支持的語言,使用自定義翻譯器平臺的所有客戶都可以立即使用神經詞典 短語詞典.需要完整(或僅字典)自定義模型重新訓練才能啟用神經字典。 

 建議 

  1. 如果要確保在使用神經詞典時更頻繁地使用短語詞典條目,可以考慮以各種形式將短語條目與源部分一起添加。在上面的例子中,在“解決方案 _ 交替納蒂瓦“,您可能還需要添加以下條目:”解決方案 _ 交替納蒂瓦“, ”解決方案 _ alternatywy“, ”解決方案 _ alternatywy".  
  2. 如果目標是確保在使用短語詞典時將特定單詞或短語從輸入文本“按原樣”複製到輸出翻譯,請考慮強制執行逐字詞典,因為它可能更一致。   
  3. 避免將常用或常用單詞或短語的翻譯添加到短語詞典中。  

若要詳細瞭解自定義翻譯以及它如何説明你的企業在全球市場中蓬勃發展,請從 自定義翻譯初學者指南. 

您可以使用微軟自定義翻譯器做什麼。 

使用您的領域特定術語構建自定義模型,並使用 微軟翻譯 API. 

使用 微軟自定義翻譯 使用您的翻譯解決方案,幫助您實現業務全球化並改善客戶互動。 

有關更多資訊,請訪問 微軟翻譯業務解決方案自定義翻譯器發行說明.