Bỏ qua và nội dung chính
Translator
Trang này đã được tự động dịch của Microsoft Translator Dịch vụ máy dịch. Tìm hiểu thêm

Blog của Microsoft Translator

Microsoft Translator phát hành bản dịch văn học Trung Quốc

Khi đọc cổ Trung Quốc Thơ, chúng ta thường ngạc nhiên trước những từ rất tuyệt vời mà các nhà văn cổ đại có thể sử dụng để mô tả con người, sự kiện, đối tượng và cảnh. Đây là một kho báu văn hóa tuyệt vời đã bị bỏ lại phía sau cho chúng ta. Tuy nhiên, tương tự như Shakespeare'Những câu thơ bằng tiếng Anh, tiếng Trung quốc văn học được sử dụng bởi các nhà thơ này thường khó hiểu đối với người hiện đại, và ý nghĩa và sự tinh tế được nhúng trong nó thường bị mất.  

Để giải quyết vấn đề này, các nhà nghiên cứu tại Microsoft Research Asia đã áp dụng các kỹ thuật dịch máy thần kinh mới nhất để đào tạo các mô hình dịch thuật trực tiếp giữa văn học Trung Quốc và tiếng Trung hiện đại, điều này cũng dẫn đến việc tạo ra khả năng dịch thuật giữa văn học Trung Quốc và Hơn 90 ngôn ngữ khác và phương ngữ trong Microsoft Translator. Hiện nay, dịch thuật văn học Trung Quốc đã được tích hợp vào Microsoft Translator app, Dịch vụ nhận thức Azure Translatorvà một số sản phẩm của Microsoft được hỗ trợ bởi các dịch vụ Microsoft Translator. 

Ảnh: Bức tranh "Tây Sơn trong mưa sương mù" của Thẩm Chu, nhà Minh. Bài thơ cổ của Trung Quốc trên bức tranh là từ Yong Lưu, Triều đại Bắc Tống. Bài thơ mô tả phong cảnh mùa xuân ở miền nam Trung Quốc trong Lễ hội Thanh Miêu và sự thịnh vượng của đời sống xã hội.

Cho phép nhiều người đánh giá cao sự quyến rũ của văn hóa truyền thống Trung Quốc 

Văn học Trung Quốc là một người vận chuyển quan trọng của văn hóa truyền thống Trung Quốc. Những cuốn sách và văn bản đồ sộ từ thời cổ đại đã ghi lại Trung Quốc'Văn hóa phong phú và sâu sắc trong 5.000 năm qua. Những suy nghĩ và trí tuệ được tích lũy và chứa đựng trong chúng xứng đáng với sự khám phá và suy nghĩ liên tục.  

Với sự trợ giúp của dịch máy, khách du lịch giờ đây có thể hiểu các văn bản và bài thơ cổ của Trung Quốc được viết trên các tòa nhà và di tích lịch sử, sinh viên giờ đây có thêm một công cụ để giúp họ học tiếng Trung, và các nhà nghiên cứu đang tham gia vào việc đối chiếu và dịch các văn bản cổ có thể hiệu quả hơn.     

Dongdong Zhang, một nhà nghiên cứu chính tại Microsoft Research Asia, cho biết: "Từ góc độ kỹ thuật, văn học Trung Quốc có thể được coi là một ngôn ngữ riêng biệt. Một khi bản dịch giữa văn học Trung Quốc và tiếng Trung hiện đại được thực hiện, việc dịch thuật giữa văn học Trung Quốc và các ngôn ngữ khác như tiếng Anh, tiếng Pháp và tiếng Đức trở thành một vấn đề tất nhiên.  

Khó khăn lớn nhất của mô hình AI dịch thuật văn học Trung Quốc: Ít dữ liệu đào tạo 

Yếu tố quan trọng nhất của đào tạo mô hình AI là dữ liệu. Chỉ khi khối lượng dữ liệu đủ lớn và chất lượng của nó đủ cao Cna Bạn Đào tạo một mô hình chính xác hơn. Trong dịch máy, việc đào tạo mô hình đòi hỏi dữ liệu song ngữ: dữ liệu văn bản gốc và dữ liệu ngôn ngữ mục tiêu. Bản dịch văn học Trung Quốc rất đặc biệt, như nó'Không phải là một ngôn ngữ được sử dụng trong cuộc sống hàng ngày.  Do đó, so với việc dịch các ngôn ngữ khác, dữ liệu đào tạo của văn học Dịch thuật Trung Quốc rất nhỏ, không có lợi cho việc đào tạo các mô hình dịch máy.   

Mặc dù các nhà nghiên cứu của Microsoft Research Asia đã thu thập rất nhiều dữ liệu văn học và hiện đại của Trung Quốc trong giai đoạn đầu, dữ liệu ban đầu không thể được sử dụng trực tiếp. Làm sạch dữ liệu cần được tiến hành để bình thường hóa dữ liệu từ các nguồn khác nhau, các định dạng khác nhau, cũng như chiều rộng đầy đủ /dấu câu nửa chiều rộng, như một phương tiện để giảm thiểu sự can thiệp của dữ liệu không hợp lệ vào đào tạo mô hình. Bằng cách này, dữ liệu chất lượng cao thực tế có sẵn tiếp tục giảm.  

Theo Shuming Ma, một nhà nghiên cứu tại Microsoft Research Asia, để giảm vấn đề thưa thớt dữ liệu, các nhà nghiên cứu đã tiến hành một lượng lớn công việc tổng hợp và tăng cường dữ liệu, bao gồm: 

Thứ nhất, ký tự thông thường căn cứ liên kết và mở rộng để tăng kích thước dữ liệu đào tạo. Khác với bản dịch giữa tiếng Trung và các ngôn ngữ khác như tiếng Anh, tiếng Pháp, tiếng Nga, v.v., văn học Trung Quốc và trung quốc hiện đại sử dụng cùng một bộ ký tự. Tận dụng tính năng này, các nhà nghiên cứu tại Microsoft Research Asia đã sử dụng các thuật toán sáng tạo để cho phép dịch máy nhớ lại các ký tự phổ biến, tiến hành căn chỉnh tự nhiên và sau đó mở rộng hơn nữa thành các từ, cụm từ và câu ngắn, từ đó tổng hợp một lượng lớn dữ liệu có thể sử dụng được.  

Thứ hai, cấu trúc câu biến dạng để cải thiện tính mạnh mẽ của dịch máy. Về Các nhà nghiên cứu đã thêm một số biến thể để làm cho máy móc toàn diện hơn trong việc học thơ cổ. Đối với mọi người, ngay cả khi họ nhìn thấy một câu có cấu trúc bất thường, chẳng hạn như một bài thơ được phân đoạn thành các dòng dựa trên nhịp điệu chứ không phải là câu đầy đủ, họ vẫn có thể đặt các phần lại với nhau và hiểu nó. Nhưng đối với một mô hình dịch thuật chưa bao giờ thấy phân khúc như vậy trước đây, nó có thể sẽ bị nhầm lẫn. Do đó, việc chuyển đổi định dạng dữ liệu không chỉ có thể mở rộng lượng dữ liệu đào tạo, mà còn cải thiện tính mạnh mẽ của đào tạo mô hình dịch thuật.  

Thứ ba, tiến hành đào tạo dịch thuật nhân vật truyền thống và đơn giản hóa để tăng khả năng thích ứng mô hình. Trong tiếng Trung, các ký tự truyền thống tồn tại trong cả văn học và trung quốc hiện đại. Khi các nhà nghiên cứu đào tạo mô hình, để cải thiện khả năng thích ứng của mô hình, họ không chỉ tận dụng dữ liệu bằng tiếng Trung đơn giản hóa, mà còn thêm dữ liệu bằng tiếng Trung truyền thống, cũng như dữ liệu trộn lẫn với các ký tự truyền thống và đơn giản hóa. Do đó, mô hình có thể hiểu cả nội dung truyền thống và đơn giản hóa, dẫn đến kết quả dịch chính xác hơn.   

Thứ tư, tăng cường đào tạo từ ngoại ngữ để nâng cao độ chính xác của dịch thuật. Khi dịch tiếng Trung hiện đại sang tiếng Trung Quốc văn học, thường có những từ hiện đại bắt nguồn từ các từ tiếng nước ngoài và từ mới chưa bao giờ xuất hiện trong tiếng Trung cổ đại, chẳng hạn như "Microsoft", "máy tính", "đường sắt cao tốc", và nhiều từ khác thích nó. Để đối phó với vấn đề này, các nhà nghiên cứu đã đào tạo một mô hình nhỏ để nhận ra các thực thể. Mô hình đầu tiên dịch ý nghĩa của từ bên ngoài thực thể, sau đó điền vào thực thể trở lại để đảm bảo tính chính xác của máy.'Xử lý các từ nước ngoài.    

Ảnh: TÔng Hán Văn quy trình dịch thuật

Ngoài ra, đối với các phong cách viết không chính thức như blog, diễn đàn, Weibo, v.v., mô hình dịch máy đã được đào tạo đặc biệt để cải thiện hơn nữa tính mạnh mẽ của dịch thuật giữa hiện đại và văn học Trung Quốc.  

Dongdong Zhang bày tỏ: "Dựa trên hệ thống dịch thuật hiện tại, chúng tôi sẽ tiếp tục làm phong phú thêm bộ dữ liệu và cải tiến phương pháp đào tạo mô hình để làm cho nó mạnh mẽ và linh hoạt hơn. Trong tương lai, phương pháp này có thể không chỉ được sử dụng cho dịch thuật văn học Trung Quốc, mà còn có thể được mở rộng sang các kịch bản ứng dụng khác.