Bỏ qua và nội dung chính
Translator
Trang này đã được tự động dịch của Microsoft Translator Dịch vụ máy dịch. Tìm hiểu thêm

Blog của Microsoft Translator

Microsoft Translator mang lại bản dịch tiếng nói cuối cùng cho tất cả mọi người với API dịch giọng nói đầu tiên trên thế giới

Hôm nay, chúng tôi phát hành một phiên bản mới của Microsoft Translator API Thêm khả năng dịch bài phát biểu (và giọng nói thành văn bản) theo thời gian thực cho API dịch văn bản hiện có. Powered by của Microsoft nhà nước-of-the-nghệ thuật công nghệ trí tuệ nhân tạo, khả năng này đã có sẵn cho hàng triệu người sử dụng Skype trong hơn một năm, và để iOSAndroid người dùng của các ứng dụng Microsoft Translator kể từ cuối năm 2015. Bây giờ, doanh nghiệp sẽ có thể thêm các khả năng dịch tiếng nói này vào ứng dụng hoặc dịch vụ của họ và cung cấp trải nghiệm người dùng tự nhiên và hiệu quả hơn cho khách hàng và nhân viên của họ.

Bản dịch tiếng nói có sẵn cho tám ngôn ngữ — Tiếng ả Rập, Tiếng Trung Quốc quan thoại, Anh, Pháp, Đức, ý, Bồ Đào Nha và Tây Ban Nha. Dịch sang văn bản có sẵn trong tất cả các Microsoft Translator 50 ngôn ngữ được hỗ trợ. Bản dịch để nói âm thanh có sẵn trong 18 ngôn ngữ được hỗ trợ.

Phiên bản mới này của Microsoft Translator là giải pháp dịch giọng nói đầu tiên cuối cùng được tối ưu hóa cho các cuộc trò chuyện thực (so với các lệnh của con người đơn giản đến máy) có sẵn trên thị trường. Trước ngày hôm nay, các giải pháp dịch tiếng nói cần thiết để được rải sỏi với nhau từ một số API khác nhau (nhận dạng giọng nói, Dịch thuật, và tổng hợp giọng nói), không được tối ưu hóa cho bài phát biểu đàm thoại hoặc được thiết kế để làm việc với nhau. Bây giờ, người dùng cuối và các doanh nghiệp có thể loại bỏ các rào cản ngôn ngữ với việc tích hợp dịch giọng nói trong các ứng dụng và dịch vụ quen thuộc của họ.

 

Doanh nghiệp của tôi có thể sử dụng công nghệ dịch tiếng nói như thế nào?

Dịch giọng nói có thể được sử dụng trong một loạt các kịch bản người-sang-người, nhóm hoặc người-đến-máy. Trường hợp người sang người có thể bao gồm dịch một chiều như bản dịch cá nhân, phụ đề, hoặc thông tin đa ngôn ngữ từ xa hoặc trong người tương tự như những gì hiện đang được tìm thấy trong Skype Translator hoặc các ứng dụng Microsoft Translator dành cho iOS và Android. Các kịch bản nhóm có thể bao gồm các bản trình bày theo thời gian thực như ghi chú sự kiện, Webcast và các lớp đại học, hoặc các cuộc tụ họp chẳng hạn như trong — Hội họp người hoặc phòng chat trò chơi trực tuyến. Kịch bản người-to-máy có thể bao gồm các tình huống tình báo kinh doanh (chẳng hạn như phân tích hoặc khách hàng gọi Nhật ký) hoặc AI tương tác.

Chúng tôi chỉ là bắt đầu làm xước bề mặt của các tình huống mà công nghệ này sẽ giúp đỡ và, vì nó là máy học dựa trên, chất lượng của nó và do đó khả năng áp dụng sẽ cải thiện với thời gian như nhiều người hơn và các công ty đang dùng nó.

Một số công ty đối tác đã thử nghiệm API và tích hợp nó vào ứng dụng của riêng họ:

  • 2 các của Thụy Điển, một nhà điều hành điện thoại di động hàng đầu với hơn 15.000.000 người đăng ký tại hơn 15 quốc gia, tích hợp Translator vào PBX của họ để hỗ trợ thời gian thực cuộc gọi điện thoại dịch (không có ứng dụng cần thiết!) trên mạng di động của họ.
  • LionBridge (Boston, MA), một nhà cung cấp dịch vụ ngôn ngữ và Gold Level Translator đối tác, phát triển một giải pháp phụ đề video tích hợp.
  • Prođiếc, một nhà cung cấp ứng dụng chuyên phát triển các công nghệ để hỗ trợ các cộng đồng khó nghe và điếc, tích hợp API mới vào ứng dụng avatar ngôn ngữ ký hiệu của họ để cho phép hỗ trợ đa ngôn ngữ của giọng nói để ký kịch bản.

 

Dịch bằng giọng nói hoạt động như thế nào?

Dịch giọng nói-to-Speech là một thách thức rất phức tạp. Nó sử dụng công nghệ AI mới nhất, chẳng hạn như mạng nơ-ron sâu để nhận dạng giọng nói và dịch văn bản. Không có giải pháp dịch giọng nói tích hợp đầy đủ khác trên thị trường hiện nay và cung cấp một nền tảng mà sẽ hỗ trợ các kịch bản dịch tiếng nói thực sự cần thiết vượt xa chỉ đơn giản là khâu cùng với sự nhận dạng giọng nói hiện có và công nghệ dịch văn bản. Có bốn giai đoạn để dịch giọng nói để có thể cung cấp kinh nghiệm này:

  1. Nhận dạng giọng nói tự động (ASR) — Một mạng lưới thần kinh sâu được đào tạo trên hàng ngàn giờ âm thanh phân tích lời nói đến. Mô hình này được đào tạo về sự tương tác giữa con người với con người chứ không phải là lệnh con người-to-Machine, sản xuất nhận dạng giọng nói được tối ưu hóa cho các cuộc trò chuyện bình thường.
  2. TrueText — Một cải tiến nghiên cứu của Microsoft, TrueText có văn bản chữ và biến nó để phản ánh chặt chẽ hơn ý định người dùng. Nó đạt được điều này bằng cách loại bỏ sự disflu. lời nói, chẳng hạn như "UM" và "ah" s, cũng như giật và repetitions. Văn bản này cũng được thực hiện dễ đọc hơn và có thể dịch được bằng cách thêm câu, dấu câu thích hợp và viết hoa. (xem hình dưới đây)
  3. Dịch Văn bản được dịch vào bất kỳ của hơn 50 ngôn ngữ được hỗ trợ bởi Microsoft Translator. Tám ngôn ngữ bài phát biểu đã được tối ưu hóa hơn nữa cho các cuộc hội thoại bằng cách đào tạo trên hàng triệu từ của dữ liệu đàm thoại sử dụng mạng nơ-ron sâu mô hình ngôn ngữ hỗ trợ.
  4. Văn bản sang tiếng nói — Nếu ngôn ngữ đích là một trong mười tám ngôn ngữ giọng nói được hỗ trợ, văn bản được chuyển thành đầu ra giọng nói bằng cách sử dụng tổng hợp giọng nói. Giai đoạn này được bỏ qua trong các kịch bản dịch giọng nói sang chữ như phụ đề video.

Làm cách nào để bắt đầu?

Thật dễ dàng để bắt đầu với Microsoft Translator Speech API mới. Bản dùng thử 10 giờ miễn phí có sẵn tại aka.ms/TranslatorADMSpeech. Bạn có thể kiểm tra thiết lập và thực hiện trong một môi trường ảo cũng như đọc tài liệu API về mới của chúng tôi Swagger trang. Bạn cũng có thể tìm thấy các ứng dụng ví dụ và các thông tin hữu ích khác Github.

Tất nhiên, nếu bạn có câu hỏi, vấn đề, hoặc phản hồi, chúng tôi rất muốn nghe nó! Bạn có thể cho chúng tôi biết về thông tin phản hồi và hỗ trợ diễn đàn.

Tìm hiểu thêm