此页面已由微软翻译机翻译服务自动翻译。 了解更多信息

微软翻译博客

微软翻译将端到端的语音翻译带到世界上第一个语音翻译 API 的每个人身上。

今天, 我们发布了一个新版本的 微软翻译 API 将实时语音到语音 (和语音到文本) 翻译功能添加到现有的文本翻译 api 中。在微软最先进的人工智能技术的支持下, 此功能已提供给数百万用户 Skype 一年多了, 并 iOSAndroid 微软翻译应用程序的用户从晚2015。现在, 企业将能够将这些语音翻译功能添加到他们的应用程序或服务中, 并为他们的客户和员工提供更自然、更有效的用户体验。

语音翻译可用于八种语言- 阿拉伯语, 中文普通话、英语、法语、德语、意大利语、葡萄牙语和西班牙语。所有的微软翻译都提供了文本翻译 50多种支持的语言.以18种支持的语言提供了语音音频的翻译。

这个新版本的微软翻译是第一个端到端的语音翻译解决方案, 最优化的现实生活中的对话 (vs. 简单的人到机器命令) 在市场上可用。今天之前, 语音翻译解决方案需要拼凑起来, 从许多不同的 api (语音识别, 翻译和语音合成), 没有优化的会话语音或设计, 以相互合作。现在, 最终用户和企业都可以通过在熟悉的应用程序和服务中集成语音翻译来消除语言障碍。

 

我的企业如何使用语音翻译技术?

语音翻译可用于各种人对人、组或人对机方案。人与人的情景可能包括单向翻译, 如个人翻译, 字幕, 或远程或多语种通信, 类似于目前在 Skype 翻译或微软翻译应用程序的 iOS 和Android。组方案可以包括实时演示, 如事件基调、网络广播和大学课程, 或诸如人的会议或在线游戏聊天室等聚会。人机交互方案可能包括业务智能方案 (如分析或客户呼叫日志) 或 AI 交互。

我们刚刚开始对这种技术将会有所帮助的场景的表面进行了研究, 因为它是基于机器学习的, 因此它的质量和适用性随着时间的推移越来越多的人和公司使用它而得到改善。

几家合作伙伴公司已经测试了 API 并将其集成到自己的应用程序中:

  • 远程2 瑞典是一个领先的移动运营商, 拥有超过15个国家的1500万多家用户, 他们的交换机集成了他们的 PBX, 以支持在他们的蜂窝网络上进行实时电话翻译 (不需要应用!
  • Lionbridge (波士顿, MA), 一个语言服务提供商和金级翻译合作伙伴, 开发了一个集成的视频字幕解决方案。
  • ProDeaf, 一个专门开发支持听力和聋社区的技术的应用程序供应商, 将新的 API 集成到他们的手语头像应用程序中, 以支持语音的多语种表达来签署场景。

 

语音翻译是如何工作的?

语音语音翻译是一项非常复杂的挑战。它采用了最新的人工智能技术, 如深神经网络用于语音识别和文本翻译。目前市场上没有其他完全集成的语音翻译解决方案, 提供了一个平台, 支持现实生活中的语音翻译方案, 而不仅仅是将现有的语音识别和文本翻译技术。语音翻译有四阶段可以提供这种体验:

  1. 自动语音识别 (ASR)- 一个深入的神经网络训练了成千上万小时的音频分析传入的讲话。这个模型是通过人与人之间的交互而不是人与机器的命令进行训练的, 它产生了为正常对话而优化的语音识别。
  2. TrueText- 微软的研究创新, TrueText 的文本和转换它更密切地反映用户的意图。它通过删除语音 disfluencies, 如 "um" 和 "ah", 以及结巴和重复来实现这一点。通过添加句子分隔符、正确的标点和大写, 也可以使文本更易于阅读和翻译。(见下图)
  3. 翻译 文本被翻译成 Microsoft 翻译支持的50多种语言中的任何一种。这八种语言通过使用深神经网络的语言模型进行了数以百万计的会话数据的训练, 进一步优化了会话。
  4. 文本到语音- 如果目标语言是支持的十八种语言之一, 则文本将使用语音合成转换为语音输出。此阶段在语音到文本翻译方案 (如视频字幕) 中省略。

如何开始?

开始使用新的 microsoft 翻译语音 api 很容易。免费试用 10小时, 请于 又名女士/TranslatorADMSpeech.您可以在虚拟环境中测试设置和实现, 并阅读我们新的 API 文档。 斯瓦格页面.您还可以找到示例应用程序和其他有用的信息 GitHub.

当然, 如果您有问题、问题或反馈, 我们很乐意听取!您可以让我们知道我们的 反馈和支持论坛.

了解更多信息