Microsoft Translator traz end-to-end tradução de fala para todos com a primeira API de tradução do discurso do mundo

Posted on 30 de março de 2016por Microsoft Translator

Hoje, lançamos uma nova versão do API do Microsoft Translator que adiciona recursos de conversão de fala em tempo real (e fala para texto) à API de tradução de texto existente. Alimentado por tecnologias de inteligência artificial de última geração da Microsoft, essa capacidade está disponível para milhões de usuários de Skype por mais de um ano, e para iOS e Androide usuários do Microsoft Translator apps desde o final 2015. Agora, as empresas serão capazes de adicionar essas capacidades de tradução de fala para seus aplicativos ou serviços e oferecer experiências de usuário mais natural e eficaz para seus clientes e funcionários.

A tradução de fala está disponível para oito idiomas — Árabe, Mandarim chinês, inglês, francês, alemão, italiano, Português e espanhol. Tradução para texto está disponível em todos os Microsoft Translator 50 + idiomas suportados. A tradução para áudio falado está disponível em 18 idiomas suportados.

Esta nova versão do Microsoft Translator é o primeiro fim-de-final solução de tradução de fala otimizado para conversas da vida real (vs. simples humanos a máquina comandos) disponíveis no mercado. Antes de hoje, as soluções de tradução de fala precisavam ser remendadas a partir de uma série de APIs diferentes (reconhecimento de fala, tradução e síntese de fala), não foram otimizados para o discurso de conversação ou projetado para trabalhar uns com os outros. Agora, os usuários finais e as empresas podem remover as barreiras linguísticas com a integração da tradução de fala em seus aplicativos e serviços familiares.

Como meu negócio pode usar a tecnologia de tradução de fala?

A tradução de fala pode ser usada em uma variedade de cenários de pessoa para pessoa, grupo ou de homem para máquina. Os cenários de pessoa para pessoa podem incluir uma tradução Uniformal, como tradução pessoal, legendagem ou comunicações multilingues remotas ou em pessoa, semelhantes às que actualmente se encontram no Tradutor Skype ou no Microsoft Translator apps para IOS e Android. Os cenários de grupo podem incluir apresentações em tempo real, como as anotações de eventos, webcasts e classes universitárias, ou encontros como em reuniões de pessoas ou chats de jogos online. Os cenários de homem para máquina podem incluir cenários de inteligência de negócios (como os logs de chamadas de análise ou de cliente) ou interações do ai.

Estamos apenas começando a arranhar a superfície dos cenários onde esta tecnologia vai ajudar e, como é a aprendizagem da máquina com base, a sua qualidade e, portanto, aplicabilidade vai melhorar com o tempo como mais pessoas e as empresas estão usando.

Várias empresas parceiras testaram a API e a integraram em seus próprios aplicativos:

Tele 2 da Suécia, um operador móvel líder com mais de 15 milhões assinantes em mais de 15 países, Tradutor integrado em seu PBX para apoiar as traduções em tempo real de chamadas telefônicas (nenhum aplicativo necessário!) em sua rede celular.
Lionbridge (Boston, ma), um provedor de serviços linguísticos e parceiro de tradutor de nível Gold, desenvolveu uma solução de legendagem de vídeo integrada.
Prosurda, um fornecedor de aplicativos especializado no desenvolvimento de tecnologias para apoiar as comunidades de difícil audição e surdos, integrou a nova API em seu aplicativo avatar de linguagem gestual para habilitar o suporte multilíngue de linguagem para assinar cenários.

Como funciona a tradução de fala?

A tradução fala-a-fala é um desafio muito complexo. Ele usa as últimas tecnologias de ai, como redes neurais profundas para reconhecimento de fala e tradução de texto. Não há nenhuma outra solução de tradução de fala totalmente integrada disponível no mercado hoje e entregando uma plataforma que suportaria cenários de conversão de fala da vida real necessária indo além de simplesmente costurar o reconhecimento de fala existente e tecnologias de tradução de texto. Há quatro estágios à tradução do discurso para poder entregar esta experiência:

Reconhecimento automático de fala (ASR) — Uma profunda rede neural treinada em milhares de horas de áudio analisa o discurso de entrada. Este modelo é treinado em interações humanos-para-humanos, em vez de humanos-a-máquina comandos, produzindo reconhecimento de voz que é otimizado para conversas normais.
TextoVerdadeiro Uma inovação de pesquisa da Microsoft, TextoVerdadeiro leva o texto literal e transforma-lo para refletir mais de perto a intenção do usuário. Ele consegue isso, removendo o discurso Interjeição, como "um" s e "Ah" s, bem como gagueja e repetições. O texto também é feito mais legível e traduzido pela adição de quebras de sentença, Pontuação adequada e capitalização. (veja a imagem abaixo)
Tradução O texto é traduzido para qualquer um dos 50 + idiomas suportados pelo Microsoft Translator. As oito línguas da fala foram aperfeiçoadas mais para conversações treinando em milhões das palavras de dados de conversação usando modelos de língua pstas das redes neurais profundas.
Texto em fala — Se o idioma de destino for uma das dezoito linguagens de fala suportadas, o texto será convertido em saída de voz usando síntese de fala. Esse estágio é omitido em cenários de conversão de texto, como legendagem de vídeo.

Como posso começar?

É fácil começar a usar a nova API de fala do Microsoft Translator. Um teste gratuito de 10 horas está disponível no aka.ms/TranslatorADMSpeech. Você pode testar a instalação e a implementação em um ambiente virtual, bem como ler a documentação da API em nosso novo Página Swagger. Você também pode encontrar exemplos de aplicativos e outras informações úteis sobre Github.

Claro, se você tiver dúvidas, questões ou comentários, gostaríamos de ouvi-lo! Você pode deixar-nos saber sobre o nosso feedback e fórum de apoio.

Saiba Mais

Microsoft Tradutor blog

Como meu negócio pode usar a tecnologia de tradução de fala?

Como funciona a tradução de fala?

Como posso começar?