Pular para o conteúdo principal
Tradutor

Blog do Microsoft Translator

O Microsoft Translator traz a tradução de voz de ponta a ponta para todos com a primeira API de tradução de voz do mundo

Hoje, lançamos uma nova versão do API do Microsoft Translator que adiciona recursos de tradução de fala para fala (e de fala para texto) em tempo real à API de tradução de texto existente. Com a ajuda das tecnologias de inteligência artificial de última geração da Microsoft, esse recurso está disponível para milhões de usuários de Skype por mais de um ano, e para iOS e Android usuários dos aplicativos do Microsoft Translator desde o final de 2015. Agora, as empresas poderão adicionar esses recursos de tradução de fala a seus aplicativos ou serviços e oferecer experiências de usuário mais naturais e eficazes a seus clientes e funcionários.

A tradução de voz está disponível para oito idiomas - ÁrabeO Microsoft Translator oferece tradução para texto em todos os idiomas: chinês, mandarim, inglês, francês, alemão, italiano, português e espanhol. A tradução para texto está disponível em todos os idiomas do Microsoft Translator Mais de 50 idiomas suportados. A tradução para áudio falado está disponível em 18 idiomas suportados.

Essa nova versão do Microsoft Translator é a primeira solução completa de tradução de fala otimizada para conversas reais (em vez de simples comandos de homem para máquina) disponível no mercado. Até hoje, as soluções de tradução de fala precisavam ser montadas a partir de várias APIs diferentes (reconhecimento de fala, tradução e síntese de fala), não eram otimizadas para a fala conversacional nem projetadas para funcionar entre si. Agora, os usuários finais e as empresas podem remover as barreiras do idioma com a integração da tradução de fala em seus aplicativos e serviços familiares.

 

Como minha empresa pode usar a tecnologia de tradução de fala?

A tradução de fala pode ser usada em uma variedade de cenários pessoa a pessoa, grupo ou homem a máquina. Os cenários de pessoa para pessoa podem incluir tradução unidirecional, como tradução pessoal, legendagem ou comunicações multilíngues remotas ou presenciais semelhantes às encontradas atualmente no Skype Translator ou nos aplicativos Microsoft Translator para iOS e Android. Os cenários de grupo podem incluir apresentações em tempo real, como palestras em eventos, webcasts e aulas em universidades, ou reuniões, como encontros pessoais ou salas de bate-papo para jogos on-line. Os cenários homem-máquina podem incluir cenários de inteligência comercial (como a análise de registros de chamadas de clientes) ou interações de IA.

Estamos apenas começando a arranhar a superfície dos cenários em que essa tecnologia ajudará e, como ela se baseia no aprendizado de máquina, sua qualidade e, portanto, sua aplicabilidade melhorarão com o tempo, à medida que mais pessoas e empresas a utilizarem.

Várias empresas parceiras testaram a API e a integraram em seus próprios aplicativos:

  • Tele 2 da Suécia, uma operadora móvel líder com mais de 15 milhões de assinantes em mais de 15 países, integrou o Translator em seu PBX para oferecer suporte a traduções de chamadas telefônicas em tempo real (sem necessidade de aplicativo!) em sua rede celular.
  • LionBridge (Boston, MA), um provedor de serviços linguísticos e parceiro Gold Level Translator, desenvolveu uma solução integrada de legendagem de vídeo.
  • ProDeafO fornecedor de aplicativos especializado no desenvolvimento de tecnologias para apoiar as comunidades de deficientes auditivos e surdos, integrou a nova API em seu aplicativo de avatar de linguagem de sinais para permitir o suporte multilíngue de cenários de fala para sinais.

 

Como funciona a tradução de fala?

A tradução de fala para fala é um desafio muito complexo. Ela usa as mais recentes tecnologias de IA, como redes neurais profundas para reconhecimento de fala e tradução de texto. Não há nenhuma outra solução de tradução de fala totalmente integrada disponível no mercado atualmente, e o fornecimento de uma plataforma que suportasse cenários reais de tradução de fala exigia ir além da simples união das tecnologias existentes de reconhecimento de fala e tradução de texto. Há quatro estágios na tradução de fala para que seja possível oferecer essa experiência:

  1. Reconhecimento automático de fala (ASR) - Uma rede neural profunda, treinada em milhares de horas de áudio, analisa a fala recebida. Esse modelo é treinado em interações entre humanos, e não em comandos entre humanos e máquinas, produzindo um reconhecimento de fala otimizado para conversas normais.
  2. TrueText - Uma inovação da Microsoft Research, o TrueText pega o texto literal e o transforma para refletir melhor a intenção do usuário. Para isso, ele remove as disfluências da fala, como "um" e "ah", além de gaguejos e repetições. O texto também se torna mais legível e traduzível com a adição de quebras de frases, pontuação adequada e letras maiúsculas. (veja a figura abaixo)
  3. Tradução - O texto é traduzido para qualquer um dos mais de 50 idiomas suportados pelo Microsoft Translator. Os oito idiomas de fala foram ainda mais otimizados para conversas por meio do treinamento de milhões de palavras de dados de conversas usando modelos de linguagem alimentados por redes neurais profundas.
  4. Texto para fala - Se o idioma de destino for um dos dezoito idiomas de fala suportados, o texto será convertido em saída de fala usando a síntese de fala. Esse estágio é omitido em cenários de tradução de fala para texto, como legendas de vídeo.

Como faço para começar?

É fácil começar a usar a nova API de fala do Microsoft Translator. Uma avaliação gratuita de 10 horas está disponível em aka.ms/TranslatorADMSpeech. Você pode testar a configuração e a implementação em um ambiente virtual, bem como ler a documentação da API em nosso novo Página do Swagger. Você também pode encontrar exemplos de aplicativos e outras informações úteis em GitHub.

É claro que, se você tiver dúvidas, problemas ou comentários, adoraríamos ouvi-los! Você pode nos informar em nosso Fórum de feedback e suporte.

Saiba mais