Passeur direct au contenu principal
Translator
Cette page a été automatiquement traduite par le service de traduction automatique de Microsoft Translator. Pour en savoir plus

Blog de Microsoft Translator

Microsoft Translator apporte la traduction vocale de bout en bout à tous ceux qui ont la première API de traduction vocale au monde

Aujourd'hui, nous avons publié une nouvelle version de API Microsoft Translator qui ajoute des capacités de traduction en temps réel de la parole à la parole (et de la parole au texte) à l'API de traduction de texte existante. Propulsé par les technologies de l'intelligence artificielle de pointe de Microsoft, cette capacité a été disponible à des millions d'utilisateurs de Skype pendant plus d'un an, et iOS Et Androïde utilisateurs des applications Microsoft Translator depuis la fin du 2015. Maintenant, les entreprises seront en mesure d'ajouter ces capacités de traduction vocale à leurs applications ou services et offrir des expériences utilisateur plus naturel et efficace à leurs clients et le personnel.

La traduction vocale est disponible pour huit langues — Arabe, Chinois mandarin, anglais, Français, allemand, italien, portugais et espagnol. La traduction en texte est disponible dans tous les 50 + langues supportées. La traduction en audio parlé est disponible dans 18 langues supportées.

Cette nouvelle version de Microsoft Translator est la première solution de traduction vocale de bout en bout optimisée pour les conversations réelles (par rapport aux commandes simples de l'homme à la machine) disponibles sur le marché. Avant aujourd'hui, les solutions de traduction vocale devaient être regroupées à partir d'un certain nombre d'API différentes (reconnaissance vocale, traduction et synthèse vocale), n'ont pas été optimisées pour la parole conversationnelle ou conçues pour travailler les unes avec les autres. Maintenant, les utilisateurs finaux et les entreprises peuvent supprimer les barrières linguistiques avec l'intégration de la traduction vocale dans leurs applications et services familiers.

 

Comment mon entreprise peut-elle utiliser la technologie de traduction vocale?

La traduction vocale peut être utilisée dans une variété de scénarios de personne à personne, de groupe ou d'humain à machine. Les scénarios de personne à personne peuvent inclure la traduction à sens unique, comme la traduction personnelle, le sous-titrage ou les communications multilingues à distance ou en personne similaires à ce qui se trouve actuellement dans Skype Translator ou les applications Microsoft Translator pour iOS et Android. Les scénarios de groupe peuvent inclure des présentations en temps réel telles que des notes clés d'événement, des webcasts et des classes universitaires, ou des rassemblements tels que des réunions de personnes ou des salles de jeux en ligne. Les scénarios de l'homme à la machine peuvent inclure des scénarios d'intelligence d'affaires (tels que les journaux d'analyse ou d'appels clients) ou les interactions AI.

Nous commençons tout juste à gratter la surface des scénarios où cette technologie aidera et, comme il est basé sur le machine learning, sa qualité et donc applicabilité s'améliorera avec le temps que plus de gens et les entreprises l'utilisent.

Plusieurs entreprises partenaires ont testé l'API et l'ont intégrée dans leurs propres applications:

  • Télé 2 de la Suède, un opérateur mobile de premier plan avec plus de 15 millions abonnés dans plus de 15 pays, intégré Translator dans leur PBX pour prendre en charge en temps réel les traductions d'appels téléphoniques (aucune application nécessaire!) sur leur réseau cellulaire.
  • Lionbridge (Boston, MA), un fournisseur de services linguistiques et partenaire Gold Level translator, a développé une solution de sous-titrage vidéo intégrée.
  • Prodeaf tradutor, un fournisseur d'applications spécialisé dans le développement de technologies pour soutenir les communautés malentendantes et sourdes, a intégré la nouvelle API dans son application d'avatar de langue des signes pour permettre le support multilingue de la parole pour signer des scénarios.

 

Comment fonctionne la traduction vocale?

La traduction de la parole à la parole est un défi très complexe. Il utilise les technologies IA les plus récentes, telles que les réseaux neuronaux profonds pour la reconnaissance vocale et la traduction de texte. Il n'y a pas d'autre solution de traduction vocale entièrement intégrée disponible sur le marché aujourd'hui et offrant une plate-forme qui appuierait les scénarios de traduction de la parole réelle requis allant au-delà de simplement assembler la reconnaissance vocale existante et technologies de traduction textuelle. Il y a quatre étapes à la traduction vocale pour être en mesure de fournir cette expérience:

  1. Reconnaissance vocale automatique (ASR) — Un réseau neuronal profond formé sur des milliers d'heures d'audio analyse la parole entrante. Ce modèle est formé sur les interactions homme-homme plutôt que sur les commandes de l'homme à la machine, produisant une reconnaissance vocale optimisée pour les conversations normales.
  2. TexteVrai Une innovation Microsoft Research, TrueText prend le texte littéral et le transforme pour refléter plus fidèlement l'intention de l'utilisateur. Il y parvient en supprimant les disfluences vocales, telles que «um» et «Ah», ainsi que les bégaiements et les répétitions. Le texte est également rendu plus lisible et traduisible en ajoutant des pauses de phrases, une ponctuation appropriée et une capitalisation. (voir image ci-dessous)
  3. Traduction Le texte est traduit dans l'une des 50 + langues prises en charge par Microsoft Translator. Les huit langues de parole ont été optimisées pour les conversations par la formation sur des millions de mots de données conversationnelles en utilisant les réseaux neuronaux profonds alimenté des modèles linguistiques.
  4. Texte à la parole — Si la langue cible est l'une des dix-huit langues de parole prises en charge, le texte est converti en sortie vocale à l'aide de la synthèse vocale. Cette étape est omise dans les scénarios de traduction vocale-texte tels que le sous-titrage vidéo.

Comment puis-je commencer?

Il est facile de commencer avec la nouvelle API Microsoft Translator Speech. Un essai gratuit de 10 heures est disponible à aka.ms/TranslatorADMSpeech. Vous pouvez tester la configuration et l'implémentation dans un environnement virtuel, ainsi que lire la documentation de l'API sur notre nouveau Page Swagger. Vous pouvez également trouver des exemples d'applications et d'autres informations utiles sur Github.

Bien sûr, si vous avez des questions, des problèmes ou des commentaires, nous serions ravis de l'entendre! Vous pouvez nous le faire savoir sur notre rétroaction et Forum de soutien.

Pour en savoir plus