Перейти к основному контенту
Translator
Эта страница была автоматически переведена службой машинного перевода Microsoft Translator. Подробнее

Блог переводчика Майкрософт

Переводчик Майкрософт приносит сквозной перевод речи к каждому с первым в мире API перевода речи

Сегодня мы выпустили новую версию API переводчика Майкрософт , который добавляет возможности перевода речи в речь (и речь к тексту) в существующий API перевода текста в реальном времени. Благодаря современным технологиям искусственного интеллекта корпорации Майкрософт эта возможность была доступна миллионам пользователей Skype более года, и iOS И Андроид пользователей приложений Microsoft Translator с конца 2015. Теперь, компании смогут добавить эти возможности перевода речи в свои приложения или услуги и предложить более естественный и эффективный пользовательский опыт для своих клиентов и сотрудников.

Перевод речи доступен для восьми языков — арабский, Китайский мандарин, английский, французский, немецкий, итальянский, португальский и испанский. Перевод текста доступен во всех переводчиках Microsoft 50 + поддерживаемых языков. Перевод на разговорный звук доступен на 18 поддерживаемых языках.

Эта новая версия Microsoft Translator является первым сквозным решением для перевода речи, оптимизированным для реальных разговоров (против простых команд человека и машин), доступных на рынке. До сегодняшнего дня решения для перевода речи должны были быть вымощены вместе из нескольких различных API (распознавание речи, перевод и синтез речи), не были оптимизированы для разговорной речи или предназначены для работы друг с другом. Теперь конечные пользователи и предприятия могут устранять языковые барьеры с интеграцией речевого перевода в привычные приложения и сервисы.

 

Как мой бизнес может использовать технологию речевого перевода?

Перевод речи может использоваться в различных сценариях «от человека к человеку», «группы» или «от человека к машине». Индивидуальные сценарии могут включать в себя однонаправленный перевод, такой как персональный перевод, субтитры или дистанционные или личные многоязычные коммуникации, аналогичные тому, что в настоящее время встречается в Skype Translator или приложениях Microsoft Translator для iOS и Android. Групповые сценарии могут включать в себя презентации в режиме реального времени, такие как ключевые события, веб-трансляции и университетские классы, а также собрания, например, встречи с лицами или онлайн-игровые чаты. Сценарии «от человека к машине» могут включать сценарии бизнес-аналитики (например, журналы анализа или звонков клиентов) или взаимодействия AI.

Мы только начинаем поцарапать поверхность сценариев, где эта технология поможет, и, как это машинное обучение основано, его качество и, следовательно, применимость улучшится со временем, как все больше людей и компаний используют его.

Несколько компаний-партнеров протестировали API и интегрировали его в свои собственные приложения:

  • Теле 2 Швеции, ведущий оператор мобильной связи с более чем 15 000 000 абонентов в более чем 15 странах, интегрированный переводчик в свою АТС для поддержки в режиме реального времени телефонные звонки переводы (не требуется приложение!) на их сотовой сети.
  • LionBridge (Бостон, MA), поставщик языковых услуг и партнер по транслятору золотого уровня разработали интегрированное решение для видео-субтитров.
  • Для глухих, поставщик приложений, специализирующихся на разработке технологий для поддержки жесткого слуха и глухих сообществ, интегрировали новый API в свой язык жестов аватар приложение, чтобы включить многоязычную поддержку речи для подписания сценариев.

 

Как работает перевод речи?

Перевод речи в речь является очень сложной задачей. Он использует новейшие технологии AI, такие как глубокие нейронные сети для распознавания речи и перевода текста. Существует нет другого полностью интегрированного решения для перевода речи, доступных на рынке сегодня и предоставление платформы, которая будет поддерживать реальные сценарии перевода речи требуется выходить за рамки простого сшивания существующих распознавания речи и технологии перевода текста. Существует четыре этапа перевода речи, чтобы иметь возможность доставить этот опыт:

  1. Автоматическое распознавание речи (ASR) — Глубокая нейронная сеть, обученная на тысячи часов аудио анализирует входящие речи. Эта модель обучена от человека к человеку взаимодействия, а не от человека к машине команды, создание распознавания речи, которая оптимизирована для нормальных разговоров.
  2. TrueТекстовые Инновации Microsoft Research, TrueТекстовые принимает буквальный текст и преобразует его, чтобы более точно отражать намерения пользователя. Это достигается путем удаления речи disfluencies, таких как "UM" s и "AH" s, а также заикание и повторений. Текст также сделан более читаемым и переводимым путем добавления перерывов в предложении, правильной пунктуации и капитализации. (см. рисунок ниже)
  3. Перевод Текст переведен на любой из 50 + языков, поддерживаемых Microsoft Translator. Восемь языков речи были дополнительно оптимизированы для разговоров путем обучения на миллионы слов разговорных данных с использованием глубоких нейронных сетей Powered языковые модели.
  4. Текст в речь — Если целевой язык является одним из восемнадцати поддерживаемых языков речи, текст преобразуется в речевой вывод с помощью синтеза речи. Этот этап опущен в сценариях преобразования речи в текст, таких как субтитры видео.

Как начать?

Это легко начать с новой Microsoft переводчик речи API. Бесплатная 10-часовая пробная версия доступна по адресу aka.ms/TranslatorADMSpeech. Вы можете протестировать настройку и реализацию в виртуальной среде, а также ознакомиться с документацией API на нашем новом Страница «самоДовольна». Вы также можете найти примеры приложений и другую полезную информацию о Github.

Конечно, если у вас есть вопросы, вопросы, или обратная связь, мы будем рады услышать это! Вы можете сообщить нам об этом на нашем Форум обратной связи и поддержки.

Подробнее