Microsoft 번역기는 세계 최초의 음성 번역 API를 사용 하 여 모든 사람에 게 엔드-엔드 음성 번역을 제공 합니다

에 게시 3 월 30 일 2016의해 Microsoft Translator

오늘, 우리는 새로운 버전의 출시 마이크로 소프트 번역기 API 기존 텍스트 번역 API에 음성 음성 변환 (및 음성 변환) 기능을 실시간으로 추가 합니다. 마이크로 소프트의 최첨단 인공 지능 기술에 의해 구동,이 기능은의 수백만의 사용자가 사용할 수 있다 Skype 1 년 이상, iOS 그리고 안 드 로이드 이후 마이크로소프트 번역기 애플 리 케이 션의 사용자 2015 후반. 이제 기업은 이러한 음성 번역 기능을 응용 프로그램 또는 서비스에 추가 하 고 고객 및 직원에 게 보다 자연스럽 고 효과적인 사용자 환경을 제공할 수 있습니다.

음성 번역은 8 개 언어에 사용할 수 있습니다 — 아랍어중국어 북경어/영어/프랑스어/독일어/이탈리아어/포르투갈어/스페인어 텍스트에 번역은 마이크로 소프트 번역기의 모든에서 사용할 수 있습니다 50 + 지원 되는 언어. 음성 오디오로의 번역은 지원 되는 18 개 언어로 제공 됩니다.

이 새로운 버전의 Microsoft 번역기는 시장에서 사용할 수 있는 실생활 대화 (간단한 인간 대 기계 명령)에 최적화 된 최초의 엔드-엔드 음성 변환 솔루션입니다. 오늘날 이전에는 다양 한 api (음성 인식, 번역 및 음성 합성)에서 함께 자갈길을 사용 해야 했던 음성 번역 솔루션이 대화형 음성에 최적화 되지 않았거나 서로 작동 하도록 설계 되었습니다. 이제 최종 사용자와 기업 모두 익숙한 앱 및 서비스에서 음성 번역을 통합 하 여 언어 장벽을 제거할 수 있습니다.

내 비즈니스는 음성 번역 기술을 어떻게 사용할 수 있습니까?

음성 번역은 다양 한 사람 대 사람, 그룹 또는 인간 대 기계 시나리오에서 사용할 수 있습니다. 개인 간 시나리오는 개인적 번역, 자막, 또는 원격 또는 Skype 번역기 또는 iOS에 대 한 Microsoft 번역기 애플 리 케이 션에서 현재 발견 된 것과 유사한 직접 다중 언어 통신 등의 단방향 번역을 포함할 수 있습니다 안 드 로이드. 그룹 시나리오에는 이벤트 기조 연설, 웹캐스트, 대학 수업 등의 실시간 프레젠테이션이 포함 될 수 있으며 모임 또는 개인 회의나 온라인 게임 채팅방 등의 모임이 있습니다. 휴먼-컴퓨터 시나리오에는 비즈니스 인텔리전스 시나리오 (예: 분석 또는 고객 통화 로그) 또는 AI 상호 작용이 포함 될 수 있습니다.

우리는 단지이 기술이 도움이 될 것입니다 시나리오의 표면을 긁 기 시작 하 고, 그것은 기계 학습 기반으로, 그것의 품질 및 따라서 적용은 더 많은 사람과 기업이 그것을 사용 하는 시간으로 향상 됩니다.

여러 파트너 회사에서 API를 테스트 하 고 자체 앱에 통합 했습니다.

텔 레 2 스웨덴, 15 개국 이상에서 1500만 가입자를 가진 선도적 인 통신사, 실시간 전화 통화 번역을 지원 하기 위해 PBX에 통합 된 번역기 (응용 프로그램은 필요 하지 않습니다!) 그들의 셀룰러 네트워크에.
Lionbridge (보스톤, MA) 언어 서비스 제공 업체 및 골드 레벨 번역기 파트너는 통합 비디오 자막 솔루션을 개발 했습니다.
프로 청각 장애인청각 및 청각 장애인 커뮤니티를 지 원하는 기술 개발을 전문으로 하는 응용 프로그램 공급 업체로 서, 새로운 API를 수 화 아바타 앱에 통합 하 여 언어에 대 한 다국어 지원을 통해 시나리오에 서명할 수 있습니다.

음성 번역은 어떻게 작동 합니까?

음성 대 음성 번역은 매우 복잡 한 문제입니다. 음성 인식 및 텍스트 번역을 위한 심층 신경망과 같은 최신 AI 기술을 사용 합니다. 현재 시장에서 사용할 수 있는 다른 완전 통합 음성 번역 솔루션은 없으며 기존 음성 인식을 함께 바느질 하는 것을 넘어 필요한 실생활 음성 번역 시나리오를 지 원하는 플랫폼을 제공 합니다. 텍스트 번역 기술. 이 경험을 전달할 수 있는 음성 번역에는 네 가지 단계가 있습니다.

자동 음성 인식 (ASR)- 수천 시간의 오디오에 대 한 교육을 받은 심층 신경망이 들어오는 음성을 분석 합니다. 이 모델은 휴먼-기계 명령 보다 인간 간 상호 작용에 대해 교육을 받고 일반 대화에 최적화 된 음성 인식을 생성 합니다.
TrueText Microsoft 연구 혁신 인 truetext는 리터럴 텍스트를 가져와 사용자 의도를 보다 가깝게 반영 하도록 변환 합니다. 이는 "um" 및 "ah"와 같은 음성 혐오를 제거 하 고 더 듬 및 반복을 통해이를 달성 합니다. 또한 텍스트는 문장 나누기, 적절 한 구두점 및 대문자 표시를 추가 하 여 더 읽기 쉽고 번역 가능 합니다. (아래 그림 참조)
번역 텍스트는 Microsoft 번역기가 지 원하는 50 개 이상의 언어로 번역 됩니다. 8 개의 음성 언어는 심층 신경망 기반 언어 모델을 사용 하는 대화식 데이터의 수백만 단어에 대 한 교육을 통해 대화에 더욱 최적화 되었습니다.
텍스트 음성 변환 — 대상 언어가 지원 되는 18 개의 음성 언어 중 하나인 경우 텍스트는 음성 합성을 사용 하 여 음성 출력으로 변환 됩니다. 이 단계는 비디오 자막 같은 음성-텍스트 변환 시나리오에서 생략 됩니다.

시작 하려면 어떻게 해야 합니까?

새로운 Microsoft 번역기 음성 API를 쉽게 시작할 수 있습니다. 10 시간 무료 평가판을 이용할 수 있습니다. aka.ms/TranslatorADMSpeech. 가상 환경에서 설정 및 구현을 테스트해 볼 수 있을 뿐만 아니라 새로운 API 설명서를 읽을 수도 있습니다. Swagger 페이지. 또한 예제 앱 및 기타 유용한 정보를 찾을 수 있습니다. Github.

물론, 질문, 문제 또는 피드백이 있는 경우, 우리는 그것을 듣고 싶어요! 저희에 게 알려주세요 피드백 및 지원 포럼.

자세히

마이크로 소프트 번역기 블로그

내 비즈니스는 음성 번역 기술을 어떻게 사용할 수 있습니까?

음성 번역은 어떻게 작동 합니까?

시작 하려면 어떻게 해야 합니까?