콘텐츠로 건너뛰기
번역기
이 페이지는 Microsoft 번역기의 기계 번역 서비스에서 자동으로 번역되었습니다. 자세히

마이크로 소프트 번역기 블로그

정치적으로 부정확 한 기계

우리는 기계 번역 팀에서 지난 몇 개월 동안 우리의 다양 한 제품에 대 한 트래픽을 증가 보고 있다, 우리는 교통 갑자기 범프 어제 발견. 아가타 크리스티와 셜록 홈즈에서 자란, 이러한 신비는 나를 위해 저항 할 수 없는-팀에 다른 사람들의 숫자는이 갑자기 범프의 원인이 무엇 인지 알아 그냥 호기심 이었다. 우리는 IE8 활동/가속기, 메신저 봇, 번역 검색, 사무실 번역 모두 이전과 같은 상향 추세를 보이고 따라서이 범프에 대 한 구체적인 이유가 없었습니다.

결국, 우리는 우리가이 스파이크를 보고 있었다 이유를 하나의 잠재적 인 이유를 식별 할 수 있었다. 우리의 사용자 커뮤니티는 기계 번역 엔진이 영어에서 독일어로 여러 이름의 번역을 처리 하는 방법의 이상한 것을 발견 했습니다. 엔진이 한 당사자의 후보 이름을 상대방의 사람에 게 변환 할 때, 미국 선거에 대 한 현재의 정치적 분위기를 감안할 때, 그것은 뉴스로 끝날 것으로 예상 되어야 했다. 우리는 확실히이 현상을 확인 하기 위해 온 모든 새로운 사용자를 환영 하는 동안 – 우리는 우리의 사용자와 같은 일이 우리와 다른 사람의 통계적으로 훈련 된 기계 번역 시스템과 수시로 일어날 것 같은 이유를 공유 하 고 싶었다.

통계 기계 번역 엔진은 소스 언어 (예: 영어)와 대상 언어 (예: 독일어)에 존재 하는 데이터와 많은 병렬 데이터에 대해 교육을 받고 원본과 대상이 서로 다른 번역을 하는 곳입니다. 우리의 엔진은 우리가 지 원하는 각 언어 쌍에 대 한 문장의 수백만에 대 한 교육을 받았습니다. 데이터의 특정 코 퍼스에 훈련 하기 위해-어쩌면 독일어로 번역 된 영어로 프레스 기사의 많은 수의-우리는 먼저 문장으로 그 코 퍼스를 깰 필요가 있다. 코 퍼스는 문장 깨진 후, 우리는 문장 정렬에 결과 문장을 피드, 유일한 목적은 대상 측에 문장과 일치 하는 소스 측에 어떤 문장을 찾는 것입니다. 한쪽에 문장이 대상에 하나 이상의 문장으로 정렬 할 수 있기 때문에 이것은 사소한 작업이 아닙니다 (또는 전혀 없음!). 정렬은 때때로 실수를 하 고, 실제로 번역이 아닌 다른 한 문장을 잘못 정렬 합니다. 이는 특히 소스와 대상에 드물게 발생 하는 단어가 있는 경우 일부 오 번역을 초래할 수 있습니다. 번역 엔진이 통계적 이기 때문에 소스와 대상 데이터에서 단어 사이의 공존 빈도에 매우 의존 합니다. 특정 단어가 자주 발생 하지 않는 경우 (예를 들어, 사람들의 이름은 수백만 개의 문장에 걸쳐 몇 번만 발생할 수 있음), 빈도가 부족 하면 원본과 대상 사이에 부정확 한 "추측"이 발생 하 여 잘못 된 번역을 초래할 수 있습니다 (예: 낮은 특정 소스 및 대상 단어에 할당 된 확률). 이것은 우리의 번역 시스템에 일부 코믹 gaffes로 이어질 수 있습니다.

그래서, 그건 어떻게 "기계는" 우리 팀의 유머 감각에 그것을 하는 커뮤니티와 함께 결국 방식으로 번역 하기로. 우리는 적절 한 정렬을 보장 하기 위해 계속 노력 하 고 있지만, 이러한 상황을 반복 할 수 있는 수백만 단어의 수십억에 내장 된 통계 시스템에서 기대 하는 것입니다.

현재 맞춤 문제는 해결 되어야 하지만, 사용자 커뮤니티는이 블로그를 통해 문의 하 여 이러한 상황을 식별 하는 데 도움을 줄 것을 촉구 합니다.

-vikram

비즈니스 전략을 주도하는 비 크 람 dendi > 마이크로소프트 번역기 팀을 위한 제품 계획