Pular para o conteúdo principal
Translator
Esta página foi traduzida automaticamente pelo serviço de tradução automática do Microsoft Translator. Saiba Mais

Microsoft Tradutor blog

Tradução de máquina estatística – blog de convidados (atualizado com papel adicional)

Will Lewis é um gerente de programa na equipe do Microsoft Translator, trabalhando na qualidade da linguagem e aquisição de dados.  Blog de hoje convidado é uma explicação de alto nível de como o motor funciona:  

Como muitos de vocês sabem, o capô Microsoft Translator é alimentado por um motor de tradução de máquina estatística (SMT).  Os sistemas estatísticos são diferentes dos baseados em regras, pois as "regras" Mapeando palavras e frases de um idioma para outro são aprendidas pelo sistema em vez de serem codificadas manualmente.  Treinar um SMT exige acumular uma grande quantidade de dados de treinamento paralelos — Esperemos que de boa qualidade e de fontes heterogêneas — e treinando o motor nesses dados.  (Por paralelo, queremos dizer uma fonte de dados onde o conteúdo de um idioma é o mesmo que o conteúdo para o outro.)  O motor aprende as correspondências entre palavras e frases em uma língua e aquelas em outro, que são reforçadas frequentemente por ocorrências repetidas das mesmas palavras e frases durante todo a entrada.  Por exemplo, na formação do sistema inglês-alemão digamos, se o motor vê a frase Todos os direitos reservados no lado Inglês e também avisos Alle Rechte reservados no lado alemão, ele pode alinhar essas duas frases, e atribuir alguma probabilidade a este alinhamento.  As ocorrências repetidas das frases de origem e de destino nos dados de treinamento só reforçarão esse alinhamento.

Geralmente, ter dados paralelos para um par de idiomas significa que podemos treinar motores em ambas as direções (ou seja, os sistemas inglês-alemão e alemão-inglês podem ser treinados nas mesmas frases de entrada).  Alguns de vocês tinham algumas perguntas sobre por que foi que lançamos o sistema inglês-espanhol antes de lançarmos espanhol-inglês.  Havia realmente duas razões.  Primeiro, inglês-espanhol foi o primeiro par de linguagem de domínio geral que lançamos.  Liberar um par de idiomas nos permitiu testar a infraestrutura antes de começarmos a liberar mais.  Em segundo lugar, a tecnologia para o espanhol-inglês era ligeiramente diferente daquela usada para inglês-espanhol, e nós precisamos algum tempo adicional para fazer as mudanças infra-estrutura necessárias para acomodar.  No futuro, planejamos liberar novos sistemas de tradução em duplas (com algumas exceções).  Eu não posso revelar o que os idiomas que planejamos a seguir, mas espero que alguns novos em breve!

Para aqueles de vocês interessados em discussões técnicas sobre nossos motores e como eles funcionam, por favor, consulte alguns dos artigos dos pesquisadores que os desenvolveram.  Três artigos recentes de nota são:

Chris Quirk, Arul Menezes. Precisamos de frases? Desafiando a sabedoria convencional na tradução automática estatística Maio 2006 Nova Iorque, New York, EUA Anais de HLT-NAACL 2006

Chris Quirk, Arul Menezes. Tradução de Treelet de dependência: a convergência da tradução automática estatística e baseada em exemplo? Março 2006 Machine Translation 43-65 (arquivo anexado)


Chris Quirk, Arul Menezes. Usando modelos de ordem de dependência para melhorar a generalidade na tradução 2007 de julho Associação de Linguística computacional

Tradução de Treelet de dependência a convergência do machinetranslation. pdf estatístico e baseado em exemplo