Tradução automática estatística - Blog de convidado (atualizado com mais artigos)

Publicado em 22 de agosto de 2008por Microsoft Translator

Will Lewis é gerente de programa na equipe do Microsoft Translator, trabalhando na qualidade do idioma e na aquisição de dados. O blog do convidado de hoje é uma explicação de alto nível de como o mecanismo funciona:

Como muitos de vocês sabem, nos bastidores, o Microsoft Translator é alimentado por um mecanismo de tradução automática estatística (SMT). Os sistemas estatísticos são diferentes dos sistemas baseados em regras, pois as "regras" que mapeiam palavras e frases de um idioma para outro são aprendidas pelo sistema em vez de serem codificadas manualmente. O treinamento de um SMT requer a coleta de uma grande quantidade de dados de treinamento paralelos - de preferência de boa qualidade e de fontes heterogêneas - e o treinamento do mecanismo com esses dados. (Por paralelo, queremos dizer uma fonte de dados em que o conteúdo de um idioma é igual ao conteúdo do outro). O mecanismo aprende as correspondências entre palavras e frases em um idioma e em outro, que geralmente são reforçadas por ocorrências repetidas das mesmas palavras e frases em toda a entrada. Por exemplo, no treinamento do sistema inglês-alemão, digamos que, se o mecanismo vir a frase Todos os direitos reservados no lado inglês e também observa Todos os direitos reservados no lado alemão, ele pode alinhar essas duas frases e atribuir alguma probabilidade a esse alinhamento. As ocorrências repetidas das frases de origem e de destino nos dados de treinamento apenas reforçarão esse alinhamento.

Em geral, ter dados paralelos para um par de idiomas significa que podemos treinar mecanismos em ambas as direções (ou seja, os sistemas inglês-alemão e alemão-inglês podem ser treinados com as mesmas sentenças de entrada). Alguns de vocês fizeram algumas perguntas sobre por que lançamos o sistema inglês-espanhol antes de lançar o espanhol-inglês. Na verdade, foram dois os motivos. Primeiro, o inglês-espanhol foi o primeiro par de idiomas de domínio geral que lançamos. O lançamento de um par de idiomas nos permitiu testar a infraestrutura antes de começarmos a lançar outros. Em segundo lugar, a tecnologia para o espanhol-inglês era ligeiramente diferente da usada para o inglês-espanhol, e precisamos de mais algum tempo para fazer as alterações necessárias na infraestrutura para acomodá-la. No futuro, planejamos lançar novos sistemas de tradução em pares (com algumas exceções). Não posso revelar quais idiomas planejamos para o futuro, mas espere por novos idiomas em breve!

Para os interessados em discussões técnicas sobre nossos mecanismos e como eles funcionam, consulte alguns dos artigos dos pesquisadores que os desenvolveram. Três artigos recentes dignos de nota são:

Chris Quirk, Arul Menezes. Precisamos de frases? Desafiando a sabedoria convencional na tradução automática estatística Maio de 2006 Nova York, Nova York, EUA Anais do HLT-NAACL 2006

Chris Quirk, Arul Menezes. Tradução de Treelets de Dependência: A convergência da tradução automática estatística e baseada em exemplos? Março de 2006 Tradução automática 43-65 (arquivo anexado)

Chris Quirk, Arul Menezes. Uso de modelos de ordem de dependência para melhorar a generalidade na tradução Julho de 2007 Associação de Linguística Computacional

Dependency Treelet Translation A convergência da tradução automática estatística e baseada em exemplos.pdf

Blog do Microsoft Translator