Saltear al contenido principal
Translator
Esta página ha sido traducida automáticamente por el servicio de traducción automática de Microsoft Translator. Aprende más

Microsoft Translator blog

Traducción automática estadística – blog invitado (actualizado con papel adicional)

Will Lewis es un administrador de programas en el equipo de Microsoft Translator, trabajando en la calidad del lenguaje y la adquisición de datos.  El blog invitado de hoy es una explicación de alto nivel de cómo funciona el motor:  

Como muchos de ustedes saben, bajo el capó Microsoft Translator está alimentado por un motor de traducción automática estadística (SMT).  Los sistemas estadísticos son diferentes de los basados en reglas en que las palabras y frases de mapeo de "reglas" de un idioma a otro son aprendidas por el sistema en lugar de ser codificadas a mano.  La formación de un SMT requiere acumular una gran cantidad de datos de entrenamiento paralelos, con suerte de buena calidad y de fuentes heterogéneas, y entrenar el motor en esos datos.  (En paralelo, nos referimos a una fuente de datos donde el contenido de un idioma es el mismo que el contenido para el otro).  El motor aprende las correspondencias entre palabras y frases en un idioma y las de otro, que a menudo se refuerzan por repeticiones repetidas de las mismas palabras y frases a lo largo de la entrada.  Por ejemplo, en el entrenamiento del sistema inglés-alemán digamos, si el motor ve la frase Todos los derechos reservados en el lado inglés y también avisos Alle Rechte vorbehalten en el lado alemán, puede alinear estas dos frases, y asignar cierta probabilidad a esta alineación.  Las repeticiones repetidas de las frases de origen y de destino en los datos de entrenamiento solo reforzarán esta alineación.

En general, tener datos paralelos para un par de idiomas significa que podemos entrenar motores en ambas direcciones (es decir, los sistemas inglés-alemán y alemán-inglés pueden ser entrenados en las mismas oraciones de entrada).  Algunos de ustedes tuvieron algunas preguntas sobre por qué fue que lanzamos el sistema Inglés-Español antes de que lanzemos Español-Inglés.  Había realmente dos razones.  Primero, Inglés-Español fue el primer par de idiomas de dominio general que lanzamos.  La liberación de un par de idiomas nos permitió probar la infraestructura antes de que comenzara a lanzar más.  En segundo lugar, la tecnología para Español-Inglés era ligeramente diferente a la utilizada para Inglés-Español, y necesitamos algún tiempo adicional para hacer los cambios infraestructurales necesarios para acomodar.  En el futuro, planeamos lanzar nuevos sistemas de traducción en pares (con un par de excepciones).  No puedo revelar lo que los idiomas que hemos planeado a continuación, pero esperamos algunos nuevos pronto!

Para aquellos de ustedes interesados en discusiones técnicas sobre nuestros motores y cómo funcionan, por favor refiérase a algunos de los documentos de los investigadores que los desarrollaron.  Tres documentos de nota recientes son:

Chris Quirk, Arul Menezes. ¿Necesitamos frases? Desafiando la sabiduría convencional en la traducción automática estadística Mayo 2006 Nueva York, Nueva York, Estados Unidos Actas de la HLT-NAACL 2006

Chris Quirk, Arul Menezes. Dependencia Treelet Translation: ¿la convergencia de la traducción automática estadística y basada en ejemplos? Marzo 2006 traducción automática 43-65 (archivo adjunto)


Chris Quirk, Arul Menezes. Uso de plantillas de orden de dependencias para mejorar la generalidad en la traducción 2007 de julio Asociación para la lingüística computacional

Dependencia Treelet Translation la convergencia de la estadística y el ejemplo-basado machinetranslation. pdf