![]() | ![]() |
"¿Puedes abrir la tabla de Excel? Esa no, la 253". Aunque parezca raro no estamos tan lejos de hablar con los ordenadores. Esta es la apuesta de Microsoft Research (MSR).
Texto: Víctor Valbuena, con la colaboración de Germán Díaz y Nuria Oliver
Imagen: Carlos Ortín

Los humanos nos comunicamos utilizando esencialmente tres sistemas de signos: escritura, imágenes y sonidos. Pero en nuestras relaciones con los ordenadores, si bien el texto y los gráficos están muy presentes, la comunicación por sonido se reduce a una serie de pitidos o melodías de alerta. Esto está cambiando y ya existen las primeras experiencias que nos permitirán conversar con los PCs en un futuro cercano. Las tecnologías de reconocimiento de voz, que permiten que el ordenador nos escuche, y las técnicas de habla, que consiguen que el ordenador nos hable son actualmente una de las áreas informáticas de mayor desarrollo.
El reconocimiento de voz es una de las opciones de Microsoft Office XP. Posibilita que el usuario introduzca textos, seleccione menús y ejecute comandos simplemente hablando por un micrófono, lo que incrementa la productividad y representa una nueva opción para personas con dificultades para usar el teclado. Esta tecnología presenta dos modos de operación: dictado (que permite introducir mediante la voz textos de mensajes de correo electrónico, documentos de texto de Microsoft Word, presentaciones en Microsoft Power Point…) y comandos de voz para acceder a menús, barras de herramientas y cajas de diálogo. Si se desea cambiar las características de un texto, por ejemplo, basta con decir "Estilo. Negrita". Se eliminan así las transiciones de la mano al ratón, lo que agiliza el trabajo de tecleado.
Estas capacidades, nacidas de las investigaciones de MSR (Microsoft Research), se basan en tecnologías como Whisper, disponible en inglés, japonés y chino simplificado. Microsoft facilita y permite el desarrollo por parte de terceros de versiones de este software para otros idiomas.
Microsoft Office XP tiene reconocimiento de voz en inglés, chino y japonés |
Microsoft también cuenta con otra tecnología que posibilita la lectura de texto en voz alta: Whistler (Windows Highly Intelligent Stochastic Talker) que, aunque todavía suena algo mecánica, supone un importante avance respecto a las voces planas y robóticas del pasado. Whistler, que se incluye desde 1998 en SPAI 4.0 SDK, Microsoft Encarta y Microsoft Windows 2000 y XP, permite la lectura casi inmediata de palabras escritas. Ambas tecnologías utilizan una base de datos simplificada de 3.000 sonidos que han sido sintetizados de grabaciones digitales de la voz humana.
La voz de la máquina
El habla está formado por fonemas, cada sonido correspondiente a cada vocal y consonante del alfabeto. Cada fonema puede tener variaciones, llamadas alófonos, dependiendo de las letras que lo anteceden y suceden. El inglés, por ejemplo, cuenta con 40 fonemas y hasta 64.000 alófonos. MSR ha conseguido identificar y sintetizar 3.000 de estos alófonos y los ha integrado en una base de datos, que es consultada por un motor de reconocimiento de voz o combinada con un analizador del texto para formar palabras y frases. Pero no sólo se han tenido en cuenta los fonemas. Los investigadores de Microsoft estudiaron la prosodia, las pausas y la duración de cada sonido y agregaron efectos para conseguir reproducir la inflexión, que a menudo es la clave para entender el significado de una frase, y hacer que la voz de Whistler sea más natural y agradable. No obstante, todavía queda mucho para que se consiga esa voz grave, profunda y con sentimiento de HAL, el superordenador de la novela 2001, Odisea del Espacio, de Arthur C. Clarke, ya que una de las cosas que todavía nos diferencia de las máquinas es que las personas somos capaces de entender las ideas y las emociones contenidas en un discurso y los ordenadores no, todavía. Las investigaciones que se están llevando a cabo sobre Inteligencia Artificial pueden lograr que, en unos 20 años, los microprocesadores aúnen el proceso de análisis al de reconocimiento de voz y podamos charlar amigablemente con nuestro PC.
|
El Foro SALT (Speech Application Language Tags) es el resultado del acuerdo de Microsoft, Intel, Cisco, Comverse, Philips y SpeechWorks para la creación de una plataforma independiente, estándar y de código abierto que posibilite el acceso telefónico (voz) y multimodal (voz y gráficos) a información, aplicaciones y servicios on line desde PCs, teléfonos y agendas electrónicas. Se trata de un conjunto de extensiones de HTML y XHTML, como el Speech Software Development Kit de Microsoft, cuya versión 5.1 puede descargarse gratuitamente de la web de Microsoft por todos aquellos programadores particulares que quieran desarrollar aplicaciones de voz para Microsoft Internet Explorer.
|
Las tecnologías del habla suponen un gran avance para aquellos usuarios que tienen problemas para teclear, bien por falta de habilidad o por alguna discapacidad física, bien por la no adecuación del diseño de los teclados a las necesidades concretas de su idioma. Uno de los ejemplos más claros es el chino, cuyo alfabeto, de más de 6.000 caracteres de uso corriente, es imposible de reproducir en un teclado de medida estándar. Además, un usuario que teclee un mensaje en chino puede tardar cuatro veces más que otro que escriba el mismo mensaje en inglés o castellano. Por ello, los hablantes de este idioma se ven obligados a escribir reproduciendo fonéticamente las palabras y a utilizar después un Input Method Editor (IME) para traducir el texto a los símbolos chinos: un proceso lento y laborioso que ya puede ser sustituido por las tecnologías del habla de Microsoft.