Análisis y síntesis de voz

Si bien ya mencionamos este tema (junto al del reconocimiento de la letra manuscrita) en la sección sobre hardware, nos interesa profundizar aquí en el análisis y la síntesis de voz, esta vez dentro del contexto de la comunicación entre el hombre y la máquina, debido a su importancia en el ámbito educativo.

¿Cómo podemos enseñarle a una computadora a hablar? ¿Cómo puede la computadora crear una imagen oral a partir de una oración en un texto? ¿Cómo puede una computadora informarle oralmente a un usuario sobre cualquier anomalía que ocurra durante el funcionamiento (informar que ha habido un error técnico o que ha llegado un nuevo mensaje electrónico)? Todo esto involucra una síntesis de voz.

La solución más simple, al parecer, sería que el diseñador del soft-ware pronunciara y grabara el sonido. Sin embargo, es imposible grabar todas las combinaciones de palabras que una computadora podría llegar a pronunciar e igualmente imposible dictarle todas las oraciones que podrían formar un texto.

Otra opción sería grabar de forma separada las mínimas unidades de sonido y luego formar palabras en base a estos sonidos, del mismo modo en que formamos palabras escritas a partir de las letras del alfabeto.

Pero si hacemos esto de forma literal, esto es unidad por unidad, es muy probable que el resultado sea ininteligible para quien escucha, sobre todo en algunos idiomas, como el inglés, en que la escritura y la pronunciación no se corresponden.

Una alternativa intermedia sería grabar todas las palabras que forman un idioma (lo que en sí mismo ya sería un trabajo enorme), algunas de las combinaciones de palabras más comunes, palabras que se pronuncian de forma distinta según el lugar que ocupen dentro de la oración, o según se trate de una afirmación, una interrogación o una oración imperativa, etcétera.

Las computadoras modernas tienen suficiente capacidad de almacenamiento para ello. No cabe duda de que en un futuro cercano el discurso formado a partir de palabras individuales habrá alcanzado una calidad lo suficientemente buena como para reemplazar el método de grabación de oraciones.

En lo que respecta al análisis de voz y al discurso, el problema más difícil de sortear no es tanto la capacidad de almacenamiento sino la comprensión del sentido, sobre todo con relación al contexto. Una computadora debe ser realmente inteligente para comprender las sutilezas del discurso humano. Fuente: Libro de las Tecnologías de la información y la comunicación en la enseñanza de la UNESCO.