Reconocimiento del habla
La definición más general que podemos hacer sobre este tema es la siguiente: ?This technology involves recognising spoken language and transforming it into text?, o lo que es lo mismo: La tecnología que reconoce el lenguaje hablado u oral y lo convierte en texto escrito.
Se trata de un sistema muy concreto y sofisticado que se encarga de reconocer las voces individuales de cada persona, y con cualquier usuario que domine el programa. Consiste en permitir a los ordenadores equipados con micrófonos microfonos interpretar la voz humana. El usuario puede decidir si el ordenador quiere que reconozca sólo su voz o lo deja abierto a otros fonemas de otras personas, eso sí, el vocabulario que contiene el ordenador a la hora de reconocerlo, es un vocabulario básico, de cientos de palabras o en el mejor de los casos algunas miles. ?Automatic speech recognition requires a parametric representation of the speech signal which carries its relevant features. In this paper, the basic ideas underlying the process of feature extraction from the speech signal are described, the involved properties of voice production and perception are summarised, and a particular attention is payed to environmental robust techniques.? (http://www.imim.es/quark/num21/021063.htm por CLIMENT NADEU)
Gracias al avance de las ciencias, los sistemas informáticos que permiten el reconocimiento del habla mejoran cada vez más rápido en el ámbito de las prestaciones y de la naturalidad. Con el tiempo podremos utilizar este servicio ampliado a conversaciones completas, es más no dentro de mucho tiempo veremos como los teclados han sido reemplazados por estos nuevos métodos. Para ello es necesario que el ordenador sea capaz de convertir los sonidos y fonemas en palabras completas, siendo este el objetivo final que se persigue.
El sistema de reconocimiento automático del habla se basa en tres ejes fundamentales del lenguaje. Primero, es necesario que reconozca las unidades fonéticas básicas (fonemas contextuales), luego, estos fonemas tienen que tener algún tipo de unión para poder formar palabras, y por último uniendo estas palabras hacen que se compongan las frases mediante reglas gramaticales básicas. Pero para que la máquina transcriba los sonidos tiene que tener introducido en sí modelos de aprendizajes y entrenamiento convenientemente etiquetadas.
Para que el sistema reconozca correctamente la voz, tiene que haber correspondencia entre la base de datos de entrenamiento y el trabajo del reconocedor, una vez que este se ponga en funcionamiento. Si quisiéramos que el sistema sirviera para distintos idiomas y dialectos (sistema independiente del locutor), la base de datos de aprendizaje deberá contener un numero elevado de locutores.La voz se encuentra compuesta por diferentes sonidos elementales, y el calculo de reconocimiento es posible gracias a las secuencias temporales de observación: cada secuencia temporal deobservación contiene las características de la señal de voz que corresponden a un segmento temporal fijo que son muy importantes para que el reconocimiento se pueda efectuar.
Se supone que la voz de estas características debería ser uniforme, a lo que se le llama ?un evento acústico bien definido?. (http://www.imim.es/quark/num21/021063.htm por CLIMENT NADEU) Pero, la forma de onda de la señal de voz del micrófono deja claro que no se puede dscribir de una manera tan simple como la concatenación de segmentos uniformes; es muy dificil determinar dónde termina un sonido y dónde comienza el siguiente.
Lógicamente, la voz que se quisiera introducir por el micrófono debería de ser un segmento de voz uniforme y bien definido, pero está claro que la voz que entra por el micrófono no es sólo segmentos uniformes, y por lo tanto, es muy dificil determinar una frontera clara entre sonidos. Lo que se trata es de representar cada tramo de la señal de voz con un modelo paramétrico (de longitud entre 20 y 30 milisegundos). Estos parámetros representan a la forma que envuelve cada espectro, y no toma en cuenta las características de los segmentos sonoros, o lo que es lo mismo:los que se generan del efecto vibratorio de las cuerdas vocales. Este método que se basa mayormente a la periodicidad de la señal, especifica el tono de la voz.
A la hora en que el sistema de reconocimiento de la voz se va ha utilizar, nos encontramos, además, con otros probemas como son los ruidos de fondo, o las distorsiones. Estos elementos empeoran la calidad de la voz, además equivocan a la máquina y que los modelos estadísticos que se han desarrollado en el aprendizaje del sistema, no mantema una cualidad optima. ?La capacidad del sistema para hacer frente a estos cambios de las condiciones del entorno se denomina ROBUSTEZ? (http://www.imim.es/quark/num21/021063.htm por CLIMENT NADEU), ya hay estudios que trabajan en poder mejorar estas técnicas.
MODELADO DE LA PRODUCCIÓN Y PERCEPCIÓN DE LA VOZ
(En caso de querer complementar ir a la fuente:http://www.imim.es/quark/num21/021063.htm por CLIMENT NADEU)
Cuando una persona habla o produce sonidos los órganos articulatorios se ponen en funcionamiento, pero para que el sonido pueda ser reproducido necesitamos unas ondas de presión del aire, que se forman por la vibración de las cuerdas vocales, en el caso sonoro, y por la fricación o aspiración en el caso de los sonidod sordos.Este sistema , sencillo aparentemente, diferencia el filtro (el que da a "cada sonido su timbre característico", y la entrada (la que diferencia la fuente acústica, sorda o sonora, que en este último caso se encarga de los tonos de la voz).
En el reconocimiento del habla también se ha utilizado la predicción lineal dev las ondas de la voz, pero esta técnica a sido desplazada.Aparte de la voz, el medio de comunicación, también hablaremos de aparato receptor, esto es, el oído.El aparato auditivo humano tiene dos propiedades:
- El efecto de enmascaramiento: esto significa que un sonido puede dejarse de oírse en el caso de estar cerca de otro sonido aún más fuerte que lo tape. Esto provoca distorsiones en la recepción del mensaje.
- La cóclea del oído que funciona como un analizador espectral: "trabajando en bandas frecuenciales no uniformes que se hacen sucesivamente más anchas a medida que crece la frecuencia (tenemos una muestra de ello en el piano, donde las teclas de sonidos agudos están más distanciadas en frecuencia que las de sonidos más graves". "Los parámetros representativos del tramo de voz que esta técnica determina son las fracciones de energía de la señal correspondientes a unas 20 bandas frecuenciales distribuidas según una escala no uniforme denominada mel que, determinada con experimentos perceptivos, refleja la resolución frecuencial del oído humano."(http://www.imim.es/quark/num21/021063.htm por CLIMENT NADEU)
RECONOCIMIENTO EN CONDICIONES ADVERSAS
Esta información ha sido extraída de: http://www.imim.es/quark/num21/021063.htm por CLIMENT NADEU, en caso de querer cotejar la información, visita la web.
Los sistemas de reconocimiento del habla que se utilizan hoy en general permiten al usuario un buen servicio del sistema, eso sí, siempre que el ambiente en el que se registre la voz sea favorable para el reconocimiento. Pero no siempre es así, puesto que muchas veces la máquna tiene que trabajar en situaciones reales en las que de fondo se escuchan muchos más sonidos, incluso la influencia emocional en la entonación del propio habla.
"Llevar el micrófono colgando, o tener que mantener la posición de la cabeza frente al micrófono de sobremesa, son condiciones incómodas pero necesarias actualmente para que la voz captada por el micrófono sea lo bastante limpia, en especial cuando existe un ruido ambiental molesto. La situación deseable es que el micrófono se encuentre a cierta distancia del o de los parlantes y éstos puedan moverse con libertad (hands-free). En realidad, resultaría conveniente que hubiera varios micrófonos para captar señales distintas y luego procesarlas en conjunto y compararlas. De hecho, el sistema auditivo humano dispone de dos entradas de voz y dicha binauralidad le permite separar fuentes de sonido situadas en puntos distintos."
Aún así cuando la base de aprendizaje no es lo bastante eficaz a la hora de separar los ruidos y la voz humana, hay que recurrir a técnicas de reconocimiento robusto, pero este método todavía se encuentra en los laboratorios en fase de un mejor desarrollo y eficacia que se está conduciendo por dos vías:
- a)- El poder obtener una señal de la voz más nítida, esto es,speech enhancement.Esta técnica aplica sistemas de cancelación de los ruidos de fondo.Otra forma de eliminar esos sonodos no deseados de fondo,aunque no tan eficaz, es la "sustracción espectral que estima el espectro del ruido en los silencios y luego lo sustrae del espectro de señal de voz ruidosa."
- b)- La determinación de parámetros más firmes. El oído humano es más sensible que cualquier otro sistema automático, bien el ámbito del ruido y distorsiones, si no también ante cualquier variedad de la voz.Lo deseado sería un sistema de reconocimiento más firme a la hora de diferenciar estas señales, pero aún no se ha podido invertar nada más eficaz. "Cuando las señales se distorsionan de forma lineal por el micrófono, el canal telefónico, etc, y dicha distorsión no es idéntica para todas ellas, la tasa de error aumenta de modo sustancial. Puesto que la distorsión únicamente contribuye con un término aditivo en los parámetros logarítmicos, se puede cancelar su influencia eliminando con un filtro la componente continua (frecuencia cero) de las secuencias temporales de parámetros."
- c)- Compensación de las distorsiones adaptando las nuevas condiciones del entorno.
PRODUCTOS, MUESTRAS Y APPLICACIONES (POR JOAQUIM LLISTERRI)
Utilice esta dirección para localizar la fuente y complementar esta información, además de este tema también trata otros muchos relacionados con la especialización en temas de la tecnología del habla: http://liceu.uab.es/~joaquim/home.html. [JOAQUIM LLISTERRI] es, en estos momentos, el mayor especialista en temas relacionados con las máquinas y el sistema de habla humano, por lo que resulta caso obligatorio citarle en este tipo de estudios y trabajos.
- 1) ÁVILA CLEMENTE, V.- FERRER MANCHÓN, A.M. (2001) "Análisis comparativo de dos sistemas de reconocimiento de voz de habla discreta en personas con alteraciones del habla", ISAAC 2001: Odisea de la Comunicación. Segundas Jornadas sobre Comunicación Aumentativa y Alternativa ISAAC España. Valencia, septiembre de 2001. http://acceso.uv.es/Unidad/pubs/2001-isaac/Isaac2001_reconoci.htm
- 2) CERF-DANON, H.- DeGENNARO, S.- FERRETI, M.- GONZÁLEZ, J.- KEPPEL, E. (1991) "Tangora - a large vocabulary speech recognition system for five languages", in Eurospeech'91. 2nd European Conference on Speech Communication and Technology. Genova, Italy, 24-26 September 1991. Vol 1. p. 183-192.
- 3) DE YZAGUIRRE, Ll. (2000) "Evaluación comparativa de dos sistemas comerciales de reconocimiento de voz", I Jornadas de Tecnologías del Habla, Universidad de Sevilla, Sevilla, noviembre de 2000. http://retoc.iula.upf.es/docs/Sevilla2000/
- 4) DEMEDTS, A. (1993) "Un sistema de reconocimiento del español con un léxico de 30.000 unidades", Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural 13: 435-437.
- 5) DUGAST, Ch.- AUBERT, X.- KNESER, R. (1995) "The Philips Large-Vocabulary Recognition System for American English, French and German", in Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and Technology. Madrid, Spain, 18-21 September, 1995. Vol 1, pp. 197-200.
- 6) FISHER, M. (1986) "Voice Control for the Disabled" in BRISTOW, G. (Ed.) Electronic Speech Recognition. Techniques, Technology and Applications. London: Collins. pp. 309-321.
- 7) FLETCHER, R. (1997) "First Impressions of ViaVoice, Continuous Dictation Software from IBM", Translation Journal 2, 1. http://www.accurapid.com/journal/02dict1.htm
- 8) GONZÁLEZ, J.- MACÍAS, J.- PALMA, M.A.- PALOU, F.- TROS DE ILARDUYA, M. (1992) "Tangora/E, un reconocedor del habla para el castellano", Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural 12. - 9) GRIMES, B. (1997) "Voice Recognition Software: Naturally Speaking from Dagon Systems", Translation Journal 2, 1. http://www.accurapid.com/journal/02dict2.htm
- 10) HAEB-UMBACH, R.- GAMM, S. (1995) "Human Factors of a Voice-Controlled Car Stereo", in Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and Technology. Madrid, Spain, 18-21 September, 1995. Vol 2, pp. 1453-1456.
- 11) HUANG, X.- ALLEVA, F.- HON, H.-W.- HWANG, M.-Y.- LEE, K.-F.- ROSENFELD, R. (1993) "The SPHINX-II speech recognition system: an overview", Computer Speech and Language 7,2: 137-148.
- 12) HUNT, M.J. (1998) "Practical Automatic Dictation Systems", The ELRA Newsletter 3,1: 4-7
- 13) LAMBERT, E. (1991) "La máquina de escribir con entrada vocal", in VIDAL BENEYTO, J. ( Dir.) Las industrias de la lengua. Trad. de M. Alvar et al. Salamanca / Madrid: Fundación Sánchez Ruipérez / Pirámide (Biblioteca del Libro, 5). pp. 455-461. LEE, K.F. (1989) Automatic Speech Recognition. The Developmen of the SPHINX System. Dordrecht: Kluwer.
- 14) MANDEL, M.A. (1992) "A commercial large-vocabulary discrete speech recognition system: Dragon Dictate", Language and Speech 35, 1-2: 237-246.
- 15) MEISEL, W.S. (1986) "Towards the 'Talkwriter'", in BRISTOW, G. (Ed.) (1986) Electronic Speech Recognition. Techniques, Technology and Applications. London: Collins. pp. 338-348.
- 16) NÉEL, F.- CHOLLET, G.- LAMEL, L.- MINKER, W.- CONSTANTINESCU, A. (1996) "Reconnaissance et comprehénsion de la parole: évaluation et applications", in MÉLONI, H. (Coord.) Fondements et Perspectives en Traitement Automatique de la Parole. Paris: Éditions AUPELF-UREF (Collection Universités Francophones). http://www.bibliotheque.refer.org/php/parole/neel/neel.htm
- 17) POZA LARA, M.J.- VILLARRUBIA GRANDE, L.- SILES SÁNCHEZ, J.A. (1991) "Teoría y aplicaciones del reconocimiento automático del habla", Comunicaciones de Telefónica I+D 3. http://www.tid.es/presencia/publicaciones/comsid/esp/articulos/vol23/habla/habla.html
- 18) RAGHAVENDRA, P.- ROSENGREN, E.- HUNNICUTT, S. (2001) "An investigation of different degrees of dysarthric speech as input to speaker-adaptive and speaker-dependent recognition systems", Augmentative and Alternative Communication 17, 4: 265-275. Speech Recognition Software, PC Magazine (UK Edition), July 1999 http://reviews.zdnet.co.uk/review/43/1/1610.html
- 19) STEINBISS, V.- NEY, H.- ESSEN, U.- TRAN, B.-H., - AUBERT, X.- DUGAST, C.- KNESER, R.- MEIER, H.-G. - OERDER, R.- HAEB-UMBACH, R.- GELLER, D.- HÖLLERBAUER, W.- BARTOSIK, H. (1995) "Continuous speech dictation - From theory to practice", Speech Communication 17, 1-2: 19-38.
- 20) TAPIAS MERINO, D. (1999) "Sistemas de reconocimiento de voz en las telecomunicaciones", in GÓMEZ GUINOVART, J.- LORENZO SUÁREZ, A.- PÉREZ GUERRA, J.- ÁLVAREZ LUGRÍS, A. (Eds.) Panorama de la investigación en lingüística informática. RESLA, Revista Española de Lingüística Aplicada, Volumen monográfico. pp. 83-102.
- 21) VILLARRUBIA GRANDE, L.- CORTÁZAR MÚGICA, I.- HERNÁNDEZ GÓMEZ, L.- LÓPEZ GONZALO, E. (2001) "Reconocimiento de voz en el entorno de las nuevas redes de comunicación UMTS e Internet", Comunicaciones de Telefónica I+D 23: 99-112. http://www.tid.es/presencia/publicaciones/comsid/esp/23/08.pdf
De Wikipedia, la enciclopedia libre.
[ Volver Atrás ]Enciclopedia Informática |