Análisis lexicográfico

Es la primera fase de un compilador. Consiste en leer el flujo de caracteres que componen el programa fuente y agruparlos en secuencias significativas conocidas como lexemas. Para cada lexema, el analizador produce un token, formado por el nombre del token y su valor (que es la dirección en la tabla de símbolos asignada a este token) y será usada para el análisis semántico y la generación de código.

El analizador léxico realiza otras tareas aparte de identificar lexemas, entre éstas se encuentran:

– Eliminar los comentarios y espacios en blanco.

– Correlacionar con el programa fuente los mensajes de error generados por el compilador

Cuando se habla de análisis léxico es necesario comprender tres términos muy importantes que durante esta fase están relacionados:

– Token: es una estructura compuesta por un nombre de token y un valor de atributo. El nombre es un símbolo de entrada que representa un tipo de unidad léxica, es decir, es como un sinónimo de un Id.

Patrón: es la descripción de la forma que pueden tomar los lexemas en un token.

Lexema: es la secuencia de caracteres en el programa fuente, que coincide con el patrón para un token y que el analizador léxico identifica como una instancia de ese token.

Fuente: Apuntes de Informática VII de la FCA de la UNAM