Lex (informática)

Lex es un programa para generar analizadores léxicos (en inglés scanners o lexers). Lex se utiliza comúnmente con el programa yacc que se utiliza para generar análisis sintáctico. Lex, escrito originalmente por Eric Schmidt y Mike Lesk, es el analizador léxico estándar en los sistemas Unix, y se incluye en el estándar de POSIX. Lex toma como entrada una especificación de analizador léxico y devuelve como salida el código fuente implementando el analizador léxico en C.

Eric Schmidt, uno de los escritores de Lex

Aunque tradicionalmente se trata de software propietario, existen versiones libres de lex basadas en el código original de AT&T en sistemas como OpenSolaris y Plan 9 de los laboratorios Bell. Otra versión popular de software libre de lex es Flex.

Estructura de un archivo de lex

editar

La estructura de un archivo de lex es intencionadamente similar a la de un archivo del yacc; los archivos se dividen en tres secciones, separadas por líneas que contienen solamente dos símbolos "%", como sigue:

Sección de declaraciones
%%
Sección de reglas
%%
Sección de código en C

  • La sección de declaraciones es el lugar para definir macros y para importar los archivos de cabecera escritos en C. También es posible escribir cualquier código de C aquí, que será copiado en el archivo fuente generado. Este código en C debe ir entre los símbolos %{ %}.

      También se pueden incluir "atajos" para definir patrones de la Sección de Reglas, por ejemplo en vez del patrón [0-9]* (cero o más dígitos que reconocerían cualquier número natural), se puede definir en esta sección el "atajo":  números [0-9]*, así, en la sección de código pondríamos el patrón {números} {acción_en_C;}. Con esto se clarifica la escritura del código en lex.

  • La sección de reglas es la sección más importante; asocia patrones a sentencias de C. Los patrones son simplemente expresiones regulares. Cuando el lexer encuentra un texto en la entrada que es asociable a un patrón dado, ejecuta el código asociado de C. Esta es la base del funcionamiento de lex.
  • La sección de código C contiene sentencias en C y funciones que serán copiadas en el archivo fuente generado. Estas sentencias contienen generalmente el código llamado por las reglas en la sección de las reglas. En programas grandes es más conveniente poner este código en un archivo separado y enlazarlo en tiempo de compilación.

Ejemplo de archivo Flex

editar

Lo siguiente es un ejemplo de archivo lex para la versión Flex de lex. Reconoce cadenas de números (números enteros) en la entrada, y simplemente los imprime en la salida.

/*** Sección de declaraciones ***/

%{
/* Código en C que será copiado */
#include <stdio.h>
%}

/* Esto indica a Flex que lea sólo un fichero de entrada */
%option noyywrap

%%
    /*** Sección de reglas ***/

    /* [0-9]+ identifica una cadena de uno o más dígitos */
[0-9]+  {
            /* yytext es una cadena que contiene el texto coincidente. */
            printf("Encontrado un entero: %s\n", yytext);
        }

.       {   /* Ignora todos los demás caracteres. */   }

%%
/*** Sección de código en C ***/

int main(void)
{
    /* Ejecuta el ''lexer'', y después termina. */
    yylex();
    return 0;
}

Si se da esta entrada a flex, será convertida en un archivo de C, lex.yy.c. Esto se puede compilar en un ejecutable que encuentre y haga salir cadenas de números enteros. Por ejemplo, dando la entrada:

abc123z.!&*2ghj6

el programa imprimirá:

Encontrado un entero: 123
Encontrado un entero: 2
Encontrado un entero: 6

Uso de Lex con Yacc

editar

Lex y Yacc (un generador de analizadores sintácticos) suelen ser utilizados juntos. Yacc utiliza una gramática formal para analizar un flujo de entradas, algo que Lex no puede hacer con expresiones regulares simples (Lex se limita a los autómatas de estados finitos simples). Sin embargo, Yacc no puede leer en un flujo de entradas simple - requiere una serie de símbolos. Lex se utiliza a menudo para proporcionar a Yacc estos símbolos.

Véase también

editar

Enlaces externos

editar