Redy词法分析--关键字的识别-NosicLin-ChinaUnix博客

NosicLin的ChinaUnix博客nosic.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

NosicLin

博客访问： 331978
博文数量： 32
博客积分： 424
博客等级：准尉
技术积分： 465
用户组：普通用户
注册时间： 2012-03-02 10:23

文章分类

全部博文（32）

随笔（1）
数据结构与算法（6）

长整数（6）
面向对象（1）
Redy（24）
未分配的博文（0）

文章存档

2012年（32）

我的朋友

相关博文

Redy词法分析--关键字的识别

分类： Python/Ruby

2012-03-02 18:19:07

返回文档首页

代码下载: git clone git://git.code.sf.net/p/redy/code redy-code

这一章的内容有：

关键字的识别

（1）简介

在Redy中，总共有这么一些关键字：

'class' 'attr' 'end' 'inhrit' 'vfunc' 'func'
    'import' 'as' 'to' 'from'
    'break' 'continue' 'for' 'while' 'do' 'in'
    'if' 'elif' 'else' 'then'
    'return' 'and' 'or' 'not'
    'print' 'try' 'catch' 'finally

在前面，我们是把关键字和识别与变量的识别结合再一起来，这样做是因为为关键字构造状态机是一件很烦锁的事情，如果要构造一个能成功识别上面关键字的状态机，至少需要100多个状态，无论是编写，绘图，还是维护都是一件费脑力与体力的活，所以，我们也关键字的识别与变量识别结合在一起，当词法识别系统识别到一个变量的词文时，我们再来对判断该词文是否真的是变量，还是关键字。

第一步：我们用一个结构体来表示关键字：

struct keyword
{
char* k_name;
int k_token;
};

其中成员k_name表示该关键字的名称，k_token用于表示该关键字的词文类型，用于后面的语法分析。

第二步：用一个数组来保存这些关键字，关键字按字典顺序排列。

struct keyword key_words[]=
{
    {"and",TOKEN_AND},
    {"as",TOKEN_AS},
    {"attr",TOKEN_ATTR},
    {"break",TOKEN_BREAK},
    {"catch",TOKEN_CATCH},
    {"class",TOKEN_CLASS},
    {"continue",TOKEN_CONTIUNE},
    {"do",TOKEN_DO},
    {"elif",TOKEN_ELIF},
    {"else",TOKEN_ELSE},
    {"end",TOKEN_END},
    {"finally",TOKEN_FINALLY},
    {"for",TOKEN_FOR},
    {"from",TOKEN_FROM},
    {"func",TOKEN_FUNC},
    {"if",TOKEN_IF},
    {"import",TOKEN_IMPORT},
    {"in",TOKEN_IN},
    {"inhrit",TOKEN_INHRIT},
    {"not",TOKEN_NOT},
    {"or",TOKEN_OR},
    {"print",TOKEN_PRINT},
    {"return",TOKEN_RETURN},
    {"then",TOKEN_THEN},
    {"to",TOKEN_TO},
    {"try",TOKEN_TRY},
    {"vfunc",TOKEN_VFUNC},
    {"while",TOKEN_WHILE},
};

第三步：因为我们前面已经对关键字按照字典顺序排序，这样做的目的为，我们可以使用二分查找算法来加速整个查找的过程。我们这里用一个函数来实现查找，如果参数symbol是关键字，则返回关键字的类型，否则说明该词文是一个变量，则返加TOKEN_ID。

int symbol_type(char* symbol)
{
    int begin=0;
    int end=KEYWORD_NUM-1;
    int middle;
    while(begin<=end) /*采用二分查找算法*/
    {
        middle=(begin+end)/2;
        int ret=strcmp(symbol,key_words[middle].k_name);
        printf("cmp %s ,%s =%d\n",key_words[middle].k_name,symbol,ret);

        if(ret<0)
        {
            end=middle-1;
        }
        else if(ret >0)
        {
            begin=middle+1;

        }
        else
        {
            return key_words[middle].k_token;
        }
    }
    return TOKEN_ID;
}

第四步：写一个小程序测试程序来判断前面的程序是否工作正常。

int main()
{
    char buf[1024];
    printf("input __quit__ exit\n");
    printf("input:\n");
    scanf("%s",buf);
    while(strcmp(buf,"__quit__")!=0)
    {
        int token=symbol_type(buf);
        printf("it's %s\n",token_info[token]);
        printf("input:\n");
        scanf("%s",buf);
    }
    return 0;
}

运行结果：

大家在tutorial/lexical/keywords下面找到源程序。

返回文档首页

阅读(2340) | 评论(0) | 转发(1) |

上一篇：Redy词法分析--整数与浮点数的合并

下一篇：Redy语法分析--YACC简介

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6