首页　| 　博文目录　| 　关于我

博客访问： 268574
博文数量： 52
博客积分： 1379
博客等级：大尉
技术积分： 525
用户组：普通用户
注册时间： 2006-06-18 17:34

文章分类

全部博文（52）

network（6）
线程（10）
编译与链接（11）

yacc（0）

tcc代码笔记（10）
版本管理（2）
以前写的文章（5）
Makefile（3）
轻松一下（4）
linux内核笔记（8）
未分配的博文（3）

文章存档

2011年（48）

2010年（4）

我的朋友

set_derives

该函数计算各个非终结符对应哪些规则，在calc.y中如下：

`set_nullable();`

该函数计算文法符号是否可空
初始所有文法符号都不可空，通过ritem(如下）

就能得到所有规则的右边符号（如果有的话），如果右边是空，那么标记其左边符号可空
如果遍历了一遍ritem发现某个符号可空，那么还需要继续，因为可能有这种规则
A: B;
其中B在上一趟计算出来可空，而A由于计算的时候B还是非空而没有计算出来，这次可以计算出来A可空，因为A右端所有的符号都可空

不断继续，可以看出会结束
结束之后，所有可空的也都计算完了

在该例子只有list可空

done_flag = 1; for (i = 1; i < nitems; i++) { empty = 1; while ((j = ritem[i]) >= 0) { if (!nullable[j]) empty = 0; ++i; } /* 右边是空，或者右边项目都可空 */ if (empty) { /* 项目i开始的项目对应的规则的左边 */ j = rlhs[-j]; if (!nullable[j]) { /* 以前认为规则j不能是空的，现在可以空 * j可能存在于某个j2的右边, 所以需要重新遍历 * 但是很明显，总能结束 */ nullable[j] = 1; done_flag = 0; } } }

generate_states();

分配项目空间

调用 allocate_itemsets 函数分配每个状态对应的项目集合需要用到的数据结构:

1. kernel_base 和 kernel_items

kernel_base为每个文法符号准备一个指针，它的具体位置在kernel_items中
假设文法符号X在规则右边出现了n次，那么它对应n个位置，比如$end只有一次（$accept: goal $end)
所以$end只向0号位置，并且占用一个位置，DIGIT的次数为2，如下是calc.y规则

number: DIGIT
         { $$ = $1; base = ($1==0) ? 8 : 10; }
      | number DIGIT
         { $$ = base * $1 + $2; }
      ;
显然$accept没有出现在右边， UMINUS也没有（它只是记录优先级），所以不占位置

这种指针+数组的结构比较紧凑，byacc好多数据结构都是这种存储方式，以前也遇到过。

每个文法符号出现多少次是通过遍历数组ritem得到的，比较简单。

2. shiftset, redset, state_set

shiftset用于在某个状态上记录可以转移到哪些状态
redset用于在某个状态上记录可以有哪些规则可规约
state_set用于查找某个状态集合是否已经对应了某个状态（号）

set_first_derives

该函数首先调用set_EFF对每个非终结符A计算它相应规则右端第一个可能的非终结符是什么
以及第一个右端非终结符对应的规则第一个非终结符, ...一直传递下去
并且把该A本身也带上

比如 A: B X |D X
B: C X
D: E

那么A将计算出 BCED等符号

记录在名字为EFF的位图数组中，每个非终结符对应一个位图
位图可以涵盖所有的非终结符，如下所示

/* nvars * nvars bits */ rowsize = WORDSIZE(nvars); EFF = NEW2(nvars * rowsize, unsigned);

nvars就是非终结符的个数
计算EFF的方法：

首先每个终结符对应的规则在derives已经有记录
而每个规则右边第一个符号记录在rrhs中（reader）
每个符号是不是终结符跟start_symbol比较就可以了， start_symbol ~ nsyms都是非终结符
自反传递闭包由warshall算法计算
在reflexive_transitive_closure函数中

对于calc.y，如下：

直观上看，当我们期待一个expr的时候，也允许number出现

在任何非终结符A 得到 A：B X中的所有B之后，就可以计算相应的B出现在哪些规则中
把这些规则号保存在一个位图数组中，和EFF类似，只是这时位图代表规则号，而EFF代表非终结符

每个B来自哪些规则由derives给出，所以计算比较简单，一个个终结符遍历EFF对应的位图和derives就可以了

对于calc.c：

First Derives $accept derives 2 3 4 5 list derives 3 4 5 stat derives 6 7 8 9 10 11 12 13 14 15 16 17 expr derives 8 9 10 11 12 13 14 15 16 17 number derives 16 17

把它们的值减去2之后就和如下内容可以对应

可以看出$accept 对应前4条规则，其它类似

initialize_states

在一切准备就绪之后，generate_states调用该函数生成状态0，它只包含一个核心项目
在calc.y 中，它是

$accept: . list $end

状态的意义：

语法分析的目标就是识别goal，在calc.y中它是一个list,对C语言来说它是翻译单元，然后遇到EOF就算成功。
所以刚开始的时候我们期待看到$accept，这正是构造$accept的原因

项目代表我们期望看到什么，刚开始我们希望要得到$accept, 我们期待出现一个list（而且必须有一个list）
状态0仅仅包含一个核心项目的原因也就是$accpet只有一个规则的原因。
当然由于list可以推导出其它符号，所以该状态也会包含一些非核心项目，只是这些非核心项目并不保存在状态中

/* 生成状态0, 为其它状态做准备 */ static void initialize_states(void) { unsigned i; short *start_derives; core *p; /* rlhs[2] = start_symbol; * $accept 只有规则0，其值是2 */ start_derives = derives[start_symbol]; for (i = 0; start_derives[i] >= 0; ++i) continue; assert(i == 1); p = (core *)MALLOC(sizeof(core) + i * sizeof(short)); NO_SPACE(p); p->next = 0; p->link = 0; p->number = 0; /* 状态号 */ p->accessing_symbol = 0; /* 什么符号到达该状态 */ p->nitems = (Value_t) i; for (i = 0; start_derives[i] >= 0; ++i) p->items[i] = rrhs[start_derives[i]]; /* 状态0只有一个项目, 即 $accept: . goal $end */ assert(i == 1 && ritem[p->items[0]] == start_symbol+1 /* goal */); first_state = last_state = this_state = p; nstates = 1; }

生成其它状态

从语句 p->items[i] = rrhs[start_derives[i]]; 可以看出项目的表示就是ritem的位置

在initialize_states生成状态0后，generate_states不断的循环生成其它的状态，直到不会有更多的状态

while (this_state) { closure(this_state->items, this_state->nitems); save_reductions(); new_itemsets(); append_states(); if (nshifts > 0) save_shifts(); this_state = this_state->next; }

1. 求非核心状态

closure根据核心项目生成非核心项目
比如对于状态0 $accept: list $end

对任何 list推导Aabc的A在first_derives中保存着，把这些A对应规则A：X Y对应的项目A：. X Y
加入到当前状态（现在0）中，就得到所有的项目，这些项目就表示，我们接下来该看到什么：
就是这些项目中的某个符号

这些项目保存在itemset中，这只是临时为生成状态用的，大小是nitems， itemsetend是当前状态
所有项目的结尾

2. 当前状态是否可以规约

因为itemset中保存了所有的项目，save_reductions可以知道某个项目是否是规则的结尾处：

count = 0; for (isp = itemset; isp < itemsetend; isp++) { item = ritem[*isp]; if (item < 0) { redset[count++] = (Value_t) - item; } }

参考ritem，每个规则结尾存有规则号的相反数

redset就表示有哪些规则可以规约

reductions结构用来保存一个状态的规约，它记录了相应的状态号（依次递增每生成一个状态有一个号）以及有几个规约等信息

3. 移进符号产生新状态

itemset中所有不是结尾的项目 A: X . Y，移进Y后可以得到新的状态，所有的符号Y保存在shift_symbol中

这是由new_itemsets来完成的

for (i = 0; i < nsyms; i++) kernel_end[i] = 0; shiftcount = 0; isp = itemset; while (isp < itemsetend) { i = *isp++; symbol = ritem[i]; if (symbol > 0) { ksp = kernel_end[symbol]; if (!ksp) { shift_symbol[shiftcount++] = symbol; ksp = kernel_base[symbol]; } *ksp++ = (Value_t) (i + 1);// A: X . Y Z TO A: X Y .Z kernel_end[symbol] = ksp; } }

结果保存在kernel_base指向的位置中!! kernel_base 为每个符号保留了足够的位置

接下来的append_states比较简单了

for (i = 0; i < nshifts; i++) { symbol = shift_symbol[i]; shiftset[i] = get_state(symbol); }

对每个shift_symbol中的symbol, 移近之后有哪些项目在kernel_base[symbol]和kernel[end]中保存着，即看到symbol之后还能看到什么，当然这些项目是核心项目

get_state比较两个状态是否等价，如果是就范围状态号，否则新建状态

和reduction类似 shifts结构保存移进信息，由save_shifts完成

至此，由于状态数是有限的(所有项目元素集合的幂集个数)，generate_states函数的不断生成新状态的循环总会结束

所有的状态生成，规约信息和移进都有了

阅读(2959) | 评论(0) | 转发(0) |

上一篇：byacc 笔记一 reader

下一篇：byacc 源码阅读笔记三 lalr

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6