一个编译器的实现（04）——词法分析(3.最小化DFA)-naturemickey-ChinaUnix博客

对天歌naturemickey.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

naturemickey

博客访问： 161493
博文数量： 13
博客积分： 125
博客等级：入伍新兵
技术积分： 329
用户组：普通用户
注册时间： 2011-05-31 08:48

个人简介

爱学习，喜欢技术。

文章分类

全部博文（13）

未分配的博文（13）

文章存档

2017年（1）

2014年（7）

2011年（5）

我的朋友

cjdao

相关博文

一个编译器的实现（04）——词法分析(3.最小化DFA)

分类： C/C++

2011-06-26 20:45:56

檀凤琴1998[3]中的算法是比较简单的，但那个算法有错误——有些情况的NFA并不能用她的算法来进行最小化，可能某些构造NFA的方法可以保证不会出现那些不适用于这个算法的NFA，但她没有证明，也没看到其它人证明过，我也没打算去证明它，所以我们这里不用她的算法。但可以借鉴参考，那个算法实现起来要比下面AMRJ2010[1]和MLS2007[2]要简单得多，如果能够解决不适用的部分，那么这个算法还是挺好用的。（我的反例是这样的：假设某NFA的有三个终态a,b,c，a输入x到b，b输入x到c，c输入x到a，这样的情况不能满足算法1步骤3的任何一个规则，但这三个状态是等价的。）

AMRJ2010[1]与MLS2007[2]中的算法是一样的，MLS2007[2]中只是一小段话就带过了，没有详细讲，所以下面我引用AMRJ2010[1]中的内容：

算法：最小化一个DFA的状态数量。

输入：一个DFA D，其状态集合为S，输入字母表为Σ，开始状态为s0，接受状态为F。

输出：一个DFA D'，它和D接受相同的语言，且状态数量最少。

方法：

首先构造包含两个组F和S-F的初始划分∏，这两个组分别是D的接受状态组和非接爱状态组。
应用下图的过程来构造新的分划∏new。
1. 最初，令∏new = ∏;
2. for(∏中的每个组G){
3. 将G分为更小的组，使得两个状态s和t在同一小组中当且仅当对所有的输入符号a，状态s和t在a上的转换都到达∏中的同一组;
4. /*在最坏情况下，每个状态各自组成一个组*/
5. 在∏new中将G替换为G进行分划得到的那些小组;
6. }
如果∏new = ∏，令∏final = ∏并接着执行步骤4；否则，用∏new替换∏并重复步骤2。
在分划∏final的每个组中选取一个状态作为该组的代表。这些代表构成了状态最少DFA D'的状态。D'的其它部分接如下步骤构建：

D'的开始状态是包含了D的开始状态的组的代表。
D‘的接受状态是那些包含了D的接受状态的组的代表。请注意，每个组中要么只包含接受状态，要么只包含非接受状态，因为我们一开始就将这两类状态分开了，而上面图中的过程总是通过分解已经构造得到的组来得到新的组。
令s是∏final中某个组G的代表，并令DFA D中在输入a上离开s转换到达状态t。令r为t所在的组H的代表。那么在D'中存在一个从s到r在输入a上的转换。注意，在D中，组G中的每一个状态必然在输入a上进入组H中的某个状态，否则，组G应该已经被上图的过程分割成更小的组了。

书中的算法就是这样，下面我们举一个例子，运行一下这个算法：

一个识别注释块的正则表达式：/\*(\*[^/]|[^*])*\*/

其对应的NFA为：

用上一节的算法转换成DFA为：

下面我们来执行一下算法，来简化这个DFA：

第一步初始划分，这里只有一个接受状态，那么划分就为两个集合：{s, 1, 2, 3, 4, 5}和{f}，我们用sets表示。
定义一个sets_new来表示划分后的集合。初始值为sets。
for(sets中的每个组set)，即：遍历sets中的每一个集合，遍历过程中的当前集合用set表示。
划分set为更小的集合，使得每个集合中的状态的输入都到达sets中的同一个组中。如：现在sets为两个组，即{s, 1, 2, 3, 4, 5}和{f}，我们用s1和s2表示它们，s2只有一个状态，没得分了，所以我们假设当前遍历到s1，s1中只有状态3的输出有时在s2中，有时在s1中，其它状态的输出都在s1中，那么我们这次之后的划分就把状态3分出来，这样就变成了{s, 1, 2, 4, 5}和{3}和{f}，即为sets_new。
如果sets_new与sets是一样的，那么划分就停止，开始执行下一步，否则回到步骤3。
到了这步，最终sets会是这样的：{s}, {1}, {2, 4, 5}, {3}, {f}。这些集合就是我们最终的DFA的状态，此时我们还要确定三个东西：第一个是开始状态。这些集合中，哪一个包含了未简化前的开始状态，哪个就是新的DFA的开始状态，那就是{s}了（因为原来的DFA的开始状态只有一个，所以我们简化之后也只会有一个）。第二个是接受状态。只要哪个集合中包含了原来的任意一个接受状态，那么这个集合就是简化后的DFA的接受状态，那就是{f}了（如果未简化前有多个接受状态，那么简化后也可能有多个，也可能只有一个）。第三个是转换的边。这个只要在那个集合中任选一个状态，看一下这个状态的输出状态在哪个集合中，那么就有一个边从当前集合指向那个集合。如{2, 4, 5}，我们任选一个，比如4，4有一个边输入*输出到3，那么{2, 4, 5}就会有一条边输入*，输出到{3}，4还有一个边输入^*输出到4，那么{2, 4, 5}就会有一个边输入^*输出到自己。这就确定了{2, 4, 5}的所有输出了。以此类推就可以确定所有的边。
到此，简化的DFA出来了，如图（若要好看一点，也可以改一下状态名字）：。

这个算法只是对于一个正则表达试来说的，但如果我们要匹配多个正则表达式呢？即，每个词素一个表达式的情况：

只需要把上面的算法改动一点点。在第一步做初始划分的时候，把不同的接受状态分别划到不同的组中即可（当然，我们要有一个标记来区分不同的接受状态），算法的其它部分不变。

至此，最小化DFA的工作就结束了。

下一步就是执行扫描过程了。

本节参考资料

Alfred V.Aho、Monica S.Lam、Ravi Sethi、Jeffrey D.Ullman著，赵建华、郑滔、戴新宇译，《编译原理》，机械工业出版社，2010年4月。
Michael L.Scoot著，裘宗燕译，《程序设计语言-实践之路》第2版，电子工业出版社，2007年6月。
檀凤琴，《构造正则表达式的简化DFA算法》，1998年。

我的代码

同前一篇文章。

阅读(3796) | 评论(1) | 转发(0) |

上一篇：一个编译器的实现（03）——词法分析(2.NFA转DFA)

下一篇：一个编译器的实现（05）——词法分析(4.扫描器)

给主人留下些什么吧！~~

bh84582016-04-14 18:20:06

檀凤琴1998[3]中的算法没有错误，因为由NFA构造与其等价的简化DFA算法中的“简化DFA”不是“最小化DFA”，即状态数不一定是最少的。若求最小化DFA，可用状态等价划分法求最小化DFA，有关这些描述，请见高教出版社2011年1月尹宝林等出版的《离散数学》

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6