状态机：基础二（ZT）-web

九重天websurf.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

web_surf

博客访问： 2137008
博文数量： 413
博客积分： 10926
博客等级：上将
技术积分： 3862
用户组：普通用户
注册时间： 2006-01-09 18:14

文章分类

全部博文（413）

Web Dev.（2）
Design（4）

Detailed Design（2）

Architecture（0）

UI Design（2）
Project Manageme（2）
Media（3）
Security（10）

安全产品（1）

病毒木马（1）

黑客攻防（3）

密码学（4）
Database（0）
Network Programm（6）

protocol（1）
特别收藏（2）
常用资源介绍（1）
读书（8）
健康（7）
佛法（1）
English（2）
Mobile Developme（163）

Common（1）

Mobile Misc（2）

Dopod（1）

Motorola（1）

BlackBerry（2）

OPhone（1）

iOS（30）

MID & UMPC（2）

Android（123）
Software Enginee（22）
Platforms（85）

App Dev.（22）

Fedora（1）

Ubuntu（3）

UI Program（0）

Embedded（5）

Kernel & Drive（0）

Administration（11）

Windows Mobile（3）

Symbian（25）

Windows（7）

SDL（3）

Qt（1）

Gtk+（2）

Linux（0）

Linux File Syste（2）
Programming Lang（75）

Common（1）

Algorithm（8）

XML（0）

HTML（1）

Script（0）

Assembly（7）

Python（0）

Ruby（0）

Shell（1）

Web（0）

Perl（4）

Objective-C（3）

C/C++（13）

J2ME（5）

Java（32）
未分配的博文（20）

文章存档

2015年（5）

2014年（1）

2013年（5）

2012年（6）

2011年（138）

2010年（85）

2009年（42）

2008年（46）

2007年（26）

2006年（59）

我的朋友

相关博文

状态机：基础二（ZT）

分类： LINUX

2011-12-23 16:03:05

转载时请注明出处和作者联系方式
文章出处：http://www.limodev.cn/blog
作者联系方式：李先静

系统程序员成长计划-文本处理(一)

状态机(2)

o 用有穷状态机解一道面试题。

刚毕业的时候，我到一家外企面试，面试题里有这样一道题：

统计一篇英文文章里的单词个数。

有多种方法可以解这道题，这里我们选择用有穷状态机来解，做法如下：

先把这篇英文文章读入到一个缓冲区里，让一个指针从缓冲区的头部一直移到缓冲区的尾部，指针会处于两种状态：“单词内”或“单词外”，加上后面提到的初始状态和接受状态，就是有穷状态机的状态集。缓冲区中的字符集合就是有穷状态机的字母表。

如果当前状态为“单词内”，移到指针时，指针指向的字符是非单词字符(如标点和空格)，那状态会从“单词内”转换到“单词外”。如果当前状态为“单词外”，移到指针时，指针指向的字符是单词字符(如字母)，那状态会从“单词外”转换到“单词内”。这些转换规则就是状态转换函数。

指针指向缓冲区的头部时是初始状态。

指针指向缓冲区的尾部时是接受状态。

每次当状态从“单词内”转换到“单词外”时，单词计数增加一。
这个有穷状态机的图形表示如下：

下面我们看看程序怎么写：

int count_word(const char* text)
{
/*定义各种状态，我们不关心接受状态，这里可以不用定义。*/
enum _State
{
STAT_INIT,
STAT_IN_WORD,
STAT_OUT_WORD,
}state = STAT_INIT;

int count = 0;
const char* p = text;

/*在一个循环中，指针从缓冲区头移动缓冲区尾*/
for(p = text; *p != '/0'; p++)
{
switch(state)
{
case STAT_INIT:
{
if(IS_WORD_CHAR(*p))
{
/*指针指向单词字符，状态转换为单词内*/
state = STAT_IN_WORD;
}
else
{
/*指针指向非单词字符，状态转换为单词外*/
state = STAT_OUT_WORD;
}
break;
}
case STAT_IN_WORD:
{
if(!IS_WORD_CHAR(*p))
{
/*指针指向非单词字符，状态转换为单词外，增加单词计数*/
count++;
state = STAT_OUT_WORD;
}
break;
}
case STAT_OUT_WORD:
{
if(IS_WORD_CHAR(*p))
{
/*指针指向单词字符，状态转换为单词内*/
state = STAT_IN_WORD;
}
break;
}
default:break;
}
}

if(state == STAT_IN_WORD)
{
/*如果由单词内进入接受状态，增加单词计数*/
count++;
}

return count;
}

用状态机来解这道题目，思路清晰，程序简单，不易出错。

这道题目只是为了展示一些奇技淫巧，还是有一些实际用处呢？回答这个问题之前，我们先对上面的程序做点扩展，不只是统计单词的个数，而且要分离出里面的每个单词。

int word_segmentation(const char* text, OnWordFunc on_word, void* ctx)
{
enum _State
{
STAT_INIT,
STAT_IN_WORD,
STAT_OUT_WORD,
}state = STAT_INIT;

int count = 0;
char* copy_text = strdup(text);
char* p = copy_text;
char* word = copy_text;

for(p = copy_text; *p != '/0'; p++)
{
switch(state)
{
case STAT_INIT:
{
if(IS_WORD_CHAR(*p))
{
word = p;
state = STAT_IN_WORD;
}
break;
}
case STAT_IN_WORD:
{
if(!IS_WORD_CHAR(*p))
{
count++;
*p = '/0';
on_word(ctx, word);
state = STAT_OUT_WORD;
}
break;
}
case STAT_OUT_WORD:
{
if(IS_WORD_CHAR(*p))
{
word = p;
state = STAT_IN_WORD;
}
break;
}
default:break;
}
}

if(state == STAT_IN_WORD)
{
count++;
on_word(ctx, word);
}

free(copy_text);

return count;
}

状态机不变，只是在状态转换时，做是事情不一样。这里从“单词内”转换到其它状态时，增加单词计数，并分离出当前的单词。至于拿分离出的单词来做什么，由传入的回调函数决定，比如可以用来统计每个单词出现的频率。

但如果讨论还是限于英文文章，这个程序的意义仍然不大，现在来做进一步扩展。我们考虑的文本不再是英文文章，而是一些文本数据，这些数据由一些分隔符分开，我们把数据称为token，现在我们要把这些token分离出来。

typedef void (*OnTokenFunc)(void* ctx, int index, const char* token);

#define IS_DELIM(c) (strchr(delims, c) != NULL)
int parse_token(const char* text, const char* delims, OnTokenFunc on_token, void* ctx)
{
enum _State
{
STAT_INIT,
STAT_IN,
STAT_OUT,
}state = STAT_INIT;

int count = 0;
char* copy_text = strdup(text);
char* p = copy_text;
char* token = copy_text;

for(p = copy_text; *p != '/0'; p++)
{
switch(state)
{
case STAT_INIT:
case STAT_OUT:
{
if(!IS_DELIM(*p))
{
token = p;
state = STAT_IN;
}
break;
}
case STAT_IN:
{
if(IS_DELIM(*p))
{
*p = '/0';
on_token(ctx, count++, token);
state = STAT_OUT;
}
break;
}
default:break;
}
}

if(state == STAT_IN)
{
on_token(ctx, count++, token);
}

on_token(ctx, -1, NULL);
free(copy_text);

return count;
}

用分隔符分隔的文本数据有很多，如：

环境PATH，它由‘:’分开的多个路径组成。如：
/usr/lib/qt-3.3/bin:/usr/kerberos/bin:/backup/tools/jdk1.5.0_18/bin/:/usr/lib/ccache:/usr/local/bin:/bin:/usr/bin:/home/lixianjing/bin

文件名，它由‘/’分开的路径组成。如：
/usr/lib/qt-3.3/bin

URL中的参数，它‘&’分开的多个key/value对组成。
hl=zh-CN&q=limodev&btnG=Google+搜索&meta=&aq=f&oq=

所有这些数据都可以用上面的函数处理，所以这个小函数是颇具实用价值的。

阅读(1147) | 评论(0) | 转发(0) |

上一篇：状态机：基础一（ZT）

下一篇：状态机：INI解析器 (ZT)

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6