Chinaunix首页 | 论坛 | 博客
  • 博客访问: 138760
  • 博文数量: 20
  • 博客积分: 551
  • 博客等级: 下士
  • 技术积分: 260
  • 用 户 组: 普通用户
  • 注册时间: 2011-11-28 15:55
文章分类

全部博文(20)

文章存档

2012年(12)

2011年(8)

分类: C/C++

2012-03-15 19:07:15

strtok函数的使用是一个老生常谈的问题了。该函数的作用很大,争议也很大。以下的表述

使用的源代码大部分来自于网络,我稍加修改作为例证。当然,本人水平有限,有不妥之处望各位多多指教。

strtok的函数原型为char *strtok(char *s, char *delim),功能为“Parse S into tokens separated by characters in DELIM.If S is NULL, the saved pointer in SAVE_PTR is used as the next starting point. ” 翻译成汉语就是:作用于字符串s,以包含在delim中的字符为分界符,将s切分成一个个子串;如果,s为空值NULL,则函数保存的指针SAVE_PTR在下一次调用中将作为起始位置。

函数的返回值为从指向被分割的子串的指针。

要点纪要:

1.函数的作用是分解字符串,所谓分解,即没有生成新串,只是在str所指向的内容上做了些手脚而已。因此,源字符串str发生了变化!

下面就以str[] = "ab,c,d"为简单案例一代吗来证实其str发生了变化:


 

点击(此处)折叠或打开

  1. #include <string.h>
  2. #include <stdio.h>

  3. int main(void)
  4. {
  5.   char str[] = "ab,c,d";
  6.   char *p = NULL;
  7.   char delim = ",";

  8.   int in = 0;
  9.   p = strtok(str, delim);
  10.   while(p != NULL){
  11.     printf("the character is :%s\n",p);
  12.     printf("the str is : %s\n",str);
  13.     p = strtok(NULL,delim);
  14.   }
  15. }

代码执行后输出结果:

 

点击(此处)折叠或打开

  1. the character is : ab
  2. the str is : ab
  3. the character is : c
  4. the str is : ab
  5. the character is : d
  6. the str is : ab

有上面的结果可知,str发生了变化。此时打印str的值,只会显示“ab”,而后面" ,c,d”不翼而飞了。实际上,strtok函数根据delim中的分界符,找到其首次出现的位置,即ab后面那个空格(str[2]),将其修改成了'\0’。其余位置不变。这就很好解释为什么打印str的值只能出现“ab”,而非str中的全部内容了。因此,使用strtok时一定要慎重,以防止源字符串被修改。 

理解了str的变化,就很好解释函数的返回值了。返回值delim为分界符之前的子串;由变量的地址可知,p依然指向源字符串。

 

2.若要在第一次提取子串完毕之后,继续对源字符串s进行提取,应在其后(第二次,第三次。。。第n次)的调用中将strtok的第一个参数赋为空值NULL。

第一次之后的调用我们都给strtok的第一个参数传递了空值NULL(表示函数继续从上一次调用隐式保存的位置,继续分解字符串;对于上述的第二次调用来说,第一次调用结束前用一个this指针指向了分界符的下一位,即'c’所在的位置),这样可依次提取出 "c d",加入你感觉为什么非要赋空值,我如果不赋空继续赋值为str会有什么结果。其实,答案想也能想的到。再一次传递str,相当于还从字符串的开头查找分界符delim,而且此时str已经被修改(可见的部分只剩下"ab"),因此,其结果必然是找不到分界符delim只是打印出ab后面的就没有办法打印出来了。

 

 

3.分隔符delim的探讨(delim是分隔符的集合)
很多人在使用strtok的时候,都想当然的以为函数在分割字符串时完整匹配分隔符delim,比如delim=”ab”,则对于"acdeab”这个字符串,函数提取出的是"acde”。至少我在第一次使用的时候也是这么认为的。其实我们都错了,我是在看函数的源代码时才发现这个问题的,且看下面的例子

点击(此处)折叠或打开

  1. int main(void)
  2. {
  3.   char str[] = "acdeab";
  4.   char *p = NULL;
  5.   int in = 0;
  6.   p = strtok(str, "ab");
  7.   while(p != NULL){
  8.     printf("the character is :%s\n",p);
  9.     p = strtok(NULL,"ab");
  10.   }
  11. }

输出的结果为:

  1. the character is :cde

第一次调用之后的结果竟然是"cde”,而非我们所想的结果。这是为什么呢?

我们回到GNU C Library中对strtok的功能定义:“Parse S into tokens separated by characters in DELIM”。也就是说包含在delim中的字符均可以作为分隔符,而非严格匹配。可以把delim理解为分隔符的集合。这一点是非常重要的

当然,我们在分解字符串的时候,很少使用多个分隔符。这也导致,很多人在写例子的时候只讨论了一个分隔符的情况。有更多的人在看例子的时候也就错误的认识了delim的作用。

4.待分解的字符串,首字符就为分隔符

首字符为分隔符不能算作一个很特殊的情况。按照常规的分解思路也能正确分解字符串。

由此说明的是,strtok对于这种情况采用了比常规处理更快的方式。

仅用一次调用就可以得到以“ab”分隔的字符串"acdeab”,而前面的a被忽略了。由此可见,strtok在调用的时候忽略了起始位置开始的分隔符。这一点,可以从strtok的源代码得到证实

6.不能向第一个参数传递字符串常量!

本文中所举的例子都将源字符串保存为字符串数组变量。若你将源字符串定义成字符串常量,可想而知,程序会因为strtok函数试图修改源字符串的值,而抛出异常。

 

对于该函数的使用我也就理解到这里,如果还有其他的用法以后发现再来完善吧。



 

 



 

 



 

阅读(5611) | 评论(0) | 转发(2) |
给主人留下些什么吧!~~