正则字符串处理-linuxty-ChinaUnix博客

Point's Blogpoint.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

linuxty

博客访问： 484805
博文数量： 104
博客积分： 3455
博客等级：中校
技术积分： 1216
用户组：普通用户
注册时间： 2009-01-18 18:33

文章分类

全部博文（104）

学习（48）

Shell（10）

Linux（9）

Perl（16）
生活（56）
未分配的博文（0）

文章存档

2015年（3）

2014年（1）

2013年（7）

2012年（8）

2011年（11）

2010年（18）

2009年（56）

我的朋友

最近访客

推荐博文

正则字符串处理

分类：

2009-11-18 11:09:16

正则表达式的字符串是特殊的双引号字符串.(分隔符不为单引号时).
对正则字符串,Perl将分两步进行:
一.当成特殊的双引号字符串处理.
二.把第一步处理后的字符串传递给正则引擎处理.

第一步的处理是很复杂的,与一般的双引号字符串有很大的区别.
(1) 不在末尾的$将进行变量内插.在末尾的$将z作为正则表达式的锚点.
(2) \U \u \L \l \Q \E 必须在第一步进行.
    其他的反斜杠替换都在第二步进行.
   e.g.
   #/usr/bin/perl -w
   $x='\U';
   $y='\n';
   $z="\n";
   print "ABC" =~ m/${x}abc/;   # 不匹配
   print "ABC" =~ m/\Uabc/;    # 匹配
   print "\n" =~ m/$y/;        # 匹配
   print "\n" =~ m/$z/;        # 匹配
   print "\n" =~ m/\n/;        # 匹配

我的理解:
正则表达式的元字符序列和双引号的转义字符有很多重复的.所以在两步都可以处理这些字符.而在正则引擎的内部没有对\U系列的处理,所以必须在第一步处理,所以我不把\U系列看成是真正的元字符序列.而只是双引号的转义字符,所以必须在第一步处理.而\t等在正则引擎内部有处理,而在第一步处理这么字符可能造成混乱,所以推迟到第二步来处理,比如如果第一步就处理了 \s,将变为 s,无视了反斜杠,传给正则引擎的将只是s,这与实际不符的.
所以第一步不应该处理元字符序列的反斜杠,都推迟到第二步来处理.

阅读(1186) | 评论(0) | 转发(0) |

上一篇：Pack/Unpack 总结

下一篇：what a fucking day!

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6