shell 笔记 5 零宽断言［百度百科］-jonas

jonas_maojonasmao.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

jonas_mao

博客访问： 844165
博文数量： 157
博客积分： 542
博客等级：中士
技术积分： 1696
用户组：普通用户
注册时间： 2011-11-21 20:21

文章分类

全部博文（157）

网络虚拟化（1）
AIX学习（3）
内核汇总（61）

shell学习（11）
网络编程（26）
C之算法（14）
路由协议笔记（16）
C 之我见（25）
需要想象，需要空（4）
未分配的博文（7）

文章存档

2017年（1）

2016年（2）

2015年（6）

2014年（42）

2013年（77）

2012年（19）

2011年（10）

我的朋友

相关博文

shell 笔记 5 零宽断言［百度百科］

分类： LINUX

2014-02-24 22:36:46

正向零宽断言
用于查找在某些内容(但并不包括这些内容)之前或之后的东西，也就是说它们像\b,^,$那样用于指定一个位置，这个位置应该满足一定的条件(即断言)，因此它们也被称为零宽断言。最好还是拿例子来说明吧：断言用来声明一个应该为真的事实。中只有当断言为真时才会继续进行匹配。

(?=exp)也叫零宽度正预测先行断言，它断言自身出现的位置的后面能匹配表达式exp。比如\b\w+(?=ing\b)，匹配以ing结尾的单词的前面部分(除了ing以外的部分)，如查找I'm singing while you're dancing.时，它会匹配sing和danc。

(?<=exp)也叫零宽度正回顾后发断言，它断言自身出现的位置的前面能匹配表达式exp。比如(?<=\bre)\w+\b会匹配以re开头的单词的后半部分(除了re以外的部分)，例如在查找reading a book时，它匹配ading。

假如你想要给一个很长的数字中每三位间加一个逗号(当然是从右边加起了)，你可以这样查找需要在前面和里面添加逗号的部分：((?<=\d)\d{3})+\b，用它对1234567890进行查找时结果是234567890。

下面这个例子同时使用了这两种断言：(?<=\s)\d+(?=\s)匹配以空白符间隔的数字(再次强调，不包括这些空白符)。

负向零宽断言

前面我们提到过怎么查找不是某个或不在某个里的字符的方法(反义)。但是如果我们只是想要确保某个没有出现，但并不想去匹配它时怎么办？例如，如果我们想查找这样的单词--它里面出现了字母q,但是q后面跟的不是字母u,我们可以尝试这样：

\b\w*q[^u]\w*\b匹配包含后面不是字母u的字母q的单词。但是如果多做测试(或者你思维足够敏锐，直接就观察出来了)，你会发现，如果q出现在单词的结尾的话，像Iraq,Benq，这个表达式就会出错。这是因为[^u]总要匹配一个，所以如果q是单词的最后一个字符的话，后面的[^u]将会匹配q后面的单词(可能是空格，或者是句号或其它的什么)，后面的\w*\b将会匹配下一个单词，于是\b\w*q[^u]\w*\b就能匹配整个Iraq fighting。负向零宽断言能解决这样的问题，因为它只匹配一个位置，并不消费任何。现在，我们可以这样来解决这个问题：\b\w*q(?!u)\w*\b。

零宽度负预测先行断言(?!exp)，断言此位置的后面不能匹配表达式exp。例如：\d{3}(?!\d)匹配三位数字，而且这三位数字的后面不能是数字；\b((?!abc)\w)+\b匹配不包含连续字符串abc的单词。

同理，我们可以用(?零宽度负回顾后发断言来断言此位置的前面不能匹配表达式exp：(?

一个更复杂的例子：(?<=<(\w+)>).*(?=<\/\1>)匹配不包含属性的简单HTML标签内里的内容。()指定了这样的前缀：被尖括号括起来的单词(比如可能是)，然后是.*(任意的字符串),最后是一个后缀(?=<\/\1>)。注意后缀里的\/，它用到了前面提过的字符转义；\1则是一个，引用的正是捕获的第一组，前面的(\w+)匹配的内容，这样如果前缀实际上是的话，后缀就是了。整个表达式匹配的是和之间的内容(再次提醒，不包括前缀和后缀本身)。

阅读(1660) | 评论(0) | 转发(0) |

0

上一篇：shell笔记 4 结合几种命令描述关于文件内容查找

下一篇：shell 笔记6 杂篇

给主人留下些什么吧！~~

评论热议

请登录后评论。
登录注册