最近一直在做审计邮件、帖子的工作,所以得首先学会正则。虽说网上对正则表达式解释的已经够详尽的了, 但是把网上的试子照搬到php中,还是有一些惹人厌的问题:
譬如在中有个这样的式子
(?<=<(\w+)>).*(?=<\/\1>)用于匹配
不包含属性的简单HTML标签内里的内容,按道理来说直接在preg_match中运用应该没什么问题,可实际呢:
$str = "aaaaaabbbbbbcccccccddddddfffff";
preg_match("/(?<=<(\w+)>).*(?=<\/\1>)/s", $str, $matches);
var_dump($matches);
|
结果报错:
Warning: preg_match(): Compilation failed: lookbehind assertion is not fixed length at offset 11... |
于是把\w+直接写成font:
preg_match("/(?<=<(font)>).*(?=<\/\1>)/s", $str, $matches);
|
YYD,结果尽然为空,这个问题困扰了我好久,瞎猫碰死耗子,将\1无名组换成有名组尽然成了:
preg_match("/(?<=<(?Pfont)>).*(?=<\/(?P=tag)>)/s", $str, $matches);
|
终于成功了,但是那些失败的例子都在正则的
测试工具里试过了,不知道为什么...
下面举几个经典正则的小例子:
- \b((?!abc)\w)+\b , 匹配不包含连续字符串abc的单词,对于字符串"asdf abcaa abcbb abab", 它会取出asdf 和 abab。
- ((?!<\/?font>).|(?R))*<\/font> 递归匹配,给出上面的字符串
aaaaaabbbbbbcccccccddddddfffff,其会从中引出两组:0组,aaaaaabbbbbbcccccccdddddd 1组,dddddd。
其它的以后再写。
给出几其他人的好文章:
C#基础回顾:正则表达式正则表达式30分钟入门教程正则表达式高级技巧背后的关键概念表达式的递归匹配递归深度匹配 正则表达式
阅读(1486) | 评论(0) | 转发(0) |