Chinaunix首页 | 论坛 | 博客
  • 博客访问: 183872
  • 博文数量: 27
  • 博客积分: 2510
  • 博客等级: 少校
  • 技术积分: 285
  • 用 户 组: 普通用户
  • 注册时间: 2007-03-20 10:21
个人简介

6年的blog,重新拾起,再来耕耘!

文章分类

全部博文(27)

文章存档

2013年(1)

2009年(9)

2007年(17)

我的朋友

分类:

2009-05-29 17:23:14

已修正:
 
<\s*a.*?\s+href\s*=\s*([\"']?)(.*?)\1(+.*?)*?>.*?
第二个分组里面的值就是超链接的值.
 
 
 
升级版:
<\s*a.*?\s+href\s*=\s*([\"']?)(?!#|mailto|location.|javascript|.*css|.*this\.)(.*?)\1(+.*?)*?>.*?
 
可以避免取出 #  mailto javascript:void(0) .css之类的链接
这种就有可能分组2为空了。
 
使用这种零宽断言总是有问题,将(?!#|mailto|location.|javascript|.*css|.*this\\.)写成(?!#|mailto|location.|javascript|.*css|.*exe|.*rar|.*txt|.*wav|.*rmvb|.*rm|.*wmv|.*mp3|.*dvd|.*jpg|.*zip|.*tar|.*doc|.*pdf)就不行了,好想是一旦超过多少种就有问题。
哪位达人能解答下
 
 
 
欢迎大家测试,如果测出bug的话,请提出来,如果能提供修正版的话,那更加谢谢了!
阅读(3500) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~