已修正:
<\s*a.*?\s+href\s*=\s*([\"']?)(.*?)\1(+.*?)*?>.*?
第二个分组里面的值就是超链接的值.
升级版:
<\s*a.*?\s+href\s*=\s*([\"']?)(?!#|mailto|location.|javascript|.*css|.*this\.)(.*?)\1(+.*?)*?>.*?
可以避免取出 # mailto javascript:void(0) .css之类的链接
这种就有可能分组2为空了。
使用这种零宽断言总是有问题,将(?!#|mailto|location.|javascript|.*css|.*this\\.)写成(?!#|mailto|location.|javascript|.*css|.*exe|.*rar|.*txt|.*wav|.*rmvb|.*rm|.*wmv|.*mp3|.*dvd|.*jpg|.*zip|.*tar|.*doc|.*pdf)就不行了,好想是一旦超过多少种就有问题。
哪位达人能解答下
欢迎大家测试,如果测出bug的话,请提出来,如果能提供修正版的话,那更加谢谢了!
阅读(3500) | 评论(0) | 转发(0) |