python字符串正则表达式最短匹配模式-wwm-ChinaUnix博客

天道酬勤,重剑无锋wwm.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

wwm

博客访问： 7324925
博文数量： 512
博客积分： 12019
博客等级：上将
技术积分： 6857
用户组：普通用户
注册时间： 2005-08-01 16:46

文章分类

全部博文（512）

python（77）

tensorflow（9）
大数据分析（4）
cocos2d-x（3）
nodejs（8）
并行技术研究（1）
杂谈（3）
java（2）
流媒体live strea（9）
flash技术（4）
敏捷（1）
手机网游（15）
中间件（0）
汽车知识（3）
lua（19）
中医和健康（9）
佛教（7）
计算机硬件知识（1）
高性能服务（3）
项目管理（2）
证券知识（27）
算法技术设计与分（4）
数据仓库（11）

数据挖掘（2）
UML（1）
人生感悟（6）
文史类（3）
IT生涯（2）
设计模式（14）
c/c++语言（83）
stl（5）
windows（21）
linux（126）
General（22）
未分配的博文（16）

文章存档

2024年（2）

2022年（2）

2021年（6）

2020年（59）

2019年（4）

2018年（10）

2017年（5）

2016年（2）

2015年（4）

2014年（4）

2013年（16）

2012年（47）

2011年（65）

2010年（46）

2009年（34）

2008年（52）

2007年（52）

2006年（80）

2005年（22）

我的朋友

转自：

问题

使用正则表达式匹配字符串时，返回的是最长匹配，需要修改它变成查找最短的匹配。

解决方案

这个问题，一般出现在需要匹配一对分隔符之间的文本时，比如：

import re

text1 = 'Computer says "no."' text2 = 'Computer says "no." Phone says "yes."' str_pat = re.compile(r'".*"') print(str_pat.findall(text1)) print(str_pat.findall(text2)) ['"no."'] ['"no." Phone says "yes."']

在例子(2)中，需求是匹配被双引号包含的文本，但是在正则表达式中*操作符是贪婪的，匹配操作会查找最长的可能匹配，返回的结果并不是我们想要的。

为了修正这个问题，可以在*操作符后面加上?修饰符，比如：

str_pat1 = re.compile(r'".*?"') print(str_pat1.findall(text2)) ['"no."', '"yes."']

这样就使得匹配变成非贪婪模式，从而得到最短的匹配，也就是我们想要的结果。

讨论

在正则表达式中，点(.)字符匹配除了换行外的任何字符。

如果将点(.)放在开始与结束符(比如引号)之间，匹配操作会查找符合模式的最长可能匹配，会导致很多中间的被开始与结束符包含的文本被忽略掉，并最终被包含在匹配结果字符串中返回。

==========================================================
我在实验中的例子：

ss = "献岁菊（《台湾府志》），雪莲（《西域见闻录》），长春菊（《事物绀珠》），岁菊（《漳》），冰里花、顶冰花（《东北植物药图志》），冰凉花、雪莲花（《药材学》），冰郎花（《吉林中草药》）。"

print ss

pattern = re.compile(r'(（.*）)')
pattern = re.compile(r'(（.*?）)')
#print pattern.findall(ss)
r = pattern.sub("",ss)
print r

阅读(372943) | 评论(0) | 转发(0) |

上一篇：复杂字典dict排序

下一篇：码判断_unicode_gbk/gb2312_utf8（附函数）

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6