python re库学习-xpf1990xpf-ChinaUnix博客

昀易yunyi.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

xpf1990xpf

博客访问： 381514
博文数量： 150
博客积分： 3423
博客等级：中校
技术积分： 1005
用户组：普通用户
注册时间： 2011-07-15 09:04

文章分类

全部博文（150）

多线程&并行计算（1）
版本控制（3）
IT业界（1）
读书（2）
Crawler/Spider（5）
改变自己（4）
计算机网络（4）
正则表达式（11）
SQL Server（2）
PHP（1）
新技术（1）
Windows（3）
C/C++学习（5）
Java学习（1）
软件使用（3）
MySQL（12）
算法（2）
CSharp学习（12）
Linux（36）

其他（6）

环境配置（11）

常用命令（18）
Python 学习（36）

Python代码（30）

开发工具（5）
未分配的博文（5）

文章存档

2012年（2）

2011年（148）

我的朋友

相关博文

python re库学习

分类： Python/Ruby

2011-09-13 18:25:54

原文地址：python re库学习作者：pgt112you

本文主要就是在自己的认识的基础上翻译了部分python的官方文档。官方文档的地址是：

#coding:utf-8
import re

#match只是从头匹配字符串，search是匹配字符串的任何位置
#group都是从1开始的而不是0

re.match("c", "abcdef") # No match False
re.search("c", "abcdef") # Match True

reobj = re.compile("^ab\w*")    #reobj是一个regular expression object
result = reobj.match("abcdef")    #result是一个resulting regular expression object

#忽略大小写
re.I
re.IGNORECASE
#使\w, \W, \b, \B, \s and \S与当前位置有关
re.L
re.LOCALE
#使^,$分别匹配字符串和行的开始和结束，如果不指定则只匹配字符串的
re.M
re.MULTILINE
#使"."匹配任何东西，包括一个新行；如果不指定，则不匹配新行
re.S
re.DOTALL
#使\w, \W, \b, \B, \d, \D, \s and \S依赖于unicode字符属性数据库
re.U
re.UNICODE
#是空格（除了转义字符代表的空格），"#"不作为正则表达式的一部分，这样写出的正则表达式更加优美
re.X
re.VERBOSE
#以上这些可用于re.compile, re.search, re.match等等的第三个参数flags，可以使用"|"按位进行或操作
#以上的这些用法如下，下面这两个匹配是一样的。re.X的作用的是匹配正则表达式中的换行等，这样可以使正则表达式写的更优雅
a = re.compile(r"""\d + # the integral part
                   \.    # the decimal point
                   \d * # some fractional digits""", re.X)
b = re.compile(r"\d+\.\d*")

#re.search(pattern, string[, flags])
#re.match(pattern, string[, flags])
#re.split(pattern, string[, maxsplit=0])    #用pattern来分割stirng，相当于字符串的split函数。如果pattern是用()括起来的，则pattern所匹配的部分也是匹配结果list中的元素
                                            #如果maxsplit不等于0，只分割maxsplit次，剩下的部分作为结果list里面的最后一项（就相当于分割了maxsplit+1次，前maxsplit是正常分割，其余的部分作为结果list的最后一项放进去）。
"""
>>> re.split('\W+', 'Words, words, words.')
['Words', 'words', 'words', '']
>>> re.split('(\W+)', 'Words, words, words.')
['Words', ', ', 'words', ', ', 'words', '.', '']
>>> re.split('\W+', 'Words, words, words.', 1)
['Words', 'words, words.']
#pattern都是进行最大匹配
>>> re.split('(\W+)', '...words, words...')
['', '...', 'words', ', ', 'words', '...', '']
#如果没有匹配成功，则不进行分割，使整个字符串作为结果list的唯一一项
>>> re.split('x*', 'foo')
['foo']
>>> re.split("(?m)^$", "foo\n\nbar\n")
['foo\n\nbar\n']
"""
#re.findall(pattern, string[, flags])    #查找string中所有符合pattren的非重叠项
"""
>>> re.findall("a\w?","abcabccbaabcac")
['ab', 'ab', 'aa', 'ac']
"""
#re.finditer(pattern, string[, flags])
#re.sub(pattern, repl, string[, count])     #用repl替换string匹配pattern的部分，count是替换的次数。string还可以是一个函数，他有一个匹配对象的参数，返回用于替换的字符串
"""
>>> re.sub(r'def\s+([a-zA-Z_][a-zA-Z_0-9]*)\s*$\s*$:',
...        r'static PyObject*\npy_\1(void)\n{',
...        'def myfunc():')
'static PyObject*\npy_myfunc(void)\n{'

>>> def dashrepl(matchobj):
...     if matchobj.group(0) == '-': return ' '
...     else: return '-'
>>> re.sub('-{1,2}', dashrepl, 'pro----gram-files')
'pro--gram files'

>>> re.sub('x*', '-', 'abc')    #这里x*当x出现0次讲，所以算是匹配上了
'-a-b-c-'
>>> re.sub('x', '-', 'abc')
'abc'
"""
#re.subn(pattern, repl, string[, count])    #和re.sub是一样的，只不过他返回一个tuple。(new_string, number_of_subs_made)
"""
>>> re.subn("cbw?", "CB", "cbacbacba")
('CBaCBaCBa', 3)
"""
#re.escape(string)    #这个相当于对string进行转义，如果string里面包含着正则表达式，则将其转换为普通的字符串
"""
>>> re.escape("(^cb\w+)+")
'\$\\^cb\\\\w\\+\$\\+'
"""
#exception re.error    #当遇到不合法的正则表达式的时候会抛出的异常

#Regular Expression Objects
#Regular Expression Objects是re.compile得到的对象
#RegexObject.match(string[, pos[, endpos]])    #字符串是否符合正则表达式，pos是正则匹配在字符串中的位置，endpos是结束位置
                                               #如果匹配返回MatchObject，否则返回None
"""
>>> pattern = re.compile("o")
>>> pattern.match("dog")      # No match as "o" is not at the start of "dog."
>>> pattern.match("dog", 1)   # Match as "o" is the 2nd character of "dog".
<_sre.SRE_Match object at ...>
"""
#RegexObject.search(string[, pos[, endpos]])    #和re.search相似，pos与endpos和RegexObject.match中的类似
#RegexObject.split(string[, maxsplit=0])    #和re.split相似
#RegexObject.findall       #与re.findall类似
#RegexObject.finditer      #与re.finditer类似
#RegexObject.sub           #与re.sub类似
#RegexObject.subn          #与re.subn类似
#RegexObject.flags    #RegexObject编译（re.complie）时候的flag值，如果编译的时候没提供flag，就是0
#RegexObject.groups    #正则表达式中的组的数
#RegexObject.groupindex    #是一个字典，键名是正则表达式中的组名，键值是组所对应的索引。
#RegexObject.pattern    #RegexObject所对应的正则表达式

#Match Objects
#Match Objects是RegexObject.match（或者re.match）在匹配的情况下返回的对象
#MatchObject.expand(template)    #根据一个模版用找到的内容替换模版里的相应位置
"""
>>> m.expand(r'name is \g<1> , age is \g , tel is \3')
'name is Tom , age is 24 , tel is 88888888'
"""
#MatchObject.group([group1, ...])    #返回一个或者更多的子组的匹配
"""
>>> m = re.match(r"(\w+) (\w+)", "Isaac Newton, physicist")
>>> m.group(0)       # The entire match
'Isaac Newton'
>>> m.group(1)       # The first parenthesized subgroup.
'Isaac'
>>> m.group(2)       # The second parenthesized subgroup.
'Newton'
>>> m.group(1, 2)    # Multiple arguments give us a tuple.
('Isaac', 'Newton')
#对于命名组
>>> m = re.match(r"(?P\w+) (?P\w+)", "Malcolm Reynolds")
>>> m.group('first_name')
'Malcolm'
>>> m.group('last_name')
'Reynolds'
#仍然可以用索引
>>> m.group(1)
'Malcolm'
>>> m.group(2)
'Reynolds'
#如果匹配到了多次，则只有最后一次可得
>>> m = re.match(r"(..)+", "a1b2c3") # Matches 3 times.
>>> m.group(1)                        # Returns only the last match.
'c3'
"""
#MatchObject.groups([default])    #返回一个tuple，里面包含了所有的组
"""
>>> m = re.match(r"(\d+)\.(\d+)", "24.1632")
>>> m.groups()
('24', '1632')
#default是没有匹配到的时候的默认值，有点像字典的get方法
>>> m = re.match(r"(\d+)\.?(\d+)?", "24")
>>> m.groups()      # Second group defaults to None.
('24', None)
>>> m.groups('0')   # Now, the second group defaults to '0'.
('24', '0')
"""
#MatchObject.groupdict([default])    #返回所有命名组的字典，键名是组名，键值是匹配到的值。default是用来作为为匹配到的组的默认值的
"""
>>> m = re.match(r"(?P\w+) (?P\w+)", "Malcolm Reynolds")
>>> m.groupdict()
{'first_name': 'Malcolm', 'last_name': 'Reynolds'}
"""
#MatchObject.start([group])    #返回匹配开始和结束的位置。
#MatchObject.end([group])      #组默认情况下是0，匹配整个字符串。如果给出的组没有匹配上，则返回-1。
"""
#如果group匹配到了，要获得group g匹配的字符串：
m.string[m.start(g):m.end(g)]

m = re.search('b(c?)', 'cba')    #m.start(0)等于1, m.end(0)等于2, m.start(1)和m.end(1)都等于2, m.start(2) raises an IndexError exception.

>>> email = "tony@tiremove_thisger.net"
>>> m = re.search("remove_this", email)
>>> email[:m.start()] + email[m.end():]
'tony@tiger.net'
"""
#MatchObject.span([group])    #如果MatchObject匹配到了，返回一个有两个值的tuple： (m.start(group), m.end(group))。如果group没有匹配到返回(-1,-1)。group默认是0，匹配真个字符串
"""
>>> robj = re.search('a(\w)',"abcabccba")
>>> robj.span()
(0, 2)
>>> robj.span(1)
(1, 2)
"""
#MatchObject.pos    #匹配的开始位置
#MatchObject.endpos    #匹配的结束位置
#MatchObject.lastindex    #返回组后匹配到的组的整数索引，如果没有匹配到，则返回None
"""
>>> robj = re.search('(a)(b)',"abcabccba")    #最后匹配到的组是(b),所以是2
>>> robj.lastindex
2
>>> robj = re.search('(a)b',"abcabccba")    #最后匹配到的组是(a),所以是1
>>> robj.lastindex
1
"""
#MatchObject.lastgroup    #返回最后匹配到的组的组名。如果非命名组，或者没有匹配到则返回None
#MatchObject.re    #返回产生这个MatchObject对象的正则表达式对象(regular expression object)
#MatchObject.string    #返回产生这个MatchObject对象的字符串
"""
>>> robj = re.search('(a)b',"abcabccba")
>>> robj.re
<_sre.SRE_Pattern object at 0x00AF33E8>
>>> robj.string
'abcabccba'
"""

阅读(686) | 评论(0) | 转发(0) |

上一篇：CentOS5.4上将Python版本升级到2.6.5

下一篇：Python爬虫技术

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6