正则表达式1-kvoice1970-ChinaUnix博客

TroubleShooting

首页　| 　博文目录　| 　关于我

kvoice1970

博客访问： 364498
博文数量： 81
博客积分： 0
博客等级：民兵
技术积分： 847
用户组：普通用户
注册时间： 2015-03-25 22:29

个人简介

执一不失，能君万物http://weidian.com/s/284520723?wfr=c

文章分类

全部博文（81）

WindowS（1）
Linux（8）

Ubuntu（1）

CentOS（1）

RHCE（5）

problems（1）
TCP/IP（2）

理论知识（2）
work（1）

SS3000-C（1）
Shell（12）

初学shell（12）
Java（57）

初学java（57）
未分配的博文（0）

文章存档

2016年（11）

2015年（70）

我的朋友

相关博文

正则表达式1

分类： LINUX

2015-06-30 22:38:40

点击(此处)折叠或打开

正则表达式英语：Regular Expression，在代码中常简写为regex、regexp或RE
定义：于描述这些规则的工具。换句话说，正则表达式就是记录文本规则的代码。
1.元字符
\b元字符（metacharacter），代表着单词的开头或结尾，也就是单词的分界处
\bhistory\b
\d是个新的元字符，匹配一位数字(0，或1，或2，或……)。
0\d\d-\d\d\d\d\d\d\d\d = 0\d{2}-\d{8} 以0开头，然后是两个数字，然后是一个连字号“-”，最后是8个数字
常用的元字符说明
. 匹配除换行符以外的任意字符
\w 匹配字母或数字或下划线或汉字 \ba\w*\b匹配以字母a开头的单词
\s 匹配任意的空白符
\d 匹配数字 \d+匹配1个或更多连续的数字
\b 匹配单词的开始或结束 \b\w{6}\b 匹配刚好6个字符的单词
^ 匹配字符串的开始 ^\d{5,12}$ 5-12个数字
$ 匹配字符串的结束
\d{2}\d{2}\d{2}$ 匹配 223344
2.字符转义
使用\来取消这些字符的特殊意义:C:\\Windows
3.重复
常用的限定符:
代码/语法说明
* 重复零次或更多次
+ 重复一次或更多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次
Windows\d+ 匹配Windows后面跟1个或更多数字
^\w+ 匹配一行的第一个单词(
4.字符类
指定一个字符范围，像[0-9]代表的含意与\d就是完全一致的：一位数字；
\(?0\d{2}[) -]?\d{8}
含义：首先是一个转义字符\(,它能出现0次或1次(?),然后是一个0，后面跟着2个数字(\d{2})，然后是)或-或空格中的一个，它出现1次或不出现(?)，最后是8个数字(\d{8})。
条件符合的举例：
022-11111111 (011)22222222 03312345678 010)12345678 （022-87654321
5.分枝条件
正则表达式里的分枝条件指的是有几种规则，如果满足其中任意一种规则都应该当成匹配
0\d{2}-\d{8}|0\d{3}-\d{7}这个表达式能匹配两种以连字号分隔的电话号码：一种是三位区号，8位本地号(如010-12345678)，一种是4位区号，7位本地号(0376-2233445)。
6.分组
用小括号来指定子表达式(也叫做分组)
以下是IP地址的正则表达式：
((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)
2[0-4]\d|25[0-5]|[01]?\d\d? 表示的数字范围：200-249或 250-255或0-199
(){3} 表示：对前面的分组重复3次
(2[0-4]\d|25[0-5]|[01]?\d\d?) 表示：最后加上数字
7.反义
常用的反义代码
代码/语法说明
\W 匹配任意不是字母，数字，下划线，汉字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非数字的字符
\B 匹配不是单词开头或结束的位置
[^x] 匹配除了x以外的任意字符
[^aeiou] 匹配除了aeiou这几个字母以外的任意字符
8.后向引用
匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。默认情况下，每个分组会自动拥有一个组号，规则是：从左向右，以分组的左括号为标志，第一个出现的分组的组号为1，第二个为2，以此类推。
\b(\w+)\b\s+\1\b 匹配gogo hello hello
指定子表达式的组名。要指定一个子表达式的组名，请使用这样的语法：(?<Word>\w+)(或者把尖括号换成'也行：(?'Word'\w+)),这样就把\w+的组名指定为Word了。要反向引用这个分组捕获的内容，你可以使用\k<Word>
\b(?<Word>\w+)\b\s+\k<Word>\b ==\b(\w+)\b\s+\1\b
常用分组语法:
分类代码/语法说明
捕获
(exp) 匹配exp,并捕获文本到自动命名的组里
(?<name>exp) 匹配exp,并捕获文本到名称为name的组里，也可以写成(?'name'exp)
(?:exp) 匹配exp,不捕获匹配的文本，也不给此分组分配组号【你可以使用(?:exp)这样的语法来剥夺一个分组对组号分配的参与权．】
零宽断言
(?=exp) 匹配exp前面的位置
(?<=exp) 匹配exp后面的位置
(?!exp) 匹配后面跟的不是exp的位置
(?<!exp) 匹配前面不是exp的位置
注释 (?#comment) 这种类型的分组不对正则表达式的处理产生任何影响，用于提供注释让人阅读
9.零宽断言
像\b,^,$那样用于指定一个位置，这个位置应该满足一定的条件(即断言)，因此它们也被称为零宽断言
(?=exp)也叫零宽度正预测先行断言，它断言自身出现的位置的后面能匹配表达式exp。比如\b\w+(?=ing\b)，匹配以ing结尾的单词的前面部分(除了ing以外的部分)，如查找I'm singing while you're dancing.时，它会匹配sing和danc。
(?<=exp)也叫零宽度正回顾后发断言，它断言自身出现的位置的前面能匹配表达式exp。比如(?<=\bre)\w+\b会匹配以re开头的单词的后半部分(除了re以外的部分)，例如在查找reading a book时，它匹配ading。
((?<=\d)\d{3})+\b 举例1234567，会匹配234567 以第一个数字开头的后半部分
(?<=\s)\d+(?=\s) 举例123 234 456 会匹配123 234 匹配以空白符间隔的数字（不包括这些空白符）
10.负向零宽断言
零宽度负预测先行断言(?!exp)，断言此位置的后面不能匹配表达式exp
\d{3}(?!\d) 匹配三位数字，而且这三位数字的后面不能是数字
\b((?!abc)\w)+\b匹配不包含连续字符串abc的单词
(?<![a-z])\d{7}匹配前面不是小写字母的七位数字
(?<=<(\w+)>).*(?=<\/\1>)匹配不包含属性的简单HTML标签内里的内容。(?<=<(\w+)>)指定了这样的前缀：被尖括号括起来的单词(比如可能是)，然后是.*(任意的字符串),最后是一个后缀(?=<\/\1>)。注意后缀里的\/，它用到了前面提过的字符转义；\1则是一个反向引用，引用的正是捕获的第一组，前面的(\w+)匹配的内容，这样如果前缀实际上是的话，后缀就是了。整个表达式匹配的是和之间的内容(再次提醒，不包括前缀和后缀本身)。
11.注释
2[0-4]\d(?#200-249)|25[0-5](?#250-255)|[01]?\d\d?(?#0-199)
(?<= # 断言要匹配的文本的前缀
<(\w+)> # 查找尖括号括起来的字母或数字(即HTML/XML标签)
) # 前缀结束
.* # 匹配任意文本
(?= # 断言要匹配的文本的后缀
<\/\1> # 查找尖括号括起来的内容：前面是一个"/"，后面是先前捕获的标签
) # 后缀结束
12.贪婪与懒惰
a.*b，它将会匹配最长的以a开始，以b结束的字符串。如果用它来搜索aabab的话，它会匹配整个字符串aabab。这被称为贪婪匹配
懒惰匹配，也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式，只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复，但是在能使整个匹配成功的前提下使用最少的重复
懒惰限定符
代码/语法说明
*? 重复任意次，但尽可能少重复
+? 重复1次或更多次，但尽可能少重复
?? 重复0次或1次，但尽可能少重复
{n,m}? 重复n到m次，但尽可能少重复
{n,}? 重复n次以上，但尽可能少重复
简单地说，因为正则表达式有另一条规则，比懒惰／贪婪规则的优先级更高：最先开始的匹配拥有最高的优先权——The match that begins earliest wins。
a.*?b匹配最短的，以a开始，以b结束的字符串。如果把它应用于aabab的话，它会匹配aab（第一到第三个字符）和ab（第四到第五个字符）。
13.处理选项
名称说明
IgnoreCase(忽略大小写) 匹配时不区分大小写。
Multiline(多行模式) 更改^和$的含义，使它们分别在任意一行的行首和行尾匹配，而不仅仅在整个字符串的开头和结尾匹配。(在此模式下,$的精确含意是:匹配\n之前的位置以及字符串结束前的位置.)
Singleline(单行模式) 更改.的含义，使它与每一个字符匹配（包括换行符\n）。
IgnorePatternWhitespace(忽略空白) 忽略表达式中的非转义空白并启用由#标记的注释。
ExplicitCapture(显式捕获) 仅捕获已被显式命名的组。

阅读(1818) | 评论(0) | 转发(0) |

上一篇：简单的shell

下一篇：grep的使用

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6