正则表达式简介(三) -- 组成 Regular Expression 的元素-Godbach-ChinaUnix博客

哥德巴赫猜想godbach.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

godbach

博客访问： 2408867
博文数量： 145
博客积分： 8668
博客等级：中将
技术积分： 3922
用户组：普通用户
注册时间： 2007-03-09 21:21

个人简介

work hard

文章分类

全部博文（145）

HAProxy（9）
内核研究（72）

系统安全（7）

流量管理（9）

网络安全（12）
程序设计（22）

Perl（2）

VC（1）

C编程（8）

Shell（11）
SSL（3）
版本管理（6）
Linux（13）
Unix（3）
随笔（14）

历史（3）

影视（2）
杂项（3）
未分配的博文（0）

文章存档

2016年（1）

2015年（1）

2014年（1）

2013年（12）

2012年（3）

2011年（9）

2010年（34）

2009年（55）

2008年（20）

2007年（9）

我的朋友

相关博文

正则表达式简介(三) -- 组成 Regular Expression 的元素

分类： LINUX

2009-04-29 17:29:27

2. 组成 Regular Expression 的元素

Regular Expression 是由普通字符、及一组具有特殊意义的字符所构成. 本节主要介绍各种特殊字符所代表的意义及其用法. 读者学习时应留心 : 有时, 同一特殊字符, 会因出现在字符串中不同的位置或连接其它特殊字符, 而有不同的意义. 本文中为有别于一般的字符串, 所有 Regular Expression 都以粗体字体表示, 且加注``Regexp''于其前方.
组成 Regular Expression 的元素及所代表的意义如下 :

[普通字符] 除了``.''、``[''、``]''、``*''、``+''、``?''、 ``|''、``^''、``$''、``{''、``}''、``\''、 ``<''、``>''、``(''、``)'' 外之所有字符.
由普通字符所组成的 Regular Expression 其意义与原字符串字面意义相同. 例如 :

普通字符``A''也可当成一个 Regular Expression. Regexp `` A'' 与一般字符``A''代表相同的意义.
Regexp `` the'' 与一般字符串``the''代表相同的意义.
[ .] Metacharacter 用以代表任意一个字符. 须留心 UNIX Shell 中使用``?''表示任意一个字符, 使用``*''代表任意长度的字符串(这是另一种称为 ``Pattern Matching Notation'' 的字符串表示法). Regular Expression 中则使用`` .'' 来代表``一个''任意字符(注意: 并非任意长度的字符串). 而 Regular Expression 中`` *''另有其它涵意, 并不代表任意长度的字符串. 例如

Regexp `` .'' 可用以代表任意一个字符. 如 ``A''、``1''、``+''、...
Regexp `` ...'' 则代表一个由任意3个字符所的字符串. 譬如 ``123''、``abc''、``# 1''、...
[ ^] 限制字符串必须出现于行首. (用法见下例)
[ $] 限制字符串必须出现于行末.
[例如 :] Regexp `` ^The'' 用以表示所有出现于行首的字符串``The''. Regexp `` The$'' 用以表示所有出现于行末的字符串``The''. Regexp `` ^The$'' 则用以表示一个仅含字符串``The''的数据列. Regexp `` ^$'' 表示一个空白的数据列（行首与行尾之间未存在任一字符）.

[ \] 将特殊字符还原成字面意义的字符. Regular Expression 中特殊字符将被解释成特定的意义. 若要表示特殊字符的字面(literal meaning) 意义时, 在特殊字符之前加上 ``\'' 即可.

[例如 :] 使用 Regular Expression 来表示字符串``a.out''时, 不可写成 Regexp `` a.out''. 因为`` .''在 Regular Expression 中是特殊字符, 表示任一字符.
可合乎(match) Regexp `` a.out'' 的字符串将不只 ``a.out'' 一个; 字符串``a2out'',``a3out'', ``aaout''... 都合于 Regexp `` a.out''.
正确的表示法应为 : Regexp `` a\.out''

`` \'' 在 Regular Expression 中的另一个意义是当成 Escape character.

[例如 :] `` \t'' 用以表示 tab. `` \n'' 表示换行符号.
[...] 『字符集合』, 用以表示两中括号间所有的字符当中的任一个.
[例如 : ] Regexp `` [123]'' 可用以表示字符 ``1''、``2'' 或 ``3''. Regexp `` [Tt]'' 可用以表示字符 ``T'' 或 ``t''. 所以, Regexp " [Tt]he" 表示字符串 "The" 或 "the". (注意 : 一个字符集合仅代表``一个''字符.)
使用时, 需留心字符集合 [ ] 内不可随意留空白.

例如 : Regexp `` [ Tt ]'' 中括号内有空格符, 故除了可用以表示字符``T''或``t''", 也可代表一个 `` ''(空格符).
- 字符集合中可使用 `` -'' 来指定字符的区间, 其用法如下:
Regexp `` [0-9]'' 等于 Regexp `` [0123456789]'' 用以表示任意 "一个" 阿拉伯数字. 同理 Regexp `` [A-Z]'' 用以表示任意 "一个" 大写英文字母.

但应留心 :

Regexp " [0-9a-z]" 并不等于 Regexp " [0-9][a-z]"; 前者表示一个字符(阿拉伯数字或小写英文字母), 后者表示二个字符.
Regexp " [-9]" 或 " [9-]" 仅用以代表字符 ``9''或 ``-''.
[ [\^{}... ]] 使用 [\^{...]} 产生字符集合的补集(complement set). 其用法如下 :

Regexp `` [^M]'' 用以表示除字符``M''外的``一个''任意字符
字符集合 `` [Tt]''表示字符 ``T'' 或 ``t''. 若要指定 ``T'' 或 ``t'' 之外的任一个字符, 可用Regexp `` [^Tt]'' 表示.
Regexp `` [^a-zA-Z]''表示英文字母之外的任一个字符.
需留心 `` ^''之位置; `` ^'' 必须紧接于 `` ['' 之后, 才代表字符集合的补集.

[例如 :] Regexp `` [0-9^]'' 表示一个阿拉伯数字或字符 `` ^'', 并非代表阿伯数字外的任意字符.
* 用以形容其前的字符或字符集合可重复任意次数的特殊字符.
`` *'' 形容它前方之字符(或字符集合)可出现 1 次或多次, 或不出现. 例如 :

Regexp ``ab*'' 中, `` *'' 形容它前方的字符 ``b'' 可出现 1 次或多次, 或不出现. 所以, Regexp ``ab*'' 可表示字符串 ``a''、``ab''、``abb''、 ``abbb''、...
Regexp `` T[0-9]*\.c'' 中, 使用 `` *'' 形容其前的字符集合 `` [0-9]''(一个阿拉伯数字)出现的次数 : 可为 0 次或多次.
故 Regexp `` T[0-9]*\.c''可用以表示 ``T.c''、``T0.c''、 ``T1.c''、``T2.c''、...、``T9.c''、``T00.c''、``T01.c''、``T02.c''、...、 ``T09.c''、``T10.c''、...``T99.c''、``T000.c''、...

[ \<] `` \< Regexp'' 表示一个出现于"前缀"且又合于(match)该 Regexp 的字符串 (用法见下例).
[ \>] ``Regexp \>'' 表示一个出现于"字末"且又合于(match)该 Regexp 的字符串.
这里所谓的``字(word)''系指被 tab、逗点、句点或空格符(space) 所分隔开的字符串.
[例如 :]
资料 ``One is red, and the other is white.'' 中字符串 ``One'', ``is'', ``red'', ``and'', ``the'', ``other'', ``is'', ``white'' 便是所谓的 "字(word)". 而该资料列中,
合于 Regexp ``[Tt]he''的字符串如下(粗体字标示)
``One is red, and the other is white.''
合于 Regexp `` \<[Tt]he\>''却仅有(粗体字标示)
``One is red, and the other is white.''
因同时使用`` \<''及`` \>'' 限制合于 Regexp `` [Tt]he''的字符串, 必须紧接于前缀及字尾之间; 故 ``other''中的子字符串 ``the''并不合于这个 Regular Expression.

[注 :] \<, \> 这二个特殊字符, 并不是很通用. 请参考 Appendix A 中的附表.
$ ... )\ 于 Regular Expression 中使用 `` \(''``{ $}''来括住一部分的 Regular Expression; 其后可用 `` \1'''来表示第一次被`` $'' `` $'' 括住的部份. 若 Regular Expression 中使用了数次`` $'' `` $'' 来括住不同的部分, 则依次使用 ``\1'', `` \2'', `` \3'' ,...(最多可用到 `` \9'')来表示之前括住的 Regular Expression. 其用法如下 :

[用法一.]
例如: 欲表示像``aa'',``bb'',``cc'',...``zz'' 等字符串.
使用 Regexp `` [a-z]''则表示任一个小写的英文字母.
使用 Regexp `` [a-z][a-z]''则表示二个任意的小写英文字母. 它除表示 ``aa'',``bb'',``cc'',...``zz''等字符串外, 也可表示``ab'', ``ac'',``ad'',...等字符串(这不是题意所要求的字符串).
这时可以`` $'' `` $'' 来括住第一个 `` [a-z]'' (Regular Expression 解译的程序, 会暂时记录实际找寻到的英文字母). 之后, 便可以 Regexp ``\1'' 来指定适才被记录下的英文字母即为所要找寻字符串的第二个字符. 故正确的表示法如下 :
Regexp `` $[a-z]$\1''

例如 : 欲表示像 ``789w987'', ``abcwcba'', ``theweht'',....等具对称性的字符串.(该字符串的特征是 ``w''之前后三个字符相互对称) 该类字符串的表示法如下 :
Regexp `` $.$$.$$.$w\3\2\1" Regexp中`` .''表示任意一个字符. 因字符``w''之前出现的三个字符并无任何限制, 故可用 `` ...''表之. 但每个`` .''分别用 `` $'',`` $'' 括住, 之后便可使用 `` \1'', `` \2'', `` \3'' 分别代表将来实际匹配到的前三个字符.

用法二. 进行字符串找寻并置换(Replace)时, 若将被置入的新字符串不是一个固定的字符串, 与被找到的原字符串有关时(见下例说明). 此时, 可先以 来括住一部分的Regular Expression; 再于将被新置入的字符串中使用`` \1'', `` \2'',... 来表示当时被找到的字符串(或其子字符串).
例 : 欲找出档案中具有 ``prog12.c'', ``prog9.c'', ``prog832.c'',... 等式样的字符串, 并将其置换成(以上列三个字符串为例) ``[ note 12]'', ``[ note 9]'', ``[ note 832]''. 在这例子中, 因事先不知道所找寻到的字符串(prog数字.c)中的数字为何, 故无法事先决定应换成什么新字符串. 合于本例所要找寻的字符串其 Regular Expression 为 :
Regexp `` prog[0-9][0-9]*\.c'' 上式中 `` [0-9][0-9]*'' 表一位或一位以上的阿拉伯数字, 因执行前并不知道该部分实际会匹配什么数值, 故找到的字符串将来应置换成什么, 事前无法指定. 这情况, 也可用`` $'',`` $'' 来括住 `` [0-9][0-9]* '', 在置换的新字符串中再以 \1 表示找寻时实际匹配到的数字.

读者可编辑一数据文件, 再以sed执行下列命令, 观察其执行结果.

$sed -e 's/ prog$[0-9][0-9]*$\.c/[ note \1]/g' 资料文件名

\{ 数字, 数字\} 一种于 Regular Expression 中形容其前的字符或字符集合出现次数的表示法. 其型态与用法如下 :

\{下限数字, 上限数字\}
例如 : Regexp "[0-9]\{2,4\}"用以表示2到4位的阿拉伯数字.
{ 数字}
例如 : Regexp `` ax\{99\}'' 用以表示一个 ``a'' 之后接上99个 ``x'' 所组成的字符串.
\{下限数字, \} 例如 : Regexp `` ax\{2,\}'' 用以表示一个 ``a'' 之后接上2个或更多的 ``x''所组成的字符串.
+ 形容其前的字符或字符集合出现一次或一次以上(注三).
例如 : Regexp `` [0-9]+'' 用以表示一位或一位以上的数字.

? 形容其前的字符或字符集合可出现一次或不出现(注三).

[例如 :] Regexp ``[+-]?[0-9]+'' 表示数字(一位以上)之前可出现一个正负号或不出现正负号.
[ (...)] 用以括住一群字符,且将之视成一个group(见下面说明)(注三)
例如 :
Regexp `` 12+'' 表示字符串 "12","122","1222","12222",...
Regexp `` (12)+'' 表示字符串 "12","1212","1212","1212"....

上式中字符串 ``12''以( )括住,整个视为一个group, 故被重复符号``+'' 所形容的是``12''而非 ``2'', 重复出现的也是 ``12''.

| 表示逻辑上的 "or" (注三)
例如 : Regexp `` Oranges?|apples?|water'' 可用以表示字符串``Orange'', ``Oranges''
或 ``apple'', ``apples''
或 ``water''

注三 : 上列 + , ?, (...), | 等用法, 为 Extended Regular Expression 中新增列的用法. awk 及 egrep 中所使用的 Regular Expression 即为 Extended Regular Expression. 但 vi, sed, grep,...等软件中并无这些用法.
& ``&''并非 Regular Expression 中的特殊字符. 但以 Regular Expression 进行字符串找寻置换(Replace)时, 常会用到 ``\&''. \ 在许多 Unix tool 中, 当 ``\&''出现在『将被置入的新字符串』时, 它用以表示 ``实际被找到合于所指定的 Regular Expression 的字符串'' (见下例说明)
例如 : 找出档案中所有合乎 Regexp ``a[0-9]*\.c'' 的字符串, 并在其前后加上小括号.依题意要求, 档案中所有如 ``a12.c'', ``a932.c'', ``a45.c'' ,...等字符串都应置换为 ``(a12.c)'', ``(a932.c)'', ``(a45.c)'',.. . . 遇到这情况,可令『将被置入的新字符串』为 `` (&)'' 此时, ``&''便是用来表示实际上被找到合于 Regexp ``a[0-9]*\.c'' 的字符串.
下列是使用 UNIX 上不同的工具, 来处理本例要求的字符串置换.

vi 以 vi 编辑该档案,并在 vi 命令输入模式下输入
: s/a[0-9]*\.c/(&)/g
sed 执行如下命令 ( $ 表 Shell 命令列的提示符号 )
$ sed -e 's/a[0-9]*\.c/ (&)/g' 数据文件名称
awk 执行如下命令 ( $ 表 Shell 命令列的提示符号 )
$ awk '{ gsub(/a[0-9]*\.c/, "(&)"); print }' 数据文件名称

--------------------------------------------------------------------------------
Note 2:
上列字符在 Regular Expression 中代表特殊意义, 称之为特殊字符. 但 Unix 中不同的指令对 Regular Expression 的解释能力不尽相同, 故对特殊字符也有不同的认定. 请参考尾页附表.

阅读(2899) | 评论(2) | 转发(0) |

上一篇：正则表达式简介(二) -- Why Regular Expression

下一篇：正则表达式简介(四) -- 使用 Regular Expression 时的注意事项

给主人留下些什么吧！~~

Godbach2010-05-04 19:41:55

基于上面的那个问题。网上找到了解释。在基本正则表达式中，原字符 | ，+ 和 ? 是不允许使用的。并且在使用含有圆括号和花括号的正则表达式时，圆括号和花括号都要用反斜线转义。

回复 | 举报

Godbach2009-09-21 17:09:25

[用法一.] 例如: 欲表示像``aa'',``bb'',``cc'',...``zz'' 等字符串. 使用 Regexp `` [a-z]''则表示任一个小写的英文字母. 使用 Regexp `` [a-z][a-z]''则表示二个任意的小写英文字母. 它除表示 ``aa'',``bb'',``cc'',...``zz''等字符串外, 也可表示``ab'', ``ac'',``ad'',...等字符串(这不是题意所要求的字符串). 这时可以`` $'' `` $'' 来括住第一个 `` [a-z]'' (Regular Expression 解译的程序, 会暂时记录实际找寻到的英文字母). 之后, 便可以 Regexp ``\1'' 来指定适才被记录下的英文字母即为所要找寻字符串的第二个字符. 故正确的表示法如下 : Regexp `` $[a-z]$\1'' ------------------------------------------- 这里有疑问："("本身就是正则中的元字符，如果需要匹配aa,bb之类的，应该用表达式 ([a-z])\1即可

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6