Chinaunix首页 | 论坛 | 博客
  • 博客访问: 948144
  • 博文数量: 104
  • 博客积分: 1919
  • 博客等级: 上尉
  • 技术积分: 1910
  • 用 户 组: 普通用户
  • 注册时间: 2010-12-21 16:33
文章分类
文章存档

2016年(4)

2015年(1)

2014年(6)

2013年(16)

2012年(27)

2011年(49)

2010年(1)

分类: LINUX

2012-09-17 09:39:12

随着对UNIX和LINUX熟悉程度的不断加深,需要经常接触到正则表达式这个领域。使用shell时,从一个文件中抽取多于一个字符串将会很麻烦。例如,在一个文本中抽取一个词,它的头两个字符是大写的,后面紧跟四个数字。如果不使用某种正则表达式,在s h e l l中将不能实现这个操作。
本章内容包括:
? 匹配行首与行尾。
? 匹配数据集。
? 只匹配字母和数字。
? 匹配一定范围内的字符串集。
当从一个文件或命令输出中抽取或过滤文本时,可以使用正则表达式(RE),正则表达式是一些特殊或不很特殊的字符串模式的集合。

 

本章设计的基本元字符使用在g r e p和s e d命令中,同时结合{ / / }(以字符出现情况进行匹配的元字符)使用在awk语言中。
 基本元字符集及其含义

^                            匹配行首
$                            匹配行尾
*                            一个单字符后紧跟*,匹配0个或多个此单字符
[ ]                          匹配[ ]内字符。可以是一个单字符,也可以是字符序列。可以使用-
                                 表示[ ]内字符序列范围,如用[ 1 - 5 ]代替[ 1 2 3 4 5 ]
/                                用来屏蔽一个元字符的特殊含义。因为有时在s h e l l中一些元字符有
                                 特殊含义。/可以使其失去应有意义
.                            匹配任意单字符
pattern/{n/}                   用来匹配前面pattern出现次数。n为次数
pattern/{n/}m                  含义同上,但次数最少为n
pattern/{n,m/}                含义同上,但pattern出现次数在n与m之间
          

1.使用/屏蔽一个特殊字符的含义
有时需要查找一些字符或字符串,而它们包含了系统指定为特殊字符的一个字符。什么。是特殊字符?一般意义上讲,下列字符可以认为是特殊字符:

$ . ' " * [ ] ^ | 0 | + ?

假定要匹配包含字符“ .”的各行而“,”代表匹配任意单字符的特殊字符,因此需要屏蔽其含义。操作如下:
/.
上述模式不认为反斜杠后面的字符是特殊字符,而是一个普通字符,即句点。假定要匹配包含^的各行,将反斜杠放在它前面就可以屏蔽其特殊含义。如下:
/^
如果要在正则表达式中匹配以*.pas结尾的所有文件,可做如下操作:
/*/.pas
即可屏蔽字符*的特定含义。

 

2.使用[]匹配一个范围或集合

使用“ -”表示一个字符串范围,表明字符串范围从“ -”左边字符开始,到“ -”右边字符结束。如果熟知一个字符串匹配操作,应经常使用[ ]模式。假定要匹配任意一个数字,可以使用:
[ 0 1 2 3 4 5 6 7 8 9 ]
然而,通过使用“-”符号可以简化操作:
[ 0 - 9 ]
或任意小写字母
[ a - z ]
要匹配任意字母,则使用:
[ A - Z a - z ]
表明从A - Z、a - z的字母范围。如要匹配任意字母或数字,模式如下:
[ A - Z a - z 0 - 9 ]
在字符序列结合使用中,可以用[ ]指出字符范围。假定要匹配一单词,以s开头,中间有
一任意字母,以t结尾,那么操作如下:
s[a-z A-Z]t
上述过程返回大写或小写字母混合的单词,如仅匹配小写字母,可使用:
s [ a - z ] t
如要匹配C o m p u t e r或c o m p u t e r两个单词,可做如下操作:
[ C c ] o m p u t e r
为抽取诸如S c o u t、s h o u t、b o u g h t等单词,使用下列表达式:
[ou] .*t
匹配以字母o或u开头,后跟任意一个字符任意次,并以t结尾的任意字母。
也许要匹配所有包含s y s t e m后跟句点的所有单词,这里S可大写或小写。使用如下操作:
[ S,s ] y s t e m / .
[ ]在指定模式匹配的范围或限制方面很有用。结合使用*与[ ]更是有益,例如[ A - Z a - Z ] *将匹配所有单词。
[ A - Z a - z ] *
注意^符号的使用,当直接用在第一个括号里,意指否定或不匹配括号里内容。
[^a-zA-Z]
匹配任一非字母型字符,而
[ ^ 0 - 9 ]
匹配任一非数字型字符。

 

3.使用/{/}匹配模式结果出现的次数

使用*可匹配所有匹配结果任意次,但如果只要指定次数,就应使用/ { / },此模式有三种形式,即:
pattern/{n/} 匹配模式出现n次。
pattern/{n,/} 匹配模式出现最少n次。
pattern/{n,m} 匹配模式出现n到m次之间,n , m为0 - 2 5 5中任意整数。

请看第一个例子,匹配字母A出现两次,并以B结尾,操作如下:
A / { 2 / } B
匹配值为A A B
匹配A至少4次,使用:
A / { 4 , / } B
可以得结果A A A A B或A A A A A A A B,但不能为A A A B。
如给出出现次数范围,例如A出现2次到4次之间:
A / { 2 , 4 / } B
则结果为AAB、AAAB、AAAAB,而不是AB或AAAAAB等。

 

经常使用的正则表达式举例

^                                      行首
$                                      行尾
^[the]                                     以the开头行
[Ss]igna[lL]                           匹配单词signal、signaL、Signal、SignaL
[Ss]igna[lL]/.                         同上,但加一句点
[mayMAY]                               包含may大写或小写字母的行
^USER$                                 只包含USER的行
[tty]$                                 以tty结尾的行
/.                                     带句点的行
^d..x..x..x                            对用户、用户组及其他用户组成员有可执行权限的目录
^[^l]                                  排除关联目录的目录列表
[.*0]                                  0之前或之后加任意字符
[000*]                                 000或更多个
[iI]                                   大写或小写I
[iI][nN]                               大写或小写i或n
[^$]                                   空行
[^.*$]                                 匹配行中任意字符串
^......$                               包括6个字符的行
[a-zA-Z]                               任意单字符
[a-z][a-z]*                            至少一个小写字母
[^0-9/$]                               非数字或美元标识
[^0-0A-Za-z]                           非数字或字母
[123]                                  1到3中一个数字
[Dd]evice                              单词device或Device
De..ce                                 前两个字母为De,后跟两个任意字符,最后为ce
/^q                                    以^q开始行
^.$                                    仅有一个字符的行
^/.[0-9][0-9]                          以一个句点和两个数字开始的行
'"Device"'                             单词device
De[Vv]ice/.                            单词Device或device
[0-9]/{2/}-[0-9]/{2/}-[0-9]/{4/}       日期格式dd-mm-yyyy
[0-9]/{3/}/.[0-9]/{3/}/.[0-9]/{3/}/.[0-9]/{3/} IP地址格式nnn.nnn.nnn.nnn
[^.*$]                                 对匹配任意行

 在shell编程中,一段好的脚本与完美的脚本间的差别之一,就是要熟知正则表达式并学会使用它们。相比较起来,用一个命令抽取一段文本比用三四个命令得出同样的结果要节省许多时间。

阅读(2222) | 评论(0) | 转发(1) |
给主人留下些什么吧!~~