Chinaunix首页 | 论坛 | 博客
  • 博客访问: 6087521
  • 博文数量: 2759
  • 博客积分: 1021
  • 博客等级: 中士
  • 技术积分: 4091
  • 用 户 组: 普通用户
  • 注册时间: 2012-03-11 14:14
文章分类

全部博文(2759)

文章存档

2019年(1)

2017年(84)

2016年(196)

2015年(204)

2014年(636)

2013年(1176)

2012年(463)

分类: LINUX

2013-09-02 09:42:04

原文地址:linux正则表达式和通配 作者:sudalmk

几个概念:
1.基本正则表达式(由普通字符+元字符组成)  
2.扩展的正则表达式(由普通字符+元字符组成)
3.通配(由普通字符+元字符组成)
4.元字符

正则表达式在语言java,perl,python等,shell工具grep,awk,sed等中使用,mysql等数据库也使用了正则表达式
通配是shell在搜索匹配文件时经常使用的机制。

注意:正则表达式中元字符的意义和通配中元字符的意义有区别的

bash shell本身不支持正则表达式,使用正则表达式的是shell的一些命令和工具,如grep,sed,awk等等
但是bash可以使用正则表达式中的一些元字符实现通配的功能,此时的这些元字符叫通配符。
此时通配中元字符的意义跟正则表达式中元字符的意义就不一样了。

通配是指:将一个包含通配符的非具体的文件名扩展为计算机,服务器,网络上的一批具体的文件名的过程。




基本正则表达式中元字符的意义如下:
1.   *     匹配*前面的那一个字符的0次或多次(只匹配一个字符
hel*o     匹配helo  hello  helllo




2.   .     匹配任意一个字符(只匹配一个字符,可以是空格)
.ab.      匹配xabx  xaby




3.   ^     匹配行首,行首的字符序列必须是^后的字符序列
^suda      匹配以suda为行首的行,如sudasudahuhuhuuuuu    sudaokokokoko




4.   &     匹配行尾,行尾的字符序列必须是$前的字符序列
suda$      匹配以suda为行尾的行,如jijijijijiiijijsuda     lkokokokokjijhuhsuda


特殊的  ^$     匹配一个空行
           ^.$     匹配只有一个字符的空行




5.   []    匹配字符集合中的任意一个字符(只匹配一个字符
[1234]   匹配1,2,3,4的任意一个字符
[1-4]     匹配1,2,3,4的任意一个字符

注意:^放在[]里面时,不再表示匹配行首,而是取反的意思
[^1234]         匹配不是1,2,3,4的任意一个字符(包括其他字母,数字,空格等
[^1-4]           匹配不是1,2,3,4的任意一个字符(包括其他字母,数字,空格等
[^b-p]           匹配不是b-p之间的任意一个字母(包括其他字母,数字,空格等)
[A-z][A-z]*     匹配任意一个英文单词 




6.   \     用于转义元字符,使之成为普通字符
\*          此时*表示一个普通字符




7.   \<\>     用于精确匹配
\\      表示精确匹配the这个单词,而不是匹配包含the字符的单词,如them  then等等




8.\{\}系列符号
\{n\}       匹配前面字符的n次
\{n,\}      匹配前面字符的至少n次
\{n,m\}     匹配前面字符的n-m次,至少n次,至多m次


JO\{3\}B      匹配JOOOB
JO\{3,\}B     匹配JOOOB  JOOOOB   .......
JO\{3,6\}B    匹配JOOOB  JOOOOB   JOOOOOB   JOOOOOOB   






扩展的正则表达式中元字符的意义如下:
1.    ?    匹配前面的那一个字符的0次或1次(只匹配一个字符
JO?B         匹配JOB    JOOB




2.    +     匹配前面的那一个字符的1次或多次
JO+B       匹配JOOB   JOOOB  




3.    |与()通常结合使用,表示一组可选的字符集合
如re(a|o|e)d     匹配read  reod  reed
等同于re[aoe]d       








通配中的元字符的意义如下:
1.     *       表示任意多的任意字符
ls -l  *.cpp        查看所有的以.cpp结尾的文件



2.     ?       表示一个任意字符
ls -l  0?.cpp        查看以0开头,后面一个字符,且以.cpp结尾的文件



3.     ^       表示取反
ls -l   *.[^abc]*     查看.后第一个字母不是a,b,c的文件



4.     []      同正则表达式的用法
ls -l   [b-p]*.cpp       查看以b-p字母为开头,且以.cpp结尾的文件



5.     {}      表示一组表达式的集合       {}中表达式是或的关系
如ls -l  {*.cpp , [1234]*.c}            查看满足表达式*.cpp或者[1234]*.c的文件。


通配对计算机的处理能力要求很高,可以通过设置,限制执行通配的次数。内部变量GLOBIGBORE保存了通配时所忽略的文件名集合。
阅读(907) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~