几个概念:
1.基本正则表达式(由普通字符+元字符组成)
2.扩展的正则表达式(由普通字符+元字符组成)
3.通配(由普通字符+元字符组成)
4.元字符
正则表达式在语言java,perl,python等,shell工具grep,awk,sed等中使用,mysql等数据库也使用了正则表达式
通配是shell在搜索匹配文件时经常使用的机制。
注意:正则表达式中元字符的意义和通配中元字符的意义有区别的
bash shell本身不支持正则表达式,使用正则表达式的是shell的一些命令和工具,如grep,sed,awk等等
但是bash可以使用正则表达式中的一些元字符实现通配的功能,此时的这些元字符叫通配符。
此时通配中元字符的意义跟正则表达式中元字符的意义就不一样了。
通配是指:将一个包含通配符的非具体的文件名扩展为计算机,服务器,网络上的一批具体的文件名的过程。
基本正则表达式中元字符的意义如下:
1. * 匹配*前面的那一个字符的0次或多次(只匹配一个字符)
hel*o 匹配helo hello helllo
2. . 匹配任意一个字符(只匹配一个字符,可以是空格)
.ab. 匹配xabx xaby
3. ^ 匹配行首,行首的字符序列必须是^后的字符序列
^suda 匹配以suda为行首的行,如sudasudahuhuhuuuuu sudaokokokoko
4. & 匹配行尾,行尾的字符序列必须是$前的字符序列
suda$ 匹配以suda为行尾的行,如jijijijijiiijijsuda lkokokokokjijhuhsuda
特殊的 ^$ 匹配一个空行
^.$ 匹配只有一个字符的空行
5. [] 匹配字符集合中的任意一个字符(只匹配一个字符)
[1234] 匹配1,2,3,4的任意一个字符
[1-4] 匹配1,2,3,4的任意一个字符
注意:^放在[]里面时,不再表示匹配行首,而是取反的意思
[^1234] 匹配不是1,2,3,4的任意一个字符(包括其他字母,数字,空格等)
[^1-4] 匹配不是1,2,3,4的任意一个字符(包括其他字母,数字,空格等)
[^b-p] 匹配不是b-p之间的任意一个字母(包括其他字母,数字,空格等)
[A-z][A-z]* 匹配任意一个英文单词
6. \ 用于转义元字符,使之成为普通字符
\* 此时*表示一个普通字符
7. \<\> 用于精确匹配
\\ 表示精确匹配the这个单词,而不是匹配包含the字符的单词,如them then等等
8.\{\}系列符号
\{n\} 匹配前面字符的n次
\{n,\} 匹配前面字符的至少n次
\{n,m\} 匹配前面字符的n-m次,至少n次,至多m次
JO\{3\}B 匹配JOOOB
JO\{3,\}B 匹配JOOOB JOOOOB .......
JO\{3,6\}B 匹配JOOOB JOOOOB JOOOOOB JOOOOOOB
扩展的正则表达式中元字符的意义如下:
1. ? 匹配前面的那一个字符的0次或1次(只匹配一个字符)
JO?B 匹配JOB JOOB
2. + 匹配前面的那一个字符的1次或多次
JO+B 匹配JOOB JOOOB
3. |与()通常结合使用,表示一组可选的字符集合
如re(a|o|e)d 匹配read reod reed
等同于re[aoe]d
通配中的元字符的意义如下:
1. * 表示任意多的任意字符
ls -l *.cpp 查看所有的以.cpp结尾的文件
2. ? 表示一个任意字符
ls -l 0?.cpp 查看以0开头,后面一个字符,且以.cpp结尾的文件
3. ^ 表示取反
ls -l *.[^abc]* 查看.后第一个字母不是a,b,c的文件
4. [] 同正则表达式的用法
ls -l [b-p]*.cpp 查看以b-p字母为开头,且以.cpp结尾的文件
5. {} 表示一组表达式的集合 {}中表达式是或的关系
如ls -l {*.cpp , [1234]*.c} 查看满足表达式*.cpp或者[1234]*.c的文件。
通配对计算机的处理能力要求很高,可以通过设置,限制执行通配的次数。内部变量GLOBIGBORE保存了通配时所忽略的文件名集合。
阅读(951) | 评论(0) | 转发(0) |