【转载】正规表示法 Regular Expression, RE-qbqqq-ChinaUnix博客

逸风轩 qiubin.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

qbqqq

博客访问： 1222412
博文数量： 212
博客积分： 10450
博客等级：上将
技术积分： 1957
用户组：普通用户
注册时间： 2006-02-23 09:00

文章分类

全部博文（212）

Microsoft（24）
Cisco与网络技术（23）
Unix与Linux（62）

Veritas（8）

Linux实践工程师（15）

Linux（14）

Unix（13）

Shell（12）
学习日记（28）
休闲娱乐（11）
数据库（20）

Oracle（13）

Sybase（6）
美文共赏（8）
心情日记（36）

宝宝日记（2）
未分配的博文（0）

文章存档

2012年（1）

2011年（16）

2010年（11）

2009年（9）

2008年（22）

2007年（36）

2006年（117）

我的朋友

最近访客

推荐博文

【转载】正规表示法 Regular Expression, RE

分类：

2006-03-09 15:19:17

正规表示法(或称为常规表示法)是透过一些特殊字符的排列，用以搜寻/取代/删除一列或多列文字字符串，简单的说，正规表示法就是用在字符串的处理上面的一项『表示式』。正规表示法并不是一个工具程序，而是一个字符串处理的标准依据，如果您想要以正规表示法的方式处理字符串，就得要使用支持正规表示法的工具程序才行，这类的工具程序很多，例如 vi, sed, awk 等等。

正规表示法对于系统管理员来说，实在是很重要。因为系统会产生很多的讯息，这些讯息有的重要，有的仅是告知，此时，管理员可以特过正规表示法的功能来将重要讯息撷取出来，并产生便于查阅的报表，简化管理流程。此外，很多的软件包也都支持正规表示法的分析，例如邮件服务器的过滤机制(过滤垃圾信件)就是很重要的一个例子。所以，您最好要了解正规表示法的相关技能，在未来管理主机时，才能够更精简处理您的日常事务！

注：本章节使用者需要多加练习，因为目前很多的套件都是使用正规表示法来达成其『过滤、分析』的目的，为了未来主机管理的便利性，使用者至少要能看的懂正规表示法的意义！

1. 前言：
2. 基础正规表示法：
　　2.1 以 grep 撷取字符串
　　2.2 重要特殊字符(characters)
3. 延伸正规表示法：
4. 格式化打印： printf
5. sed 工具简介
6. awk 工具简介
7. 文件数据比对与打印的相关功能
　　7.1 档案比对： diff, cmp, patch
　　7.2 档案打印准备： pr
8. 重点回顾
9. 参考资源
10.本章习题练习

--------------------------------------------------------------------------------
前言

约略了解了 Linux 的基本指令 ( Shell ) 并且熟悉了 vi 之后，相信您对于敲击键盘与指令比较不陌生了吧？？接下来，底下要开始介绍一个很重要的观念，那就是所谓的『正规表示法』啰！

--------------------------------------------------------------------------------
什么是正规表示法

任何一个有经验的系统管理员，都会告诉您：『正规表示法真是挺重要的！』为什么很重要呢？因为日常生活就使用的到啊！举个例子来说，在您日常处理文书作业时，应该会常常使用到『搜寻/取代』等等的功能吧？这些举动要作的漂亮，就是正规表示法的工作了！

简单的说，正规表示法就是处理字符串的方法，他是以行为单位，来进行字符串的处理行为，他透过一些特殊符号的辅助，可以让使用者轻易的达到搜寻/取代某特定字符串的处理程序！

举例来说，我要找到 VBird 或 Vbird 这个字样，但是不要其它的字符串，该如何办理？如果在没有正规表示法的环境中(例如 MS word)，您或许就得要使用忽略大小写的办法，或者是分别以 VBird 及 Vbird 搜寻两遍。但是，忽略大小写可能会搜寻到 VBIRD/vbird/VbIrD 等等的不需要的字符串，而造成使用者的困扰。

再举个系统常见的例子好了，假设妳发现系统在开机的时候，老是会出现一个关于 mail 程序的错误，而开机过程的相关程序都是在 /etc/rc.d/ 底下，也就是说，在该目录底下的某个档案内具有 mail 这个关键词，好了，此时，您怎么找出来含有这个关键词的档案？？您当然可以一个档案一个档案的开启，然后去搜寻 mail 这个关键词，只是.....该目录底下的档案可能不止 100 个说～如果了解正规表示法的相关技巧，那么只要一行指令就找出来啦！『grep 'mail' /etc/rc.d/*』那个 grep 就是支持正规表示法的工具程序之一！如何～很简单吧！ ^_^y

谈到这里就得要进一步说明了，正规表示法基本上是一种『表示法』，只要工具程序支持这种表示法，那么该工具程序就可以用来作为正规表示法的字符串处理之用。也就是说，例如 vi, grep, awk ,sed 等等工具，因为她们有支持正规表示法，所以，这些工具就可以使用正规表示法的特殊字符来进行字符串的处理。

--------------------------------------------------------------------------------
正规表示法对于系统管理员的用途

那么为何我需要学习正规表示法呢？对于一般使用者来说，由于使用到正规表示法的机会可能不怎么多，因此感受不到他的魅力，不过，对于身为系统管理员的您来说，正规表示法则是一个『不可不学的好东西！』怎么说呢？由于系统如果在繁忙的情况之下，每天产生的讯息信息会多到你无法想象的地步，而我们也都知道，系统的『错误讯息登录档案』的内容(这部份我们在第五篇会详谈)记载了系统产生的所有讯息，当然，这包含你的系统是否被『入侵』的纪录数据。

但是系统的数据量太大了，要身为系统管理员的你每天去看这么多的讯息数据，从千百行的资料里面找出一行有问题的讯息，呵呵～光是用肉眼去看，想不疯掉都很难！这个时候，我们就可以透过『正规表示法』的功能，将这些登录的信息进行处理，仅取出『有问题』的信息来进行分析，哈哈！如此一来，你的系统管理工作将会『快乐得不得了』啊！当然，正规表示法的优点还不止于此，等您有一定程度的了解之后，您会爱上他喔！

--------------------------------------------------------------------------------
正规表示法的广泛用途

正规表示法除了可以让系统管理员管理主机更为便利之外，事实上，由于正规表示法强大的字符串处理能力，目前一堆软件都支持正规表示法呢！最常见的就是『邮件服务器』啦！

如果您留意因特网上的消息，那么应该不能发现，目前造成网络大塞车的主因之一就是『垃圾/广告信件』了，而如果我们可以在主机端，就将这些问题邮件剔除的话，客户端就会减少很多不必要的频宽耗损了。那么如何剔除广告信件呢？由于广告信件几乎都有一定的标题或者是内容，因此，只要每次有来信时，都先将来信的标题与内容进行特殊字符串的比对，发现有不良信件就予以剔除！嘿！这个工作怎么达到啊？就使用正规表示法啊！目前两大邮件服务器软件 sendmail 与 postfix 以及支持邮件服务器的相关分析套件，都支持正规表示法的比对功能！

当然还不止于此啦，很多的服务器软件、以及套件都支持正规表示法呢！当然，虽然各家软件都支持他，不过，这些『字符串』的比对还是需要系统管理员来加入比对规则的，所以啦！身为系统管理员的你，为了自身的工作以及客户端的需求，正规表示法实在是很需要也很值得学习的一项工具呢！

--------------------------------------------------------------------------------
正规表示法与 Shell 在 Linux 当中的角色定位

说实在的，我们在学数学的时候，一个很重要、但是粉难的东西是一定要『背』的，那就是九九表，背成功了之后，未来在数学应用的路途上，真是一帆风顺啊！这个九九表我们在小学的时候几乎背了一整年才背下来，并不是这么好背的呢！但他却是基础当中的基础！您现在一定受惠相当的多呢 ^_^！而我们谈到的这个正规表示法，与前一章的 BASH shell 就有点像是数学的九九表一样，是 Linux 基础当中的基础，虽然也是最难的部分，不过，如果学成了之后，一定是『大大的有帮助』的！这就好像是金庸小说里面的学武难关，任督二脉，打通任督二脉之后，武功立刻成倍成长！所以啦，不论是对于系统的认识与系统的管理部分，他都有很棒的辅助啊！请好好的学习这个基础吧！ ^_^

--------------------------------------------------------------------------------
延伸的正规表示法

正规表示法除了简单的一组字符串处理之外，还可以作群组的字符串处理，例如进行搜寻 VBird 或 netman 或 lman 的搜寻，注意，是『或(or)』而不是『和(and)』的处理，此时就需要延伸正规表示法的帮助啦！藉由特殊的 ( 与 | 等字符的协助，就能够达到这样的目的！好啦！清清脑门，咱们用功去啰！
Tips:
有一点要向大家报告的，那就是：『正规表示法与万用字符是不一样的东西！』这很重要喔！因为万用字符 (wildcard) 所代表的意义与正规表示法并不相同～要分的很清楚才行喔！所以，学习本章，请将前一章 bash 的万用字符意义先忘掉吧！

--------------------------------------------------------------------------------
基础正规表示法

既然正规表示法是处理字符串的一个标准表示方式，他需要支持的工具程序来辅助，所以，我们这里就先介绍一个最简单的字符串撷取功能的工具程序，那就是 grep 啰！在介绍完 grep 的基本功能之后，就进入正规表示法的特殊字符的处理能力了。

--------------------------------------------------------------------------------
以 grep 撷取字符串

既然要使用 grep 当然就得要先了解一下 grep 的语法啰～
[root@test root]# grep [-acinv] '搜寻字符串' filename
参数说明：
-a ：将 binary 档案以 text 档案的方式搜寻数据
-c ：计算找到 '搜寻字符串' 的次数
-i ：忽略大小写的不同，所以大小写视为相同
-n ：顺便输出行号
-v ：反向选择，亦即显示出没有 '搜寻字符串' 内容的那一行！
范例：
[root@test root]# grep 'root' /var/log/secure
将 /var/log/secure 这个档案中有 root 的那一行秀出来

[root@test root]# grep -v 'root' /var/log/secure
若该行没有 root 才将数据秀出来到屏幕上！

[root@test root]# last | grep root
若该行有 root 才将数据秀出来到屏幕上！

grep 是一个很常见也很常用的指令，他最重要的功能就是进行字符串数据的比对，然后将符合使用者需求的字符串打印出来。需要说明的是『grep 在数据中查寻一个字符串时，是以 "整行" 为单位来进行数据的撷取的！』也就是说，假如一个档案内有 10 行，其中有两行具有你所搜寻的字符串，则将那两行显示在屏幕上，其它的就丢弃了！

而 grep 除了可以进行档案的资料搜寻之外，也常常被应用在 input/output 的数据处理当中，例如常见的管线命令 ( pipe ) 就可以常常见到他的踪影！以上面表格中的例子来看，我们可以发现前两个例子是查寻档案的内容，有没有加上 -v 所显示出来的结果是『相反的！』，而第三个例子则是以 pipe 的功能进行数据的处理的喔！

好了，我们就开始以 grep 来进行正规表示法的简易说明吧！我们先以底下这个档案来作为范例：
[root@test root]# vi regular_express.txt
"Open Source" is a good mechanism to develop programs.
apple is my favorite food.
Football game is not use feet only.
this dress doesn't fit me.
However, this dress is about $ 3183 dollars.
GNU is free air not free beer.
Her hair is very beauty.
I can’t finish the test.
Oh! The soup taste good.
motorcycle is cheap than car.
This window is clear.
the symbol '*' is represented as start.
Oh! My god!
The gd software is a library for drafting programs.
You are the best is mean you are the no. 1.
The world is the same with "glad".
I like dog.
google is the best tools for search keyword.
goooooogle yes!
go! go! Let's go.
# I am VBird

需要特别注意的是，上面这个档案鸟哥是在 Windows 的环境下编辑的，并且经过特殊处理过，因此，他虽然是纯文字文件，但是内含一些 Windows 环境下的软件常常自行加入的一些特殊字符，例如断行字符(^M)就是一例！所以，您可以直接将上面的文字以 vi 储存成 regular_express.txt 这个档案，不过，比较建议直接点底下的连结下载：

此外，因为不同的语系编码是不一样的，所以，您必须要将语系改成英文语系，才能够进行底下的测试，否则，可能会有显示的内容与底下的输出不符的状况喔！修改语系的方法为：
[root@test root]# LANG=en
[root@test root]# LANGUAGE=en

好了，现在开始我们一个案例一个案例的来介绍吧！

例题一、搜寻特定字符串：
搜寻特定字符串很简单吧？假设我们要从刚刚的档案当中取得 the 这个特定字符串，最简单的方式就是这样：
[root@test root]# grep -n 'the' regular_express.txt
8:I can't finish the test.
12:the symbol '*' is represented as start.
15:You are the best is mean you are the no. 1.
16:The world  is the same with "glad".
18:google is the best tools for search keyword.

那如果想要『反向选择』呢？也就是说，当该行没有 'the' 这个字符串时，才显示在屏幕上，那就直接使用：
[root@test root]# grep -vn 'the' regular_express.txt

您会发现，屏幕上出现的行列为除了 8,12,15,16,18 五行之外的其它行列！接下来，如果您想要取得不论大小写的 the 这个字符串，则：
[root@test root]# grep -in 'the' regular_express.txt
8:I can't finish the test.
9:Oh! The soup taste good.
12:the symbol '*' is represented as start.
14:The gd software is a library for drafting programs.
15:You are the best is mean you are the no. 1.
16:The world  is the same with "glad".
18:google is the best tools for search keyword.

例题二、利用 [] 来搜寻集合字符
如果我想要搜寻 test 或 taste 这两个单字时，可以发现到，其实她们有共通的 't?st' 存在～这个时候，我可以这样来搜寻：
[root@test root]# grep -n 't[ae]st' regular_express.txt
8:I can't finish the test.
9:Oh! The soup taste good.

了解了吧？其实 [] 里面不论有几个字符，他都谨代表某『一个』字符，所以，上面的例子说明了，我需要的字符串是『tast』或『test』两个字符串而已！而如果想要搜寻到有 oo 的字符时，则使用：
[root@test root]# grep -n 'oo' regular_express.txt
1:"Open Source" is a good mechanism to develop programs.
2:apple is my favorite food.
3:Football game is not use feet only.
9:Oh! The soup taste good.
18:google is the best tools for search keyword.
19:goooooogle yes!

但是，如果我不想要 oo 前面有 g 的话呢？此时，可以利用在集合字符的反向选择 [^] 来达成
[root@test root]# grep -n '[^g]oo' regular_express.txt
2:apple is my favorite food.
3:Football game is not use feet only.
18:google is the best tools for search keyword.
19:goooooogle yes!

意思就是说，我需要的是 oo ，但是 oo 前面不能是 g 就是了！仔细比较上面两个表格，妳会发现，第 1,9 行不见了，因为 oo 前面出现了 g 所致！第 2,3 行没有疑问，因为 foo 与 Foo 均可被接受！但是第 18 行明明有 google 的 goo 啊～别忘记了，因为该行后面出现了 tool 的 too 啊！所以该行也被列出来～也就是说， 18 行里面虽然出现了我们所不要的项目 (goo) 但是由于有需要的项目 (too) ，因此，是符合字符串搜寻的喔！

至于第 19 行，同样的，因为 goooooogle 里面的 oo 前面可能是 o ，例如： go(ooo)oogle ，所以，这一行也是符合需求的！

再来，假设我 oo 前面不想要有小写字符，所以，我可以这样写 [^abcd....z]oo ，但是这样似乎不怎么方便，由于小写字符的 ASCII 上编码的顺序是连续的，因此，我们可以将之简化为底下这样：
[root@test root]# grep -n '[^a-z]oo' regular_express.txt
3:Football game is not use feet only.

也就是说，当我们在一组集合字符中，如果该字符组是连续的，例如大写英文/小写英文/数字等等，就可以使用[a-z],[A-Z],[0-9]等方式来书写，那么如果我们的要求字符串是数字与英文呢？呵呵！就将他全部写在一起，变成：[a-zA-Z0-9]

例如，我们要取得有数字的那一行，就这样：
[root@test root]# grep -n '[0-9]' regular_express.txt
5:However, this dress is about $ 3183 dollars.
15:You are the best is mean you are the no. 1.

这样对于 [] 以及 [^] 以及 [] 当中的 - 有了解了吗？！ ^_^y

例题三、行首与行尾字符 ^ $：
我们在例题一当中，可以查询到一行字符串里面有 the 的，那如果我想要让 the 只在行首列出呢？这个时候就得要使用定位字符了！我们可以这样做：
[root@test root]# grep -n '^the' regular_express.txt
12:the symbol '*' is represented as start.

此时，就只剩下第 12 行，因为只有第 12 行的行首是 the 开头啊～此外，如果我想要开头是小写字符的那一行就列出呢？可以这样：
[root@test root]# grep -n '^[a-z]' regular_express.txt
2:apple is my favorite food.
4:this dress doesn't fit me.
10:motorcycle is cheap than car.
12:the symbol '*' is represented as start.
18:google is the best tools for search keyword.
19:goooooogle yes!

如果我不想要开头是英文字母，则可以是这样：
[root@test root]# grep -n '^[^a-zA-Z]' regular_express.txt
1:"Open Source" is a good mechanism to develop programs.
20:# I am VBird

注意到了吧？那个 ^ 符号，在字符集合符号(括号[])之内与之外是不同的！在 [] 内代表『反向选择』，在 [] 之外则代表定位在行首的意义！要分清楚喔！

那如果我想要找出来，行尾结束为小数点 (.) 的那一行，该如何处理：
[root@test root]# grep -n '\.$' regular_express.txt
1:"Open Source" is a good mechanism to develop programs.
2:apple is my favorite food.
3:Football game is not use feet only.
4:this dress doesn't fit me.
10:motorcycle is cheap than car.
11:This window is clear.
12:the symbol '*' is represented as start.
15:You are the best is mean you are the no. 1.
16:The world  is the same with "glad".
17:I like dog.
18:google is the best tools for search keyword.

特别注意到，因为小数点具有其它意义(底下会介绍)，所以必须要使用跳脱字符(\)来加以解除其特殊意义！不过，您或许会觉得奇怪，但是第 5~9 行最后面也是 . 啊～怎么无法打印出来？？这里就牵涉到 Windows 平台的软件对于断行字符的判断问题了！我们使用 cat -A 将第五行拿出来看，您会发现：
[root@test root]# cat -A regular_express.txt
However, this dress is about $ 3183 dollars.^M$

注意到了没？最后面的断行字符应该是 $ 才对，但是，因为 Windows 的 nodepad 会主动加上 ^M 作为断行的判断，因此，那个 . 自然就不是紧接在 $ 之前喔！这样可以了解 ^ 与 $ 的意义吗？好了，先不要看底下的解答，自己想一想，那么如果我想要找出来，哪一行是『空白行』，也就是说，该行并没有输入任何数据，该如何搜寻？？
[root@test root]# grep -n '^$' regular_express.txt
21:

因为只有行首跟行尾( ^$ )，所以，这样就可以找出空白行啦！再来，假设您已经知道在一个批次脚本 (shell script) 或者是设定档当中，空白行与开头为 # 的那一行是批注，因此如果您要将资料列出给别人参考时，可以将这些数据省略掉，以节省保贵的纸张，那么，您可以怎么作呢？我们以 /etc/syslog.conf 这个档案来作范例，您可以自行参考一下输出的结果：
[root@test root]# cat /etc/syslog.conf
[root@test root]# grep -v '^$' /etc/syslog.conf | grep -v '^#'

是否节省很多版面啊？？

例题四、任意一个字符 . 与重复字符 *
在 bash 的章节当中，我们知道万用字符 * 可以用来代表任意(0或多个)字符，但是正规表示法并不是万用字符，两者之间是不相同的！至于正规表示法当中的『 . 』则代表『绝对有一个任意字符』的意思！这样讲不好懂，我们直接做个练习吧！假设我需要找出 g??d 的字符串，亦即共有四个字符，起头是 g 而结束是 d ，我可以这样做：
[root@test root]# grep -n 'g..d' regular_express.txt
1:"Open Source" is a good mechanism to develop programs.
9:Oh! The soup taste good.
16:The world  is the same with "glad".

因为强调 g 与 d 之间一定要存在两个字符，因此，第 13 行的 god 与第 14 行的 gd 就不会被列出来啦！再来，如果我想要列出有 oo, ooo, oooo 等等的数据，也就是说，至少要有两个 o 以上，该如何是好？？是 o* 还是 oo* 还是 ooo* 呢？虽然您可以试看看结果，不过结果太占版面了 @_@ ，所以，我这里就直接说明。

因为 * 代表的是『重复 0 个或多个前面的 RE 字符』的意义，因此，『o*』代表的是：『拥有空字符或一个 o 以上的字符』，特别注意，因为允许空字符(就是有没有字符都可以的意思)，因此， grep -n 'o*' regular_express.txt 将会把所有的数据都打印出来屏幕上！

那如果是『oo*』呢？则第一个 o 肯定必须要存在，第二个 o 则是可有可无的多个 o ，所以，凡是含有 o, oo, ooo, oooo 等等，都可以被列出来～

同理，当我们需要『至少两个 o 以上的字符串』时，就需要 ooo* ，亦即是：
[root@test root]# grep -n 'ooo*' regular_express.txt
1:"Open Source" is a good mechanism to develop programs.
2:apple is my favorite food.
3:Football game is not use feet only.
9:Oh! The soup taste good.
18:google is the best tools for search keyword.
19:goooooogle yes!

这样理解 * 的意义了吗？！好了，现在出个练习，如果我想要字符串开头与结尾都是 g，但是两个 g 之间仅能存在至少一个 o ，亦即是 gog, goog, gooog.... 等等，那该如何？
[root@test root]# grep -n 'goo*g' regular_express.txt
18:google is the best tools for search keyword.
19:goooooogle yes!

如此了解了吗？好，再来一题，如果我想要找出 g 开头与 g 结尾的字符串，当中的字符可有可无，那该如何是好？是『g*g』吗？
[root@test root]# grep -n 'g*g' regular_express.txt
1:"Open Source" is a good mechanism to develop programs.
3:Football game is not use feet only.
9:Oh! The soup taste good.
13:Oh!  My god!
14:The gd software is a library for drafting programs.
16:The world  is the same with "glad".
17:I like dog.
18:google is the best tools for search keyword.
19:goooooogle yes!

但测试的结果竟然出现这么多行？？太诡异了吧？其实一点也不诡异，因为 g*g 里面的 g* 代表『空字符或一个以上的 g』在加上后面的 g ，因此，整个 RE 的内容就是 g, gg, ggg, gggg ，因此，只要该行当中拥有一个以上的 g 就符合所需了！

那该如何得到我们的 g....g 的需求呢？呵呵！就利用任意一个字符『.』啊！亦即是：『g.*g』的作法，因为 * 可以是 0 或多个重复前面的字符，而 . 是任意字符，所以：『.* 就代表零个或多个任意字符』的意思啦！
[root@test root]# grep -n 'g.*g' regular_express.txt
1:"Open Source" is a good mechanism to develop programs.
14:The gd software is a library for drafting programs.
18:google is the best tools for search keyword.
19:goooooogle yes!

因为是代表 g 开头与 g 结尾，中间任意字符均可接受，所以，第 1 与第 14 行是可接受的喔！这个 .* 的 RE 表示任意字符是很常见的，希望大家能够理解并且熟悉！

再出一题，如果我想要找出『任意数字』的行列呢？因为仅有数字，所以就成为：
[root@test root]# grep -n '[0-9][0-9]*' regular_express.txt
5:However, this dress is about $ 3183 dollars.
15:You are the best is mean you are the no. 1.

虽然使用 grep -n '[0-9]' regular_express.txt 也可以得到相同的结果，但鸟哥希望大家能够理解上面指令当中 RE 表示法的意义才好！

那么，如果我想要一个字符串里面开头是 g 而结尾是 d 时，

例题五、限定连续 RE 字符范围 {}
在上个例题当中，我们可以利用 . 与 RE 字符及 * 来设定 0 个到无线多个重复字符，那如果我想要限制一个范围区间内的重复字符数呢？举例来说，我想要找出两个到五个 o 的连续字符串，该如何作？这时候就得要使用到限定范围的字符 {} 了。但因为 { 与 } 的符号在 shell 是有特殊意义的，因此，我们必须要使用跳脱字符 \ 来让他失去特殊意义才行。

至于 {} 的语法是这样的，假设我要找到两个 o 的字符串，可以是：
[root@test root]# grep -n 'o\{2\}' regular_express.txt
1:"Open Source" is a good mechanism to develop programs.
2:apple is my favorite food.
3:Football game is not use feet only.
9:Oh! The soup taste good.
18:google is the best tools for search keyword.
19:goooooogle yes!

这样看似乎与 ooo* 的字符没有什么差异啊？因为第 19 行有多个 o 依旧也出现了！好，那么换个搜寻的字符串，假设我们要找出 g 后面接 2 到 5 个 o ，然后再接一个 g 的字符串，他会是这样：
[root@test root]# grep -n 'go\{2,5\}g' regular_express.txt
18:google is the best tools for search keyword.

嗯！很好！第 19 行终于没有被取用了(因为 19 行有 6 个 o 啊！)。那么，如果我想要的是 2 个 o 以上的 goooo....g 呢？除了可以是 gooo*g ，也可以是：
[root@test root]# grep -n 'go\{2,\}g' regular_express.txt
18:google is the best tools for search keyword.
19:goooooogle yes!

呵呵！就可以找出来啦～

--------------------------------------------------------------------------------
重要特殊字符(characters)

经过了上面的几个简单的范例，我们可以将基础的正规表示法特殊字符汇整如下：

RE 字符意义与范例
^word 待搜寻的字符串(word)在行首！
范例：grep -n '^#' regular_express.txt
搜寻行首为 # 开始的那一行！
word$ 待搜寻的字符串(word)在行尾！
范例：grep -n '!$' regular_express.txt
将行尾为 ! 的那一行打印出来！
. 代表『任意一个』字符，一定是一个任意字符！
范例：grep -n 'e.e' regular_express.txt
搜寻的字符串可以是 (eve) (eae) (eee) (e e)，但不能仅有 (ee) ！亦即 e 与 e 中间『一定』仅有一个字符，而空格符也是字符！
\ 跳脱字符，将特殊符号的特殊意义去除！
范例：grep -n \' regular_express.txt
搜寻含有单引号 ' 的那一行！
* 重复零个或多个的前一个 RE 字符
范例：grep -n 'ess*' regular_express.txt
找出含有 (es) (ess) (esss) 等等的字符串，注意，因为 * 可以是 0 个，所以 es 也是符合带搜寻字符串。另外，因为 * 为重复『前一个 RE 字符』的符号，因此，在 * 之前必须要紧接着一个 RE 字符喔！例如任意字符则为『.*』！
\{n,m\} 连续 n 到 m 个的『前一个 RE 字符』
若为 \{n\} 则是连续 n 个的前一个 RE 字符，
若是 \{n,\} 则是连续 n 个以上的前一个 RE 字符！
范例：grep -n 'go\{2,3\}g' regular_express.txt
在 g 与 g 之间有 2 个到 3 个的 o 存在的字符串，亦即 (goog)(gooog)
[] 字符集合的 RE 特殊字符的符号

转自：

阅读(1494) | 评论(0) | 转发(0) |

上一篇：【转载】正则表达式使用详解

下一篇：【转载】vsftp配置大全

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6