Chinaunix首页 | 论坛 | 博客
  • 博客访问: 363864
  • 博文数量: 84
  • 博客积分: 2010
  • 博客等级: 大尉
  • 技术积分: 940
  • 用 户 组: 普通用户
  • 注册时间: 2008-10-12 20:30
文章分类

全部博文(84)

文章存档

2010年(18)

2009年(27)

2008年(39)

我的朋友

分类:

2008-10-19 00:40:15

正则表达式

正则表达式是一个字符串,旨在用于搜索或替换另一个字符串。初看起来,这似乎是一个相当基本的功能。大多数用户都熟悉几乎每个图形文本编辑器或字处理应用程序中都有的搜索和替换功能。如果将这个基本的搜索和替换功能比作计算器,则正则表达式可比作全功能的计算机。将正则表达式用于搜索条件的强大功能不应被低估。

一些基于 UNIX 的最强大命令行工具使用了正则表达式,包括 grepsedawk(以及包括 Perl 在内的一些编程语言)。在从基础 UNIX 命令行用户转变为真正的超级用户时,学习如何使用正则表达式是一个必需步骤。存在一些不同版本的正则表达式语法和多个版本的 grepsedawk,因此本教程将集中于每种实现中都具有的非常标准的最常见构造。不要忘了参考您系统的 man 页,以获得有关语法和命令行选项的细节。

在探索使用正则表达式的 UNIX 应用程序之前,了解基础知识是非常重要的。在本部分中,您只需继续往下阅读。稍后您将在 grep 中尝试一些示例。

正则表达式由一些普通字符和特殊字符组成,其中的特殊字符指示搜索条件。 在大多数基本情况下,正则表达式中也许根本就没有使用特殊字符。例如,如果您只是希望使用词条 golf 作为搜索条件,则可以输入以下命令:

golf

这就是一个正则表达式!它搜索单词 golf 的所有实例。正则表达式区分大小写,因此这将搜索 golf 的所有实例,但是不会查找 Golf 的实例。

若要同时搜索 golfGolf,您可以使用方括号(它们是正则表达式中的特殊字符),并列出一串要搜索的各个字符。这类似于搜索中的搜索(这就是正则表达式背后的神奇之处)。

[Gg]olf

同样的概念也适用于任何字符列表——而不只是用于区分大小写。例如,您可能希望搜索 golfgelf(您虚构的一种新体育运动):

g[oe]lf

现在假设您有第三种体育运动 gilf,您也希望对其进行检查。使用您到目前为止已学到的知识,一种方法是在您的搜索条件中使用 oei。但是随着您的搜索的逐步发展,您可能希望查找以 g 开头、以 lf 结尾并且其间具有一个字符的所有字符串。为此,您可以使用另一个特殊字符,即句点 (.)。

g.lf

这将查找以 g 开头和以 lf 结尾并且其间具有一个字符的所有字符串。若要将您的搜索扩展到以 g 开头和以 f 结尾并且其间具有两个字符的所有字符串,您可以使用两个句点:

g..f

使用 grep 来搜索文件

现在您已经对正则表达式背后的概念有了基本的了解,您可以开始使用实际的示例,以便能够看到它们的实际运用。您将试验的第一个命令行应用程序是 grepgrep 的名称实际上就来自于正则表达式:g/RE/pgrep 用于在一个或多个文件中搜索特定字符串的实例。缺省情况下,grep 输出其中出现了您的搜索字符串的每一行(而不是仅输出搜索字符串)。如果您在多个文件中执行搜索,则 grep 还会输出在其中找到该行的文件名。

使用以下文本创建一个名为 grep.txt 的文件:

I like golf.
Golf is played on grass.
I created gilf.

grep 的基本语法如下:

grep REGULAREXPRESSION FILENAME(S)

现在,返回到前面的第一个正则表达式示例:单独的单词 golf。若要与 grep 一起使用这个表达式,可输入:

grep golf grep.txt

此命令在 grep.txt 文件中搜索字符串 golf 的所有实例,并输出包含该字符串的行。您的输出应该类似如下:

I like golf.

下一步,试验一些上面讨论过的特殊字符。您可以使用方括号(方括号表达式)来指示您想要搜索 golfGolf

grep [gG]olf grep.txt

输出应该类似如下:

I like golf.
Golf is played on grass.

若要搜索 golfgilf,您同样可以使用方括号。取而代之的是,可以尝试使用一个句点来指示您想要搜索 glf 之间的任何字符:

$grep g.lf grep.txt

输出应该类似如下:

I like golf.
I created gilf.

您现在已经找到了获得每种 golf 变体的方法,但是还没有哪个搜索返回了所有三个实例:golfGolfgilf。花点时间考虑一下如何搜索所有三个实例。这可以通过多种方法来实现。下面是两个示例:

grep ..lf grep.txt
grep [gG][oi]lf grep.txt

这两种方法都返回所有三行:

I like golf.
Golf is played on grass.
I created gilf.

您是否能够想出更多的方法来完成此任务呢?到目前为止,您仅学习了两个在正则表达式中使用的特殊字符。这只是开始!有些特殊字符在其他特殊字符之内使用。例如,当您将一组字符包括在方括号中时,您可以使用短横线 (-) 来搜索一系列字符。将以下行添加到您的文本文件:

What is g2lf?

使用您到目前为止已学到的知识,您知道如果使用类似于 g.lfg[oi2]lf 的正则表达式,则这一行将包括在搜索结果中。使用句点将返回在该位置具有任何字符的结果;使用 [oi2] 将返回仅在该位置具有 o i2 的结果。通过使用一个短横线,您可以实现第三种方法,其中不只包括少数字符,但并不是包括每个字符:

grep g[a-z]lf

此方法产生以下输出:

I like golf.
I created gilf.

从输出中可以看到,此方法搜索落在 az 之间的任何字符(按字母顺序)。

这排除了在 glf 之间具有数字或符号的字符串,这些字符串不是真正的单词,

可能不属于您所需的搜索条件。

通过在方括号中包括附加集合,您还可以搜索多个字符序列。例如,若要搜索 a-zA-Z,可以使用以下搜索:

grep g[a-zA-Z]lf

当您的字符序列列表变得更长时,可能发现通过避免某些字符而不是指定想要查找的字符来进行搜索会更容易。

这可以通过在搜索序列前在方括号中使用脱字符 (^) 来实现。这说起来挺复杂的,但是通过观察一个示例,

应该是很容易理解的。通过使用以下 grep 命令来更改您的搜索,以避免数字但是包括所有其他字符:

grep g[^0-9]lf

此搜索类似于前面查找所有字母字符的搜索,但是此搜索还返回诸如数字符号 (#) 和美元符号 ($)

等不属于字母并且也不在您排除的数字序列中的字符。

要试验的下一个特殊字符是星号 (*),它是若干个重复操作符之一。大多数人都非常熟悉在命令行上使用星号

作为文件名搜索条件(通配符),但是在正则表达式中使用星号还是相当新鲜的。星号指示搜索项

(前一个字符或方括号表达式)可以出现零次、一次或多次。若要对此进行尝试,请将以下行添加到您已经在使用的 grep.txt 文件:

This time the o is missing in glf.
Some people might say goolf.
But they would not say goilf.

现在整个文件应该类似如下:

I like golf.
Golf is played on grass.
I created gilf.
What is g2lf?
This time the o is missing in glf.
Some people might say goolf.
But they would not say goilf.

尝试在 golf 中的 o 后面使用星号:

grep go*lf grep.txt

您的搜索将返回具有单词 golfglfgoolf 的行:

I like golf.
This time the o is missing in glf.
Some people might say goolf.

另一个重复操作符是问号 (?)。问号的功能与星号类似,只不过搜索项可以出现零次或一次。

多个实例将不匹配。使用问号取代星号来尝试您刚才执行的搜索:

grep go?lf grep.txt

可以看到,这次作为匹配结果返回了 golfglf,但是没有返回 goolf

因为其中存在问号前的搜索项 o 的多个实例:

I like golf.
This time the o is missing in glf.

最后一个常规重复操作符是加号 (+)。加号将查找某个搜索项出现一次或多次的情况。

与星号不同,必须至少找到一个实例才会匹配。请尝试以下示例:

grep go+lf grep.txt

这次,该搜索返回 golfgoolf,但它不返回 glf,因为没有找到 o

I like golf.
Some people might say goolf.

在转向 sed 之前,最后要学习的特殊字符是行首定位点(使用脱字符来实现)和行尾定位点(使用美元符号来实现)。

您可能记得,您在本教程的前面使用过脱字符来对方括号表达式取反。当在方括号之外使用脱字符时,

它执行完全不同的功能。将脱字符放在正则表达式开头将告诉该搜索仅操作行的开头。

换句话说,正则表达式中的第一个字符(脱字符之后)必须与新行上的第一个字符匹配才能匹配该行。

类似地,将美元符号放在正则表达式的结尾以指示您仅希望返回与行尾匹配的结果。换句话说,

正则表达式中的最后一个字符(美元符号之前)必须与某行上的最后一个字符匹配才能匹配该行。

若要对此进行测试,请将以下两行添加到 grep.txt:

golf has been a fine example
let's talk about something besides golf

请注意,对于此测试,您不应该对 golf 进行大写或加标点,因为它将演示一个针对同一单词的搜索,

此搜索使用定位点在行尾或行首以不同的方式操作。若要测试行首定位点,请输入以下命令:

grep ^golf grep.txt

输出应该类似如下:

golf has been a fine example

若要测试行尾定位点,请使用同一个搜索,但是删除脱字符并在 golf 之后添加一个美元符号。

grep golf$ grep.txt

使用行尾定位点的输出类似如下:

let's talk about something besides golf

现在您已经通过在命令行上使用 grep 来学习了正则表达式的基础知识。

下一步,您将学习使用 sed,此实用程序不仅搜索文本,

而且还对搜索结果进行替换。首先,下面是对您到目前为止已学习过的内容的小结:

.   句点表示任何单个字符
[]  方括号包括一个字符序列
-   短横线在字符之间使用以创建一个序列(在 [] 内)
^   脱字符用于对序列(在 [] 内)取反
*   星号搜索某个搜索项的零个、一个或多个实例
?   问号搜索某个搜索项的零个或一个实例
+   加号搜索某个搜索项的一个或多个实例
$   美元符号搜索行尾
^   脱字符搜索行首
\   特殊字符前的反斜杠使该字符成为普通字符

使用 sed 来编辑文件

sed流编辑器 (stream editor) 的简写。文本编辑器的传统、现代定义是

可用于创建和编辑文本文件的交互式应用程序。sed 也是一个文本编辑器,但它是

一个命令行实用程序而不是交互式实用程序,从而使之成为一个极其强大的批处理编辑工具。

sed 通常在 UNIX Shell 脚本中用于过滤较大的文本文件集。在本教程的第一部分中,您使用了一个

讨论 golf 的小型测试文件。为了演示 sed 编辑器的高级功能,您将使用一个很小的代码片段,

开发人员可能希望在批处理过程中更改该代码片段。

请将以下文本复制并粘贴到一个名为 sed.txt 的文件中:

system "echo 'project:$project' >> logfile";
system "echo 'version:$version' >> logfile";
system "echo 'optionalid:$optionalid' >> logfile";
system "echo 'nodes:$nodes' >> logfile";
system "echo 'threads:$threads' >> logfile";

前面解释过的用于 grep 的所有特殊字符在 sed 中也有效。然而,若要使用 sed

您必须了解一些附加语法。sed 中的基本表达式由四个部分组成,各个部分之间用正斜杠 (/) 分隔。

以下是用于基本 sed 命令的常见语法:

sed s/REGULAREXPRESSION/REPLACEMENTSTRING/flags INPUT_FILE

s 指示您希望执行搜索和替换。正斜杠用于绑定 sed 中的正则表达式。例如,

如果您只希望将词条 logfile 替换为 logfile.txt,则可以运行以下命令:

sed s/logfile/logfile.txt/ sed.txt

输出应该类似如下:

system "echo 'project:$project' >> logfile.txt";
system "echo 'version:$version' >> logfile.txt";
system "echo 'optionalid:$optionalid' >> logfile.txt";
system "echo 'nodes:$nodes' >> logfile.txt";
system "echo 'threads:$threads' >> logfile.txt";

在此情况下要注意的一个要点在于,sed 不会实际更改 sed.txt 的内容。相反,

它将输出发送到标准输出设备。对于这些示例,您将把输出发送到标准输出设备,以便能够立即看到操作结果。

为便于将来参考,可以捕获输出或将其发送到某个新文件。例如,若要将输出发送到 sed_new.txt,可以运行以下命令:

sed s/logfile/logfile.txt/ sed.txt > sed_new.txt

在学习使用斜杠的同时,还有另一个非常重要的特殊字符需要学习。反斜杠 (\) 称为转义字符,

因为它对正则表达式解释中的下一个字符进行转义。更简单的是,将一个反斜杠放在特殊字符前,

将使该字符成为普通项而不是命令项。这非常重要,因为许多文件(尤其是在编写代码的时候)广泛利用了

与用于执行正则表达式的字符相同的字符。在您的 sed.txt 文件中,您会注意到美元符号的使用。

如果您希望替换 $project 而不替换 project,则需要在搜索和替换中使用转义字符:

sed s/\$project/\$project_name/ sed.txt

您可以在输出中看到 $project 被更改了,但是 project 没有被更改。

system "echo 'project:$project_name' >> logfile";
system "echo 'version:$version' >> logfile";
system "echo 'optionalid:$optionalid' >> logfile";
system "echo 'nodes:$nodes' >> logfile";
system "echo 'threads:$threads' >> logfile";

这引入了 sed 中的另一个重要功能。如果您希望同时更改 project 的两个实例,

该怎么办呢?通过到目前为止已学到的知识,合理的回答是只需使用 project

作为正则表达式,但是此回答并不是非常正确。下面将继续并进行尝试,

以便能够演示和解释该过程:

sed s/project/project_name/ sed.txt

在输出中可以看到,project 的第一个实例被更改为 project_name

system "echo 'project_name:$project' >> logfile";
system "echo 'version:$version' >> logfile";
system "echo 'optionalid:$optionalid' >> logfile";
system "echo 'nodes:$nodes' >> logfile";
system "echo 'threads:$threads' >> logfile";

然而,第二个实例未更改,尽管它肯定匹配您的正则表达式。您从第一个

示例中知道,sed 似乎更改其输入中的每个匹配字符串,而不是仅更改

第一个匹配字符串,因为它更改 logfile 的每个实例。

区别在于,logfile 的每个实例在单独的行上,而同一行上却有两个 project 实例。

这为什么非常重要?因为 sed 被实现为一个行编辑器。它一次将一个单独的行放到内存中,

并将其作为单个单元来操作。在运行 sed 时务必记住这点,因为所有命令行选项都是按

这个设计原则来设计的(从而使大多数 sed 实现不会受到与系统内存有关的文件大小限制)。

缺省情况下,每一行都视为 sed 命令的一次新的执行。尽管在第一个示例中似乎不是这样,

但是其中 sed 命令仅替换匹配字符串的第一个实例。

然而,您可以简单地使用一个 g 标志来改变此行为。

 

执行同样的 sed 命令,但这次在结尾附加一个 g

sed s/project/project_name/g sed.txt

这次,第一行上的两个 project 实例都被更改为 project_name

system "echo 'project_name:$project_name' >> logfile";
system "echo 'version:$version' >> logfile";
system "echo 'optionalid:$optionalid' >> logfile";
system "echo 'nodes:$nodes' >> logfile";
system "echo 'threads:$threads' >> logfile";

您可能记得,gglobal 的简写。

sed 的另一个强大功能是在搜索和替换操作前运行初步搜索,以确定当前是否在您

希望执行命令的行上。这差不多类似于在 sed 中执行 grep。在您的例子中,

您可能希望更改 node 变量的日志文件,而不是将它与所有其他输出分组在一起。

为此,您需要将字符串 logfile 更改为 logfile_nodes

但是仅在属于节点的行上执行更改。以下命令可以确切完成此任务:

sed  /nodes/s/logfile/logfile_nodes/ sed.txt

下面是其输出:

system "echo 'project:$project' >> logfile";
system "echo 'version:$version' >> logfile";
system "echo 'optionalid:$optionalid' >> logfile";
system "echo 'nodes:$nodes' >> logfile_nodes";
system "echo 'threads:$threads' >> logfile";

现在,尝试使用一些您在使用 grep 时学习到的正则表达式知识,不过这次是

sed 命令中使用。通过在 sed 中使用以下正则表达式,您可以更改以冒号结尾

的每个字符串:

sed s/[a-z]*:/value:/g sed.txt

输出应该类似如下:

system "echo 'value:$project' >> logfile";
system "echo 'value:$version' >> logfile";
system "echo 'value:$optionalid' >> logfile";
system "echo 'value:$nodes' >> logfile";
system "echo 'value:$threads' >> logfile"; 

这相当酷,但不是非常合理。它不是非常合理的原因在于,您的所有变量前都有

单词 value,没有办法对各个变量进行区分。然而,通过使用 sed 的另一个功能,

您可以使这转变为一个实际的示例。

“和”号 (&) 表示与您的正则表达式匹配的字符串。换句话说,如果 [a-z]*:

在某个特定行上被证明为 project:,则“和”号将包含该值。这会非常有用。

看一下以下这个示例:

sed s/[a-z]*:/new_\&/g sed.txt

这次,您修改了每个匹配字符串,但是保留了与每个变量关联的标识符:

system "echo 'new_project:$project' >> logfile";
system "echo 'new_version:$version' >> logfile";
system "echo 'new_optionalid:$optionalid' >> logfile";
system "echo 'new_nodes:$nodes' >> logfile";
system "echo 'new_threads:$threads' >> logfile";

使用 sed,您还可以一次做多件事情。若要一次执行多个命令序列,您必须在每个表达式

前使用 -e 标志。缺省情况下,sed 将第一个参数解释为一个表达式,但是在运行多个命

令时,您需要作出更明确的指定,因此要使用 -e 标志。例如:

sed -e s/[a-z]*:/value:/g -e s/logfile/name/g sed.txt

可以在此例中看到,sed 在适当位置插入了 value:name

system "echo 'value:$project' >> name";
system "echo 'value:$version' >> name";
system "echo 'value:$optionalid' >> name";
system "echo 'value:$nodes' >> name";
system "echo 'value:$threads' >> name";

正如您开始看到的,在大规模批处理过程中,sed 可以是个非常强大的文件编辑工具。在前一示例中,

您是在对单个文件进行操作,就像在使用 grep 时所做的那样。不要忘了,这些实用程序的部分强大

功能在于跨多个文件运行它们,这可以使用通配符或文件列表替换单个文件来实现,您已在本教程中这样使用过了。

 

在命令行上使用 awk

本教程首先对正则表达式进行了基本的解释,然后介绍了 grepsedgrep 是一个强大的搜索实用程序,

sed 则是一个更加强大的搜索和替换实用程序。awk 则更进一步,它在全功能的命令行编程语言中使用正则表达式。

正如 sed 一样,当在命令行上使用 awk 时,它接受基于行的输入。awk 一次解释一行输入,但是与 sed 不同,

它将该行上的每个部分作为变量来处理,这些变量可用作内联代码的输入和输出。

应该指出的是,AWK(大写)是一个可用于编写脚本(而不只是在命令行上使用)的全功能编程语言,

但本教程集中于 awk,后者是动态解释 AWK 命令的命令行实用程序。

顺便提一下,任何人阅读到这里都会考虑如何实际运用所学到的知识,我刚才就使用 grep 在某些旧代码中搜索理想的 awk 示例:

grep awk */*.pl

大多数系统管理员或程序员每天都会看到这些工具的应用。下面是我的输出中的一些行:

Edaemon/m_checkcurrentdisk.pl:$freespace = `awk '(NR==1) {print \$4 / 1024 / 1024}' grep.tmp`;
|-------10--------20--------30--------40--------50--------60--------70--------80--------9|
|-------- XML error:  The previous line is longer than the max of 90 characters ---------|
Edaemon/m_getdatetime.pl:$month = `awk '(NR==1) {print \$2}' datetime.txt`;
Odaemon/odaemon.beowulf.dvd.pl:$filesize = `awk '(NR==1) {print \$1}' temp.txt`;

这些是非常好的示例,因为它们说明了非常基础的 awk 应用。对于您的第一次尝试,甚至可以使它更简单。

对于您的 awk 测试,请在一个空目录中创建以下文件(每个文件的内容无关紧要,并且它们可以是空的)。

Screenshot_1.jpg
Screenshot_2.jpg
Screenshot_3.jpg
awk.txt
regular.txt
sed.txt

缺省情况下,awk 读取输入文件中的每一行,并将内容分离为由空格确定的变量。在非常简单的示例中,

您可以使用 ls 的输出作为 awk 的输入并打印结果。此示例结合使用管道字符 (|) 和 ls 来将输出发送到 awk

ls | awk ' { print $1 } '

awk 随后打印每行上的第一项,在此例中为每行上的唯一项:

Screenshot_1.jpg
Screenshot_2.jpg
Screenshot_3.jpg
awk.txt
regular.txt
sed.txt

这确实是非常基本的功能。对于下一个示例,请使用 ls -l 来为 awk 生成多列输入:

ls -l

不同系统的 ls 实现稍有差别,下面是一些示例输出:

total 432
-rw-rw-rw-   1 guest  guest  169074 Oct 15 14:51 Screenshot_1.jpg
-rw-rw-rw-   1 guest  guest   23956 Oct 15 20:56 Screenshot_2.jpg
-rw-rw-rw-   1 guest  guest   12066 Oct 15 20:57 Screenshot_3.jpg
-rw-r--r--   1 tuser  tuser     227 Oct 15 20:16 awk.txt
-rw-r--r--   1 tuser  tuser     233 Oct 15 19:35 regular.txt
-rw-r--r--   1 tuser  tuser     227 Oct 15 23:16 sed.txt

请注意,文件所有者是每行上的第三个项,文件名是每行上的第九个项(缺省情况下,awk 中的项之间用空格分隔)。

通过打印每行上的第三和第九个变量,您可以使用 awk 来从该列表提取文件所有者和文件名。下面是完成这项工作的命令:

ls -l | awk ' { print $3 " " $9 } '

您将注意到,awk 中的 print 命令有两个引号,而且引号中有一个空格。这只是为了在输出的文件所有者和文件名之间打印一个空格:

guest Screenshot_1.jpg
guest Screenshot_2.jpg
guest Screenshot_3.jpg
tuser awk.txt
tuser regular.txt
tuser sed.txt

您可以在 awk 打印语句中的变量之间的引号中放置任何文本。

现在您已经学习了如何使用 awk 的基础知识,但本教程不是关于正则表达式的吗?

awk 中大量使用了正则表达式。最常见的示例是在 awk 命令前附加一个正则表达式,用

于指定您想要操作的行。与 sed 一样,awk 中的正则表达式位于两个正斜杠之间。

例如,如果您只希望操作 tuser 所拥有的文件,则可以使用以下命令:

ls -l | awk ' /tuser/ { print $3 " " $9 } '

该命令产生以下输出:

tuser awk.txt
tuser regular.txt
tuser sed.txt

在另一个示例中,您可能希望更改每个文本文件的文件扩展名而不更改图像文件。

为此,您将需要使用句点而不是空格来分隔输入变量,然后使用正则表达式来指示您仅希望搜索文本文件。

若要基于句点来分隔变量,可以使用 -F 标志,后跟后跟您希望使用的字符(用引号引起来)。

尝试此示例,通过管道将 awk 输出发送到某个 Shell(此 Shell 将执行 awk 生成的命令):

s | awk -F"." ' /txt/ { print "mv " $1 "." $2 " " $1 ".doc" } ' | bash

后续的 ls -l 将显示新的文件名:

-rw-rw-rw-   1 guest  guest  169074 Oct 15 14:51 Screenshot_1.jpg
-rw-rw-rw-   1 guest  guest   23956 Oct 15 20:56 Screenshot_2.jpg
-rw-rw-rw-   1 guest  guest   12066 Oct 15 20:57 Screenshot_3.jpg
-rw-r--r--   1 tuser  tuser     227 Oct 15 20:16 awk.doc
-rw-r--r--   1 tuser  tuser     233 Oct 15 19:35 regular.doc
-rw-r--r--   1 tuser  tuser     227 Oct 15 23:16 sed.doc

记住,这些只是 awk 的入门基础知识,但是 AWK 是一种全功能的编程语言,

所具有的功能远远超出了本教程所介绍的内容。请查看一下 awk man 页。如果您希望学习更多的知识,

花钱买一本优秀的图书是明智的。



    

阅读(1739) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~