Chinaunix首页 | 论坛 | 博客
  • 博客访问: 147959
  • 博文数量: 47
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 402
  • 用 户 组: 普通用户
  • 注册时间: 2013-03-11 10:08
文章存档

2013年(47)

我的朋友

分类: PERL

2013-03-25 10:32:42

什么是记录?
记录的缺省定义为:“行”。

记录的定义由$/ 变量控制的,该变量存放所输入的记录的分隔符,因为换行符字符(根据定义!)是用来分隔行的,故其缺省值为串“\n”。

例如,你可以用任何你想要替换的符号来代替“\n”。

  $/ = ";";
  $record = ;  # 读入下一个用分号分隔的记录

$/可以取其它两个有趣的值:空串("") 和undef。

读入段落
$/ =""的写法是用来指示perl读入段落的,段落是由两个或两个以上的换行符构成的文本块。这不同于设置为"\n\n",后者仅读入由两行组成的文本块。在这种情况下,将出现这样一个问题:如果有连续的空行存在,例如“text\n\n\n\n”,你既可以把它解释为一个段落 ("text"),也可以解释为两个段落 ("text", 后面跟两个换行符,以及一个空段落,后面跟两个空行。) 

在读入文本时,第二个解释用途不大。如果你正在读的段落出现上述情况,你不必过滤出“空”段落。

$/ = "\n\n";
  while () {
    chomp;
next unless length;     # 跳过空段
    # ...
  }

你可以把 $/设置为undef,它用于读入后面跟着两个或多个换行符组成的段落:  undef $/;

while () {
    chomp;
    # ...
}

读入整个文件

$/ 的其它有趣的值为undef。如果设置为该值,就将告诉perl,读命令将把文件的剩余部分作为一个串返回:
undef $/;
$file = ;

因为改变了 $/的值,将会影响以后的每次读操作,而不仅是下一个读操作。通常,你需要将该操作限制在局部。通过下面的例子,可以把文件句柄的内容读入到一个串中:
{
  local $/ = undef;
  $file = ;
}
记住:perl变量可读入很长的串。尽管你的文件大小不可以超出你的虚拟内存容量的限度,你仍可以读入尽可能多的数据。
用正则表达式对文件进行操作
一旦你有个包含了整个串的变量,你可以使用正则表达式,对整个文件进行操作,而不是对文件中的某个块进行操作。有两个有用的正则表达式标记/s和/m。一般,perl的正则表达式对行进行处理,你可以这样写:

undef $/;
  $line = ;
  if ($line =~ /(b.*grass)$/) {
    print "found $1\n";
  }

如果把我们的文件填入如下内容:
  browngrass
  bluegrass
则输出为:
found bluegrass

它没有找到“browngrass”,这是因为$ 仅在串尾寻找其匹配, (或者在串结束前的一行)。如果在包含很多行的串中,用"^" 和"$" 来匹配,, 我们可以使用 /m ("multiline") 选项:

if ($line =~ /(b.*grass)$/m) {}

现在程序会把如下的信息输出:

  found browngrass

类似地,句点可以匹配除了换行符之外的所有字符

while () {
    if (/19(.*)$/) {
      if ($1 < 20) {
      $year = 2000+$1;
      } else {
      $year = 1900+$1;
      }
    }
  }

如果我们从文件中读入“1981”,$_ 将包含“1981\n”。正则表达式中的句点匹配“8”和“1”, 而不匹配“\n”。这里正需要这样做,因为换行符不是日期的组成部分。

对于一个包含很多行的串,我们也许要提取其中的大的块,这些块可能会跨越行分隔符。在这种情况下,我们可以使用 /s 选项,并用句点来匹配除了换行符以外的所有字符。

if (m{(.*?)}s) {
    print "found bold text: $1\n";
  }

此处,我用了{}来表示正则表达式的起始和结束,而不用斜杠,所以,我就可以告诉 perl我正在匹配,起始字符为"m",结束字符为"s"。你可以把/s 和/m 选项组合使用:

if (m{^(.*?)}sm) {
    # ...
  }

总结
有两种方法打开文件:open()函数的特点是快速简捷,而sysopen()函数功能强大而复杂。通过 操作符,可以读入一个记录,$/ 变量可以让你控制记录是什么。如果你打算把很多行的内容读入到一个串中,不要使用忘记/s和/m 这两个正则表达式标记。
阅读(1549) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~