如何提取介于某个区间的几行文字，区间的开始和结束可以用正则表达式描述。-snowtty-ChinaUnix博客

冰雪塵埃snowtty.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

snowtty

博客访问： 5433753
博文数量： 1144
博客积分： 11974
博客等级：上将
技术积分： 12312
用户组：普通用户
注册时间： 2005-04-13 20:06

文章分类

全部博文（1144）

技术--Oracle&MyS（112）
编程--python编程（21）
编程--perl程序（183）
技术--防火墙类（9）
技术--samba类（7）
技术--apache类（18）
技术--netfilter（7）
工作--工作??（62）
生活--情感生活（116）
学习--英语学习（24）
学习--早先日志（46）
工作--周报总结（36）
学习--学习笔记（45）
技术--Rsync维护（11）
技术--OPENldap（1）
技术--squid维护（9）
技术--DNS 维护（17）
技术--FTP 维护（7）
技术--qmail维护（128）
技术--网络技术（26）
技术--linux 类（183）

openvpn（0）

nagios（10）
编程--awk&sed（11）
编程--shell编程（50）
未分配的博文（15）

文章存档

2017年（2）

2016年（14）

2015年（10）

2014年（28）

2013年（23）

2012年（29）

2011年（53）

2010年（86）

2009年（83）

2008年（43）

2007年（153）

2006年（575）

2005年（45）

我的朋友

相关博文

如何提取介于某个区间的几行文字，区间的开始和结束可以用正则表达式描述。

分类： LINUX

2008-09-24 14:00:59

看了flw给出的解决方法：
这是面向行处理的一种轻量级解决方法。
比那些对整个文件进行模式匹配的方法不知优雅了要多少倍。

$start 表示开始标记的模式，$end 表示结束标记的模式，
if ( (/$start/ .. /$end/) and !/$end/ ){
表示需要开始和结束之间的，但不需要结束的那一行。

但是问题来了，若模式匹配是不严格的，即：start和end是同一性质的，如一段文字，如下：
>
reo
sot
>
tin
>12
是以开头一个>作为标志。现在要取出每一个>及其后的文字，该如何处理？另外，最后一个是例外，如何解决？大家来讨论下吧。

use strict;
use Data::Dumper;

my $records = {}; # reference to hash
my $count = 0;    # counter for normal key record
my $key = '';       # hash key

while () {
chomp;
if (/^>(.*)/) { # pattern match beginning with > (or followed by string)
      if ($1) {    # matsched followed by char and put it as special key
         $key = 'specialKey_'. $1;
         $records->{$key} = []; # initial ref. array
      } else {    # put counter as key
         $key = 'count_' . ++$count;
      }
} else {
      # put all rest blocks after line ^> into a ref. array
      push @{$records->{$key}}, $_;
}
}
# display data structures:
print Dumper $records;

__DATA__
>
reo
sot
>
tin
>12

Output data records:

QUOTE:

$VAR1 = {
      'count_1' => [
                     'reo',
                     'sot'
                     ],
      'count_2' => [
                     'tin'
                     ],
      'specialKey_12' => []
      };

============================================

QUOTE:

原帖由 forlorngenius 于 2008-9-22 21:32 发表

range operator 除了有两个点 .. 还有三个点 ...

呵呵。这个还没有听说过，有时间的话请详细指教。。。
另外，我已经解决了。用的笨方法。这里贴上，或许能供需要之人参考：
#!/usr/bin/perl
$file=shift;
$to_file=shift;
open(TXT, $file) || die "can't open $!";
open(TXT2,">$to_file") or die "error $!";
while(){
$content=$_;
if(/^>\d*[\r|\n]+/){
$_='';
$count=1;
}
if($count==1 ){
if(/^>\d+.+\w+/){
$count=0;}
}
if($count==1){
$content='';}
print TXT2 $content;
}
close(TXT);
close(TXT2);
提问只是简略，具体要求是：如发现一段是以>或者>\d+开头，而后面没有别的东西，则认为非法而删除。程序并不难，关键是逻辑。多谢大家的回答，希望有好的解决方法。

阅读(1861) | 评论(0) | 转发(0) |

上一篇：DNS Verification

下一篇： MySQL操作程序一

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6