Perl 程序文本处理从文本文件中提取需要的信息-neobilly-ChinaUnix博客

记录学习的点滴bioxcy.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

neobilly

博客访问： 474466
博文数量： 118
博客积分： 4015
博客等级：上校
技术积分： 1233
用户组：普通用户
注册时间： 2010-11-24 22:11

文章分类

全部博文（118）

娱乐（4）
独家笑话（2）
NULL（10）
学习笔记（100）
未分配的博文（2）

文章存档

2013年（5）

2011年（61）

2010年（52）

我的朋友

最近访客

推荐博文

Perl 程序文本处理从文本文件中提取需要的信息

分类：

2010-12-03 16:11:48

接上回，从网上获得了一组文件，然后需要提取信息，考虑到文件的结构比较规则，决定用正则表达式。
当然前期的处理有：把^M去掉，命令如下：
#for a in `ls htmls`; do sed -e 's/^M//g' $a >$a.out; done
注意：^M不是^ M,而是Ctrl+V Ctrl + M
源代码如下：
#!/usr/bin/perl
my $in = $ARGV[0];
my $line = "";
die "NO input file!" if(!defined($in));#没有输入则结束
open(FH,$in) or die "Cannot read $in:$!";#read $in
do{
        do {
        $line = ;

        }while(defined($line) && $line !~ /color="000000"/);
        #now the file has ended or get the record;
        if(defined($line)){
             $line =~ /.*>(\d+)
             print "$1\t";

             $line = ;
             $line =~ /.*(\d+)<.*/;
             print "$1\t";

             my $i = 0;
             for($i = 0; $i < 7; $i++){
                 $line = ;
                 $line =~ /.*>(.+)<\/font>/;
                 print "$1\t";

             }
             print "\n";
        }else{
             exit;
        }
}while(defined($line));
close(FH);

文件做成输入，需要的信息打印出来，以便在shell中调用重定向到文件中，下面是命令：
#for a in `ls` ; do perl $a>>siRNA.db;done

阅读(2526) | 评论(0) | 转发(0) |

0

上一篇：Perl 程序网页爬手

下一篇：Perl 程序文本处理读文件比对相似度

给主人留下些什么吧！~~

评论热议

请登录后评论。
登录注册