用perl抽取指定页面的指定部分-CUDev-ChinaUnix博客

CUDevcudev.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

CUDev

博客访问： 5799911
博文数量： 675
博客积分： 20301
博客等级：上将
技术积分： 7671
用户组：普通用户
注册时间： 2005-12-31 16:15

文章分类

全部博文（675）

Web架构（4）
Thinking（1）
SF（2）
Kernel and Drive（70）
perl（2）
QT4学习笔记（9）
网络编程（52）
嵌入式Linux（4）
服务器管理（64）
操作系统研究（11）
Linux深入学习（38）
算法研究（29）
网络安全（34）
python（19）
心情日记（6）
程序设计（127）
Linux应用（134）
Shell（64）
未分配的博文（5）

文章存档

2012年（1）

2011年（20）

2010年（14）

2009年（63）

2008年（118）

2007年（141）

2006年（318）

我的朋友

最近访客

推荐博文

用perl抽取指定页面的指定部分

分类：

2007-04-18 00:33:01

应周蓝珺的请求，给他做一个抽取指定页面的指定内容的脚本。
本来打算是使用shell来写的，但是想了一下，还是使用perl吧。练习一下自己的刚学的perl

实际上，周蓝珺所要求的就是去抽取新闻。

手工指定，新闻位于哪几个Table下的哪几个TD里面。然后，抽取出来形成一个新的html文本。

#!/usr/bin/env perl
#
#$ARGV[0]:OriginalFile
#$ARGV[1]:Title
#$ARGV[2]:SubURL
#$ARGV[3]:start_table
#$ARGV[4]:start_td
#$ARGV[5]:end_td1
#
#

if(@ARGV != 6)
{
 print "Usage: Extract <SubURL> <Start_table> <Start_td> <End_/td>\n"; exit(1); } my $line; my $state = 0; my $count_table=0; my $count_td=0; my $count_td1=0; my $OrigFile=$ARGV[0]; my $Title=$ARGV[1]; my $SubURL=$ARGV[2]; my $start_table = $ARGV[3]; my $start_td = $ARGV[4]; my $start_td1 = $ARGV[5];; my $Dir=$ENV{'PWD'}; open(HTML,$Dir."/".$OrigFile) or die "cannot open file:$!"; open(OUTPUT,">$Dir"."/"."out_".$OrigFile) or die "cannot open file:$!"; #Add Title print OUTPUT "<title>$Title\n";

while()
{
 chomp;
 $line=$_;

 #Trans Upper to Lower
 $line =~ tr/[A-Z]/[a-z]/;

 #Delete Commend Line
 if( ($line=~/\<\!--/) || ($state==1) )
 {
 $temp .= $line;
 if($line =~ /--\>/)
 {
 $state = 0;
 $temp="";
 next;
 }
 else
 {
 $state = 1;
 next;
 }
 }

 #Get the need text segment
 if(/\ {
 if($count_table < $start_table )
 {
 $count_table += 1;
 }
 }

 if($count_table == $start_table )
 {
 if(/\

{
 if($count_td < $start_td )
 {
 $count_td += 1;
 }
 }

 if( $count_td == $start_td )
 {
 if(/\<\/td/)
 {
 if($count_td1 <= $start_td1 )
 {
 $count_td1 += 1;
 }
 }
 if($count_td1 <= $start_td1 )
 {
 if( $line=~/href=\"\./ )
 {
 $line =~ s@href=".@href="$SubURL@g;
 }
 print OUTPUT $line."\n";
# print $line."\n";
 }
 }
 }
}

close(HTML);
close(OUTPUT);

先wget下指定URL的网页，再使用上面的脚本处理。

wangyao@fisherman:~/perl/extract$ wget -O ir.htm > /dev/null 2>&1
wangyao@fisherman:~/perl/extract$ ./Extract.pl ir.htm HIT_IR_Lab 7 5 16

阅读(2591) | 评论(0) | 转发(0) |

上一篇：perl中获取当前路径

下一篇：crontab的问题解决

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6