Chinaunix首页 | 论坛 | 博客
  • 博客访问: 466838
  • 博文数量: 279
  • 博客积分: 4467
  • 博客等级: 上校
  • 技术积分: 2830
  • 用 户 组: 普通用户
  • 注册时间: 2007-04-03 14:43
文章分类

全部博文(279)

文章存档

2013年(1)

2012年(39)

2011年(35)

2009年(29)

2008年(131)

2007年(44)

分类:

2008-01-22 14:33:05

 HTML::Parser

解析HTML。本例为找出一个html文本中的所有图片的地址。(即IMG标签中的src)

子程序start中的“$tag =~ /^img$/”为过滤出img标签。
如果换为“$tag =~ /^a$/”,即是找出所有的链接地址。

详细的方法介绍,请见`perldoc HTML::Parser`




#!/usr/bin/perl



use LWP::Simple;

use HTML::Parser;



my $url = shift || "";

my $content = LWP::Simple::get($url) or die("unknown url\n");



my $parser = HTML::Parser->;new(

start_h =>; [\&start, "tagname, attr"],

);



$parser->;parse($content);

exit 0;



sub start 

{

my ($tag, $attr, $dtext, $origtext) = @_;

if($tag =~ /^img$/) 

{

if (defined $attr->;{'src'} ) 

{

print "$attr->;{'src'}\n";

}

}

}
阅读(344) | 评论(0) | 转发(0) |
0

上一篇:mail::sender

下一篇:Algorithm::Diff, diff()

给主人留下些什么吧!~~