html::parse-viviecho-ChinaUnix博客

Linuxhttps.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

viviecho

博客访问： 494282
博文数量： 279
博客积分： 4467
博客等级：上校
技术积分： 2830
用户组：普通用户
注册时间： 2007-04-03 14:43

文章分类

全部博文（279）

AWK（1）
SED（1）
ora（14）
testing（4）
work（10）
MySql（26）
perl script （（39）
Javascript（2）
windows（2）
C/C++（2）
install software（10）
English（0）
System configure（29）
linux command（28）
Shell script（11）
virtual server（3）
perl（43）
PHP（8）
未分配的博文（46）

文章存档

2013年（1）

2012年（39）

2011年（35）

2009年（29）

2008年（131）

2007年（44）

我的朋友

最近访客

推荐博文

html::parse

分类：

2008-01-22 14:33:05

HTML::Parser

解析HTML。本例为找出一个html文本中的所有图片的地址。（即IMG标签中的src）

子程序start中的“$tag =~ /^img$/”为过滤出img标签。
如果换为“$tag =~ /^a$/”，即是找出所有的链接地址。

详细的方法介绍，请见`perldoc HTML::Parser`




#!/usr/bin/perl



use LWP::Simple;

use HTML::Parser;



my $url = shift || "";

my $content = LWP::Simple::get($url) or die("unknown url\n");



my $parser = HTML::Parser->;new(

			start_h =>; [\&start, "tagname, attr"],

			);



$parser->;parse($content);

exit 0;



sub start 

{

	my ($tag, $attr, $dtext, $origtext) = @_;	

	if($tag =~ /^img$/) 

	{	

		if (defined $attr->;{'src'} ) 

		{

			print "$attr->;{'src'}\n";	

		}

	}

}

阅读(403) | 评论(0) | 转发(0) |

上一篇：mail::sender

下一篇：Algorithm::Diff, diff()

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6