Perl 程序网页爬手-neobilly-ChinaUnix博客

记录学习的点滴bioxcy.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

neobilly

博客访问： 474468
博文数量： 118
博客积分： 4015
博客等级：上校
技术积分： 1233
用户组：普通用户
注册时间： 2010-11-24 22:11

文章分类

全部博文（118）

娱乐（4）
独家笑话（2）
NULL（10）
学习笔记（100）
未分配的博文（2）

文章存档

2013年（5）

2011年（61）

2010年（52）

我的朋友

最近访客

推荐博文

Perl 程序网页爬手

分类：

2010-12-03 16:07:31

需求：从某个站点下载一组连续的网页，用wget下载，perl完成
源代码如下：
#！/usr/bin/perl -w
use strict;
my $pageno = 0;
my $cmd = "";
for($pageno = 1; $pageno < 210; $pageno ++){
$cmd = "$pageno&xxxxx";
system("wget -O $pageno.html \'$cmd\'");
}
注意的地方：动态页面通过Get方式在链接上传参数，？之后的就是参数，在wget的URL上，应该把
整个地址用单引号包起来，不然的话 wget 读到问号就停住了。。。

运行perl
考虑到文件较多，决定将下载放到后台，命令如下
>(nohup) perl htmlfetcher.pl 2>/dev/null &

>ps -e#查看进程

>kill pid #杀进程

阅读(937) | 评论(0) | 转发(0) |

上一篇：R学习笔记0

下一篇：Perl 程序文本处理从文本文件中提取需要的信息

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6