perl从网页上爬取名字-Narlon-ChinaUnix博客

Real 的 Blognarlon.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

Narlon

博客访问： 318331
博文数量： 23
博客积分： 2115
博客等级：大尉
技术积分： 371
用户组：普通用户
注册时间： 2006-07-15 16:36

文章分类

全部博文（23）

unity（0）
Flex（2）
DotNet（11）
BCI（0）
其他（3）
小技巧（3）
网站建设（0）
网络技术（4）
未分配的博文（0）

文章存档

2013年（4）

2012年（4）

2011年（3）

2010年（6）

2009年（5）

2008年（1）

我的朋友

相关博文

perl从网页上爬取名字

分类： PERL

2013-12-27 15:08:33

#use strict;
use utf8;
use LWP::Simple qw(get);
#设置标头信息
open(FILE1,">a.txt");
binmode(FILE1, ':encoding(gb2312)');
my %dict;
my $i;
for($i=1;$i<=9999;$i++)
{
print "p $i\n";
my $url = shift||("");
my $content = get($url);
#print $url;
my @dt = $content =~ />([^>]*)</a></cite>/g;
foreach $item (@dt)
{
if($dict{$item}!=1)
{
$dict{$item}=1;
print FILE1 "$item\n";
}
}
}
close(FILE1);

阅读(178) | 评论(1) | 转发(0) |

上一篇：perl按顺序爬取图片资源

下一篇：没有了

给主人留下些什么吧！~~

datafactory2016-05-27 18:06:46

我觉得对于开发者来说，能脚本化编写爬虫是一件挺开心的事情(￣▽￣)\"。所以我们团队开发了一个专门让开发者用简单的几行 javascript 就能在云上编写和运行复杂爬虫的系统，叫神箭手云爬虫开发平台： http://www.shenjianshou.cn 。欢迎同行们来试用拍砖，尽情给俺们提意见。有想法的可以加群讨论： 342953471

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6