Chinaunix首页 | 论坛 | 博客
  • 博客访问: 318331
  • 博文数量: 23
  • 博客积分: 2115
  • 博客等级: 大尉
  • 技术积分: 371
  • 用 户 组: 普通用户
  • 注册时间: 2006-07-15 16:36
文章分类

全部博文(23)

文章存档

2013年(4)

2012年(4)

2011年(3)

2010年(6)

2009年(5)

2008年(1)

我的朋友

分类: PERL

2013-12-27 15:08:33


  1. #use strict;
  2. use utf8;
  3. use LWP::Simple qw(get);
  4. #设置标头信息

  5. open(FILE1,">a.txt");
  6. binmode(FILE1, ':encoding(gb2312)');

  7. my %dict;

  8. my $i;
  9. for($i=1;$i<=9999;$i++)
  10. {
  11.     print "p $i\n";
  12.     my $url = shift||("");
  13.     my $content = get($url);

  14.     #print $url;
  15.     
  16.     my @dt = $content =~ />([^>]*)</a></cite>/g;

  17.     foreach $item (@dt)
  18.     {
  19.         if($dict{$item}!=1)
  20.         {
  21.             $dict{$item}=1;
  22.             print FILE1 "$item\n";
  23.         }
  24.     }
  25. }

  26. close(FILE1);

阅读(178) | 评论(1) | 转发(0) |
0

上一篇:perl按顺序爬取图片资源

下一篇:没有了

给主人留下些什么吧!~~

datafactory2016-05-27 18:06:46

我觉得对于开发者来说,能脚本化编写爬虫是一件挺开心的事情( ̄▽ ̄)\"。所以我们团队开发了一个专门让开发者用简单的几行 javascript 就能在云上编写和运行复杂爬虫的系统,叫神箭手云爬虫开发平台: http://www.shenjianshou.cn 。欢迎同行们来试用拍砖,尽情给俺们提意见。有想法的可以加群讨论: 342953471