Chinaunix首页 | 论坛 | 博客
  • 博客访问: 2899295
  • 博文数量: 348
  • 博客积分: 2907
  • 博客等级: 中校
  • 技术积分: 2272
  • 用 户 组: 普通用户
  • 注册时间: 2010-03-12 09:16
个人简介

专注 K8S研究

文章分类

全部博文(348)

文章存档

2019年(22)

2018年(57)

2016年(2)

2015年(27)

2014年(33)

2013年(190)

2011年(3)

2010年(14)

分类: Python/Ruby

2013-09-01 23:54:42

(1)分布式:爬虫应该能够在多台机器上分布执行;
(2)可伸缩性:爬虫结构应该能够通过增加额外的机器和带宽来提高抓取速度;
(3)性能和有效性:爬虫系统必须有效地使用各种系统资源,例如,处理器、存储空间和网络带宽。
(4)质量:鉴于互联网的发展速度,大部分网页都不可能及时出现在用户查询中,所以爬虫应该首先抓区有用的网页。
(5)新鲜性:在许多应用中,爬虫应该持续运行而不是只遍历一次。
(6)更新:因为网页会经常更新,例如论坛网站会经常有回帖。爬虫应该尽可能取得已经获取的页面的新的拷贝。例如一个搜索引擎爬虫要能保证全文索引中包 含每个索引页面的较新的状态。对于搜索引擎爬虫这样的连续的抓取,爬虫访问一个页面的频率应该和这个网页的更新频率一致。
(7)可扩展性:为了能够支持新的数据格式和新的抓取协议,爬虫架构应该设计成模块化的形式。
阅读(4798) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~