一个设计良好的爬虫架构必须满足的要求 -chinaboywg-ChinaUnix博客

Chinaunix首页 | 论坛 | 博客

chinaboy小宝chinaboy007.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

博客访问： 2926004
博文数量： 348
博客积分： 2907
博客等级：中校
技术积分： 2272
用户组：普通用户
注册时间： 2010-03-12 09:16

个人简介

专注 K8S研究

文章分类

全部博文（348）

elk（2）
docker（5）
error（0）
zabbix（21）
haproxy（2）
linux（11）
redis（2）
lvs（9）
squid（8）
nagios（4）
puppet（6）
html（1）
nginx（45）
apache（3）
mysql（65）
php（0）
python（114）

pycharm（1）

pip（1）

requests（1）

requests（0）

urllib（0）

logging（1）

flask（0）

lib（0）

pyqt4（14）

django（7）

beautifulsoup（11）

scrapy（3）

string（6）

pexpect（4）
shell（19）
linux（25）
other（4）
未分配的博文（2）

文章存档

2019年（22）

2018年（57）

2016年（2）

2015年（27）

2014年（33）

2013年（190）

2011年（3）

2010年（14）

我的朋友

最近访客

推荐博文

相关博文

一个设计良好的爬虫架构必须满足的要求

分类： Python/Ruby

2013-09-01 23:54:42

（1）分布式：爬虫应该能够在多台机器上分布执行；

（2）可伸缩性：爬虫结构应该能够通过增加额外的机器和带宽来提高抓取速度；

（3）性能和有效性：爬虫系统必须有效地使用各种系统资源，例如，处理器、存储空间和网络带宽。

（4）质量：鉴于互联网的发展速度，大部分网页都不可能及时出现在用户查询中，所以爬虫应该首先抓区有用的网页。

（5）新鲜性：在许多应用中，爬虫应该持续运行而不是只遍历一次。

（6）更新：因为网页会经常更新，例如论坛网站会经常有回帖。爬虫应该尽可能取得已经获取的页面的新的拷贝。例如一个搜索引擎爬虫要能保证全文索引中包含每个索引页面的较新的状态。对于搜索引擎爬虫这样的连续的抓取，爬虫访问一个页面的频率应该和这个网页的更新频率一致。

（7）可扩展性：为了能够支持新的数据格式和新的抓取协议，爬虫架构应该设计成模块化的形式。

阅读(4921) | 评论(0) | 转发(0) |

0

上一篇：python 爬虫抓取心得分享

下一篇：python版爬虫

给主人留下些什么吧！~~

关于我们 | 关于IT168 | 联系方式 | 广告合作 | 法律声明 | 免费注册

Copyright 2001-2010 ChinaUnix.net All Rights Reserved 北京皓辰网域网络信息技术有限公司. 版权所有

感谢所有关心和支持过ChinaUnix的朋友们