1、网络爬虫结构
网络爬虫把网络分为5个部分:
(1已下载网页集合:已经下载到本地的网页集合
(2已过期网页集合:随着时间的推移一些已下载网页可能已经更改或者不存在
(3待下载网页集合:存在带抓取URL队列中,即将被爬虫下载
(4可知网页集合:这些网页URL不存在待下载网页集合中,但是该网页连接存在于已下载或者待下载网页内容中
(5不可知网页集合:即爬虫无法获取的网页,而且这部分网页占较大比例
2、爬虫分类
(1批量型
有明确抓取范围和目标,达到目标停止抓取,目标可以使网页输也可以是时间量。
(2增量型
会保持不断的抓取2、爬虫分类
(1批量型
有明确抓取范围和目标,达到目标停止抓取,目标可以使网页输也可以是时间量。
(2增量型
会保持不断的抓取,并且对已抓取到网页定期更新
(3垂直型爬虫
抓取特定主题或特定行业内容额网页
3、爬虫的特性
(1高性能、良好的算法与数据结构使爬虫能够高效的获取大量URL
(2可扩展性、根据需求能对抓取任务和爬虫数量动态变换
(3健壮性、爬虫要有处理异常情况的能力
(4友好性、保护网站的部分私密性,减少被抓取网站的网络负载
阅读(1270) | 评论(0) | 转发(0) |