Chinaunix首页 | 论坛 | 博客
  • 博客访问: 291814
  • 博文数量: 82
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 874
  • 用 户 组: 普通用户
  • 注册时间: 2015-03-21 09:58
个人简介

traveling in cumputer science!!

文章分类

全部博文(82)

文章存档

2016年(13)

2015年(69)

我的朋友

分类: 架构设计与优化

2015-04-26 17:28:56

1、网络爬虫结构
           网络爬虫把网络分为5个部分:
            (1已下载网页集合:已经下载到本地的网页集合
            (2已过期网页集合:随着时间的推移一些已下载网页可能已经更改或者不存在
            (3待下载网页集合:存在带抓取URL队列中,即将被爬虫下载
            (4可知网页集合:这些网页URL不存在待下载网页集合中,但是该网页连接存在于已下载或者待下载网页内容中
            (5不可知网页集合:即爬虫无法获取的网页,而且这部分网页占较大比例
2、爬虫分类
    (1批量型
               有明确抓取范围和目标,达到目标停止抓取,目标可以使网页输也可以是时间量。
    (2增量型
               会保持不断的抓取2、爬虫分类
    (1批量型
               有明确抓取范围和目标,达到目标停止抓取,目标可以使网页输也可以是时间量。
    (2增量型
               会保持不断的抓取,并且对已抓取到网页定期更新

    (3垂直型爬虫

                抓取特定主题或特定行业内容额网页

3、爬虫的特性

    (1高性能、良好的算法与数据结构使爬虫能够高效的获取大量URL

    (2可扩展性、根据需求能对抓取任务和爬虫数量动态变换

    (3健壮性、爬虫要有处理异常情况的能力

    (4友好性、保护网站的部分私密性,减少被抓取网站的网络负载


阅读(1264) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~