Heritrix 架构-softiger-ChinaUnix博客

softiger的IT&nbsp;BLOGsoftiger.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

softiger

博客访问： 2587401
博文数量： 709
博客积分： 12251
博客等级：上将
技术积分： 7905
用户组：普通用户
注册时间： 2005-07-17 00:00

个人简介

实现有价值的IT服务

文章分类

全部博文（709）

IT管理工具（9）
软件工程（0）
IT管理框架（29）
书籍（2）
话里有话（39）
Tivoli（0）
finance（1）
个人工具（21）

工作（20）
技术--java编程--（2）
运营--myweb（0）
文化--人物（1）
生活--搞笑“梨花（1）
运营--互联网要闻（8）
运营--电子商务研（0）
运营--静看电子商（15）
运营--静看互联网（25）

运营--团队管理（0）
运营--团队建设（6）
文化--人文沙龙（6）
管理--项目管理与（17）
文化--历史（7）
技术--模式（0）
技术--J2EE（98）

javascript dom（0）

css（5）

xml处理（1）

Java模式（2）

servlet学习（9）
文化--西方哲学（2）
文化--古诗词（3）
技术--建模（3）
技术--Windows 管（2）
文化--传统文化（30）
技术--JavaScript（8）

drw（3）
随笔（65）

名词解释（7）
运营--Web2.0（18）

运营--web2.0--pi（7）
技术--MySql（49）
技术--网络运用（3）
经常使用站点（2）
运营--网站建设与（11）
运营--社区（0）
运营--Seo技能（2）
技术--安全（5）
技术--Java编程（96）

技术--Java编程--（32）

技术--Java编程--（3）

技术--Java编程--（4）
技术--Web服务器（51）
技术--Ms Sql 相（14）
技术--Oracle相关（2）
技术--Shell编程（10）
技术--Linux系统（41）

网络命令（4）

系统命令（1）
未分配的博文（5）

文章存档

2012年（7）

2011年（147）

2009年（3）

2008年（5）

2007年（74）

2006年（431）

2005年（42）

我的朋友

相关博文

Heritrix 架构

分类： Java

2007-11-09 02:51:18

是IA的开放源代码，可扩展的，基于整个Web的，归档网络爬虫工程
   Heritrix工程始于2003年初，IA的目的是开发一个特殊的爬虫，对网上的
   资源进行归档，建立网络数字图书馆，在过去的6年里，IA已经建立了400TB的数据。
  IA期望他们的crawler包含以下几种：
   宽带爬虫：能够以更高的带宽去站点爬。
   主题爬虫：集中于被选择的问题。
   持续爬虫：不仅仅爬更当前的网页还负责爬日后更新的网页。
   实验爬虫：对爬虫技术进行实验，以决定该爬什么，以及对不同协议的爬虫      爬行结果进行分析的。
Heritrix的主页是
  Heritrix是一个爬虫框架，可加如入一些可互换的组件。
  它的执行是递归进行的，主要有以下几步：
   1。在预定的URI中选择一个。
   2。获取URI
   3。分析，归档结果
   4。选择已经发现的感兴趣的URI。加入预定队列。
   5。标记已经处理过的URI
   Heritrix主要有三大部件：范围部件，边界部件，处理器链
   范围部件：主要按照规则决定将哪个URI入队。
   边界部件：跟踪哪个预定的URI将被收集，和已经被收集的URI，选择下一个   URI，剔除已经处理过的URI。
   处理器链：包含若干处理器获取URI，分析结果，将它们传回给边界部件
  Heritrix的其余部件有：
   WEB管理控制台：大多数都是单机的WEB应用，内嵌JAVA HTTP 服务器。
                  操作者可以通过选择Crawler命令来操作控制台。
   Crawler命令处理部件：包含足够的信息创建要爬的URI。
   Servercache（处理器缓存）：存放服务器的持久信息，能够被爬行部件随时
                        查到，包括IP地址，历史记录，机器人策略。
   处理器链：
            预取链：主要是做一些准备工作，例如，对处理进行延迟和重新处                    理，否决随后的操作。
            提取链：主要是获得资源，进行DNS转换，填写请求和响应表单
            抽取链：当提取完成时，抽取感兴趣的HTML，JavaScript，通常那                    里有新的也适合的URI，此时URI仅仅被发现，不会被评估
            写链：存储爬行结果，返回内容和抽取特性，过滤完存储。
            提交链：做最后的维护，例如，测试那些不在范围内的，提交给边                   界部件
   Heritrix 1.0.0包含以下关键特性：
              1.用单个爬虫在多个独立的站点一直不断的进行递归的爬。
              2。从一个提供的种子进行爬，收集站点内的精确URI，和精确主
                  机。
              3。主要是用广度优先算法进行处理。
              4。主要部件都是高效的可扩展的
              5。良好的配置，包括：
                  a。可设置输出日志，归档文件和临时文件的位置
                  b。可设置下载的最大字节，最大数量的下载文档，和最大                      的下载时间。
                  c。可设置工作线程数量。
                  d。可设置所利用的带宽的上界。
                  e。可在设置之后一定时间重新选择。
                  f。包含一些可设置的过滤机制，表达方式，URI路径深度选                     择等等。
      Heritrix的局限：
               1。单实例的爬虫，之间不能进行合作。
               2。在有限的机器资源的情况下，却要复杂的操作。
               3。只有官方支持，仅仅在Linux上进行了测试。
               4。每个爬虫是单独进行工作的，没有对更新进行修订。                      5。在硬件和系统失败时，恢复能力很差。
               6。很少的时间用来优化性能。

阅读(2713) | 评论(1) | 转发(0) |

上一篇：JSP+MYSQL中文乱码问题解决方案-UTF8篇（转）

下一篇：网站整体设计、规划（转）

给主人留下些什么吧！~~

chinaunix网友2008-01-26 10:11:21

你这个图从哪儿来的？

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6