Chinaunix首页 | 论坛 | 博客
  • 博客访问: 180017
  • 博文数量: 69
  • 博客积分: 1430
  • 博客等级: 上尉
  • 技术积分: 686
  • 用 户 组: 普通用户
  • 注册时间: 2008-06-22 11:12
文章存档

2011年(1)

2010年(11)

2009年(35)

2008年(22)

我的朋友

分类: LINUX

2009-05-03 21:26:00

  1. 网页“爬取器”(gatherer),指网页搜集子系统中根据URL完成一篇网页抓取的进程或者线程,通常一个spider会同时启动多个gatherer并行工作。Spider设计是否合理将直接影响它访问Web的效率,影响搜集数据的质量,另外,在设计spider时还必须考虑它对网络和被访问站点的影响,因为spider一般都运行在速度快、带宽高的主机上,如果它快速访问一个速度比较慢的目标站点,就有可能会导致该站点出现拥塞甚至宕机。Spider还应遵守一些协议(例如:robot限制协议[Wong,1997]),尊重被访问站点管理员确定的内容保护策略。
  2. 一个好的搜集策略是优先搜集重要的网页,以便能够在最短的时间内把最重要的网页抓取过来。
  3. 根据搜集经验,体现网页重要度的特征有:
    1) 网页的入度大,表明被其他网页引用的次数多;
    2) 某网页的父网页入度大;
    3) 网页的镜像度高,说明网页内容比较热门,从而显得重要;
    4) 网页的目录深度小,易于用户浏览到。
  4. 网页的权重可以形式化表示为:
    weight(p)= f(indegree(p),indegree(father_p),mirror(p),directorydepth(p))
    其中weight(p)表示网页p的权重,indegree(p)表示网页p的入度函数, indegree(father p)表示网页p的父网页的入度函数,mirror(p)表示网页p的镜像度函数,directorydepth(p)表示网页p的目录深度函数。如果能够综合利用或部分利用上述特征,可以认为是重要的。但是如何确定每一个特征量的影响因子却很困难。
  5. 中文自动分词是网页分析的前提。文档由被称作特征项的索引词(词或者字)组成,网页分析是将一个文档表示为特征项的过程。在提取特征项时,中文又面临了与英文处理不同的问题。中文信息和英文信息有一个明显的差别:英语单词之间用空格分隔;而在中文文本中,词与词之间没有天然的分隔符,中文词汇大多是由两个或两个以上的汉字组成的,并且语句是连续书写的。这就要求在对中文文本进行自动分析前,先将整句切割成小的词汇单元,即中文分词(或中文切词)。
阅读(640) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~