《搜索引擎--原理、技术与系统》--读书笔记(2)-garyneville-ChinaUnix博客

Learning in Linux

首页　| 　博文目录　| 　关于我

garyneville

博客访问： 187869
博文数量： 69
博客积分： 1430
博客等级：上尉
技术积分： 686
用户组：普通用户
注册时间： 2008-06-22 11:12

文章分类

全部博文（69）

文章存档

2011年（1）

2010年（11）

2009年（35）

2008年（22）

我的朋友

相关博文

《搜索引擎--原理、技术与系统》--读书笔记(2)

分类： LINUX

2009-05-03 21:26:00

网页“爬取器”（gatherer），指网页搜集子系统中根据URL完成一篇网页抓取的进程或者线程，通常一个spider会同时启动多个gatherer并行工作。Spider设计是否合理将直接影响它访问Web的效率，影响搜集数据的质量，另外，在设计spider时还必须考虑它对网络和被访问站点的影响，因为spider一般都运行在速度快、带宽高的主机上，如果它快速访问一个速度比较慢的目标站点，就有可能会导致该站点出现拥塞甚至宕机。Spider还应遵守一些协议（例如：robot限制协议[Wong,1997]），尊重被访问站点管理员确定的内容保护策略。
一个好的搜集策略是优先搜集重要的网页，以便能够在最短的时间内把最重要的网页抓取过来。
根据搜集经验，体现网页重要度的特征有：
1) 网页的入度大，表明被其他网页引用的次数多；
2) 某网页的父网页入度大；
3) 网页的镜像度高，说明网页内容比较热门，从而显得重要；
4) 网页的目录深度小，易于用户浏览到。
网页的权重可以形式化表示为：
weight(p)= f(indegree(p),indegree(father_p),mirror(p),directorydepth(p))
其中weight(p)表示网页p的权重，indegree(p)表示网页p的入度函数， indegree(father p)表示网页p的父网页的入度函数，mirror(p)表示网页p的镜像度函数，directorydepth(p)表示网页p的目录深度函数。如果能够综合利用或部分利用上述特征，可以认为是重要的。但是如何确定每一个特征量的影响因子却很困难。
中文自动分词是网页分析的前提。文档由被称作特征项的索引词（词或者字）组成，网页分析是将一个文档表示为特征项的过程。在提取特征项时，中文又面临了与英文处理不同的问题。中文信息和英文信息有一个明显的差别：英语单词之间用空格分隔；而在中文文本中，词与词之间没有天然的分隔符，中文词汇大多是由两个或两个以上的汉字组成的，并且语句是连续书写的。这就要求在对中文文本进行自动分析前，先将整句切割成小的词汇单元，即中文分词（或中文切词）。

阅读(681) | 评论(0) | 转发(0) |

上一篇：《搜索引擎--原理、技术与系统》--读书笔记(1)

下一篇：《搜索引擎--原理、技术与系统》--读书笔记(3)

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6