《搜索引擎--原理、技术与系统》--读书笔记(1)-garyneville-ChinaUnix博客

Learning in Linux

首页　| 　博文目录　| 　关于我

garyneville

博客访问： 189221
博文数量： 69
博客积分： 1430
博客等级：上尉
技术积分： 686
用户组：普通用户
注册时间： 2008-06-22 11:12

文章分类

全部博文（69）

文章存档

2011年（1）

2010年（11）

2009年（35）

2008年（22）

我的朋友

相关博文

《搜索引擎--原理、技术与系统》--读书笔记(1)

分类： LINUX

2009-05-03 18:19:06

现代大规模高质量搜索一般采用三段式的工作流程：即：网页搜集、预处理和查询服务。
在具体搜集过程中，如何抓取一篇篇的网页，也可以有不同的考虑。最常见的一种是所谓“爬取”：将Web上的网页集合看成是一个有向图，搜集过程从给定起始URL集合S（或者说“种子”）开始，沿着网页中的链接，按照先深、先宽、或者某种别的策略遍历，不停的从S中移除URL，下载相应的网页，解析出网页中的超链接URL，看是否已经被访问过，将未访问过的那些URL加入集合S。整个过程可以形象地想象为一个蜘蛛（spider）在蜘蛛网（Web）上爬行（crawl）。后面我们会看到，真正的系统其实是多个“蜘蛛”同时在爬。
人们参照科技文献重要性的评估方式，核心想法就是“被引用多的就是重要的”。“引用”这个概念恰好可以通过HTML超链在网页之间体现得非常好，作为Google创立核心技术的PageRank就是这种思路的成功体现。
看对服务子系统的要求和其工作原理，主要有三个方面。1.查询方式指的是系统允许用户提交查询的形式。2.结果排序，我们了解了得到和用户查询相关的文档集合的过程。这个集合的元素需要以一定的形式通过计算机显示屏呈现给用户。就目前的技术情况看，列表是最常见的形式（但人们也在探求新的形式，如Vivisimo 引擎将结果页面以类别的形式呈现）。3.文档摘要，搜索引擎给出的结果是一个有序的条目列表，每一个条目有三个基本的元素：标题，网址和摘要。其中的摘要需要从网页正文中生成。

阅读(831) | 评论(0) | 转发(0) |

上一篇：《我的名字叫Python》 --读书笔记(2)

下一篇：《搜索引擎--原理、技术与系统》--读书笔记(2)

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6