搜索引擎的工作过程-hlc333-ChinaUnix博客

文章分类

文章存档

2011年（118）

2010年（153）

2009年（221）

我的朋友

最近访客

推荐博文

搜索引擎的工作过程

分类：

2009-01-09 19:15:27

搜索引擎涉及信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然

语言处理等多领域的理论和技术、是一个交叉的研究领域，极具综合性和挑战性，下面就做一个介绍：
目录式搜索引擎是以人工或半自动方式收集信息，由编辑人员查看信息后，人工形成信息摘要，并将

信息置于事先的分类框架中，分类目录一般不对文旦内容进行自动分析，也不建立文旦内容的索引，而

是由人工进行评价，分类后给出简要的描述。用户通过浏览分类目录来查看自己所需要的信息，再连接

到信息资源所在的位置。
全文搜索引擎并不能真正理解用户的查询内容，只能把匹配查询关键词与索引数据库中的内容进行匹配
全文搜索引擎的工作过程是：从网上“抓取”网页-建立索引数据库-在索引数据库中搜索排序-响应用户

查询
（1）从互联网上“抓取”网页
利用能够从网上自动收集网页的spider系统程序，自动访问因特网，并沿着网页中的所有url爬到其他网

页，重负这一过程，再把爬过的所有网页收集回来，
搜索引擎的spider一般要定期重新访问所有网页更新网页索引数据库，以反映出网页文字的更新情况，

增加新的网页信息，除去死去的链接，并根据网友文字和链接关系的变化重新排序，这样，网页的具体

文字变化情况就会反映到用户查询结果中。如果在查询结果中的链接无法显示，有可能是由于spider程

序还没有来得及访问该网站更新的信息，而导致信息资源的访问出错

阅读(277) | 评论(0) | 转发(0) |

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们