Chinaunix首页 | 论坛 | 博客
  • 博客访问: 289929
  • 博文数量: 495
  • 博客积分: 24200
  • 博客等级: 上将
  • 技术积分: 5680
  • 用 户 组: 普通用户
  • 注册时间: 2008-12-28 20:57
文章分类

全部博文(495)

文章存档

2011年(118)

2010年(153)

2009年(221)

2008年(3)

我的朋友

分类:

2009-01-09 19:15:27

搜索引擎涉及信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然

语言处理等多领域的理论和技术、是一个交叉的研究领域,极具综合性和挑战性,下面就做一个介绍:
   目录式搜索引擎是以人工或半自动方式收集信息,由编辑人员查看信息后,人工形成信息摘要,并将

信息置于事先的分类框架中,分类目录一般不对文旦内容进行自动分析,也不建立文旦内容的索引,而

是由人工进行评价,分类后给出简要的描述。用户通过浏览分类目录来查看自己所需要的信息,再连接

到信息资源所在的位置。
全文搜索引擎并不能真正理解用户的查询内容,只能把匹配查询关键词与索引数据库中的内容进行匹配
全文搜索引擎的工作过程是:从网上“抓取”网页-建立索引数据库-在索引数据库中搜索排序-响应用户

查询
(1)从互联网上“抓取”网页
利用能够从网上自动收集网页的spider系统程序,自动访问因特网,并沿着网页中的所有url爬到其他网

页,重负这一过程,再把爬过的所有网页收集回来,
搜索引擎的spider一般要定期重新访问所有网页更新网页索引数据库,以反映出网页文字的更新情况,

增加新的网页信息,除去死去的链接,并根据网友文字和链接关系的变化重新排序,这样,网页的具体

文字变化情况就会反映到用户查询结果中。如果在查询结果中的链接无法显示,有可能是由于spider程

序还没有来得及访问该网站更新的信息,而导致信息资源的访问出错


     

阅读(241) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~