分类:
2009-01-09 19:15:27
搜索引擎涉及信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然
语言处理等多领域的理论和技术、是一个交叉的研究领域,极具综合性和挑战性,下面就做一个介绍:
目录式搜索引擎是以人工或半自动方式收集信息,由编辑人员查看信息后,人工形成信息摘要,并将
信息置于事先的分类框架中,分类目录一般不对文旦内容进行自动分析,也不建立文旦内容的索引,而
是由人工进行评价,分类后给出简要的描述。用户通过浏览分类目录来查看自己所需要的信息,再连接
到信息资源所在的位置。
全文搜索引擎并不能真正理解用户的查询内容,只能把匹配查询关键词与索引数据库中的内容进行匹配
全文搜索引擎的工作过程是:从网上“抓取”网页-建立索引数据库-在索引数据库中搜索排序-响应用户
查询
(1)从互联网上“抓取”网页
利用能够从网上自动收集网页的spider系统程序,自动访问因特网,并沿着网页中的所有url爬到其他网
页,重负这一过程,再把爬过的所有网页收集回来,
搜索引擎的spider一般要定期重新访问所有网页更新网页索引数据库,以反映出网页文字的更新情况,
增加新的网页信息,除去死去的链接,并根据网友文字和链接关系的变化重新排序,这样,网页的具体
文字变化情况就会反映到用户查询结果中。如果在查询结果中的链接无法显示,有可能是由于spider程
序还没有来得及访问该网站更新的信息,而导致信息资源的访问出错