Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1698272
  • 博文数量: 210
  • 博客积分: 10013
  • 博客等级: 上将
  • 技术积分: 2322
  • 用 户 组: 普通用户
  • 注册时间: 2008-09-25 15:56
文章分类

全部博文(210)

文章存档

2011年(34)

2010年(121)

2009年(37)

2008年(18)

我的朋友

分类: 系统运维

2009-09-17 15:40:26

   搜索引擎近几年特别火,但是在使用的过程中,依然还是能感觉到很多问题。最宽泛的问题是搜索引擎覆盖范围相对减少,网络数据量以指数量级在增加,但是搜索引擎的索引能力正在越来越落后于网络的快速增长速度。

   搜索差异问题:由于各个搜索引擎爬取的策略不同,以及索引,去重,排序算法的不通,同一关键字使用不同的搜索引擎得出的结果差别很大。有时采用这种搜索引擎得到的结果较为满意,而有时使用另一种搜索引擎则更好一些。因此可以考虑综合多个搜索引擎的查询结果,以达到更为令人满意的查询效果。

    个性化问题:搜索引擎Web信息检索系统通常作为一种大型的服务器程序运行,同时响应多个用户的请求。这些系统不能够根据用户的兴趣需求来定制检索结果。事实上,不同领域背景、知识结构的用户对检索结果的要求是不一样的。故应该建立一种适合用户需求的,随用户的兴趣变化而动态调整的智能检索系统。

    主动查询问题:搜索引擎的检索工作是用户驱动的,即由用户显式地提出检索请求,系统给出响应。这是一种较为被动的信息获取方法。是否存在一种主动协助用户获取信息的机制,将网络中用户需要的信息主动通知给用户。这个要求比较高,要求搜索引擎越来越智能。

动态监测问题:由于网络中的信息是动态变化的,用户经常需要了解一些信息的最新动态。而在现有搜索引擎技术条件下,只有通过再次查询才能获取最新信息,对用户来说是极为不便的。若能将变化的信息主动通知给用户,将节约用户很多时间与精力。这个要求相对来说是比较容易实现的,利用搜索引擎超级服务程序,指定主题,提供一个服务平台实时分类显示信息。

通用搜索引擎在使用中也面临着许多问题

    1、大规模的分布式数据源,检索起来困难重重。单个搜索引擎的索引数据库的覆盖率

一般都低于30%.很难索引所有web资源

    2、网络信息的质量问题。及时性很难保持,返回大量无用信息。

    3、大量的动态页面无法检索。

    4、异构数据源问题。

    5、忠实表达的问题。经典的信息检索界认为用户很难简单地用关键字来忠实表达他所真正需要检索的内容,表达的困难将导致检索结果的不理想,而且如何将结果表达成用户容易理解和使用的方式也是一个难题。

6、搜索引擎的硬件要求越来越高。

 

用户的需求是越来越苛刻的,由于用户的表达往往不能准确的描述自己的需求,这要求搜索引擎要更加智能,要从有限的信息从用户的点击操作中分析用户真正的需求,用户的行业需求等等。从另一方面来说,也正是这些需求在推动着搜索引擎的发展。

阅读(2009) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~