基于web的搜索研究有一段简短的的历史。万维网蠕虫( wwww )是第一个网上搜索引擎。但随后,产生了几个学院派的搜索引擎,其中有不少现在已经是公开的上市公司了。相比Web的增长和搜索引擎的重要性,现在几乎没有关于当前搜索引擎有价值的研究材料 [].。据迈克尔.茂丁( lycos公司首席科学家) "各种服务(包括lycos )紧密的守卫着这些数据库" 。
不过,在的 具体的特点上已进行了相当的工作。对现有商业搜索引擎产生的搜索结果的后处理已经取得了卓有成效的成果,或是产生小规模的“个性化的“搜索引擎。最终,有 过不少针对信息检索系统的研究,尤其是对受控制的结果集的研究。在随后两节中,我们将讨论一些必须扩大研究的领域,以便更好地在Web上工作。
互联网 Web是一个广阔的充满完全不受控制的异构文件的集合。Web 上的文件,不但内部格式极其不同,而且外部元信息也未必可用。例如,文件内部的不同,有各自的语言(包括自然语言和编程语言),各自的词汇(电子邮件地 址,链接,邮编,电话号码,产品号码),文件格式的不同(文本格式, html格式, pdf格式,图像格式,声音格式),并且甚至可能是机器产生的(日志文件或者数据库的输出文件) 。在另一方面,我们定义文件的外部元信息,从这些信息就可以推断出一个文件的大概,但是元信息并不包含在文件中。文件外部元信息的例子,包括这样一些信 息: 来源的声誉,更新频率,质量,受欢迎程度 和 用法 , 和引用。不仅是外部元信息的可能来源千差万别,而且衡量的方式也存在很多不同数量级的差异。举例来说,比较从一个大型网站的主页得到的使用信息,如,雅 虎,目前每天获得几百万的页面浏览量, 而一个晦涩的历史文章,可能每10年才能被浏览一次。显而易见,必须严重区别对待这两个条目。
另一个Web 和受控集合的较大差异是,几乎没有限制控制人们在网上可以放什么。把这种灵活性的内容发布和产生巨大影响的结 合起来 ,去吸引访问浏览量。 并且很多公司通过故意操纵搜索引擎来赢利,日益成为一个严重问题。这个问题在传统的封闭的信息检索系统中一直没有发现 。另外,有趣的是我们注意到web搜索引擎使得想通过元数据操纵搜索引擎的努力基本上失败了,因为网页上的任何文字如果不是用来呈现给用户的, 就是被滥用来操纵搜索引擎。甚至有许多公司专门操纵搜索引擎以达到赢利的目的。
不过,在的 具体的特点上已进行了相当的工作。对现有商业搜索引擎产生的搜索结果的后处理已经取得了卓有成效的成果,或是产生小规模的“个性化的“搜索引擎。最终,有 过不少针对信息检索系统的研究,尤其是对受控制的结果集的研究。在随后两节中,我们将讨论一些必须扩大研究的领域,以便更好地在Web上工作。
3.1信息检索
信息检索系统的研究,已经有很多年了,并且成果显著[] 。 然而,大多数信息检索系统 的 研究 针对的是 受控制的同质集合 ,例如,主题相关的科学论文或新闻故事。的确,信息检索的主要的基准,文本检索会议[] ,用了一个相当小的,并且受控制的集合 作为其基准。“非常大的语料库“; 基准只有20gb 大小, 相较于我们搜索过的 2千4百万网页,有147gb 的数据量 。在TREC 上工作很好的搜索引擎,拿到Web上来往往效果不佳。举例来说,标准向量空间模型试图返回和搜索条件最为近似的文件,假定搜索和文件都是各自文字定义的向 量。对Web 而言,这种策略只会返回非常简短的文件,包含查询本身和几句话。举例来说,我们已经看到了一个主要的搜索引擎返回的一个页面仅仅含有“比尔.克林顿真糟 “;和从“比尔.克林顿“搜索来的图片。 有人争论到 ,在Web上用户应该更具体,更准确地指出他们要什么,并且在搜索查询中增添更多词。我们坚决反对这种立场。如果用户发出对“比尔克林顿“的搜索查询 ,他们应得到合理的结果,因为就这个话题存在着大量的高品质的资料。鉴于这一类的例子,我们认为标准的信息检索工作需要扩大范围,从而有效处理 Web。3.2 Web和受控集合的不同
互联网 Web是一个广阔的充满完全不受控制的异构文件的集合。Web 上的文件,不但内部格式极其不同,而且外部元信息也未必可用。例如,文件内部的不同,有各自的语言(包括自然语言和编程语言),各自的词汇(电子邮件地 址,链接,邮编,电话号码,产品号码),文件格式的不同(文本格式, html格式, pdf格式,图像格式,声音格式),并且甚至可能是机器产生的(日志文件或者数据库的输出文件) 。在另一方面,我们定义文件的外部元信息,从这些信息就可以推断出一个文件的大概,但是元信息并不包含在文件中。文件外部元信息的例子,包括这样一些信 息: 来源的声誉,更新频率,质量,受欢迎程度 和 用法 , 和引用。不仅是外部元信息的可能来源千差万别,而且衡量的方式也存在很多不同数量级的差异。举例来说,比较从一个大型网站的主页得到的使用信息,如,雅 虎,目前每天获得几百万的页面浏览量, 而一个晦涩的历史文章,可能每10年才能被浏览一次。显而易见,必须严重区别对待这两个条目。
另一个Web 和受控集合的较大差异是,几乎没有限制控制人们在网上可以放什么。把这种灵活性的内容发布和产生巨大影响的结 合起来 ,去吸引访问浏览量。 并且很多公司通过故意操纵搜索引擎来赢利,日益成为一个严重问题。这个问题在传统的封闭的信息检索系统中一直没有发现 。另外,有趣的是我们注意到web搜索引擎使得想通过元数据操纵搜索引擎的努力基本上失败了,因为网页上的任何文字如果不是用来呈现给用户的, 就是被滥用来操纵搜索引擎。甚至有许多公司专门操纵搜索引擎以达到赢利的目的。