Google的开始－－剖析大规模超文本网络搜索引擎　（三）-lc0060305-ChinaUnix博客

李庚睿（lgr）的博客 -- 蔚蓝天空garry.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

lc0060305

博客访问： 3585207
博文数量： 1450
博客积分： 11163
博客等级：上将
技术积分： 11101
用户组：普通用户
注册时间： 2005-07-25 14:40

文章分类

全部博文（1450）

音视频直播（2）
linux各种服务器（3）
ARM学习（8）

ARM汇编指令（7）
手机开发（230）

android（2）

iphone（4）

symbian（224）
nginx 分析（6）
vi常用方法（13）
linux 常用命令（65）

linux shell 脚本（38）
window批处理资料（15）
黑客技术（20）

linux 系统安全（12）
搜索引擎与网络爬（32）
数据库技术（143）
网络技术（25）

网络测试方法（2）
操作系统研究（192）

android源码分析（1）

linux驱动（20）
程序设计（513）

调试技术（3）

测试方法（7）

性能调优（2）

debian（1）

JNI（5）

configure.ac（1）

Makefile.am（3）

设计模式（19）

算法与数据结构（4）

java程序开发（103）

web程序开发（41）
随笔（129）

地图集（14）

英语（4）

笑话（56）

我喜爱的诗（6）

我的小诗（4）
未分配的博文（54）

文章存档

2017年（5）

2014年（2）

2013年（3）

2012年（35）

2011年（39）

2010年（88）

2009年（395）

2008年（382）

2007年（241）

2006年（246）

2005年（14）

我的朋友

3.1信息检索

信息检索系统的研究,已经有很多年了,并且成果显著[] 。然而,大多数信息检索系统的研究针对的是受控制的同质集合，例如,主题相关的科学论文或新闻故事。的确,信息检索的主要的基准,文本检索会议[] ,用了一个相当小的，并且受控制的集合作为其基准。“非常大的语料库“; 基准只有20gb 大小，相较于我们搜索过的 2千4百万网页，有147gb 的数据量。在TREC 上工作很好的搜索引擎，拿到Web上来往往效果不佳。举例来说,标准向量空间模型试图返回和搜索条件最为近似的文件,假定搜索和文件都是各自文字定义的向量。对Web 而言,这种策略只会返回非常简短的文件，包含查询本身和几句话。举例来说,我们已经看到了一个主要的搜索引擎返回的一个页面仅仅含有“比尔.克林顿真糟 “;和从“比尔.克林顿“搜索来的图片。有人争论到 ,在Web上用户应该更具体,更准确地指出他们要什么,并且在搜索查询中增添更多词。我们坚决反对这种立场。如果用户发出对“比尔克林顿“的搜索查询 ,他们应得到合理的结果,因为就这个话题存在着大量的高品质的资料。鉴于这一类的例子,我们认为标准的信息检索工作需要扩大范围，从而有效处理 Web。

3.2 Web和受控集合的不同

互联网 Web是一个广阔的充满完全不受控制的异构文件的集合。Web 上的文件,不但内部格式极其不同,而且外部元信息也未必可用。例如,文件内部的不同,有各自的语言(包括自然语言和编程语言),各自的词汇(电子邮件地址,链接,邮编,电话号码,产品号码)，文件格式的不同(文本格式, html格式, pdf格式,图像格式,声音格式),并且甚至可能是机器产生的(日志文件或者数据库的输出文件) 。在另一方面,我们定义文件的外部元信息，从这些信息就可以推断出一个文件的大概,但是元信息并不包含在文件中。文件外部元信息的例子,包括这样一些信息：来源的声誉,更新频率,质量,受欢迎程度和用法 , 和引用。不仅是外部元信息的可能来源千差万别,而且衡量的方式也存在很多不同数量级的差异。举例来说,比较从一个大型网站的主页得到的使用信息,如，雅虎，目前每天获得几百万的页面浏览量，而一个晦涩的历史文章,可能每10年才能被浏览一次。显而易见,必须严重区别对待这两个条目。

另一个Web 和受控集合的较大差异是,几乎没有限制控制人们在网上可以放什么。把这种灵活性的内容发布和产生巨大影响的结合起来，去吸引访问浏览量。并且很多公司通过故意操纵搜索引擎来赢利，日益成为一个严重问题。这个问题在传统的封闭的信息检索系统中一直没有发现。另外,有趣的是我们注意到web搜索引擎使得想通过元数据操纵搜索引擎的努力基本上失败了,因为网页上的任何文字如果不是用来呈现给用户的，就是被滥用来操纵搜索引擎。甚至有许多公司专门操纵搜索引擎以达到赢利的目的。

阅读(730) | 评论(0) | 转发(0) |

上一篇：Google的开始－－剖析大规模超文本网络搜索引擎　（三）

下一篇：Google的开始－－剖析大规模超文本网络搜索引擎　（四）

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6