分类: 系统运维
2010-10-18 14:42:51
多机并行操作,每台机子搜集特定的URL的网页。
网页净化:先分类网页,然后再提取内容;
消重:通过关键字,区分网页是否转载;
Boolean OP:布尔运算
Meta:Meta是元数据查询的执行模块,可以包括时间、文档格式、站点名称、分类类别等各种网页元数据,针对网页数据的信息提取技术可以融合到这一模块中。
Semantic Constrains:模块是语义的约束检查模块
天网检索系统的具体实现同样基于信息检索技术:
l 首先是排序算法和检索模型的选择;
l 其次是索引的实现技术;
索引的创建,需要注意到:
l 编码问题
检索技术:
l 索引压缩:倒排索引压缩可以减小倒排项数据长度。在检索过程中可减少内存和 I/O 带宽的使用,但同时要对压缩数据解码,增加了 CPU 时间耗用。实际系统中,I/O是系统的瓶颈,而且CPU和I/O之间性能差距还在不断扩大,所以索引压缩技术作为一种有效提高检索效率的技术被普遍采用;
l 倒排索引的索引项建立二级索引,使得可以随机访问倒排项数据块。在一般情况下,这一技术可以减少倒排项数据的访问量,但同时可能增加 I/O 访问的次数。
l 对重要索引词单独索引:这样可以产生一个小的倒排索引文件,控制其大小能保存在内存中,如果有相当的查询在这个小索引文件中获得足够的返回结果,则查询结束;当检索得到的结果不足时,才去访问磁盘上的整个倒排文件。
倒排文件是大型信息检索中使用最广泛的文件索引方法。所谓“倒排”表示依据检索属性来列举相关文件,是计算机科学中基本的信息查询方法之一。
倒排文件分两部分:第一部分是由不同词项组成的索引,称为词表(vocabulary),第二部分由每个词项出现过的文档集合构成,称为记录文件(posting file),每个词项的对应部分称为倒排表,亦称记录表(posting lists),可以通过词表访问。
多个磁盘同时传输,提高SCSI的利用率;
混合索引的实现主要包括:
l 未登录词识别;
n 第一个规则的基本出发点是:常被用户查询的词或短语应该在文档集合中比较重要,而重要的词往往会在网页中的一些特殊位置和标签中间出现;
n 第二个规则,网页和普通文本不同,网页中通常会有大量已经被自然分隔的较短的字串,分隔包括标点,网页标签,例如导航链接上的文字,选择框中的文字,表格等等。这些较短的字串极可能就是一个词,被选取执行n元提取;
n 第三个规则是从网页原文摘要文字中提取n元组:天网搜索引擎使用了文档模型技术对搜集系统得到的网页进行预处理,提取了网页正文的摘要。摘要文本是正文中最重要的内容,而且长度相对于正文全文小很多。
l 扩展词典组织和分词两个部分;
用户行为特征:20/80原则
缓存策略:
l 先进先出策略:差
l 最近使用策略:一般
l 最近频繁使用策略:好
传统IR的相关排序技术:
l 词频(有些词区分文档的能力不会很强,需要注意);
链接分析和相关排序:
l 利用网页的标签,字体大的,是作者强调的;
l 网页的入度;
根据用户的行为排序
学习新词