搜索引擎天网-micklongen-ChinaUnix博客

micklongenmicklongen.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

micklongen

博客访问： 1339060
博文数量： 179
博客积分： 4141
博客等级：中将
技术积分： 2083
用户组：普通用户
注册时间： 2009-03-21 20:04

文章分类

全部博文（179）

智能运维（2）
系统架构（0）
人工智能（0）
测试（12）

白盒测试工具（Ja（6）

白盒测试工具（C+（6）
数据结构和算法（32）

模拟题（7）

其他（1）

博弈（4）

搜索（4）

数论（2）

图论（8）

动态规划（5）
操作系统和虚拟机（45）

Smart-VM虚拟机(（13）

Lguest源码分析（22）

FOS操作系统(本科（5）

Minix（1）

文档（4）
编译器和解释器（35）

MongoDB SQL（1）

Jack编译器（5）

nasm移植（5）

一个简单的BASIC（1）

nasm汇编器源码剖（23）
调试和调试器（14）

Dosdbg调试器分析（1）

调试器工作原理（13）
计算机网络（16）

Windows网络编程（8）

TCP/IP 协议详解（8）
搜索引擎（3）

TSE（3）
编程杂记（16）

计算机安全（2）

镜像工具开发（2）

ELF（3）

编程感悟（1）

malloc v2（3）

malloc v1（2）

函数分析（3）
其他（4）

中文编码（4）
未分配的博文（0）

文章存档

2024年（1）

2019年（13）

2016年（1）

2014年（16）

2011年（8）

2010年（25）

2009年（115）

我的朋友

可扩展搜集子系统

多机并行操作，每台机子搜集特定的URL的网页。

网页净化和消重

网页净化：先分类网页，然后再提取内容；

消重：通过关键字，区分网页是否转载；

高性能检索子系统

检索系统集成框架

Boolean OP：布尔运算

Meta：Meta是元数据查询的执行模块，可以包括时间、文档格式、站点名称、分类类别等各种网页元数据，针对网页数据的信息提取技术可以融合到这一模块中。

Semantic Constrains：模块是语义的约束检查模块

天网检索系统的具体实现同样基于信息检索技术：

l 首先是排序算法和检索模型的选择；

l 其次是索引的实现技术；

检索分布式系统架构

索引的创建，需要注意到：

l 编码问题

检索技术：

l 索引压缩：倒排索引压缩可以减小倒排项数据长度。在检索过程中可减少内存和 I/O 带宽的使用，但同时要对压缩数据解码，增加了 CPU 时间耗用。实际系统中，I/O是系统的瓶颈，而且CPU和I/O之间性能差距还在不断扩大，所以索引压缩技术作为一种有效提高检索效率的技术被普遍采用；

l 倒排索引的索引项建立二级索引，使得可以随机访问倒排项数据块。在一般情况下，这一技术可以减少倒排项数据的访问量，但同时可能增加 I/O 访问的次数。

l 对重要索引词单独索引：这样可以产生一个小的倒排索引文件，控制其大小能保存在内存中，如果有相当的查询在这个小索引文件中获得足够的返回结果，则查询结束；当检索得到的结果不足时，才去访问磁盘上的整个倒排文件。

倒排文件简介

倒排文件是大型信息检索中使用最广泛的文件索引方法。所谓“倒排”表示依据检索属性来列举相关文件，是计算机科学中基本的信息查询方法之一。

倒排文件分两部分：第一部分是由不同词项组成的索引，称为词表(vocabulary)，第二部分由每个词项出现过的文档集合构成，称为记录文件(posting file)，每个词项的对应部分称为倒排表，亦称记录表(posting lists)，可以通过词表访问。

I/O性能

多个磁盘同时传输，提高SCSI的利用率；

混合索引

混合索引的实现主要包括：

l 未登录词识别；

n 第一个规则的基本出发点是：常被用户查询的词或短语应该在文档集合中比较重要，而重要的词往往会在网页中的一些特殊位置和标签中间出现；

n 第二个规则，网页和普通文本不同，网页中通常会有大量已经被自然分隔的较短的字串，分隔包括标点，网页标签，例如导航链接上的文字，选择框中的文字，表格等等。这些较短的字串极可能就是一个词，被选取执行n元提取；

n 第三个规则是从网页原文摘要文字中提取n元组：天网搜索引擎使用了文档模型技术对搜集系统得到的网页进行预处理，提取了网页正文的摘要。摘要文本是正文中最重要的内容，而且长度相对于正文全文小很多。

l 扩展词典组织和分词两个部分；

倒排文件缓存体系结构

用户行为特征及缓存策略

用户行为特征：20/80原则

缓存策略：

l 先进先出策略：差

l 最近使用策略：一般

l 最近频繁使用策略：好