搜索引擎概述-micklongen-ChinaUnix博客

micklongenmicklongen.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

micklongen

博客访问： 1338971
博文数量： 179
博客积分： 4141
博客等级：中将
技术积分： 2083
用户组：普通用户
注册时间： 2009-03-21 20:04

文章分类

全部博文（179）

智能运维（2）
系统架构（0）
人工智能（0）
测试（12）

白盒测试工具（Ja（6）

白盒测试工具（C+（6）
数据结构和算法（32）

模拟题（7）

其他（1）

博弈（4）

搜索（4）

数论（2）

图论（8）

动态规划（5）
操作系统和虚拟机（45）

Smart-VM虚拟机(（13）

Lguest源码分析（22）

FOS操作系统(本科（5）

Minix（1）

文档（4）
编译器和解释器（35）

MongoDB SQL（1）

Jack编译器（5）

nasm移植（5）

一个简单的BASIC（1）

nasm汇编器源码剖（23）
调试和调试器（14）

Dosdbg调试器分析（1）

调试器工作原理（13）
计算机网络（16）

Windows网络编程（8）

TCP/IP 协议详解（8）
搜索引擎（3）

TSE（3）
编程杂记（16）

计算机安全（2）

镜像工具开发（2）

ELF（3）

编程感悟（1）

malloc v2（3）

malloc v1（2）

函数分析（3）
其他（4）

中文编码（4）
未分配的博文（0）

文章存档

2024年（1）

2019年（13）

2016年（1）

2014年（16）

2011年（8）

2010年（25）

2009年（115）

我的朋友

搜索引擎三段式结构

网页搜集

1. 定期收集

2. 增量搜集

a) 搜集新出现的网页

b) 搜集自上次搜集完之后有改变的网页

c) 删除已不存在的网页

具体搜集过程可以采用深度搜索或者广度搜索。

搜索方式:

1. 主动搜索：通过url搜索

2. 被动搜索：网站主动向搜索引擎提交网页

预处理

1. 关键字的提取

l 通过去掉“的”，“在”等无用词，获取有用词

2. 重复和转载网页的消除

3. 链接的分析

4. 网页重要程度的计算

l 核心思想：被引用多的就是重要的

信息查询服务

1．查询方式和匹配

2．结果排序

a) 基于词汇出现的频度

b) 网页重要程度的计算

3．文档摘要的形成

a) 静态方式：事先形成

b) 动态方式：提起出关键字周围的文字

搜索引擎的体系结构

网页搜集的效率：

l 采用并发方式，充分利用好网络带宽（因为搜索引擎的处理和服务器的响应需要时间，这部分时间可以充分利用起来）

l 当使用并发的时候，网络带宽有可能成为瓶颈

l 服务方的响应，也是影响搜集效率的因素

网页搜集的“礼貌”：

l 限制单位时间抓取网页

网页质量

l 较靠近主页的网页，较为重要

其他问题：

l 注意URL的循环链接，可以利用visited_table和unvisited_table两张表解决

阅读(1652) | 评论(0) | 转发(0) |

上一篇：TCP/IP 协议详解插口层

下一篇：搜索引擎 TSE

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6