搜索引擎原理简介-wqhl.mark-ChinaUnix博客

HeavBird

首页　| 　博文目录　| 　关于我

wqhl.mark

博客访问： 511186
博文数量： 153
博客积分： 3010
博客等级：中校
技术积分： 1724
用户组：普通用户
注册时间： 2008-12-08 11:55

文章分类

全部博文（153）

人文-社会-历史（10）

历史（1）
项目管理（6）
Design Patterns（4）
书籍推荐/收藏（1）
Video（6）
English_Improvem（7）
技术杂谈（0）
Mobile_Linux（107）

AIDL（1）

Security & Permi（3）

传智播客转摘（12）

Web Service & Wi（1）

Dalvik（4）

MultiMedia（3）

Android Audio（2）

ALSA（1）

Multimedia（1）

Android LowLevel（1）

Reference_Docs（6）

Service & Broadc（3）

ContentProvider（1）

Activity（2）

IPC（3）

System_Building（10）

Resource_Availab（1）

Porting On RealH（2）

Tools_Utils（2）

Stuff（1）

Key Components（1）

Android Infrastr（1）

OpenSource（1）

Nokia Maemo（1）

Android（2）

工具篇（4）

USB（3）

E-books（0）

Wireless（1）

TCP/IP（1）

Methodology（1）

MobileSystemSche（0）

Web Services（3）

TelecomEcosystem（2）

参考资料（2）

驱动开发、总结与（10）

硬件原理（10）

Linux（2）
杂想随笔（8）
文学（3）

古文共赏析（1）
未分配的博文（1）

文章存档

2011年（1）

2010年（55）

2009年（88）

2008年（9）

我的朋友

相关博文

搜索引擎原理简介

分类：系统运维

2009-01-13 11:04:32

搜索引擎的原理，可以看做三步：从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。　　

从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider系统程序，自动访问互联网，并沿着任何网页中的所有URL爬到其它网页，重复这过程，并把爬过的所有网页收集回来。
建立索引数据库
由分析索引系统程序对收集回来的网页进行分析，提取相关网页信息（包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等），根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页索引数据库。
在索引数据库中搜索排序
当用户输入关键词搜索后，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好，所以只需按照现成的相关度数值排序，相关度越高，排名越靠前。
最后，由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

　　搜索引擎的Spider一般要定期重新访问所有网页（各搜索引擎的周期不同，可能是几天、几周或几月，也可能对不同重要性的网页有不同的更新频率），更新网页索引数据库，以反映出网页内容的更新情况，增加新的网页信息，去除死链接，并根据网页内容和链接关系的变化重新排序。这样，网页的具体内容和变化情况就会反映到用户查询的结果中。

　　互联网虽然只有一个，但各搜索引擎的能力和偏好不同，所以抓取的网页各不相同，排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引，数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库，也只能占到互联网上普通网页的不到30%，不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因，就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容，是搜索引擎无法抓取索引的，也是我们无法用搜索引擎搜索到的。

　　你心里应该有这个概念：搜索引擎只能搜到它网页索引数据库里储存的内容。你也应该有这个概念：如果搜索引擎的网页索引数据库里应该有而你没有搜出来，那是你的能力问题，学习搜索技巧可以大幅度提高你的搜索能力。

＝＝＝ＥＯＦ＝＝＝＝＝＝＝

阅读(597) | 评论(0) | 转发(0) |

上一篇：new released libusb-1.0 on Dec.2008

下一篇：IT人士群聚喝酒的讲究

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6