Chinaunix首页 | 论坛 | 博客
  • 博客访问: 518456
  • 博文数量: 184
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 1172
  • 用 户 组: 普通用户
  • 注册时间: 2016-06-21 13:40
个人简介

技术改变命运

文章分类

全部博文(184)

文章存档

2020年(16)

2017年(12)

2016年(156)

我的朋友

分类: 网络与安全

2020-06-09 23:37:11

高级搜索

在这里插入图片描述

搜索引擎基本原理

搜索引擎的整体架构示意图: 在这里插入图片描述我们来看一下搜索引擎的架构(上图):

  1. 网络爬虫爬行互联网连接
  2. 网页计算去重;
  3. 添加索引;
  4. 内容,链接计算;
  5. 网页排序;
  6. 形成对应词典,存入cache系统;
  7. 用户检索;
  8. 分析内容,调出词典内容。

这基本上是一个网页从产生到呈现的过程,当然这个过程很复杂,这里只是简单的比拟出来。不过我们可以看到,网络的爬虫对我们网站是何等的重要,这也是很多卖蜘蛛池的原因吧。

其次是网页的去重,因为现在百度自身服务器内部很多的网页缓存,蜘蛛爬去过得内容百度会经过一系列的计算后去除重复网页,这里面有一个比较复杂的算法,这个以后可以详细来讲。

我们看网页的排序有两个方面因素的影响:内容的相似性&链接分析,大概这就是我们常说的SEO“内容为王,外链为皇”理论依据吧。其实网页排序的影响因素有很多,但是内容和链接是基础的比较重要的影响因素。

网页排序之后就是生成关键词的词典存入搜索引擎的Cache系统,一方面可以快速的提供用户查询信息,另一方面就是减轻搜索引擎的计算压力。 链接:

公众号

在这里插入图片描述

阅读(1431) | 评论(0) | 转发(0) |
0

上一篇:编程入门

下一篇:strcpy为何不安全

给主人留下些什么吧!~~