redis设计思想-zhm_sunboy-ChinaUnix博客

坚持到底max2008.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

zhm_sunboy

博客访问： 3315015
博文数量： 346
博客积分： 10189
博客等级：上将
技术积分： 3125
用户组：普通用户
注册时间： 2008-08-05 19:46

文章分类

全部博文（346）

java（1）
flume（1）
zookeeper（0）
MQ（5）

Zeromq（0）

Metaq（0）

Jafka（0）

Kafka（5）
MongoDB（0）
Webserver（2）

LVS（0）

Tomcat（0）

Lighttpd（0）

Apache（1）

Nigix（1）
Hadoop（0）
Storm（17）
Libevent（1）
Memcached（0）
Redis（7）
Protocol（13）

SIP（12）
Algorithm（4）
Streaming（29）
网络技术（7）
Telecom（32）
计算机原理（0）
网络编程（26）
人生励志（4）
软件设计（1）
软件测试（2）
技术心得（0）
Web（1）
UML学习（2）
Wiki使用（2）
公司培训（0）
Windows编程（20）

GDIPlus使用（3）

MFC编程（4）

VC基础（9）

文件操作（1）

多线程（3）
Value-added（14）
Interview（1）
Programming（76）

Network pro（0）

Design patt（8）

Generic pro（2）

STL（4）

C++（49）

C（13）
DB（1）

Oracle（1）
Linux/Unix（77）

Unix下C/C++编程（13）

Shell脚本（14）

UNIX命令（14）

系统管理（11）

C/C++开发工具（25）
未分配的博文（0）

文章存档

2013年（35）

2011年（35）

2010年（76）

2009年（48）

2008年（152）

我的朋友

相关博文

redis设计思想

分类： NOSQL

2013-06-18 11:22:35

不同于nginx的精雕细琢，redis代码的风格趋向于简洁实用。简洁启事，下面所述不再列举任何源码，不拼凑任何外来资料。去除末枝，下面直入redis主题，尽可能简洁地描述redis的设计思想。

整体模型：单进程单线程事件驱动模式。

Redis在主处理流程中，采用了单进程接受各种client请求并返回结果，整体处理流程采用事件驱动的方式进行。通过其IO复用的方式监听aeEventLoop事件，在事件处理的过程中，这种模式对处理函数的要求：进行一次事件处理需要尽可能地快。因此会有以下几种处理方法：

1.对于非长时间处理事件，直接处理。如set命令；

2.对于需要长时间处理的事件，分步处理，直至完成。如rehash过程，在单次事件处理过程中，每次只移动一个桶。

3.对于阻塞函数，如从磁盘读取vm数据等，采用异步的模式。从磁盘load数据，是一个较为耗时的操作，如处理函数中直接读取数据，将会阻塞整体的单线程处理其他的client请求。

多线程开发的复杂性是我们所清楚的。采用单进程单线程的模式，可以避免很多复杂性，另外事务性操作，无须额外加锁，大大降低了开发难度。

IO复用

Redis的IO复用层，可以看作是一个tiny libevent，其实现只有四个文件，ae.c， ae_select.c， ae_kqueue.c，ae_epoll.c。一目了然，ae是事件监听总的interface，select、kqueque、epoll是三种可选的IO复用方式。小而够用，简洁高效，充分体现了redis的设计理念。Redis Default：select，C10K max。

事件监听

在单线程事件驱动模型中，往往会遇到两种任务，定时处理任务及事件触发任务，于是会有如下问题：事件触发任务在无任务时，会处于阻塞状态；定时任务要求定时处理，于是往往会有如下两种处理方式：

1. 如果定时任务时间间隔为t，一般设IO复用层的超时时间为t/10，这样可以保证定时任务得到及时处理，在调用所有cron任务时，会做间隔时间判断。

2. 计算当前事件与最近的定时任务开始时间的间隔，设置IO复用超时时间为该事件。这样定时任务也能得到及时处理。

注意：以上定时任务的处理时间，都为估约时间，非精确时间。前一种方式每轮计算量少，当容易引起空转，后一种计算量大，但减少了空转次数。Redis采用的是后一种方式。

这里也许有人会问：为什么不采用sigaction、setitimer等设置精确时钟，以后再也不用为cron事件做额外处理。原因如下：

定时时钟，往往会让进程陷入内核态，内核软中断往往会打破用户态一个函数的完整性，因此会破坏相关的状态转移；另外加入软中断的程序，将可能为程序带来不可避免地复杂性。

以曾经做过一个项目的一段挫折经历为例：

一个电话多路呼转的项目，采用的是单线程异步事件驱动模型，每次定时任务有个让空闲通道“挂机”的任务。先前采用预制的驱动时钟，时钟信号为实时信号（信号宏值取32-64之间的一个数），信号在sigqueue中排队，这样如果任务阻塞返回后，会瞬间抛出大量时钟事件，造成空闲通道多次挂机失败。后改用setitimer设置系统时钟，软中断打断了用户态的一次mutex_lock和mutex_unlock，并且挂机时使用了该锁，造成整个进程时有时无的死锁现象。

数据结构

Intset，该set不同于hash set数据结构，该数据结构其实是一个有序数组，对于：

插入操作：二分查找该有序数组——>找到位置——>有则返回，无则插入该位置，memmove后续元素。

查找操作：二分查找。

相对于以hash table为基础的set而言，该模型简单且更省空间。时间复杂度，在作者的presentation中提及在size 20-50k的数据量下，基本与hashset无异。这里可以认为，hash set遍历链表的时间，与intset二分查找的时间基本差不多。但其实另一方面，作者没有提及的，intset的插入速度，实际降低了，因为需要memmove的数据量，是O(n)的；但较hash set更有优势的是，该array set，是有序的。

Ziplist，该数据结构是针对small size数据设计的数组list，好比常见的索引数组，不同于linked list，其保存在一个数组中，且用value-header保存链接项及其本身的偏移、长度，encoding等，用于遍历list。在需求上，encoding保证多种不同的数据，可以保存在同一个list中，如int16、int32、str等。

zset：hash dict + skip list。常见的有序set以rb tree为基础。而在整个redis中，我们很难发现任何复杂数据结构tree的踪影。Redis以hash dict保证散列查找的效率，以跳表结构保证有序及范围查找需求的快速满足，范围查找抛弃了rb tree，b+-* tree，也体现了其不想复杂的简洁美学。

......

整个redis中，没有任何专门的内存池结构。所有内存分配，不像stl，niginx，内存分配都有其内存池机构分配，redis没有！Redis全是size+malloc的zmalloc分配，其常见的小对象，在intset，ziplist等数据结构地以数组方式申请，并不断用realloc的方式resize，间接地体现了内存池的思想，但却没有实现一个内存池管理模块，作者简单暴力的美学，体现得淋漓尽致。

持久化模块

持久化是redis这种内存数据库的拓展功能，如memcachedb对memcached一样。其借鉴却大大削减了OS的vm处理机制（复杂程度较memecached远不在数量级），以够用的理念拿为己用，在某些地方按照需求定制。其思想为一个大的磁盘文件，作为vm文件，bitmap保存所有block的使用情况，redisObject与vmPointer为同型异构体，后者指明value在vm文件中的位置等信息，且对大的value进行lzf压缩解压以减少磁盘IO所带来的性能开销；而Key作为索引永远保存在内存中。

常见的LRU实现有如下几种：

如memcached，有专门的lru list数据结构，保存着数据的LRU信息（存入的时间戳，链表），每次使用会改变这个链表，最终淘汰置换该list末尾的数据。

如Linux内核，分为active和inactive两个list，根据相应的计算经验规则，将页放入相应的list，并对inactive中的page进行再激活或淘汰置换。

而redis没有相应的lru数据结构，其lru机制为：整个redis有一个时钟，每隔一段时间更新一次，每一个数据都会保存它们最近使用时当前的时钟，随机选出dict中几个数据，根据其value的大小和最后更新的系统时钟值，确定其swap的能力，超过某个阈值，则将其更换出去。

Vm的思想，对于redis这种崇尚简洁实效为美的设计来说，多少还是有些复杂，因此作者一直在考虑另外一种实现方式去替代vm的持久化机制，可见

主辅同步模块：redis的弱项，目前只能同到辅，而辅不能到主，有待继续开发，对此模块感兴趣的可以参考mysql的实现。

结语：redis崇尚简洁、实效、暴力的美学，让redis成为kv-db中效率的代表，而所有db的source code中，恐怕很难找到比redis更简单易读的代码了。这很多方面，值得我们设计开发借鉴。

阅读(6175) | 评论(0) | 转发(0) |

上一篇：Redis安装部署

下一篇：The architecture of REDIS

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6