优雅的Bitcask日志存储模型-ubuntuer-ChinaUnix博客

人生如逆旅，我亦是行人！江湖人称wsjjeremy.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

ubuntuer

博客访问： 4907048
博文数量： 930
博客积分： 12070
博客等级：上将
技术积分： 11448
用户组：普通用户
注册时间： 2008-08-15 16:57

文章分类

全部博文（930）

html5（0）
python（1）
google_gnu fans（8）
高品位（2）
perl（4）
mobile_dev（2）
openssl（1）
libcurl（2）
windows内核安全（5）
自己的C_LIB（5）
高性能MySQL学习（94）
多线程（4）
ldd学习笔记（3）
netfilter（3）
笔试题（5）
师徒之言传身教（1）
转载（15）
work（146）
introduction to （9）
debug（3）

intern（3）
mobile ip（0）
毕业设计（2）
linux防火墙（10）
c++（16）
database（13）
CentOS（11）
data structure（5）
kernel（50）
DIY（4）
酷软（19）
iptables（9）
linux c（105）

string（19）
APUE学习笔记（7）
facetea（13）
shell（68）
tcp_ip（23）
apache（3）
linux（258）

正则表达式（5）
未分配的博文（1）

文章存档

2011年（60）

2010年（220）

2009年（371）

2008年（279）

我的朋友

相关博文

优雅的Bitcask日志存储模型

分类： LINUX

2011-04-05 16:43:44

Bitcask是一个日志型的基于hash表结构和key-value存储模型，我了解到他也就几天时间，但是其简洁有效的设计思路，让我的某种技术癖好得到了极大满足，于是酝酿出这篇东西。

Bitcask模型指导下的存储系统有Riak和豆瓣的beansdb新版本（beansdb新版本信息，参见这里），下面就简单的介绍一下Bitcask模型：

1.日志型的数据文件

何谓日志型？就是append only，所有写操作只追加而不修改老的数据，就像我们的各种服务器日志一样。在Bitcask模型中，数据文件以日志型只增不减的写入文件，而文件有一定的大小限制，当文件大小增加到相应的限制时，就会产生一个新的文件，老的文件将只读不写。在任意时间点，只有一个文件是可写的，在Bitcask模型中称其为active data file，而其他的已经达到限制大小的文件，称为older data file，如下图：

文件中的数据结构非常简单，是一条一条的数据写入操作，每一条数据的结构如下：

上面数据项分别为key，value，key的大小，value的大小，时间戳（应该是），以及对前面几项做的crc校验值。（数据删除操作也不会删除旧的条目，而是将value设定为一个特殊的值以作标示）

数据文件中就是连续一条条上面格式的数据，如下图：

好了，上面是日志型的数据文件，如果数据文件这样持续的存下去，肯定是会无限膨胀的，为了解决个问题，和其他日志型存储系统一样Bitcask也有一个定期的merge操作。

merge操作，即定期将所有older data file中的数据扫描一遍并生成新的data file（没有包括active data file 是因为它还在不停写入），这里的merge其实就是将对同一个key的多个操作以只保留最新一个的原则进行删除。每次merge后，新生成的数据文件就不再有冗余数据了。

2.基于hash表的索引数据

上面讲到的是数据文件，日志类型的数据文件会让我们的写入操作非常快（日志型的优势之一是将磁盘当作磁带，进行顺序读写的效率非常高，可以参见），而如果在这样的日志型数据上进行key值查找，那将是一件非常低效的事情。于是我们需要使用一些方法来提高查找效率。

例如在Bigtable中，使用bloom-filter算法为每一个数据文件维护一个bloom-filter 的数据块，以此来判定一个值是否在某一个数据文件中。

而在Bitcask模型中，我们使用了另一种方法，使用了一个基于hash表的索引数据结构。

在Bitcask模型中，除了存储在磁盘上的数据文件，还有另外一块数据，那就是存储在内存中的hash表，hash表的作用是通过key值快速的定位到value的位置。hash表的结构大致如下图所示：

hash表对应的这个结构中包括了三个用于定位数据value的信息，分别是文件id号(file_id)，value值在文件中的位置（value_pos）,value值的大小（value_sz），于是我们通过读取file_id对应文件的value_pos开始的value_sz个字节，就得到了我们需要的value值。整个过程如下图所示：

由于多了一个hash表的存在，我们的写操作就需要多更新一块内容，即这个hash表的对应关系。于是一个写操作就需要进行一次顺序的磁盘写入和一次内存操作。

3.有用的hint file

至此，Bitcask模型基本上已经讲述完成，而这一节讲到的hint file，则是一个有用的技巧，本人认为并不一定是Bitcask模型的必须特性。

从上面我们可以知道，我们称其为索引的hash表，是存储在内存中的，虽然在各自的实现中可以做一些持久化的保证，但是Bitcask模型中并不对在断电或重启后的hash表数据不丢失做出保证。

因此，如果我们不做额外的工作，那么我们启动时重建hash表时，就需要整个扫描一遍我们的数据文件，如果数据文件很大，这将是一个非常耗时的过程。因此Bitcask模型中包含了一个称作hint file的部分，目的在于提高重建hash表的速度。

我们上面讲到在old data file进行merge操作时，会产生新的data file，而Bitcask模型实际还鼓励生成一个hint file，这个hint file中每一项的数据结构，与data file中的数据结构非常相似，不同的是他并不存储具体的value值，而是存储value的位置（像在hash表中的一样），其结构如下图：

这样，在重建hash表时，就不需要再扫描所有data file文件，而仅仅需要将hint file中的数据一行行读取并重建即可。大大提高了利用数据文件重启数据库的速度。

结语：

以上就是Bitcask数据模型的所有内容，非常之精简易懂，但是记住，他只是一个模型，如果我们要实现一个基于Bitcask的存储系统的话，相信还有很多工作要做，还有很多细节可以优化。有兴趣的同学可以看一看Riak或豆瓣beansdb 版本的源码。

参考文献：

阅读(4074) | 评论(0) | 转发(0) |

上一篇：C++类对象的复制－拷贝构造函数

下一篇：Snappy(Google家用的快速压缩算法，以前的Zippy）

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6