sheepdog中的erasure code实现机制-xiong9937-ChinaUnix博客

storage&nbsp;architect

首页　| 　博文目录　| 　关于我

xiong9937

博客访问： 2003551
博文数量： 1000
博客积分： 0
博客等级：民兵
技术积分： 7921
用户组：普通用户
注册时间： 2013-08-20 09:23

个人简介

storage R&D guy.

文章分类

全部博文（1000）

hh（5）
python（1）
flashcache（2）
levelDB（12）
java（4）
mac（5）
zookeeper（73）
ceph（108）
investation（2）
raid（3）
USB（21）
raise（1）
others（2）
salary（2）
salary（0）
KVM（11）
3G（2）
SAS（3）
PMC（2）
cold（24）
algorithm（9）
HDFS（92）
HDFS（4）
gdb（5）
hp（1）
DDK（27）
C（25）
eclipse（3）
tools（52）
kernel（37）
iscsi（19）
HPC（1）
FS（35）
scst（15）
istributed （5）
cloud（19）
NAS（41）
intel（1）
algorithm（0）
command（2）
tcpip（18）
documents（2）
board（1）
memory（13）
management（1）
linux boot（34）
bios（3）
pcie（56）
memory（3）
ethnet（56）
driver（3）
fcoe（13）
FC（14）
english（4）
switch（2）
links（14）
private（0）
protocal（0）
office（2）
network（2）
vm（8）
database（1）
os（43）
storage（27）

fcoe（4）
server（3）
未分配的博文（1）

文章存档

2019年（5）

2017年（47）

2016年（38）

2015年（539）

2014年（193）

2013年（178）

我的朋友

相关博文

sheepdog中的erasure code实现机制

分类：服务器与存储

2015-02-01 17:25:10

1.简介

Erasure Coding(EC) 是一种数据冗余策略，相比于多副本策略，纠删码的数据冗余度更小，并能获得更高的数据可靠性。纠删码包含两部分，编码和解码。编码时，使用一些数据部分，计算出一些校验数据；当有数据丢失时，能够使用余下的数据（源数据和校验数据）解码出丢失的部分。sheepdog中也提供了EC的支持。比如使用8:3的纠删策略（8块数据块，3块校验块），sheepdog就能够容错3个节点宕掉，仅仅只有3/8=0.375倍的额外数据，而要达到相同的效果，多副本策略却需要使用4副本，并且带来了额外3倍的数据开销。sheepdog中使用的是Erasure Code的开源库zfec。

2.sheepdog中EC的特性

1）一旦指定了EC策略，读写数据时自动地使用EC策略，不需要额外的操作；

2）支持随机读写，就地更新，非对齐的读写；

3）支持任意类型的VM镜像；

4）使用VDI时，用户可以自定义EC策略；

5）相对于多副本策略，EC能够获得更好的读写性能；

6）一个集群中既能有多副本的卷，也能有EC的卷。

3.使用方式

用户创建VDI（虚拟卷）时，可以指定EC策略。

$dogvdi create -c x:y vdi size # Create a erasure coded VDI

x表示数据块的个数，x只能是{2,4,8,16}，y表示校验块的个数，y可以取值1~15，能够容错y个节点宕掉。

当然，如果节点个数小于x+y，指定的策略将会失败。

初始化集群时，也可以使用EC作为默认的副本策略。

$ dog cluster format -c x:y

4.数据分布

sheepdog中的多副本策略，使用的对象大小是4M（对应代码中的SD_DATA_OBJ_SIZE），在各个存储节点的本地目录下存的对象都是4M大小的文件。多副本策略下的（示例是3副本）的数据分布如下图所示。

采用Erasure code后，卷的数据分布如下图：

EC的策略为X：Y，图上示例是4:2，即4个数据库，2个校验块，对应卷的4M大小的空间，实际上是分布到x+y（图上为6）个节点上，每个节点上的EC块大小为4MB/X（示例中是1MB）。也就是说，4:2策略下在各节点本地存的EC卷的文件大小是1M。EC块的分布策略与多副本时各副本的分布策略一致，都是采用一致性哈希的分布方式，图上只是画了6个节点，大于6个节点时，EC的6个块就会分布到这些节点中的6个节点。

在实现时，是切分成更细的粒度，这里引入几个概念，

EC OBJ：EC的对象块（示例中是1M大小），一个EC OBJ的命名是以OBJ的id（oid）加上index，比如一个oid是 007c2b2500000001，则EC OBJ是命名为 007c2b2500000001_1的形式。

stripe：横跨多个节点的EC的一个条带，大小为SD_EC_DATA_STRIPE_SIZE（=1k）

strip：组成stripe的基本单元，大小为SD_EC_DATA_STRIPE_SIZE/X（X为EC策略X：Y中的数据块个数）

如下图所示，对于VDI的一个4M的空间大小，实际上是分布到多个节点上的EC OBJ共同提供的。了解raid的人应该不难理解，就跟raid5/6中块分布到多个磁盘类似。

为什么是1K而不是其他大小呢？

从社区及代码中得知，设定stripe大小为1K是经过了一些测试确定的，stripe小于等于1k对于运行虚拟机来说是一个安全的值。

尽管大多数系统的文件系统都是处理4K的块，有些软件，比如grub就会操作512字节，linux内核本身也偶尔会操作1K的块。

经过一些测试认为，如果想在采用EC策略的卷上运行虚拟机，1K是可选择的最大值。

5.读写请求处理

sheepdog使用的EC支持对齐和非对齐的读写方式，对齐是指请求的偏移和大小都以SD_EC_DATA_STRIPE_SIZE的大小1k为对齐。

在处理上层到来的读写请求时，sheepdog是按照4M大小的请求来处理的，也就是说不大于4M大小的请求，下发到sheepdog这里是一个请求（每个数据读写的请求都有个oid，表示数据对象的id），大于4M大小的请求在客户端就拆分成多个4M大小的请求。而对于每个4M内的请求，根据请求的偏移和大小，按照EC策略，拆分成多个小请求，分别发到不同的节点上去进行读写操作，这些小请求都成功后才算成功。

1）对齐方式的处理

以一个请求为例进行说明，该请求offset为0（刚好对齐到某个4M的起始位置），len为3K