数据归档中的缩减技术:数据压缩和重复数据删除(2)-sjgd5753-ChinaUnix博客

数据归档

首页　| 　博文目录　| 　关于我

sjgd5753

博客访问： 582458
博文数量： 302
博客积分： 10010
博客等级：上将
技术积分： 4765
用户组：普通用户
注册时间： 2008-07-15 23:10

文章分类

全部博文（302）

未分配的博文（302）

文章存档

2011年（1）

2008年（301）

我的朋友

相关博文

数据归档中的缩减技术:数据压缩和重复数据删除(2)

分类：服务器与存储

2008-07-18 23:20:37

重复数据删除

在备份、归档等实际的存储实践中，人们发现有大量的重复数据块存在，既占用了传输带宽又消耗了相当多的存储资源：有些新文件只是在原有文件上作了部分改动，还有某些文件存在着多份拷贝，如果对所有相同的数据块都只保留一份实例，实际存储的数据量将大大减少——这就是重复数据删除技术的基础。

这一做法最早由普林斯顿大学李凯教授（DataDomain的三位创始人之一）提出，称之为全局压缩（Global Compression），并作为容量优化存储（Capacity Optimized Storage， COS）推广到商业应用。目前，除了DataDomain等专门厂商外，各主要存储厂商如EMC、IBM、Symantec、FalconStor等等也都通过收购或研发等途径拥有了各自的重复数据删除技术，有的还并冠以别名，如单示例存储（Single Instance Repository，SIR）等。
重复数据删除的实现由三个基本操作组成，如图二。首先，待处理数据（文件）被分割成固定或可变大小的数据块，同时生成一张“结构图”显示这些数据块怎样组成完整的原数据（文件）；然后计算各数据块的“指纹”（标识），并根据“指纹”确认该数据块是否与其它数据块相同；最后，丢弃重复出现的数据块，并将“结构图”作为原始数据（文件）存储。

图二重复数据删除原理

重复数据删除技术的关键在于数据块“指纹”的生成和鉴别。数据块“指纹”是鉴别数据块是否重复的依据，如果不同数据块的“指纹”相同，就会造成内容丢失，产生不可恢复的严重后果。在目前的实际应用中，一般都选择MD5或SHA-1等标准杂凑（hash）算法生成的数据块的摘要（digest）作为“指纹”，以区分不同数据块间存在的差异，从而保证不同数据块之间不会发生冲突。但是，MD5，SHA-1等算法的计算过程非常复杂，纯软件计算很难满足存储应用的性能需求，“指纹”的计算往往成为重复数据删除应用的性能瓶颈。

目前，各厂商对各自重复数据删除技术的效用都有不同描述，一般都声称能将数据量减少到原数据的3% ~ 5%，即具有20:1 ~ 30:1的压缩比。

数据压缩和重复数据删除技术都着眼于减少数据量，其差别在于数据压缩技术的前提是信息的数据表达存在冗余，以信息论研究作为基础；而重复数据删除的实现依赖数据块的重复出现，是一种实践性技术。这两种技术具有不同层面的针对性，并能够结合起来使用，从而实现更高的数据缩减比例（40:1 ~ 90:1）。需要注意的是，如果同时应用数据压缩和重复数据删除技术，为了降低对系统的处理需求，通常需要先应用数据删除技术，然后再使用数据压缩技术进一步降低“结构图”和基本数据块的体积。

在归档应用中，存储的数据主要是文件在不同时间的各个历史版本，版本间的差异通常并不是很大，文件中往往有相当一部分内容并未发生改变，重复数据删除技术因而具有较大的应用空间和效能；同时，作为有特定意义的文件内容，使用数据压缩技术通常也可以获得2:1以上的压缩比。因此，针对归档应用，集成重复数据删除和数据压缩技术将可带来显著且可以预期的好处，实现90%以上的整体数据量缩减。

需要注意的是，由于数据压缩和重复数据删除技术都系统处理能力有较高要求，为了保证整体性能，在预算允许的范围内，应该注意选择具有相关硬件加速的方案。目前，市场上能够同时具有压缩和杂凑算法的解决方案并不多，主要由LZS算法的专利拥有者Hifn, Inc提供。除了常见的标准加密和摘要算法，Hifn的安全处理器和相应加速卡基本都集成有压缩处理能力，提供20MB/s ~ 250MB/s的处理能力。最近还专门推出了DR 250/255数据缩减加速卡，通过PCI-X和PCI-Express接口为存储系统提供250MB/s的数据压缩和摘要计算加速，并能够同时进行加密或解密处理，使系统能够在实现数据缩减的同时，提高对数据的保护级别。据称，Hifn下一代数据缩减产品处理能力将达到1.6GB/s，并支持IEEE P1619/1619.1标准的磁盘/磁带加密，计划将于今年下半年正式推向市场。

阅读(349) | 评论(0) | 转发(0) |

上一篇：自动归档的深入理解

下一篇：数据归档中的缩减技术:数据压缩和重复数据删除(1)

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6