重复数据删除技术已经成为当今存储业界最为重要的技术之一。
重复数据删除是一种独特的,有可能改写存储行业的经济规则。借助重复数据删除技术,用户实际存档的数据量将呈几何级数递减,存档数据占用的空间将会缩减为现在的5%,从而大幅削减存储成本。
重复数据删除的应用
目前,重复数据删除技术并没有成为一个独立的存储产品,而是作为存储系统的一个重要功能。
首先,重复数据删除技术为数据保护领域带来了革命性的突破,有效地改善了基于磁盘的数据保护的成本效益。传统的数据保护通常采用廉价的磁带库作为备份设备,无法实现重复数据删除,磁带备份在备份窗口、恢复速度方面难以满足用户的需求。现在,基于磁盘的数据保护方案,例如虚拟磁带库(VTL)已被大量采用,将数据备份到VTL或其他基于磁盘的备份设备上,可以缩小备份窗口,改善备份和恢复的性能。由于数据量不断增加,用户需要备份的数据也越来越多,重复数据删除技术的出现为最小化存储容量找到了行之有效的方法。
其次,重复数据删除技术对数据归档也非常重要。由于参考数据的数量不断增加,而法规遵从又要求数据在线保留的时间更长,同时考虑到性能的需要,数据归档也要更多地借助磁盘,因此成本就成了企业面临的最大问题。理想的归档系统应该能够满足长期保存归档数据的需求,而且成本也要低于生产系统。重复数据删除技术通过消除冗余数据,实现了高效率的归档存储,从而将成本降得更低。
1.备份系统
在数据备份系统中,不同备份中的数据具有极高的相似性。传统的备份方法将许多内容变化极少,有时只是文件属性发生变化而内容没有改变的文件进行完整备份,从而产生了大量的重复数据。
在数据备份系统中,重复数据删除可以通过基于哈希(Hash)和基于内容识别的两种方式实现。基于Hash的方法主要采用SHA-1、MD5或用户自己开发的算法,将备份的数据流分成块,并且为每个数据块生成一个Hash。如果新数据块的Hash与已备份数据块的Hash索引中的一个Hash匹配,表明该数据块已经被备份,因此不用再对此数据块进行存储,只更新备份数据索引表即可。
基于内容识别的方法主要采用文件的元数据进行文件识别,找到该文件已存储的版本后,通过对不同版本文件进行比较,达到消除重复数据的目的。
2.归档系统
归档系统处理的对象是参考数据。参考数据存在各种形式的冗余数据,比如相同类型文件的结构相似,不同版本文件的结构和内容相似,或者完全相同文件的复制数据等。由于参考数据量极其巨大,因此冗余数据的累积量也很大。
目前,删除归档系统中的重复数据主要采用基于Hash的方法,典型产品是内容寻址存储(Content Addressable Storage,CAS),分为纯软件和存储系统两类。
CAS产品与重复数据删除技术既有相同的一面,又有不同甚至对立的一面。在CAS产品中,重复数据删除技术主要体现为单一实例存储,即相同数据对象只在存储系统上保存一份,这为整个网络存储系统带来了前所未有的容量节省。与重复数据删除技术的理念不同,对于不同版本的文件,只要内容有一个字节不同,CAS就会把两个文件分别保存,以满足法规遵从方面的要求。
重复数据删除的发展方向
1.技术融合
重复数据删除技术采用了比较成熟的Hash算法,即每个文件或数据块用Hash算法(如MD5或SHA-1)进行计算。在这一过程中,每个文件或数据块产生一个独特的数字,并将这一数字存储在一个索引中,内容相同的文件或数据块以指向索引中先前的文件或数据块的指针代替。这种算法的特点是计算量比较大,尤其是基于数据块的Hash算法。基于内容的算法虽然可以减少计算量,但需要针对不同情况分别提取不同的元数据,实现起来比较复杂。基于Hash和基于内容这两种算法具有极大的互补性,未来有相互结合的可能。
此外,由于新的压缩理论以及更有效的数学模型不断涌现,压缩技术发展非常迅速,未来可能会通过引进压缩算法而开发出新的重复数据删除算法,也可能将基于Hash的算法与其他数据压缩技术一起使用。传统的压缩技术与Delta差分法结合在一起,可以非常有效地优化存储空间的利用率。
2.应用不断扩展
重复数据删除技术可以帮助客户在多种应用环境中获得更大的成本效益。这些应用环境不仅包括备份、归档和法规遵从,而且覆盖了远程复制、远程灾备等。
由于重复数据删除技术本身在不断发展,因此,其应用也将不断拓展。ESG预测,随着时间推移,重复数据删除技术也会应用于其他存储领域。例如,将重复数据删除和内容识别结合起来,可以让更多数据管理和保护目标变得更切实际,包括内容搜索、发现与恢复。
链 接:重复数据删除的定义
重复数据删除(Data De-duplication)也称为智能压缩(Intelligent Compression)或单一实例存储(Single Instance Storage),是一种可自动搜索重复数据,将相同的数据只保留惟一一个副本,并使用指向单一副本的指针替换其他重复副本,以达到消除数据冗余、降低存储容量需求的。
常见的重复数据删除有两种:文件复制消除可以识别两个文件名不同而内容完全相同的文件,或者不同目录下相同的文件,从而避免相同文件的多次存储;数据块冗余消除比文件复制消除的存储效率更高,可以在文件中搜索相同的数据块,将相同的块保存一个惟一的副本。