重复数据删除,也被称为智能数据压缩或单一实例存储。它是一种可以减小数据存储需求的手段。重复数据删除的处理过程是通过删除冗余数据,确保实际上只有第一个单一实例数据被存储。而被删除的重复数据将由一个指向元数据的的指针所代替。
重复数据删除可以对文件,块或者位进行操作。在基于文件的重复删除中,如果两个文件完全相同,那么其中一个将作为备份文件被保存,而随后重复的文件将获取指向保存文件的指针。但是基于文件的重复删除并不十分有效,因为哪怕文件只是更改了一个字节,也会被作为另外一个不同的文件全部保存下来。
基于块和位的重复删除,软件通过对文件进行比较,只保存每一块的单一重复部分。如果文件更新,那么只有被更改的数据才会被保存。这就是为什么基于块和位的重复删除要比文件级的重复删除要有效率的多。块和位重复删除所能达到的压缩比是从10:1到50:1。
重复数据删除的处理方式
每一个数据块通过散列算法(例如MD5或者SHA-1)为每一个数据产生一个特定的散列值。将这个散列值与现有的散列值索引相比较,如果它已经存在于索引中,那么这个数据就是重复的,不需要进行存储。否则,这个新的散列值将被添加到索引中,这个新的数据也因此被存储。
要使重复删除平台处理更精确,就需要更大的索引。例如,基于文件的重复删除只需要一个百万大小或千万大小的单一散列值索引。相比之下基于块的重复删除会涉及到更多的单一数据块,这个数字通常会达到十亿级。这样精确的重复删除需要更强的处理能力以便可以为其提供更大的索引。除非硬件的设计与对索引的要求相适应,否则随索引的不断扩展,平台的性能将随之下降。
一般而言,散列算法很少会将两个不同的数据块产生出相同的值。当这样的“散列碰撞”发生时,系统就不会存储新的数据,因为系统看到同一个散列值已经存在。这被称为“false positive”(错误的确定),会导致数据丢失。一些厂商结合不同的散列算法,以降低散列碰撞的可能性。另一些厂商还会检查元数据来确认数据,从而避免散列碰撞。
其他方式的数据删除
重复数据删除一般和其他的数据删除技术一起使用,例如压缩和差分delta。数据压缩技术已经问世约三十年之久,它将数学算法应用到数据中,以简化大容量或重复的文件部分。
差分delta通过只存储相对于原始备份文件被修改的部分,来减小存储总量。例如:一个大约包含200G数据的文件组,与原始备份相比可能只有50M的数据是被修改过的,那么也只有这50M的数据会被存储起来。差分Delta一般用于基于广域网的备份系统,它可以最大程度地利用带宽,从而减少备份窗口的工作时间。
更快的备份速度和更短的恢复时间
采用压缩比高达30:1的重复数据删除技术,,300G的数据只需要10G的磁盘空间。显而易见,这为我们节省了巨大的存储空间,因为我们不仅可以节省大量的磁盘空间,还可以延长磁盘的保存期。
重复数据删除还可以带来一些间接的便利。较少的数据存储使备份的速度更快,从而减少了备份窗口的占用时间,同时也使恢复目标指针(RPOs)变得更小(更近),恢复时间目标(RTOs)变得更快。磁盘存档平台可以相地的存储更多的文件。如果磁带作为最终的备份对象,那么更小的备份只需要更少的磁带,从而降低介质的花费,减小磁带库所占用的空间。
对于一个虚拟磁带库(VTL)来说,降低磁盘存储空间的需求意味着在VTL上的备份保存时间需更长。例如,一个普通的VTL大约可以保存备份30天,然后将最旧的备份转移到磁带上保存,为之后的备份腾出磁盘空间。由于重复数据删除可以有效并显著地增加磁盘空间,VTL有可能将备份保存两年时间,从而大大地降低了对磁带系统的依靠。
重复数据删除也可以加快远程备份、复制和灾难恢复处理过程。数据传输可以更快地得以完成,使网络可以去处理其他的工作,传送更多的额外数据或者通过使用低速网络、低价的广域网来降低成本。
TT中国
阅读(684) | 评论(0) | 转发(0) |