数据量正在迅速增加,企业用户不仅产生更多的原始数据,而且政府管理机构还要求他们在数据生命周期中多次备份和保留这些数据。如果每周的完整备份数据的保留期是1年,每天的递增备份数据的保留期是10天,那么,1TB数据在其整个生命周期中需要53TB的存储容量来提供数据保护。备份、管理和保存这些数据将大大增加劳动力成本。
但好消息是硬盘存储的费用在降低,重复数据删除技术则可应用在基于磁盘的虚拟磁带库()上,通过只备份和保存某段数据一次,从而帮助控制数据量的增长。
是基于硬盘的系统,它模拟磁带技术使企业可以用最小的中断将它们安装在已有的环境中。重复数据删除软件(某些提供)保存基线数据集合,然后检查随后的备份集合,寻找重复的数据。当找到重复数据时,它保存很小的数据表达式,这些数据表达式使软件可以根据需要汇编和恢复完整的文件。
目前有两种主要的重复数据删除方法:基于散列的方法和基于字节比较的方法。基于散列的方法利用一种算法对输入数据进行处理来创建很小的表达式和数据唯一的标识符(即所谓的散列值)。然后,将其与保存在查寻表中的散列值进行比较。但是,利用查寻表来确定重复的散列串会造成巨大的性能压力,并且可能需要几周时间才能取得最优的重复删除效率。
效率更高的方法是在对象级上进行比较。例如,将Word文档与另一个Word文档进行比较,要么采用模式匹配算法;要么采用效率更高的智能分析技术。智能分析在更详细地比较两个文件之前会分析备份文件和参考数据集合来确定可能是冗余的文件。由于把处理重点放在可能的重复数据上,它可以更彻底地去除重复数据和避免不必要的处理新文件。
一些技术在数据备份过程中进行重复数据删除。这种在线的重复数据删除会降低备份性能,增加备份的复杂性。另一些技术执行带外的重复数据删除,在执行时,它们首先备份数据,然后再执行重复数据删除。
字节级重复数据删除可提供高达25:1数据压缩率。当与典型的特性,即压缩技术配合使用时,企业无须增加存储容量就可在同样的空间中多保存50倍的数据。这种压缩技术不仅使用户可以在线保存更多的数据,并使数据保持更长的在线时间,还带来了将数据保存在硬盘上的优势。例如,把数据保存在硬盘上比保存在磁带上占用更少的物理空间,并大大减少电源、冷却、安全和其他运营与基础设施费用。据最近的一份Gartner报告说,到2008年,50%的数据中心将缺少满足高密度设备需要的电源和冷却容量。
重复数据删除技术通过使备份到的费用大大低于纯基于硬盘的数据保护解决方案,改进了数据保护的经济性。同时,它也是数据中心应对急剧增加的能源、劳动力和空间费用,以及管理即将出现的电源和冷却容量短缺的重要的途径。