随着企业的数据量不断增长,大量的重复数据给存储带来严峻的挑战。举例来说:现在有一个大小为10M的PPT文件,要把它拷贝给100个用户,这就需要Exchange服务器有1GB的可用存储空间。当每周都要备份1GB的重复存储时,问题就会变得更加糟糕。一年后,浪费的1GB空间最终会导致需要52GB的磁带备份或其他方式的备份存储。近来新兴的重复数据删除正是为解决数据冗余问题应运而生的,它只将重复的文件、块或位存储到实际的存储介质中。
重复数据删除带来了多种好处。存储量减少,从而降低了存储成本。这意味着只需更少的磁盘和更低频率的磁盘采购。更少的数据同时也意味着备份更小。这些都将转化为较少的备份窗口占用时间和更快的恢复时间目标(RTO)。更小的备份也延长了在虚拟磁带库(VTL)或虚拟档案库的保存时间。但是要使重复删除有效,数据必须被长期保存以便可以产生一个可供重复删除使用的全面索引——只保存一周的数据对于重复删除来说是毫无意义的。
重复删除的本质
重复数据删除用以扫描数据中的重复内容,有时它也被称为智能压缩或单一实例存储。在最简单的层次,重复删除寻找同一文件的多种备份,不过,它只对相同的的数据进行处理,所以哪怕两个文件只有几比特数据的不同也会被其识别为两个不同的文件。如今的重复数据删除可以在更深的层次上寻找块或者位的重复实例,这使得它可以更好地节省存储空间。事实上,当数据向备份、档案文件或者复制平台转移时,只有最初的数据实例会被保存到磁盘上。随后的实例会用小标号来简单地注明并指向已经保存的重复部分。
每一块的重复数据删除都通过“散列算法”进行处理,例如MD5或者SHA-1,有时也会将二者同时使用。散列算法会为每一个数据块产生一个特定的散列值,并将它保存在索引中。当处理另一个数据块时,其散列值将与已经编入索引中的其他散列值进行比较。如果该值已经存在于索引中,新的数据块将会进行重复删除处理,不被保存。但会插入一个指向已存在数据的“标号”。专家指出重复数据删除的压缩比能够达到10:1到50:1。
重复数据删除的部署
重复数据删除可以部署在硬件设备或软件产品中,而且每一种实施方式可能会有不同的实现形式,因为厂商都想在这个新兴的技术市场中与众不同。
重复删除可以通过in-band(带内)实施,在数据写入存储时完成重复数据的删除。
重复删除也可以通过out-of-band(带外)、作为独立或二级过程来实施。In-band处理效率较高,但处理速度可能会稍慢一些,因为额外的处理需要更多的存储时间,从而导致备份窗口占用更久的时间。Out-of-band处理不会影响系统的性能 ,但它需要略多一些的磁盘空间,并且在重复删除过程中可能引发磁盘冲突。专家建议,测试不同的重复删除方式,看这些方式是如何在你的现实环境中工作的。
基于硬件的实施需要更多的成本,但它们的性能确实会更好一些,而且也更易于部署。硬件设备包括Data Domain公司适用于分支机构的DD410以及DDX系列的门阵列,昆腾(Quantum)公司提供的DXi3500和DXi550。在选择哪种产品时,你必须确保这台设备与现有的备份软件是兼容的,并且确保它能够支持现有的存储容量(例如:需要能处理20PB的容量)。重复删除也可以直接嵌入到存储产品中,例如:Diligent Technologies公司的ProtecTier VTL,ExaGrid Systems公司的网络附加存储(NAS)备份设备,美国NEC公司的HydraStor grid备分产品,Network Appliance(NetApp)公司的NearSore R200和FAS的存储系统,以及Sepaton公司的S2100-ES2 VTL。
基于软件的重复删除通常工作于备份服务器(源)而不是在备份目标(存储系统)。它可以减轻备份服务器和存储系统间的网络拥堵,并且通过广域网(WAN)进行备份工作,尤其得心应手。重复删除软件包括EMC公司的Abamar产品和赛门铁克的NetBackup。基于软件的重复删除与硬件相比成本会低很多,但是对每个系统的代理使用都必须被备份——对于IT公司来说这会增加管理和维护的负担。
在考虑部署时,可扩展性是一个主要的关注问题。随着重复数据删除系统的不断扩展,存储性能将如何相应地改变,对这一点的理解是非常重要的。例如,极其巨大的散列索引表库可能会给系统性能造成负面的影响。当然,重复删除厂商都意识到了这个问题,并开始着手解决性能扩展的问题。
阅读(368) | 评论(0) | 转发(0) |