2014年(12)
分类: 服务器与存储
2014-04-02 11:35:56
随着大数据时代的到来与云计算的发展,用户越来越关注数据的存储空间利用率和数据流程管理的问题,如何提高大数据存储和管理,如何对关键数据和应用尽心灾备,成为普遍关注的问题。同时,各大IT存储备份厂商纷纷推出各自的解决方案,其中重删与压缩技术逐渐成为主流。目前重删技术大概有三种:第一种是基于散列(hash)的方法,Data Domain、飞康、昆腾的DXi系列设备都是采用SHA-1, MD-5等类似的算法将这些进行备份的数据流断成块并且为每个数据块生成一个散列(hash)。如果新数据块的散列(hash)与备份设备上散列索引中的一个散列匹配,表明该数据已经被备份,设备只更新它的表,以说明在这个新位置上也存在该数据。
基于散列(hash)的方法存在内置的可扩展性问题。为了快速识别一个数据块是否已经被备份,这种基于散列(hash)的方法会在内存中拥有散列(hash)索引。当被备份的数据块数量增加时,该索引也随之增长。一旦索引增长超过了设备在内存中保存它所支持的容量,性能会急速下降,同时磁盘搜索会比内存搜索更慢。因此,目前大部分基于散列(hash)的系统都是独立的,可以保持存储数据所需的内存量与磁盘空间量的平衡,这样,散列(hash)表就永远不会变得太大。
第二种方法是基于内容识别的重复删除,这种方法主要是识别记录的数据格式。它采用内嵌在备份数据中的文件系统的元数据识别文件;然后与其数据存储库中的其它版本进行逐字节地比较,找到该版本与第一个已存储的版本的不同之处并为这些不同的数据创建一个增量文件。这种方法可以避免散列(hash)冲突(请参阅下面的“不要惧怕冲突”),但是需要使用支持的备份应用设备以便设备可以提取元数据。ExaGrid Systems的InfiniteFiler就是一个基于内容识别的重复删除设备,当备份数据时,它采用CommVault Galaxy和Symantec Backup Exec等通用的备份应用技术从源系统中识别文件。完成备份后,它找出已经被多次备份的文件,生成增量文件(deltas)。多个InfiniteFilers合成一个网格,支持高达30 TB的备份数据。采用重复删除方法的ExaGrid在存储一个1GB的.PST文件类的新信息时表现优异,但它不能为多个不同的文件消除重复的数据,例如在四个.PST文件具有相同的附件的情况下。 第三种方法是Diligent Technologies用于其ProtecTier VTL的技术,它像基于散列(hash)的产品那样将数据分成块,并且采用自有的算法决定给定的数据块是否与其它的相似。然后与相似块中的数据进行逐字节的比较,以判断该数据块是否已经被备份。
目前市场上比较主流的厂商:
1. EMC DD 基于Hah 采用Inline 重删的方式
2. 飞康VTL: 主要是虚拟磁带库实现CDP
3. ExaGrid: 基于内容识别进行字节级重删
4. 赛门铁克 Backup Exec通用备份软件以及 赛门铁克NBU