Chinaunix首页 | 论坛 | 博客
  • 博客访问: 11299702
  • 博文数量: 8065
  • 博客积分: 10002
  • 博客等级: 中将
  • 技术积分: 96708
  • 用 户 组: 普通用户
  • 注册时间: 2008-04-16 17:06
文章分类

全部博文(8065)

文章存档

2008年(8065)

分类: 服务器与存储

2008-07-15 14:51:23

柏科ExaGrid重复数据删除技术-消除冗余数据的良药:


如何清除备份磁盘中大量的冗余数据?使用重复数据删除的工具和技术有望把需要存储的数据减少到原来的1/20,并且还可以延长备份数据的保存时间,节省异地存储期间所占带宽。

就在几年前,磁盘到磁盘(D2D)的备份手段似乎还好得令人难以置信。受价格低廉的 ATA(以及后来的SATA硬盘的影响,许多人把D2D当做虚拟磁带库或者软件备份到磁盘的方案来实施,这样做可以消除磁带驱动器和磁带库的机械故障,并简化了技术支持部门应对众多文件恢复请求的繁重事务。

但是如今,磁盘备份的设备容量趋于饱和,数据中心没有足够空间或者电力再添加1PB的备份空间,于是用户开始把原本想保留一个月的备份数据改为仅仅保存两三天。问题在于,备份设备中有太多的重复数据。好消息是,嗅到了商机的厂商们声称其最新的重复数据删除产品可以按20 : 1、甚至300 : 1的比例缩减需要存储的数据量。果真如此吗?

重复数据删除技术可以让你在特定的一组磁盘上存储更多的备份数据。这样,就延长了数据在备份磁盘上的保存时间,降低数据中心的电力和冷却的成本。如果你先删除重复数据,然后通过广域网传送,还可以节省带宽,并且让过去依赖磁带的公司可以使用在线异地备份。重复数据删除技术的惟一缺点就是,会导致备份速度变慢。大幅度节约空间当备份程序对同一个目录下的同一个文件进行多次备份,或者对网络中不同位置的相同文件进行备份时,重复数据就会使备份文件的规模逐渐超越极限。大多数网络上都有数量惊人的重复数据,有的是众多用户把有关节日聚会的一篇PDF文档保存到各自的本地目录上,有的是每台服务器的系统驱动器上都有3GBWindows文件。

解决临时区域内文件重复的方案之一就是增量备份。虽然我们很喜欢这种方案,但是正如我们认为RAID灾难恢复不是重复数据删除那样,增量备份也不是重复数据删除。增量备份属于避免重复数据的范畴。

最基本的一种重复数据删除就是内容寻址存储(CAS)设备中的文件级单一实例存储(single-instance store)。每个文件存储到CAS系统上后,设备就会为文件的内容生成一个散列(hash);要是已经存在有相同散列的文件,系统就会创建另一个指针,指向已经存在的副本,而不是保存另一个副本。

虽然文件级SIS能够节省一些空间,但如果我们不但删除重复文件,还删除重复文件内存储的重复数据,情况就变得颇有意思。想一想Outlook的.PST文件。通常一个用户会有300 MB或者更大容量的.PST文件,里面保存着以往的所有重要电子邮件; 每天收到一封或者更多封新邮件,因为.PST文件每天都在变化,备份程序就会把该文件包括在增量备份中,即使这个300 MB的文件中改变的内容只有25 KB。

要是重复数据删除产品能识别这25 KB的新数据,只保存这些数据、不用管其他数据,就可以节省大量磁盘空间。依次类推,要是重复数据(如20个用户的.PST文件中的550 KB附件)能够被消除,就可以大大缩减数据量。这种设备在备份软件看来就像虚拟磁带库VTL)或者NAS设备。它们从备份软件获取数据后,可以透明地删除重复数据。
柏科公司的ExaGrid 就是这种能识别内容的重复数据删除设备。数据备份时,这种设备会根据对CommVault Galaxy和Symantec Backup Exec等常见备份软件的了解,从源系统识别文件。备份完毕后,它会识别出多次备份的文件,然后生成增量文件。多个 InfiniteFiler可以组成一个网格,支持多达30 TB的备份数据。

要考虑成本

虽然备份后进行处理可提高备份速度,但同样需要成本。备份后删除重复数据的系统要有足够的磁盘空间,因为除了经过重复数据删除的数据外,还要保存全部的标准备份内容。如果用户希望继续执行每周完全备份一次、每天增量备份一次的计划,那么在后台删除重复数据的系统上,可能需要多几倍的磁盘空间来保存全部备份。

正因为重复数据删除在后台运行,不要忽视了重复数据删除的性能。如果到星期一晚上开始再次备份服务器时,VTL还没有完成对周末备份的处理,结果可能不会让用户满意。不是磁盘空间不够了,就是重复数据删除过程导致备份速度减慢。

节省带宽

节省备份设备的磁盘空间不是子文件重复删除技术的惟一应用。新一代的备份软件,包括Asigra的Televaulting、EMC的Avamar Axio和赛门铁克的NetBackup PureDisk采用基于散列的重复数据删除技术,减少了通过广域网发送备份内容所需的带宽。

首先,与进行增量备份的任何传统备份软件一样,这些新一代备份软件使用归档位、上一次修改日期和文件系统更改日志等通常方法,确认上一次备份后发生变化的文件。然后它们对文件进行交叉分析,分成比较小的数据块,为每个数据块算出散列。

然后,这些散列与在本地备份的数据块的本地缓存散列进行比较。如果散列没有出现在本地缓存和文件系统元数据中,就被发送到中央备份服务器,服务器再将数据与散列表进行比较。备份服务器发回散列表,上面是它以前没有发现的散列。被备份的服务器然后发送那些散列代表的数据块到中央服务器加以保护。

这些备份解决方案缩减数据的程度比备份目标还高,因为它不单单删除来自备份到单一目标,甚至备份到整个企业内多个目标的一组服务器的重复数据。如果CEO把一个100 MB的PowerPoint演示文档发送到500个分支机构,该文档就会从最先执行备份计划的那个分支机构备份起来。其他所有分支机构只要发送散列到总部,就会被告知“我们已得到该文档,谢谢!”

这种方法还不容易受到下列影响,那些基于散列系统存在的可扩展性问题。因为每台远程服务器只缓存本地数据的散列,所以该散列表不会增长到超出可用空间的地步;又因为中心站点的磁盘I/O系统其速度比传送备份内容的广域网快得多,就连在磁盘上搜索庞大的散列索引也要比发送数据快得多。

风险并不可怕

用户之所以害怕使用基于散列的重复数据删除,是因为可能会出现散列冲突:两组数据生成相同的散列,因而导致数据受损。尽管因散列冲突而导致数据受损存在一定风险,但这种风险比存储管理员每天容忍的风险要小得多。

重复数据删除方案通常采用MD-5(128位的散列)或者SHA-1(160位的散列)。两个随机的数据块生成相同MD5散列的概率大约是1/1037。如果1PB的数据采用MD-5算法来删除重复数据,数据块大小平均为4KB,那么两个数据块生成相同MD-5散列的概率大约是1万亿亿分之一。

相比之下,平均故障间隔时间(MTBF)为100万小时,两个互为镜像的驱动器,在一小时内彼此出现故障的概率是1/1012——这比出现散列冲突的概率高出了10亿倍。通过以太网或者光纤通道发送的数据会受到CRC-32检验和的保护,这种机制未检验出数据差错的概率大约是40亿分之一。

另外值得一提的是,出现散列冲突的概率不管有多低,并不意味着数据会全部丢失。即使重复数据删除系统误认为两个数据块含有相同的数据(而实际上不是),系统也会继续执行操作。不过数据在恢复时,数据出现误认的那个文件会受损,而其他所有数据会正确恢复。出现散列冲突的概率小于行星碰撞的概率。


柏科ExaGrid – 完整的解决方案!
易于安装、使用并管理
软硬件 – 100% 处于监控协同备份软件程序工作
降低成本 – leverages data reduction techniques
提高备份与恢复的性能和可靠性
缩小备份窗口 30% 到 80%
可以和现有磁带备份的环境兼容使用
Provides an Offsite System for Tape Replacement and Disaster Recovery
Seamlessly Scales as Data or Retention Grows
Includes Automatic Notification, Data Management and Self-Healing

柏科ExaGrid 颠覆性备份方案
1.用户群和合作伙伴
?自从 第一代产品问世后,每季度都有120%的 增长 ?
合作伙伴都是在备份软件领域的领导者地位的公司
?提供于政府、商业领域的行业用户


2.柏科ExaGrid‘s 以创新的方式最小化存储的总容量:

¨对最新备份的数据进行标准的压缩
¨
¨针对之前的备份采用字节级的重复数据删除
¨
¨ExaGrid‘s 字节级的数据对照复制技术存储方式改变了以往全备份方式。 这种独特的
技术使磁盘空间的需求最少能够减少到原来的20分之一, 大大节约成本及提高性能.



3.柏科ExaGrid 划算的磁盘备份
¨快速且可靠地备份及恢复
¨兼容现有所有备份应用
¨最低成本: 由于采用了数据压缩/字节级别重复数据删除
¨易于安装使用并管理的监测系统
¨可升级的架构以应对扩展需求
¨第二个系统作为远程地区的备份保存,可以替代磁带



4.柏科ExaGrid:高档配置
¨Intel Dual-Core XEON?processors
¨Seagate SATA drives
¨RAID 6 with hot spare
¨ExaGrid software

¨
5.柏科ExaGrid: 简单, 快速、可靠
¨指向现有的备份工作
¨高速的直写方式 ¨运行于前端程序之上 ¨备份服务器可以监控所有备份工作¨快速、可靠的磁盘备份
¨快速、可靠的磁盘恢复





6.备份工作是全冗余的!
每次备份大概只有2% 的字节改变


¨ 大多数文件根本就没有改变


¨ 一些文件被删除


¨ 一些文件被增加


¨ 一些文件将部分改变



¨

为什么不只存储那些特殊的数据呢?


¨ 只存储那些字节有所改变的数据,以提高存储效率




字节级的数据对比复制


¨ 进行一次当前的全备份


¨ 对比上次和这次的备份


¨ 仅仅存储字节改变的那部分备份


¨ 备份服务器能够监视到所有的备份工作







7.增加容量、提高性能 as Primary Data Grows
Add ExaGrid servers for increased retention, throughput and capacity
简单地插上电源 – ExaGrid Software Does the Rest
服务虚拟化 ExaGrid 系统
无须配置及增加管理就能自动的使用容量
不会改变你的备份工作和环境


8.柏科ExaGrid – 快速、可靠


ExaGrid:高档配置
Intel Dual-Core XEON? processors
Seagate SATA drives
RAID 6 with hot spare
ExaGrid software
ExaGrid: 简单, 快速、可靠
指向现有的备份工作
高速的直写方式
运行于前端程序之上
备份服务器可以监控所有备份工作
快速、可靠的磁盘备份
快速、可靠的磁盘恢复




9.简易化、自动化
简单易用
简单的Web界面安装与管理
所有的备份和恢复均运行在现有备份应用之上
易于执行校验恢复
自动的Email或SNMP 通知
警报: 容量不够, 系统组件出错
预警通知
所有警报都发送给ExaGrid
硬件冗余、自行恢复
RAID 6 保护数据,可同时允许2块盘出错
热备盘支持
自动重建
冗余电源支持
阅读(547) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~