分类: 服务器与存储
2008-07-29 11:08:05
虚拟磁带库的兴起
磁带的传统优势是介质便宜,便于异地保存。随着硬盘价格的下降、异地备份和复制技术的发展,磁带的这两大优势,硬盘也能够做到,甚至能够以更高的性能实现。与此同时,磁带存储是利用介质的物理特性(即磁性)来存储数据,这一物理特性容易受温度、湿度、磁场等环境因素的影响。磁盘是利用介质的电子特性保存数据的,受环境的影响比磁带小得多,而且存取速度也比磁带高得多。
正因为如此,磁盘逐步取代磁带成为数据存储的首选介质。来自Freeman研究公司的一份最新报告称,从2005年到2006年,磁带库的收入下降了15%。每兆字节磁盘的成本还在持续下降,因此,磁盘与磁带之间的价格差距也在不断缩小。有人甚至怀疑磁带是否真的比磁盘便宜。调查显示,有21%的企业将数据备份到磁盘上,51%的企业将数据备份到磁盘上之后还要再备份到磁带上,另有29%的企业只备份到磁带上。
虚拟磁带库的产生,就是在充分考虑磁带的用户基础的情况下、利用硬盘技术优势的产物。在虚拟磁带库之前,智能化磁带库技术首先在1987年左右出现。它主要解决成千上万磁带的查找和读取问题。因为数据磁带日积月累、越来越多,手工管理的效率越来越低、差错率越来越高,于是出现了智能化磁带库,通过机械手自动地查找和管理磁带。智能化磁带库的推出实际上挽救了磁带行业。因为人们已经厌倦了成千上万个磁带,自动化功能的缺失会扼杀磁带行业。但是,智能化磁带库仍然没有彻底解决效率问题,因为机械手操作与磁盘读取相比,速度仍然很慢,而且磁带的价格优势也大打折扣。
虚拟磁带库技术在磁盘和磁带存储之间找到一个折衷方案,即在应用端模拟磁带的存储方式,例如模拟出传统磁带库的机头、驱动器、槽位等信息,而在存储端完全采用磁盘存储。这样,不用修改原来的应用程序,用户除了看到备份性能提高外,感觉不到应用方式的变化,从而实现了应用的投资保护。这样的折衷方案,使得虚拟磁带库市场迅速发展,被越来越广泛的用户所接受。
虚拟磁带库的热点技术
当前,重复数据删除和节能技术是虚拟磁带库的两大热点。
1. 重复数据删除
企业存储管理员在备份数据时,经常发现重复数据。例如,几百份相同的汶川抗震救灾图片,几十份外卖菜单的扫描件,上千份的最新产品PPT技术资料等。因为公司内同事之间转发这类邮件的现象非常普遍,而根据萨班斯法案及相关规定,公司邮件必须作为资料长期保存,即使浪费存储空间、备份时间也不得不如此。
重复数据删除的出现正好找到这一问题的痛点。重复数据删除技术按照部署位置可分为源端重复数据删除和目标端重复数据删除。顾名思义,源端重复数据删除就是先删除重复数据,再将数据传到备份设备;目标端重复数据删除是先将数据传到备份设备,存储时再删除重复数据。按照检查重复数据的算法不同,重复数据删除可以分为对象(文件)级和块级的重复数据删除。对象级的重复数据删除保证文件不重复;块级重复数据删除则将文件分成数据块进行比较,根据划分数据块的不同方法,又可分为定长块和变长块的重复数据删除技术。变长块的方法可以“斤斤计较”地把每一个重复的字节都删掉,重复删除率最高;定长块的技术只能大致地把相同的数据块去掉,删除率次之。
由于虚拟磁带库的初衷是不改变原有的备份应用模式,因此只能采用目标端的重复数据删除技术,例如EMC最新发布的DL3D 1500、DL3D 3000和即将发布的DL 3D 4000系列虚拟磁带库,就采用变长块的目标端重复数据删除技术。
比较理想的重复数据删除产品,应该能够允许用户可以根据不同的应用场合,选择不同的重复数据删除策略。例如,对一些已知重复率不高的数据,关闭重复数据删除功能,从而提高系统运行效率。
运用重复数据删除技术,可以大大节省存储空间,数据压缩率能够达到20∶1或者50∶1之间。以EMC DL3D 3000为例,其最大容量为148TB,由于重复数据删除技术的作用,其存储容量相当于原来PB级的产品。
2. 节能技术
节能是当前全人类面临的课题,IT业自然不能例外。EMC认为,节能不能局限在某个设备上,而要考虑综合性的因素。比如,单单比较磁带和磁盘,磁带一定比磁盘节能,但是如果考虑整个信息生命周期,磁盘就未必比磁带差。开发重复数据删除技术,将数据压缩几十倍甚至几百倍,极大地减少存储设备的使用量,恐怕比单个设备的节能效率要高得多。另外,设备节能了,客户没有优化数据、合理地使用节能功能,同样也不能提高能源效率。这里仅从虚拟磁带库本身出发,谈一谈节能的问题。
虚拟磁带库是用于备份的设备。备份的特点是,在备份窗口内磁盘的使用率比较高,不在备份窗口的时候,磁盘的使用率比较低。因此,Spin Down磁盘降速技术(有些厂商称为MAID,即Massive Arrays of Idle Disks,大规模非活动磁盘阵列)就能派上用场。当磁盘闲置时,降低磁盘转速甚至关闭磁盘,从而达到节能的目的。虚拟磁带库节能的另一个措施是,采用大容量、低功耗磁盘。低功耗是通过低转速实现的,因为备份对速度要求不必那么高。大容量可以减少磁盘的数量,从而实现节能。如图2所示,以EMC为例,EMC EDL 4000系列虚拟磁盘库通过Spin Down和低功能磁盘两项技术,能耗可以降低47%。