虚拟磁带库(Virtual Tape Library,VTL)已经产生几年时间了,应用情况却一直不温不火,究其原因,一方面它对备份工作并未带来质的改变,另一方面在于用户对某些功能方面还存在期待。而最近出现的一些新技术给虚拟磁带库带来了新的活力。
磁带是用户进行备份的主要介质,长期以来,用户饱受磁带库的各种困扰,其中最为突出的,是机械磁带库设备安全性差和恢复能力欠佳。虚拟磁带库使用冗余磁盘阵列(RAID)作为存储介质,但是它对主机/网络端和备份管理软件体现为机械磁带库。VTL模拟磁带驱动器、磁带以及机械磁带库的备份过程,因此,对用户来说是透明的,用户甚至不清楚使用的是机械磁带库还是VTL.
VTL在未来几年内将主要表现出如下两个趋势。
价格下降不明显
性能基本满足要求。过去两年时间,VTL在性能方面的进步已经能够满足用户各类应用的需要,甚至可以说,最高端的VTL性能已经超越了最高端磁带库的性能,用户完全可以根据自己的需要进行选择。
价格不会下降太快。一方面VTL是具有高可靠性设计的磁盘系统,控制器等硬件设备决定了价格会维持在一个较高的水平;另一方面,VTL还没有大规模普及,还不能发挥规模效应带来的成本优势。
新兴功能是关键
与VTL平台比较平稳的发展态势相比,一些新功能将是用户最为关注的。虚拟磁带库接下来还有好多事情可以做,用户在购买产品时,应该向厂商询问是否支持下述几点。
更多发挥磁盘在数据管理方面的灵活性。与物理磁带相比,虚拟磁带(磁盘)显然具有快速、灵活的数据管理能力。如果只是模拟物理磁带,VTL在改变用户备份/恢复流程方面发挥的作用自然有所限制。不久的将来,会出现更多基于磁盘的数据管理功能,以改善用户的备份工作。
可以减少备份所需的磁盘容量。实现的方法是,使用VTL执行一个常规全量或增量备份,当备份执行后,将检查普通文件和普通数据块的备份,只存储全新的文件和数据块。如果有一个全量备份,并且一个文件已经备份,该文件在备份后可以被删除,用一个指针来取代它。如果是一个给定文件的增量备份,该文件只有两块数据发生了改变,就可以只存储两块数据,剩余的部分用一个指针代替。
VTL兼容多种品牌的备份软件。假设用户已经使用A品牌备份软件产品做备份很多年了,但希望开始使用新的B品牌备份软件。如果VTL可以将A格式的备份虚拟为B格式的备份,用户就好像一直在使用B软件进行备份。同样,VTL还可以将B格式备份虚拟成A格式的。那么用户就可以不被备份软件绑定,从而在选择备份软件方面带来更大灵活性。
技术篇:发挥磁盘管理优势
虚拟文件系统
如前文所述,在使用时,VTL可以被看作是一个机械磁带库,两者的工作流程可以完全一致。然而,这样做仅仅是对传统磁带库的模拟,还没有发挥磁盘在数据管理工作中的灵活性。因此,用户还希望VTL在数据管理中充分发挥类似在线设备那样的优势。虚拟文件系统便是这样一种技术。
众所周知,磁带是一种顺序的块级设备:一方面在数据读写方面都必须“顺序”到达指定位置才能操作;另一方面块级数据没有文件的概念,在恢复数据时只有完全恢复整盘磁带才能获得特定的文件。
虚拟文件系统通过一个NFS/CIFS界面可以把相同的文件列表作为一个虚拟文件系统展示出来。该文件系统甚至可以被安装用以读/写访问,允许用户立刻使用备份的文件系统从一文件系统备份即时恢复。虚拟文件系统的所有变化会被记录下来,并且以一种增量备份展现给备份软件。一旦真正的文件系统被恢复,可以使用备份软件将虚拟文件系统的改动恢复到原始卷。
如此一来,用户可以通过使用虚拟文件系统恢复特定的文件,而无须像传统恢复过程中那样恢复整盘虚拟磁带。
重复数据删除
重复数据删除技术同样利用了磁盘的管理优势。它主要应用在VTL中,因为在传统磁带中是无法实现重复数据删除的。企业战略集团创始人兼分析师SteveDuplessie说:“重复数据删除技术可能是存储行业最重要的一项新兴技术,这会让更多数据管理和保护目标变得更切实际”。
分析家们认为,异军突起的重复数据删除技术,将会改写存储行业的经济规则,实际存档的数据将会呈几何级别递减,大幅削减存储成本,借助于重复数据删除技术,用户的存档数据所占用的空间将会缩减为现在的5%.
ADIC近期以6300万美元收购来自于澳大利亚阿德莱德(Adelaide)的重复数据删除软件开发商RocksoftLtd.。该公司独家专利的重复数据删除软件技术,可自动搜索磁盘上保存的重复文件副本,并使用指向单一副本的指针替换掉其它重复副本;万一用户对重复副本的内容做了修改,那么,该软件将会自动为该文件创建一个可写入的拷贝。ADIC打算将其整合到PathLightVX虚拟磁带库和StorNext存档软件内。
在HDS最新发布的VTL产品中,采用了Diligent公司的ProtecTIER VT with HyperFactor重复数据删除技术。HDS称,该解决方案可以从根本上将物理存储需求降至原来的二十五分之一甚至更低。
近期, Sepaton公司宣布了其新一代的重复数据删除技术,以及实现该技术的应用软件DeltaStor.DeltaStor软件可以消除无变化的数据或复制的数据,从而使用户以很低的成本在线存储更多的数据,在不影响备份窗口的前提下实现高效的重复数据删除。
DeltaStor软件的核心是Sepaton内容已知的数据库。DeltaStor软件使用元数据标志数据对象之间的关系,并智能地做出处理决定。
重复数据删除的五个阶段
数据收集
在数据收集阶段,软件通过比较进入的备份数据和先前的备份缩小需要进行分析数据的范围,使用“内容已知”数据库辨别它们之间可能的重复和相似数据。例如,如果名为同一个客户端中的 “ ootdocumentsabc.txt”文件在备份中存在两次,软件自动决定采取何种动作。如果进入的数据是已存在数据的修改版本,该数据就进入下一阶段(数据识别、数据比较)的处理流程以确定数据发生的具体变化;如果进入的数据和已存在数据完全相同,那么进入下一阶段对数据副本进行校验。另外的数据收集操作包括:标志保存在不同位置(例如,不同的客户端、目录等)的相同对象副本。软件还为数据收集阶段发现的冗余数据对创建一工作列表,该表格用于数据识别和比较阶段进行进一步分析。
数据识别/数据比较
在数据识别/数据比较阶段,软件以字节为单位分析数据收集阶段标志出的相似数据对象。如果数据收集阶段创建的工作表表明需要进行数据识别,那么软件就会用 delta 差分算法确定备份组中的哪些数据是唯一的、哪些数据是重复的。
该算法可以有效地以字节为单位映射发生变化的数据,并且对数据对象内的偏移或者位置改变不敏感,所以,即使相关的对象之间发生明显的结构改变,该算法仍可以定位冗余的数据。
如果数据收集阶段从元数据级别认定备份组中的数据和前一个备份相同,那么在数据识别阶段将以字节为单位对数据进行比较。在该步骤中,软件调用数据比较器识别出数据发生变化的文件。
数据重组
数据识别/数据比较的结果被传递给数据重组过程,在该过程中数据被重新组装,放入临时的“保留磁带”中,新数据被保存,前一阶段被标出的重复数据被已存数据的指针替代。对备份软件而言,保留磁带和真正的磁带完全相同,只是存储在新磁带中的数据要远少于真正的磁带上存储的数据。从备份软件看来,数据是连续的并且也没有删除副本, 软件可以根据嵌入在文件系统中的指针读取重复数据的唯一一份副本。该过程的最终结果是产生一份经过重复数据删除的备份组视图。
可选的完整性检查
在实际删除所有的重复数据前,软件执行一次可选的检查,以保证数据100%的完整性。在本阶段中,软件通过将“保留磁带”(代表经过重复数据删除的数据)和原始数据进行比较验证其结构和整个数据内容。
空间回收
在空间回收阶段,软件从文件系统中删除冗余的数据,释放先前被占用的磁盘空间以备他用。保留磁带和原始的、没有经过重复数据删除的磁带交换位置(比如条码、槽位以及属性等),然后软件智能的释放重复的区块并将它们放回空闲空间池。经过这样的处理以后,所有其他需要存储空间的数据处理过程都可以重用先前被重复数据占用的空间。
选购篇:虚拟带库不都一样
主流厂商一个不少
去年,笔者在《虚拟磁带库 变革数据保护流程》的文章中介绍了几款VTL产品(具体内容见网界网:),包括EMC、HP、IBM这样的存储系统厂商,包括ADIC、昆腾这样的传统磁带库厂商,还包括像Sepaton这样的专业VTL厂商,今年,它们的产品都有一定的改进与升级。
此外,NetApp在今年年初发布了两款VTL产品NearStore VTL600和NearStoreVTL1200.其中,VTL600采用单控制器,VTL1200采用双控制器,其存储容量VTL600为4.5TB~84TB,持续写入吞吐量为1.8TB/小时,最大模拟磁带库256个,而VTL1200则是它的2倍。据NetApp公司中国区技术总监岑广海介绍,新产品采用了自我调整技术,当数据负载发生变化时,可自动将备份数据流不间断地分配给可用性最高的磁盘,实现了高性能的大模块连续磁盘传输,写入吞吐量达到1000MBps;新产品可模拟现有的磁带机和磁带库,使用与现有的物理库相同的磁带机技术、查询字符串和几何值来创建虚拟库,并兼容目前市场上几乎所有厂商的备份软件,从而实现方便的即插即用集成。该解决方案兼容其他存储厂商的主存储系统,利用在线备份和点对时(point-in-time)的快照功能实现数据接入最大化。通过消除冗余数据和单一点对点(point-and-click)界面带来的整体数据保护流程的简化来减少介质应用。
最近HDS也推出了VTL.HDS公司与Diligent公司达成全球销售售,推出这一解决方案。HDS虚拟磁带库解决方案用于大型机和开放系统环境,用户无须更改其现有备份环境、规则或程序,就能以比传统磁带库技术更低的总体拥有成本,获得“磁盘到磁盘”(disk-to-disk)备份的优势。HDS的VTL解决方案无需改变用户现有的备份规则、习惯或程序。这是由于在备份应用看来,该虚拟磁带解决方案就是一个或多个真实的磁带库,因此备份应用把它当作一个物理磁带库,按往常一样进行对驱动器、机械臂和磁带匣的访问。由于数据实际上是存在磁盘上,用户能够在数据备份和恢复的操作过程中感受到明显的性能提升。
至此我们可以说,主流的存储厂商目前都拥有了虚拟磁带库解决方案。
四大要素仔细考量 像选购其他存储设备一样,在考量各个厂商的VTL产品时,用户要对厂商及其产品有一个宏观的概念,比如产品的市场接受程度、厂商的技术支持能力、产品的投资保护等。更重要的是,要在如下几个方面对产品进行详细比较。
性能 不是所有的虚拟磁带解决方案都能提供同样水平的性能。很多因素影响系统的整体性能与流量,包括存储控制器的处理能力、磁盘驱动的速度、通往后端磁盘路径的数量与种类、固件的效率等。其他一些因素也能提高(或损害)性能,例如是否部署压缩或者磁盘系统如何管理。
需要考虑的性能方面的问题有:
基于磁盘的备份系统的最大吞吐量是多少?
厂商有没有基准可描述不同环境中的系统性能?
实现最大性能需要多少磁盘架?
与物理的磁带整合
虽然所有的虚拟磁带解决方案模拟磁带设备,并不是所有的解决方案都能直接写入物理磁带设备。以下是两种方法。
第一种方法,虚拟磁带软件只管理磁盘存储器,不管理物理磁带设备。当一个虚拟盒式磁带必须被拷贝到一个物理盒式磁带的时候,管理员必须设置一个分开的备份步骤。最初创建磁盘备份映像的备份应用被用于拷贝或克隆映像到物理的磁带,进行长期存储或离线灾备恢复。
第二种方法,虚拟磁带库使用VTL设备中的处理器而非备份服务器,在磁盘和磁带之间转移数据。虚拟磁带软件跟踪被备份数据的物理地点,并能通过业务需求专用路径在磁盘与磁带之间转移备份拷贝。在某些情况下,输出的磁带为专有格式,使用之前必须重输到虚拟磁带库。
计划从磁带库中迁移磁带用作灾备用途的用户必须确定磁带是否可以被备份应用程序直接使用,还是必须在读取之前返回到磁带库。
需要考虑的物理磁带整合的问题有:
备份应用是否将磁盘备份拷贝到一个物理盒式磁带,盒式磁带是否仍在备份应用的控制之下?
这样做对性能有什么影响?
如果盒式磁带从库中退出并用于离线灾备恢复,它是不得不被重输到磁带库中还是写成可直接从独立驱动中读取的原始格式?
压缩
有两种方法压缩数据——通过硬件压缩或通过软件压缩。对基于硬件的压缩,特殊目的处理芯片在数据进入系统时进行压缩。这种处理比基于软件的压缩高效得多。事实上,软件压缩会损害性能,对于必须提高其备份性能的用户不是一个可行的选择。
需要考虑的压缩问题有:
系统是否支持硬件或软件压缩?
压缩如何影响系统性能?
数据压缩率低的时候如何影响到性能?
如果性能降低,能否停止压缩?
虚拟盒式磁带的尺寸是否固定?
磁带设备与磁带库模拟
较小的虚拟磁带系统只模拟磁带设备,较大的系统模拟磁带设备与磁带库。在这些较大的系统中,对于备份软件来说,磁盘容量被表示为一个或多个磁带库,包括设备、盒和机械手。因为该磁盘作为一个磁带库的形式出现,管理员能够很容易地在不同设备之间共享该系统的容量与流量。当设备模拟与磁带库模拟都起作用的时候,磁带库解决方案是支持多个备份服务器的较好选择。
需要考虑的模拟的问题有:
哪些磁带设备(与盒式磁带)被模拟?
该产品只支持一种库、设备和带盒,还是支持多种设备与媒介?
如果被模拟的设备不同于当前安装的设备,需要对备份应用程序做出改动吗?
应用篇:VTL担当灾难恢复重任
银行应用高效节约
国内某知名银行在当今众多的新型备份技术和设备中,进行了严格和筛选,最终选择了Sepaton有限公司的S2100-ES2虚拟磁带库和VERITAS NetBackup备份软件来组建一个先进、快速、稳定、
安全的备份系统。
该解决方案将备份作业切分为两个部分:第一部分利用快速的虚拟磁带库设备在Veritas软件的控制下进行数据备份,在规定的时间内,按照用户要求快速完成将数据备份;第二部分仍然在Veritas软件控制下,针对已完成备份的数据中需要进行长时间保存的数据,利用Vault功能,在不占用业务主机资源的情况下,运用虚拟磁带库匹配物理磁带库进行数据复制,做离线保存。数据恢复作业同样分为两个部分:从虚拟磁带库做快速恢复,从物理磁带库做离线数据恢复。
采用本方案后,根据用户现场实测,在Sepaton S2100-ES2和VERITASNetBackup配合使用的情况下,备份DB2数据库120GB数据,使用单数据流、单个虚拟磁带驱动器进行备份,20分钟内即完成备份,平均速度在100MBps.在并发数据流和多虚拟驱动器并发工作时,按照用户要求,在3.5小时内完成多个数据库的,数据总量超过4TB的数据备份(其中有一个数据库的数据就有3TB),以及超过2.5TB的报文数据备份。由于采用ES2的综合全量备份功能,大大削减了直接生成新全量备份、由增量备份和原有全量备份生成合成全量备份所需的时间,节约了存储容量资源,并使得VeritasNetBackup新的合成备份更加有效率。ES2基于内容的压缩功能用户的文件系统按照1∶21的比例进行压缩备份,大大节约了存储空间。
CitiStreet更新的备份/恢复系统:
两个数据中心拥有约100TB的数据一台35TB的SepatonS2100-ES2虚拟磁带库运行在一个数据中心的HP-UX环境中另一台40TB的Sepaton虚拟磁带库正在第二个数据中心部署ES2在大约4小时内备份700GB数据,而在部署VTL之前大约需要24至30小时VTL替代原有磁带
美国Citigroup与StateStreet的合资企业CitiStreet是美国最大的保险福利提供商和退休计划记录管理机构之一。该公司为900多万退休计划参与者提供服务。总部设在马萨诸塞州Quincy市的CitiStreet使用安装在佛罗里达州Jacksonville市数据中心的35TB SepatonS2100-ES2虚拟磁带库已经有一年多时间了,并且正在向其Quincy数据中心安装一台40TB的虚拟磁带库。CitiStreet系统集成经理Jeff Machols说,公司将淘汰两个老迈的Quantum ATL磁带库设备,每个磁带库包含4台DLT7000磁带机。到那时,VTL将使两个数据中心可以相互提供快速的灾难恢复。Machols最近就使用虚拟磁带库方面的几个问题进行了探讨。
问:是什么促使你们采用虚拟磁带库?
答:Quantum设备开始显示老迈之态,并且随着法规遵从性走到前台,符合遵从性审计的安全性开始成为一个重要问题。此外,我们当时要在晚上进行很多批处理工作,因此我们必须缩小备份窗口时间,因为备份占我们批处理的很大一部分。每条备份批处理流都要花上1~3个小时,而且每个客户都有自己的批处理周期。
我们使用的Quantum ATL已经使用5到7年了。更重要的是,这种存储设备开始老化,但是我们不想购买数百盘磁带,因此合理的选择是开始寻找其他解决方案。
问:你们当时知道你们需要虚拟磁带吗?
答:最初,我们打算更新我们的磁带库硬件。大约3年前,我们头一次看到了VTL.不过它们当时还没能成为主流产品,并且市场上的产品比较少,而且不具有真正的可伸缩性。从软件和它们的路线图上看,它们并不先进。不过,当我们开始认真考虑取代Quantum磁带库时,市场上出现了更多的企业级系统。
我们研究了传统的磁带备份,还有像NAS和虚拟磁带这类技术。网络连接存储会改变我们的备份流程、软件、脚本,因为它是一种完全不同的存储技术。虚拟磁带可以仿真磁带库。因此,我们不必修改任何软件或更新我们任何的备份或恢复流程—我们的备份软件以及备份和恢复脚本。
问:VTL使你们可以更快地进行备份了吗?
答:非常快。我们的备份速度从平均每秒2MB~3MB增加到了超过每秒30MB.
问:虚拟磁带被称为是一种低价备份技术。对于你们来说,是这样吗?
答:当你购买实际的存储库、硬盘和磁带媒介时,虚拟磁带的每兆字节的成本大体相同。以大体相同的费用,我们可以得到10倍的性能以及未来软件功能的额外好处。
问:虚拟磁带库为你提供了物理磁带不能提供的哪些功能?
答:最主要的功能是设备级复制。Sepaton能够与另一台Sepaton通信,克隆保存在整个设备上的数据。它为我们提供了一条通过加密的专用线路传送数据的安全方式,而这正是我们进行灾难恢复时所采用的方式。这比使用第三方磁带存储厂商,把我们的存储介质拿到站外保存要有效得多。此外,它还提供了另一个减少我们所需物理空间的内容感知功能。Sepaton 使用某种类型的压缩技术和增量保存技术,知道这些数据与昨天的数据是相同的,只备份新数据,因此减少了我们需要的存储容量,从而也减少了费用。
问:一旦确定你们需要虚拟磁带后,你们是如何确定系统要求的?
答:我们进行深入的调查。当你研究各种不同的产品时,实际上它们都是SATA连接硬盘。因此,本质上,它们基本上是相同的。对我来说,每秒I/O存取时间2%到5%的差异并不重要。我之所以看上Sepaton是它在复制、减少存储容量的内容感知备份等这些方面领先于其他产品。同时,当你涉及一项全新的技术时,一家年轻的厂商具有吸引力,因为它关注新的备份和恢复范例。
制约VTL快速发展两因素
关于磁带与磁盘的争论已经出现了好多年,直到目前还没有停息。VTL的出现让用户眼前一亮,它结合了磁带与磁盘的优点,按照某些VTL厂商的观点, VTL应该很快占领数据备份的广阔领地。然而,这样的情况并没有发生,笔者认为主要有两类因素制约了VTL的快速应用与普及。
其一是用户需求。传统磁带/磁带库在备份/恢复工作中遇到的各类困扰,每个用户都十分清楚。关键在于,对于大多数用户来说,这些困扰还没有达到影响用户核心应用的地方,况且,一般来说备份数据都是次要的离线数据,即使出现了丢失的情况,都可以在线下慢慢解决。换句话说,用户对VTL的需求都存在,但是还没有迫切到非得采用的地步。因此,目前部署VTL的用户大多还是对备份工作要求高的电信、金融用户。
另一因素是VTL的功能。目前用户使用VTL的功能还限制在模拟机械磁带库的范畴,这对广大用户的吸引力还比较有限。如果VTL能够在短期内实现曾经承诺的一些新功能,情况就会出现转机。重复数据删除技术就是一个很好的例子,尽管VTL的在线属性制约其独立使用(还必须与磁带配合使用),但是采用重复数据删除技术从理论上减少了磁带介质的使用。
VTL的应用会越来越多,这是一种趋势,而用户需求的不断提高以及VTL自身在功能方面的不断完善,则会大大加速这个过程。