Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1991492
  • 博文数量: 346
  • 博客积分: 10221
  • 博客等级: 上将
  • 技术积分: 4079
  • 用 户 组: 普通用户
  • 注册时间: 2009-06-01 19:43
文章分类

全部博文(346)

文章存档

2012年(1)

2011年(102)

2010年(116)

2009年(127)

我的朋友

分类: 服务器与存储

2010-08-13 16:52:43

小布什总统任期的第一年,美国遭遇了“9.11”;小布什总统任期的最后一年,中国爆发了汶川大地震。当然,后两者之间没有任何必然的联系,不过,这以灾难始,又以灾难终的八年,着着实实地让大多数人都意识到了灾备的必要性,从而极大地促进了相应领域的发展。

  现在,至少存储行业内部,已经很少有人质疑灾难备份的意义。然而,备份到什么程度,灾难发生后多久能够恢复,却大有学问。虽然不难明白“软件投资+设备投资+人员费用 << 数据损坏造成的损失”的道理,但却很少有人能完全无视软硬件和人员上的成本。


国标GB/T20988-2007制定了6个灾难恢复等级

  在国外,IBM很早之前就将灾难恢复解决方案分为7个层次(tier);在国内,2005年国信办组织8个部委,出台了一个重要信息系统灾难恢复指南,在2007年演变为国标GB/T20988-2007。它制定了6个灾难恢复等级,对不同级别的灾难,提出了不同的备份/恢复要求,对于容灾的级别定义是非常有指导意义的。


灾备级别与投资的关系——级别越高,投资越大

  6级也好,7层也罢,都是层级越高,数据丢失越少,恢复速度越快,但容灾项目投资也是水涨船高。在不考虑成本的情况下,每个人当然都希望灾难发生后数据零丢失(RPO最近),业务能立即恢复(RTO最短),但这是很不现实的。有道是,“最好的容灾方案是综合考虑不同层次的恢复方案,以最少的投资换取最大的收益”,如果业务停顿和数据丢失的程度在可接受的范围之内,没有必要糜费巨资去追求过高的灾难恢复层级。

  Commvault中国区技术总监邱利公表示,现在很多用户已经很理性了,会根据自己企业的情况,去看实现哪一级就基本满足灾备要求,不会盲目地去追求高级别。在这样的大背景下,Commvault发现了一个有趣的新动向。

就国标定义的前4个灾难恢复等级而言,第1级和第2级其实都是一个数据备份、异地存放的操作,用磁带出库的方法即可满足;第3级和第4级是用电子传输的方式将备份数据复制到容灾站点,包括CommVualt在内的很多软硬件厂商也不难做到,没有很本质的差异。

  至于最高的第6级,要求数据零丢失,应用能够在几分钟之内恢复,又是难以达到的。邱利公认为,一方面,从硬件的角度来说,很多业务系统运行在大型主机(如IBM专有主机)上,很多都是容错机,两台机器同时做同一件事,坏一台就换一台,做到6级是有可能的,但开放系统的机器可能做不到6级;另一方面,即使是两地三中心模式的容灾方案,也不能完全保证百分之百地不丢失数据,到真正灾难的时候,整个运行计划包括很多非技术因素在内。要实现容灾6级,非技术方面的因素很多,不再是Commvault能够解决的。在6级,Commvault的角色是在于控制流程,包括数据怎么传输,如何零丢失,可以和硬件实施同步配合,进行演练,还有控制硬件的快照等等。

  总的来说,作为一家纯粹的软件厂商,Commvault能提供的是1-5级的容灾方案,而其中的变数,就在于第5级。

  我们知道,无论从业务连续性的需求,还是从IT开支的充裕程度来看,金融和电信行业的客户都是最有可能实施第6级容灾方案的了。但是,正如葛大爷所说,“地主家也没有余粮啊”,即使是金融或电信企业,也不会所有的应用(如移动的经营分析系统)都需要第6级的保护,能省则省的理念还是值得提倡的。

  既然6级没必要,那么退而求其次,对生产数据进行电子传输的5级容灾方案便有了市场。Commvault的5级容灾方案通过实时复制文件或数据库日志,在容灾端进行数据库的日志前滚和快照,达到分钟级的RPO和RTO。这种方案,被银行客户形象地称为“应急库”。

  这些银行客户的核心系统采用了两地三中心的方案,容灾级别已经很高了。还有一些系统也很重要,半个小时内出了问题,半个小时内就能接管应用,数据不能丢失很多,但是又不可能花那么多钱做两地三中心式的容灾,于是便有了应急库的概念。


Commvault容灾库实现5级灾难恢复方案的数据流程

  所谓应急库,就是在容灾端建立一个应急系统。在容灾端对应急库进行初始化时,把日常备份的数据先都搬过去,以后再搬变化的数据。搬过去可以用任何方法,包括常规备份恢复的手段都可以,把数据库恢复过去即可。然后可以用Commvault的连续数据复制(CDR)组件,把数据库的归档日志复制到容灾端。容灾端由Commvault控制做数据库的前滚,同时一个小时对其做一次快照,完成整套流程。

  据邱利公介绍,Commvault的应急库有如下优点:

  包括备份、复制、快照在内的一体化保护方式,能够避免用户生产系统的物理和逻辑故障;

  硬件或卷复制及数据库复制软件无法避免所有逻辑错误

  无需修改用户现有的存储方式和数据结构,减少实施风险;

  硬件或卷复制需要更改生产系统的存储体系和数据结构,实施复杂,风险和成本很高,而且上了这个平台就无法更改

  用一个图形化界面统一管理整个应急流程,并且有图形化的报表、报警、监控等功能,方便用户的管理和运维;

  数据库复制软件没有完善的监控机制和报表机制,需要大量的人工干预

  复制时支持网络流量控制和操作时间窗口,能够适应窄带宽和广域网的环境;

  硬件或卷复制及数据库复制软件没有针对网络流量的控制机制和操作时间窗口,在窄带宽和广域网上容易引起故障

  由于是基于操作系统的复制,与数据库无关,不会由于意外原因干扰生产数据库的使用;

  数据库复制软件的复制机制是基于数据库内部的,有可能由于其他故障(网络,应急主机等)干扰生产数据库系统的运行

  方便实现容灾系统的演练、验证和重建,而且这些操作不会干扰生产系统的运行;

  数据库复制软件初始化和灾难重建的时候,操作复杂,仍需要与备份软件配合

  硬件或卷复制初始化的时候,传送整个卷的数据量,对生产系统、网络的压力比较大

  由于容灾系统上的数据库处于Recover状态,所以RTO很短;

  硬件或卷复制的容灾端数据库是非活动状态,难以确保RTO

  容灾系统上还保留多个时间点的快照,从而可以快速回退到前一个时间点的状态;

  同时容灾系统上还保留一段时间内的归档日志,所以用户可以回退到故障发生的任意时间点,减少发生故障造成的数据丢失量。

  值得一提的是,“应急库”是一个具有中国特色的概念,它实际上是很多产品加上流程组成的一种方案,在美国也有,但是没有形成这样的一个称呼。邱利公认为,容灾在中国的发展其实比美国快。9.11之后,容灾需求非常多的是在中国。当然,国外的模式广泛一些,有一些第三方提供容灾服务,但是在企业自己做容灾的需求上,还是中国更多,当时是铺天盖地基本上所有的都在考虑。只不过到底应该怎么做,大家都没有一个具体的想法。两地三中心刚提出来时,大家觉得是一个标准。真正评估了一段之后,发现成本太高,又要用其他的方法。所以国标直到2007年才定下来,让大家有了一个参考的标准。无论如何,中国需要容灾的用户是不少的,而Commvault容灾库解决方案的出现丰富了用户的选择。
阅读(1907) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~