分类: 服务器与存储
2008-06-11 18:24:23
DR(Disaster Rocovery)就是为了保持业务连续性的一种架构,Disaster Rocovery,大体的意思就是“灾难”后进行恢复。灾难的发生总是不可避免的,因此就需要对关键的数据、设备和业务进行保护。在业界也经常称之为容灾。
那么我们究竟需要容什么样的灾呢?是否所有的企业都需要达到一个完全无缝的连续业务运营级别呢?什么样的企业能够允许什么样的灾难呢?在这里业界把容灾分成了若干级别,并具体定义了每一个级别对于数据不同的要求:
七等级容灾实现不同级别
0层- 没有异地数据(No off-site Data)
Tier0即没有任何异地备份或应急计划。数据仅在本地进行备份恢复,没有数据送往异地。事实上这一层并不具备真正灾难恢复的能力。
1层- PTAM卡车运送访问方式 (Pickup Truck Access Method)
Tier1的灾难恢复方案必须设计一个应急方案,能够备份所需要的信息并将它在异地。PTAM指将本地备份的数据用交通工具送到远方。这种方案相对来说成本较低,但难于管理。
2层- PTAM卡车运送访问方式+热备份中心 (PTAM + Hot Center)
Tier2相当于Tier1再加上热备份中心能力的进一步的灾难恢复。热备份中心拥有足够的硬件和设备去支持关键应用。相比于Tier1,明显降低了灾难恢复时间。
3层- 电子链接 (Electronic Vaulting)
Tier3是在Tier2的基础上用电子链路取代了卡车进行数据的传送的进一步的灾难恢复。由于热备份中心要保持持续运行,增加了成本,但提高了灾难恢复速度。
4层- 活动状态的备份中心 (Active Secondary Center)
Tier4指两个中心同时处于活动状态并同时互相备份,在这种情况下,工作负载可能在两个中心之间分享。在灾难发生时,关键应用的恢复也可降低到小时级或分钟级。
5层– 两个活动的数据中心,确保数据一致性的两阶段传输承诺(Two-Site Two-Phase Commit)
Tier5则提供了更好的数据完整性和一致性。也就是说,Tier5需要两中心与中心的数据都被同时更新。在灾难发生时,仅是传送中的数据被丢失,恢复时间被降低到分钟级。
6层- 0数据丢失 (Zero Data Loss),自动系统故障切换
Tier6可以实现0数据丢失率,被认为是灾难恢复的最高级别,在本地和远程的所有数据被更新的同时,利用了双重在线存储和完全的网络切换能力,当发生灾难时,能够提供跨站点动态负载平衡和自动系统故障切换功能。
容灾与业务连续性
根据我们前面对容灾7个等级的界定,我们针对每个等级的容灾推出了适用的容灾方案。当然,这些方案的费用也是依次递增的。
尽管我们发现容灾会耗费相当多的财务以及人力的投入,但是在今天IT环境越来越复杂的前提下,有很多事情已经不能离开这个环境而独立存在了。为此,企业需要通过容灾等等技术手段来建立业务连续性系统。建立业务连续性系统之前,首先需要考虑能够允许的停机时间限度。见下图:
三类容灾方案
毫无疑问,容灾是一个庞大耗时耗力的大型工程,因此,在建设容灾工程的开始,我们就必须提出明确的容灾系统设计指标,作为衡量和选择容灾解决方案的参数。
这些指标通常包括:备份/恢复允许的时间范围;灾难恢复计划的状态;业务中心与容灾中心之间的距离;业务中心与容灾中心之间如何相互连接;数据是怎样在两个中心之间传送的;能够允许有多少数据被丢失;怎样保证更新的数据在容灾中心被更新;容灾中心可以开始容灾进程的能力。
以上是借鉴国际上通用的容灾系统的评审标准Share78提出的容灾工程的具体需求,但只能作为选择容灾方案时的一种评审标准,在设计容灾系统时,还需要提供更加具体的设计指标。
此外,从容灾的方案来说,可以分为3个级别:数据级别、应用级别以及业务级别。
数据级别容灾,指灾难发生后以后可以确保数据不会丢失或者遭到破坏。数据级的容灾是比较基础的,其中,成本较低的数据容灾方案中,仅需利用库和备份就能实现数据异地备份,达到数据复制的效果;而较高级的数据备份方案则是依靠数据复制工具,例如卷复制软件,或者硬件控制器的远程数据同步功能,实现数据的远程复制。
数据级别容灾是保障数据可用的最后底线,当数据丢失时能够保证应用系统可以重新得到所有数据。从这种意义上讲,数据备份属于该级别容灾,用户把重要的数据存放在磁带上,如果考虑到高级别的性还可以把磁带运送到远距离的地方保存,当灾难发生后,从磁带中获取数据。该级别灾难恢复时间较长,仍然存在风险,尽管用户原有数据没有丢失,但是应用会被中断,用户业务也被迫停止。
应用级别的容灾是以数据级容灾为基础的,在数据不丢失的前提下,把系统和应用软件都进行复制,当然这里所说的复制不是拷贝一份那么简单,还要涉及到主节点故障的时候,备用节点需要知晓,并且把应用和数据全部接管,代替主节点工作。也就是说,在备份站点同样构建一套应用系统。
应用级容灾系统能提供不间断的应用服务,让用户应用的服务请求能够透明地继续运行,而感受不到灾难的发生,保证信息系统提供的服务完整、可靠、安全。一般来说,应用级容灾系统需要通过更多软件来实现,它可以使企业的多种应用在灾难发生时进行快速切换,确保业务的连续性。
数据级容灾和应用级容灾都是在IT范畴之内,然而对于正常业务而言,仅IT系统的保障还是不够的。有些用户需要构建最高级别的业务级别容灾。业务级容灾的大部分内容是非IT系统,比如电话、办公地点等。当一场大的灾难发生时,用户原有的办公场所都会受到破坏,用户除了需要原有的数据、原有的应用系统,更需要工作人员在一个备份的工作场所能够正常地开展业务。
三种容灾方式构建容灾信心
一般而言,容灾统称可以通过三种不同的方式来实现。基于、基于主机和基于(交换机)。
目前业界有两种基本的基于磁盘系统得远程拷贝形式:同步PPRC远程拷贝于异步PPRC远程拷贝。
同步PPRC数据级灾难备份方案:IBM的PPRC提供了实现灾难备份的反感基础。PPRC全称PeertoPeerRemoteCopy,是以为基础的、实时的、与应用无关的数据远程镜像功能。PPRC实现较为简单,是无数据丢失且具有完全恢复功能的灾难恢复解决方案。
同步这种方式可以确保数据的一致性,达到100%的同步,原理如下:同步的数据会在远端的存储或者主机上先写一份数据,在这个数据完成写操作后,再在本地写,本地写好以后,对比这两个数据,如果一致,则完成这次i/o,如果发现数据不一致,则会将数据回滚,远端和本地都不会产生这次交易记录。
异步PPRC数据级灾难备份方案:为了提高PPRC数据备份方案的效率,可以考虑结合IBM公司的FlashCopy功能采用异步方式实现PPRC数据备份。在异步工作方式下,PPRC能够在远端更新未完成的情况下,只要本地更新成功就可以向主机返回“写成功”信号。好处是:可以在主备机房之间数据链路带宽成为瓶颈时,采用异步方式可以不影响主机房生产系统的性能。坏处是:1. 数据将有可能丢失;2. 当异步同步不能最终成功完成的情况下,数据的一致性无法得到保证。
基于交换机是指通过一个单独的网络把存储设备和挂在TCP/IP局域网上的群相连。当有海量数据的存取要求时,数据可以通过存储区域网在相关和后台存储设备之间高速传输。至于这个网络究竟是什么网络并没有特别的要求。
在距离较近的时候可以直接采用SAN连接(fc-san或者ip-san都可以)如果距离超过10公里的时候,单独采用SAN连接会带来瓶颈,这个时候就要采用SAN了,也就是我们经常说的FCIP以及IFCP了。
第三种是基于主机的容灾方式,但这种方式只能在距离较近的方案中使用。基于主机的方案就是采用双主机双存储的方式,通过主机体统把两台存储作镜像处理,这样就可以实现数据同步了,不过这里的同步跟存储之间的同步稍微有一些区别,就是基于主机的同步是两端同时发起i/o然后等待同时i/o结束。