Chinaunix首页 | 论坛 | 博客
  • 博客访问: 11281472
  • 博文数量: 8065
  • 博客积分: 10002
  • 博客等级: 中将
  • 技术积分: 96708
  • 用 户 组: 普通用户
  • 注册时间: 2008-04-16 17:06
文章分类

全部博文(8065)

文章存档

2008年(8065)

分类: 服务器与存储

2008-12-28 14:06:18

1、方案适用性

   随着计算机技术在国民经济各个领域中的深入应用,企业的运转对信息的依赖程度逐渐提高。尤其在大型企业中,数据已经成为企业生存的根本。各企业信息部门关注的重点逐渐从网络和服务器平台的建设
 
转移到如何可靠和有效的保存数据上来,在他们眼中,永恒增长的、高速膨胀的,是数据,是信息。
面对这样地压力,一些问题一直在困扰企业地系统管理人员。
运行的系统需要高可用性支持吗?
企业的服务器平台稳定吗?
在系统维护和升级时需要保持不间断地业务运行吗?
如果已经采用了集群系统,它有没有足够的扩展性以应对业务的扩大呢?
群集系统能和备份系统无缝的结合在一起吗?
能提供异地的数据切换吗?
这些问题的核心就是高可用性,它一直是IT专家面临的问题。尤其是今天企业几乎完全依赖计算机。
在传统以往的业务系统中,往往仅考虑本地容灾,即通过集群的双机系统(Cluster或HA)对业务应用提供保护,在一台服务器的软硬件发生故障时,将整个业务切换到后备服务器上。该方法很大程度上避免了服务器的单点故障,提高了整个业务系统的可用性。
但是,随着业务系统的发展,随着竞争的不断加剧,为了提供更高的客户的信用度使我们的企业在竞争中时时处于优胜之地。在一些重要的系统中,客户已经不满足于简单的本地保护。越来越多的客户提出了要求更高的系统可用性,要求实现真正的异地容灾保护。因为一旦出现异常情况,如火灾、爆炸、地震、水灾、雷击或某个方向线路故障等自然原因以及电源机器故障、人为破坏等非自然原因引起的灾难,导致业务正常无法进行和重要数据的丢失、破坏,造成的损失将不可估量。因此,要求当业务系统可以在发生上述灾难时快速恢复,将损失降到最低点。
全面的异地容灾保护方案,意味着除了要实现本地的切换保护外,更要实现数据的实时异地复制和业务系统(包括数据库和应用软件)的实时远程切换。
 
 
2、方案简介
基于整个计算机环境中各项业务服务器运行着各自业务,而且,对各自服务器均提出了相当高得性能。我们的解决方案在整个系统中采用在每个数据中心中的关键性业务均采用群集系统进行双机热备系统进行系统应用的保护。当在集群中得一台应用服务器发生故障时,运行在其之上的应用可实时的切换至集群中的另一台服务器上运行。这样大大的保证了应用在一个节点中连续不断的可访问性。在双机热备系统中使用共享的存储系统,即同时连接两台服务器的磁盘阵列,并用先进的卷管理软件进行共享磁盘的卷管理和文件系统的管理。同样,在此系统中为了避免发生地震、洪水和类似于美国9.11恐怖事件而造成的巨大数据的无法可恢复性。我们在每个数据中心中运行基于卷的数据复制软件,将主中心的数据复制到容灾中心,保证每个数据中心之间的数据进行实时的复制,并且当其中一个数据中心发生灾难性事件时(如地震),这一数据中心上运行的应用能在广域群集系统软件功能的控制下,在短暂的时间内切换到另一个备援的数据中心上运行,对用户来讲是透明的、实时的。
 
一个完整的容灾系统应该具有丰富的层次构造,分布如下:
数据远程复制系统
本地的高可用系统实现一级安全体系,该体系确保局部故障和单点故障的系统应用安全。
远程的高可用管理系统实现二级的远程广域范围管理(Global Cluster),这一层次基于本地的高可用系统之上,实现故障的分类和采取对应的故障接管机制。
数据备份系统
系统设计图如下,图中只示例了一个应用的容灾结构。

采用如上结构的容灾系统中,每个地点的每台服务器上安装的软件相同,只是不同情况下配置方法不同。

为方便论述,模拟结点A和B,两地各有一套建立在双节点集群上的业务系统,以B地点的系统作为A地点的备份。
1.正常情况下:
业务系统运行在地点A,包括数据库实例、有关的文件、数据库数据、应用软件。A节点对外提供服务。
A节点所有的有关的数据通过数据复制系统实时复制到B节点。
两地群集管理系统对的各自节点内的两台服务器的主机情况、数据库服务、应用软件进行实时监控和管理,其中,群集管理系统还对数据复制系统的数据复制服务进行监控。
广域群集管理系统监控两地群集管理系统的运行。
2.当A地点的主服务器发生硬件或软件故障,导致主服务器无法提供正常服务:
群集管理系统进行本地切换,将主服务器的数据库服务、应用软件、数据复制系统切换到本地后备节点。
整个系统运行在本地后备节点,包括数据复制服务,由后备服务器提供对外服务和数据复制服务。
广域群集管理系统将监控到该切换事件的发生。
如果仅仅是主服务器数据复制服务发生故障,可以不进行切换,只需将复制服务修复并正常运行。
3.如果A地点的主服务器恢复正常,整个系统将重新运行在正常情况下。
4.如果在情况二的状态下,A地点的后备服务器也发生硬件或软件故障,整个A地点无法正常提供服务:
广域群集管理系统将监控到该严重灾难的发生,将对接收到的“Site A down”事件进行处理:发出严重告警,并在管理界面上弹出服务灾难性切换(及服务切换到远程地点)等待确认画面。
在有关人员确认后,在广域群集管理系统切换等待确认画面上按确认按钮,将进行地点间的容灾切换。
A地点的业务将在B地点正常提供服务。
数据复制暂停。
Site B的数据复制系统将从Secondary变成New Primary,并记录所有变化的数据块。
5.如果A、B地点间网络发生故障:
数据复制
系统心跳检测将发现该故障,A地点数据复制系统将根据事先的配置进行处理。我们的建议是数据复制系统将网络故障期间所有数据的更改记录在专用记录中。
在网络故障发生后,广域群集管理系统将探测到,并对Network Down 事件进行处理:向有关管理员发出告警。
6.如果A、B地点间网络在短时间内恢复正常。
数据复制软件将把A中积累的数据传送到B。
数据复制处于正常工作状态。
广域群集管理系统处于正常工作状态。
7.如果A、B地点间网络在很长时间内仍无法恢复正常:
数据复制系统停止远程数据复制。
广域群集管理系统无法对两地间的群集管理系统运行进行监控。
8.灾难复原。
当A地点的系统恢复正常后,需要进行整个系统的回迁。数据反向复制时只复制灾难期间变化的数据而不是所有的数据,这是本方案优势之一。
在灾难期间,B地点是数据复制的New Primary,B记录所有变化的数据块。
A系统正常后,数据复制重新建立与B节点的连接,并自动变成Pseudo Secondary(伪后备节点)。
广域群集管理系统发现A、B地点群集管理系统恢复正常,对它们进行正常管理。以下过程将在脚本中自动完成。
进行反向同步的第一步是将A节点的Pseudo Secondary状态转成Secondary状态。
第二步将进行A的记录重置(Replay),修改B的记录。
因为在A节点发生灾难时,有可能A的记录中有没来得及进行传送得数据。也就是说,A中有一些本地已经修改,而B还未修改的数据。所以,要保持A、B数据的一致性,一定要首先对这些数据进行处理。
处理方法成为重置(Replay)。重置将把A节点记录中数据的数据信息传送到B节点。B节点将进行判断,根据数据块是否有新的修改,对本地记录进行修改。
重置完成后,将进行数据的反向同步,将灾难期间B节点变化的数据(和需要A节点重置的数据)传送到A。
以上的过程中,B的数据库和应用都处于正常运行状态。
当反向同步完成后,数据库和应用将停止运行。
广域群集管理系统控制进行整个系统的反向切换。
A节点重新成为数据复制的Primary,进行正常复制。
A节点整个业务系统恢复正常运行。
 
3、方案总结
在远程的容灾系统中,要实现完整的应用容灾,既要包含本地系统的安全机制、远程的数据复制机制,还应具有广域网范围的远程故障切换能力和故障诊断能力。也就是说,一旦故障发生,系统要有强大的故障诊断和切换策略制订机制,确保快速的反应和迅速的业务接管。实际上,广域网范围的高可用能力与本地系统的高可用能力应形成一个整体,实现多级的故障切换和恢复机制,确保系统在各个范围的可靠和安全。 本方案是一个完整的容本地容灾、数据远程复制和远程容灾切换于一体的方案。以下说明本方案的特点及优势。
1.本方案能够支持手动/自动信令容灾方案,用户可以根据实际需要进行自由选择。但在实际情况中,由于发生重大灾难时业务异地切换属于非常严重的事故,所以我们建议该过程前用户进行电话确认,然后在广域群集管理系统界面中按下切换确认按钮进行切换。
2.当本地主系统恢复正常后,需要进行反向数据同步、应用切换等工作,该工作需要由操作人员在系统较空闲时进行。工作过程很简单。
3.通过复制记录严格的按写顺序传送、双收条确认、反向切换时的重置等技术的使用,本方案可以最大限度地保证主、备节点的数据一致性。
4.本方案支持 1+1、N+1和节点互备方式,满足用户的不同需求。
5.本方案如果不考虑带宽,节点间没有距离的限制。由于数据复制的数据传递是基于卷的,所以每次传送的数据量基本就是每次系统I/O的数据大小。这样可以得到最大的带宽利用率。
6.基线建立,需要主备节点的数据完全同步。完全同步在应用运行期间也可以完成。可以采用自动同步方式或使用备份和检查点(Check Point)结合的方法。
7.至于基线建立过程、日常复制过程、故障切换过程和故障恢复过程对主机性能的影响,由于对不同的配置、不同的情况将有很大的区别,所以,很难给出具体的数值。以我们在以往实施中的经验,如果采用异步复制方式,对整个系统的影响,在5%左右。

阅读(1045) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~