2008年(8065)
分类: 服务器与存储
2008-09-19 14:21:12
今天,很多先进的技术正在逐步被大家所应用,例如我们谈的最多的“虚拟化”、“并行运算”等等,而这些复杂晦涩的技术也使得原本简单的灾难恢复工作逐渐变得复杂起来。与此同时,今天我们准备和测试一个灾难恢复计划也变得异常困难,随着数据量的日益增长,每天在你上床睡觉的时候你都不能100%的确认你所有的数据集都已经保护好。
灾难恢复,由简单到复杂
当然,今天我们对于“灾备”的定义已经和十年前大不相同,十年前,对于大部分用户来说,四个小时的意外停机或许并不值得他们在意;但今天,这也许会造成致命的经济损失。
许多公司都通过很多种方法来处理这件事。有些公司通过外包的方式,由一些外部专业人士来帮助他们作灾难恢复计划,选择合适的地点作为灾备中心,从而保证在一些紧急情况下,计算处理程序如何能被快速的转移。
还有一些公司采用另一些方式,利用企业内部资源来很好的应用复杂的灾难恢复工作。还有一些公司更是从本质上取代“避免灾难”的这种观念,重新定义灾难恢复计划。
灾备投资物有所值
事实上,在信息架构内部,全部数据从头到尾的被应用调用的情况并不常见,因此用户在考虑灾备之前,首先要问你的ERP应用的程序管理员,哪些数据是必须恢复到系统的?但这个问题我们很难获得圆满地回答,因为程序管理员也未必100%清楚服务器运营所需要调用的数据情况。
并非每个组织的运营数据都被安置在一个安全舒适的篮子里面。很多公司的业务数据掌握在个人手中,分散在公司里,并不仅仅受IT部门的控制。当处在这些复杂的信息网络中,我们如何恢复一个主要的数据处理应用呢?
笔者曾经了解到,国内一家金融机构曾经就灾难恢复地点的选择问题联系过一家服务提供商,但是最终他们仍然决定建立一个自己的第二数据中心。其原因则是因为他们的系统异常复杂,在全国分布有几十家分支机构,随着复杂程度的逐步增长,多处数据的紧急恢复时非常困难的。
对于这家大型金融机构,容灾规范要求的每半年一次的灾难演练从来就没有顺利的完成过,执行这些灾难恢复测试的时候始终遭遇一些磁带没有被正确识别之类的错误,而他们只能重新找回那些有硬件配置、操作系统配置等问题的磁带数据。
很快这家金融机构无法再忍受以往的灾备方式了,但他们需要面对非常巨大的成本从技术上解决灾备的问题。这家金融机构最终建立了两个数据中心,通过冗余的光纤链路连接,冗余的电话系统和双大型机容错的架构。尽管这种容灾架构投资巨大,但相比灾难发生可能给他们造成的损失相比,仍然物有所值。
冗余是灾备的关键
建立异地的灾备中心无疑是最高级别的灾备措施了,但是并不是所有公司都有条件来建立异地的灾备中心。对于这些企业,可以采用一些其他的方式来避免灾难的发生。
某企业分支机构每天要运行20,000个订单处理,然后第二天一早将这些订单远程提供给总部。在这种很高级别的自动处理过程中,很难想象和估量这种业务延迟的对企业的影响。为了避免IT灾难带来的业务意外停顿,这家企业的分支机构和总部机房的服务器以及存储系统配置了各种各样的冗余架构,这样任何一个节点出错或失效,能够立即切换到其他的节点。
现在,这家公司的信息架构拥有冗余的磁盘系统、两个网络中心,没有一个单一的故障点。此外,他们每天做两次全备份,一个备份到服务器,另一个备份到磁带离线保存。就形成了非常有效的灾备体系。
还另外一些公司会考虑建立2-3个数据中心,也许距离只有几英里,也许距离非常远,但是都不是传统的灾难备份中心。所有的数据中心都一直在使用,每一个紧急的应用运行在至少两台机器上,多个中心总共也没有大量的额外能力和冗余设备。
这种方法一直处在一种软件容错模式。如果你具备一个架构允许某些服务器发生宕机的话,那么企业永远都不会停机,但是如果架构中本身有很多的单点故障点,那你就需要制定很多的灾难恢复计划。
让人头痛的虚拟化
此外,服务器虚拟化正逐步走向应用和普及,服务器虚拟化软件增加了服务器自身的使用效率和灵活性。但是这样做也使得灾难恢复计划变得非常复杂。
应用虚拟化软件的企业的确非常少,在国外有相关的案例,企业通过VMware经常地改变服务平台——这种改变是不需要增加服务器的,只是改变内存的大小和分配到服务器的CPU个数等等。使得用户的环境看起来并没有什么不同,但当需要做灾备的时候就发现面临着诸多的挑战。
当在虚拟机环境下进行灾难恢复的时候,你会看到情形就像一场禽流感一样一塌糊涂。虽然可以依靠5-6个知道如何执行计划的人来做这部分工作,但是你不知道哪些数据是无效的?现在虽然已经有了应用于虚拟机的备份管理软件,但虚拟环境下的灾备依然没有更好地解决办法。
但虚拟化对灾备并不总是环消息,虚拟化对于异构环境下的灾备系统有着突出的意义。我们假设一家设计公司的灾备系统为例,假设这家设计公司在全国各地都存在分支机构,他们需要把分散在各个分支机构的客户资料以及设计方案都汇总起来,并进行数据保护。但是这个数据集中计划并不那么简单,因为在每个位置的服务器不具备统一标准的系统。可能是Dell的服务器,也可能有IBM或者其他品牌的服务器。我们会看到15到20个各地分支机构的平台。
如果我们能够将远程位置转变成一个通用的架构,这样中央数据中心就能够作为分支机构的灾备中心来提供服务。而虚拟化正可以起到统一底层架构的作用,从而能让我们简化灾备系统。
灾难恢复的定义一直在发生不同的变化,在当今商业环境下,网络宕机就意味着公司将遭受巨大经济损失,而客户也会难以接受。做好灾难恢复准备的公司能够更好地维持运营、保住客户并避免长期损害。容灾的三个环节包括:人员、数据(包括数据处理所需的硬件和软件)和冗余体系,还需要据企业自身情况制定日常备份制度和灾难恢复措施,并由管理人员切实执行,否则系统安全将仅仅是纸上谈兵。