企业灾难恢复计划七步曲将损失减少到最小-copyking-ChinaUnix博客

存储知识库mssxw.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

copyking

博客访问： 11914696
博文数量： 8065
博客积分： 10002
博客等级：中将
技术积分： 96708
用户组：普通用户
注册时间： 2008-04-16 17:06

文章分类

全部博文（8065）

存储学院（0）
归档/备份/容灾（238）
虚拟存储（324）
SAS/NAS（104）
磁盘（224）
RAID（62）
ISCSI（75）
存储管理（158）
存储网络（252）
未分类文章（1305）
未分配的博文（5323）

文章存档

2008年（8065）

我的朋友

相关博文

企业灾难恢复计划七步曲将损失减少到最小

分类：服务器与存储

2008-10-06 16:05:10

正如现实生活中其它事物的不可预料性一样，企业很难预先知道其网络、数据中心运作过程中何时会受到威胁。

　　但减轻灾难的后果并不是一个轻松的过程。下面笔者给出可以帮助企业提供实用指南并实现高效的和计划的七个步骤：

　　第一步：承认灾难的可能性

　　业务连续性及灾难恢复的第一步是承认自己的单位会碰到可以损害企业发展的现实性威胁。如果企业没有在一个高级的层次上采取这一步，其它的步骤就免谈。

　　第二步：列表并分类企业面临的威胁

　　企业及其社会环境的性质能够影响一个单位所面临的威胁类型。在列示了威胁之后，单位应当根据这些威胁对不同系统的可能影响对其分类。应当在灾难的响应成本和可容忍的“宕机时间”之间实现平衡，可容忍的“宕机时间”越少，则企业就需要越多的成本来创建恰当的响应。比如，一些系统必须在几分钟或几秒内实现功能恢复，还有一些系统可容忍的“宕机时间”为几小时，还有其它系统即使“宕机时间”多达几天也不会产生严重的后果。

　　第三步：概要描述单位的业务连续性和灾难恢复技术的基础结构

　　业务连续性和灾难恢复结构的关键技术要素由以下几部分组成：关键数据中心、一个可以备份主要数据中心资源的远程站点、高带宽的等部分组成。在整个数据中心，业务连续性和灾难恢复的最佳策略都要遵循所有要素成分都保持冗余性的观点。在生产性和备份数据设施中都应当运行多台主机和。如果一个生产性系统的一个组件碰到了一个问题，此系统组件就立即将其功能转移给本地的备份系统，这可以作为对付灾难的第一道防线。

　　在业务连续性和灾难恢复策略中，最关键的要素之一就是电源。根据调查，电力故障是最为常见的也是可预防的中断性故障。

　　不管企业的多么大，如果一个粗心大意的施工人员偶然弄断了光纤，其作用也就寿终正寝了。网络的连接不但要足够，还要在一个更宽广的WAN技术范围内遵循不同的途径，避免业务限于停顿。

　　第四步：清查单位的IT资产

　　一旦单位已经草拟了其业务连续性和灾难恢复基础结构的拓扑，下一步就是要制定IT资产的一个精确而详细的目录。这就使得单位能够理解需要保护的资源和业务过程。

　　现在有不少业务有助于制定和维护IT资源的精确目录。这些工具的厂商都提供了一些依靠软件代理来优化IT基础结构的工具模块，并可将硬件和软件资产的细节及其参数存储到配置管理中(CMDB)。

　　第五步：设置服务水平期望并定义意外事故策略

　　配置管理数据库中(CMDB)不但存储着单位软件和硬件资产的细节信息，还包含着服务水平的约定要求信息，这些约定要求可以定义正常运行时间及这些资源的恢复参数。回想前面的第二步，高级管理部门对服务水平期望作出要求是很重要的，因为这些能够决定在某次故障中的5分钟内或5小时之内某种特定的资产是否必须启动和运行。这种决定可以直接影响高级管理部门日后会寻求支持的业务连续性和灾难恢复的成本支出。

　　根据对IT资产及配置和服务水平约定的清晰理解，单位就可以定义意外事故的应对策略。这些策略必须得到主管人员的支持，因而需要将IT资产的性能直接与企业需求联系起来。为了形成这种重要的联系，单位需要执行业务影响分析来充实系统需求、过程、系统交互关系的细节。主管人员必须理解系统瘫痪的后果，以便于支持意外事故的应对策略。

　　第六步：制定一个业务连续性和灾难恢复的计划

　　意外事故的应对计划应当直接根据意外事故的应对策略，详细表述不同部门和个人的角色和责任，以保持技术系统的可用性，并阐明紧急情况下恢复IT系统的过程。意外事故的应对计划的关键元素还包括资源需求、培训需要、培训练习和测试的频率、维护时间表、的时间表等。

　　意外事故的应对计划的阶段包括以下几个方面，一是灾难降临时的通知过程，二是应急团队动员后的恢复过程，三是回归正常运作过程。

　　第七步:测试业务连续性和灾难恢复计划

　　在定制了正式的策略和过程之后,最为重要然而却最容易被忽略的一个方面是灾难恢复计划。企业必须从一开始就测试其计划的完整性和有效性，然后再在运作过程中重新测试，以确保对IT基础结构和业务过程的日后改变不会产生策略改变的需要。

　　此外，单位应当创建测试平台，以精确地反映日常的业务条件，以使演练可以模拟真实的条件。

　　在当今复杂的条件下，要让企业防御每一种灾难事故确实有点儿困难。但是，在无法预料的事情发生后，如果企业采用了恰当的技术、清晰的服务水平期望、实用的恢复策略，再通过灾难恢复计划和严格的测试方法，单位就可以将灾难对业务的影响降至最低。

阅读(692) | 评论(0) | 转发(0) |

上一篇：个人经验总结：数据仓库的数据存储和实现

下一篇：企业IT节能之MAID为磁盘阵列省电

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6