分类: 服务器与存储
2007-09-18 14:28:24
去年10月,首都机场离港系统出现故障,导致33架飞机延误。 (潘蓉)良好的准备是最有效的保护措施。对于那些支持企业核心业务正常运转的关键信息系统,进行周密的准备,即建立完善的业务连续性管理计划是非常必要的。 从8月15日开始,北京、上海、济南、广州、重庆等地的中国工商银行的网络数度陷入“瘫 痪”:网上银行无法登录,柜台业务和ATM处理速度缓慢或者中断。由于系统出现问题,业务无法办理,导致很多营业网点出现排长队现象。工商银行后来解释了 出现故障的原因是由于当日购买基金、发放养老金和工资的业务量太大导致系统压力骤增,但无论原因到底是什么,这件事至少表明工商银行在确保业务连续性上有 所欠缺。 事实上,因为信息系统瘫痪影响业务正 常运转我们已经不是第一次听到,比如首都机场就曾因离港系统和行李系统出现故障,影响了多个航班的进出港。如今,信息系统的使用大大提高了组织信息处理和 业务运行的效率。然而,由于信息系统的广泛使用,使得这些信息系统一旦不能正常支持组织的业务,给整个组织的业务带来的影响越来越大,有时甚至会造成难以 估量的损失。正因为业务连续性管理(Business Continuity Management,BCM)对组织的业务和信息安全如此重要,而一旦发生业务中断所造成的损失又如此巨大,使得对业务连续性的关注已经成为信息安全领 域关注的一大焦点。 业务连续性管理的过程 在 信息安全管理国际标准ISO 27001(BS7799)中已经建立了信息安全管理体系的模型,其中业务连续性管理(BCM)被作为一个重要部分包括在模型中(参见图1)。去年11月 BSI发布了一个新的标准BS25999-1,这是业务连续性管理的最佳实践标准,相应的认证标准BS25999-2也将在今年出台。这对于公共基础设施 的提供者,金融电信等信息时代的基础支撑行业来说,不但有了实践的指南还有了检验的标准。 根据这些最佳实践指南,业务连续性管理的实施包括一系列企业管理行为,具体实施过程可以分为以下六个步骤,其中核心是制定并实施业务连续性计划。 下面详细介绍BCM实施过程中各步骤所需要执行的主要任务。 步骤1: 启动项目 项目启动阶段的主要工作是为项目分配必需的资源和进行前期的准备工作。项目启动阶段所包括的工作主要有: 1.得到领导层对项目的支持 组 织中信息化或信息安全的领导(如CIO或CSO)应参与项目实施,并通过各种形式(如文件、会议等)向组织内所有成员传达领导层对该项目的重视和支持。最 重要的是让管理层知道组织的真正风险在哪里,这些风险造成的后果是什么,每一项风险会造成的潜在损失有多大。没有这种理解,管理层对BCM的支持不能落到 实处,也不能保证在实施过程对必要的资源、资金和时间方面的投入,最后可能会导致项目实施的失败。 2.明确项目实施的组织结构和角色责任 项 目实施需要合适的人员来完成特定的任务,明确项目实施的组织机构和相关人员的角色责任是项目启动阶段非常重要的一项任务。项目实施的组织机构与组织的规模 和涉及的系统有关,一般可以分为项目管理机构和项目实施机构两种。项目管理机构负责项目实施过程中的决策,项目实施机构负责项目的具体实施,可以进一步细 分为损害评估小组、服务器恢复小组、网络恢复小组、物理/人员安全小组等等。 3.为项目实施分配资源 包 括管理机构和实施机构在内的项目成员通过对项目规模、难度等各方面的估计,确定项目实施所需的资源,包括人员、场地、资金和时间等。引入外部的服务提供商 是解决资源不足问题的可行办法。服务提供商可以提供BCM的咨询服务,也可以解决组织在提高业务连续性方面所需的备用设备、场地、设施等方面的需求。 4.安排项目的实施进度与时间 为使项目能够顺利实施,需要将项目实施划成分若干阶段,并安排每个阶段的进度计划和主要任务。由于业务连续性管理可能会涉及到多个部门之间的协调,而且往往复杂度较高,最好在项目实施进度中留出一定的机动时间,保证整个项目最终完成时间不会改变。 在上述几项工作完成后,BCM项目已经明确了项目实施的组织机构,明确了角色和职责,安排了所需的资源,制定了项目的实施时间。接下来,项目就可以进入下一步——业务影响分析阶段。 步骤2: 业务影响分析 业务连续性管理必须考虑到所有可能发生的安全事故和灾难,并对其潜在的损害做出估计,以制定可行的控制策略,进而预防这些事故的发生,而这正是业务影响分析(Business Impact Analysis,BIA)所要关注的方面,它是实施BCM的关键性的一步。 对业务安全性的威胁一般可以分为以下三类: ● 来自自然的威胁,如飓风、龙卷风、洪水和火灾; ● 来自人类自己的,如操作员错误、破坏、植入有害代码和恐怖袭击; ● 其他威胁,如设备故障、软件错误、电信网络中断和电力故障。 最 重要的是找出所有的威胁,分析这些威胁发生的概率,估算对组织业务所带来的损失。风险评估与分析是进行业务影响分析的常用方法,它收集定性和定量的信息, 包括威胁信息、组织脆弱点信息、已有的安全控制信息等,通过风险分析方法得出风险的大小和可能造成的损失。要注意的是,业务影响分析与风险管理并不完全相 同,业务影响分析更为关注业务的中断以及业务中断所带来的损失。BIA阶段一般包括以下这些任务: 1.确定关键业务功能和损失标准 需要确定基本的业务功能,这些业务功能可能包括: IT网络支持、数据处理、会计、软件开发、采购、通信等。由于这些业务功能和它们的实施部门之间存在依赖关系,因此在保护和恢复时也应该按照一定的步骤进行。 明 确了威胁和确定了关键的业务功能之后,就可以对每种威胁造成的影响制定特定的损失标准,需要考虑的因素包括利润的损失、运行费用的增加、违反合同造成的损 失、生产力方面的损失、组织声望的损失等。这些损失可能是直接的,也可能是间接的,有些是有定量数字的,有些是定性估计的,都应该以合适的方式计入。 2.确定最大容忍时间 确定了组织赖以生存的关键系统之后,应根据事故或灾难所造成的损失标准估计万一不幸事件发生时,组织可以容忍的最大时间。一般来说,最大容忍时间可以分为以下几个级别: ● 无关紧要:30天; ● 正常:7天; ● 重要:72小时; ● 紧急:24小时; ● 关键:几分钟到几小时,一般不超过12小时。 3.确定恢复的优先顺序 组织内一般包括有多个业务功能,而组织的各种资源是有限的。在发生较大的事故或灾难(如电力中断、地震)时,多个业务功能都可能会受到影响,所以,必须根据各业务功能的关键程度和最大容忍时间,确定各业务功能恢复的优先顺序,并为关键的业务功能优先提供所需要的资源。 |
步骤3: 确定恢复策略
确定恢复策略指的是确定和指导备用业务恢复运行策略的选择,以便在指点的恢复时间内恢复信息系统,以支持机构的关键业务。
根据业界的实践,业务中断所造成的损失是随着中断时间的增大而大幅上升的,而恢复业务的费用则随着恢复时间的缩短而大幅上升。对于组织来说,确定恢复策略的一个关键任务就是在业务中断时间和业务恢复费用之间取得适当的平衡。
从 备份站点来看,可以分为冷站(cold site)、暖站(warm site)、热站(hot site)三种方式。冷站只提供基本的工作环境、电线、空调等,在恢复时要花费很长的时间,可能会有几个星期;热站则具有完全的配置,一般使用在分钟级或 小时级的恢复环境下,也最为昂贵。从备份类型来看,可以分为增量备份、差量备份、完全备份传递三种方式;从备份数据传输方式来看,可以分为手工传送、电子 备份传送、实时备份等方式。组织还可以选择与内部或外部机构签订互惠协议,或者与设备供应商签署服务合同。具体选择时,组织要综合考虑逻辑性、可行性、经 济性等多方面因素,确定适合自身业务要求的恢复策略。
步骤4: 编制业务连续性计划
业务连续性计划(BCP)样式有多种,但一般都包括以下内容:支持信息、通知/启动、业务恢复和业务复原。
1.支持信息
支持信息部分提供了重要的背景或相关信息,使得BCP更容易被理解、实施和维护。支持信息部分一般包括以下内容:
● 目的。介绍制定BCP的原因和定义BCP的目标。
● 范围。说明有哪些部门和运营业务需要实施BCP。另外,BCP所包括的业务中断范围也要说明,如计划可能不会涉及预计持续时间小于四个小时的短期中断。
● 组织。描述应急团队的整体结构,包括各团队的等级划分、协调机制、角色与职责等。
● 资源需求。人员、设备、技术/数据、安全、运输、福利和紧急事件的费用。
● 系统描述。对有必要包括在BCP中的IT系统的一般描述,包括系统的架构、现有安全防护措施等。
● 变化记录。对BCP变更的记录。
2.通知/启动
也称为应急响应。该部分定义了在探测到系统中断或紧急情况发生或即将到来时采取的初步行动,如通知恢复人员、评估系统损害和实施计划的活动。一般包括以下内容:
● 告知规程。包括告知树、告知信息、通信方法等。
● 损害评估。评估事件可能带来的业务影响和损害。
● 计划的启动。计划的启动条件和恢复策略确定。
3.业务恢复
业务恢复集中于建立临时IT处理能力、修复原系统、在原系统或新设施中恢复运行能力等应急措施。在恢复阶段完成后,系统将可以运行并执行计划中指定的功能。业务恢复计划一般也被称为灾难恢复计划(DRP)。
计划的这一部分应该按照操作手册的形式编排,由一系列简单明确的指令构成,这样恢复团队可以完全按照这些指令进行恢复操作。各种操作之间的相互关系也必须加以明确说明,所有的指令和说明必须明白无误,以免因可能引起误解或不明了而导致时间损失。
4.业务复原
为业务运营复原原有场所或新建场所应采取的步骤等应在此加以说明。需要标明每个团队负责人的责任和任务,一般包括:
● 提供基础设施,如电力、办公设备等。
● 系统安装,包括软硬件。
● 测试被恢复系统的运行。
● 将应急系统中的运行数据上载到被恢复系统中。
● 关闭应急系统。
● 应急场所中敏感信息与材料的处置。
● 其他操作。
步骤5: 测试和演练计划
技术、业务方法以及员工角色和责任的变 化都将影响和降低业务应急计划的效率并最终影响到机构的准备状态。因此,通过对业务应急计划的测试来测量其可用性和有效性是很重要的。测试还将使员工熟悉 恢复站点的位置以及中断期间所需的恢复规程。测试的目标是确保机构在启动业务连续性计划后能够按照计划可靠、及时和有效地恢复运行。
测试的过程需要进行详细的规划,测试计划还应该包括每项测试的详细时间表和测试的参与者。测试计划还应该清晰地描述测试范围、场景和后勤。场景可以选择为最糟糕的事故或最有可能发生的事故,并尽量模仿真实情况。
有两种基本的演练方式:
● 课堂演练 课堂演练的参与者在桌面上对规程进行排演而不实际进行恢复操作。在两种演练类型中课堂演练是最基本和最经济的,应该在执行功能演练之前执行。
● 功能演练 功能演练比桌面上的演练更进一步,要求虚构事件。功能演练包括模拟和战术演练。通常会为扮演外部机构的角色演员写好脚本或者有真正的相关机构或供应商参与。功能演练可以包括针对备用站点的实际配置和(或)系统切换。
组织对其业务连续性计划一年至少要测试一次。管理层应该参与到测试中并熟悉其在计划启动时的角色和责任。
步骤6: 维护与更新计划
业 务连续性计划必须周期性地加以检查和维护。为了使其更加有效,计划必须维持在能够正确反映系统需求、规程、机构架构和策略的就绪状态。计划应该至少每年进 行一次针对正确性和完整性的检查,一旦有新的系统、新的业务流程或者新的商业行动计划加入企业的生产系统或者信息系统,引起企业整体系统发生变化时,就更 应该强制启动这种检查程序。某些部分应该得到更频繁的检查,如联络清单。根据系统类型和重要程度的不同,对计划内容和规程的评估可能会更加频繁。计划的检 查至少要关注以下内容:
● 运行需求;
● 安全需求;
● 技术规程;
● 硬件、软件和其他设备(类型、规格和数量);
● 团队成员的姓名和联络信息;
● 供应商,包括备用和离站供应商协调人的姓名和联络信息;
● 备用和离站设施需求;
● 关键记录(电子的或硬拷贝)。
每 一次在执行这种检查程序时,最好是与对BCP的改进相互结合。例如,在测试过程中发现的问题、组织为了实现连续性对机构所做的调整或者在保持业务连续性测 试时发现了更好的行动方式和计划等等。因此,BCP的维护应该是变化和改进的结合与不断促进。另外,BCP中可能包含有潜在的敏感操作和个人信息,所以对 BCP的分发应该根据需要进行标记和控制。(本文作者为BSI中国公司的咨询顾问)
相关
业务连续性管理的关键点
在实行BCM过程中,以下因素是组织应重点考虑的:
● 争取管理层的支持和参与。没有管理层的支持,业务连续性计划的制定和实施都是十分困难的,很有可能会流产。
● 建立业务连续性管理文化。通过培训和意识教育,使业务连续性管理成为企业核心价值和有效管理的一部分。
● 业务连续性计划团队要有明确的组织结构,角色和责任应明确、清晰,要对相关人员进行培训。如果参与人员不能清楚地知道自己该做什么,灾难发生时只能是一片混乱。
● 恢复策略的确定要综合考虑恢复成本与灾难损失,在其中取得一个适当的平衡点。超过损失的恢复是毫无意义的。
● 业务连续性计划包括的各种规程要步骤清楚、操作详细,确保实施人员拿到规程后,能立刻开始操作。不清楚的规程只会延误恢复的时间。
● 业务连续性计划要定期进行测试、演练,总结缺陷并进行更新,一般至少为一年一次。确保计划准确和不断改进也是非常重要的。测试计划要仔细斟酌,不要让演习变成一场事故。