分类: 系统运维
2015-09-28 21:08:36
预案是运维人员的法宝,当服务出现故障时执行预案可以快速进行恢复或止损,狭义的预案指针对核心服务出现重大故障时的执行步骤,广义的预案指针对任何报警的处理方式。我们这里的预案指狭义的预案,主要针对重要核心服务故障时的恢复或止损方式。
预案是为了在服务故障时能快速进行服务恢复或服务止损,所以必须要满足几个特性:明确性,可执行,实效性
1. 明确性:表示预案有明确的触发条件(平响上升到2s,触发报警),而不是模凌两可或含糊不清(流量下降,平响上升等不可量化)
2. 可执行: 表示预案可执行,能够按照预案步骤(尽量简单,小于5步)可以顺利执行成功,不会出现步骤复杂(手工操作多)或执行失败的情况
3. 时效性:表示预案能够快速执行,能够在最快的(<10min)内执行完成,不会出现执行时间>20min的情况
按照上面的描述,针对一个服务故障,相应的预案模板为:
服务故障: 描述服务故障现象或表现
故障影响: 描述服务故障的影响(主要是业务层面的影响,如收入损失,访问质量,用户体验等)
预案触发条件: 描述执行预案的触发条件
预案操作步骤: 描述执行预案的具体操作步骤,每一步需要带有检查描述
预案检查: 描述执行预案后需要检查的指标
预案恢复触发条件: 描述预案恢复的触发条件
预案恢复步骤: 描述恢复预案的集体操作步骤,每一步需要带有检查描述
预案恢复检查: 描述执行恢复预案后需要的检查指标
预案执行风险: 描述执行预案失败的风险