Chinaunix首页 | 论坛 | 博客
  • 博客访问: 110709
  • 博文数量: 5
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 150
  • 用 户 组: 普通用户
  • 注册时间: 2011-04-28 13:31
文章分类

全部博文(5)

文章存档

2015年(1)

2013年(4)

我的朋友

分类: 系统运维

2015-09-28 21:08:36

预案是运维人员的法宝,当服务出现故障时执行预案可以快速进行恢复或止损,狭义的预案指针对核心服务出现重大故障时的执行步骤,广义的预案指针对任何报警的处理方式。我们这里的预案指狭义的预案,主要针对重要核心服务故障时的恢复或止损方式。

预案是为了在服务故障时能快速进行服务恢复或服务止损,所以必须要满足几个特性:明确性,可执行,实效性

 1. 明确性:表示预案有明确的触发条件(平响上升到2s,触发报警),而不是模凌两可或含糊不清(流量下降,平响上升等不可量化)

 2. 可执行: 表示预案可执行,能够按照预案步骤(尽量简单,小于5步)可以顺利执行成功,不会出现步骤复杂(手工操作多)或执行失败的情况

 3. 时效性:表示预案能够快速执行,能够在最快的(<10min)内执行完成,不会出现执行时间>20min的情况

按照上面的描述,针对一个服务故障,相应的预案模板为:

服务故障: 描述服务故障现象或表现

故障影响: 描述服务故障的影响(主要是业务层面的影响,如收入损失,访问质量,用户体验等)

预案触发条件: 描述执行预案的触发条件

预案操作步骤: 描述执行预案的具体操作步骤,每一步需要带有检查描述

预案检查: 描述执行预案后需要检查的指标

预案恢复触发条件: 描述预案恢复的触发条件

预案恢复步骤: 描述恢复预案的集体操作步骤,每一步需要带有检查描述

预案恢复检查: 描述执行恢复预案后需要的检查指标

预案执行风险: 描述执行预案失败的风险

阅读(709) | 评论(1) | 转发(0) |
0

上一篇:LINUX下SVN常见命令学习

下一篇:没有了

给主人留下些什么吧!~~

zhangxuan32102015-10-08 13:46:15

文明上网,理性发言...