Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1069173
  • 博文数量: 186
  • 博客积分: 4939
  • 博客等级: 上校
  • 技术积分: 2075
  • 用 户 组: 普通用户
  • 注册时间: 2010-04-08 17:15
文章分类

全部博文(186)

文章存档

2018年(1)

2017年(3)

2016年(11)

2015年(42)

2014年(21)

2013年(9)

2012年(18)

2011年(46)

2010年(35)

分类: 系统运维

2014-06-15 21:56:45

     一般ops的团队都有数人,每人分工和工作侧重方向不同,可能出现某人改了线上应用的关键配置,但由于信息传递不对称,其他人不知道这个变化。这个情况很常见,即便有了wiki/jira来track,但由于人的疏忽没留意这个。万一某天该同事休假,而这个变动刚好导致了故障发生,其他人不了解变化,可能导致故障处理效率降低。

    不知道其他企业如何处理这种问题,我的经历是,用jira/wiki来track变化,同时还定期搜集config等到svn然后做diff,一旦有了变化就trigger一封邮件并且highlight变化的部分,发给group,那么其他人都会留意到这个变化。出现配置错误等还能即使提醒。比如cron job这种基础的问题,可能某人一时疏忽写错了也能立即发现,及时处理避免更大的故障发生。

   人的弱点决定了失误不可能避免,比如这里UI升级的时候,会先把其中几个server从Load balancer里面oos,升级完毕确认无误再put back,但人在河边走,哪能不湿鞋,就发生过忘记put back的情况,而且很久才发现,所幸无大碍。再加强标准化流程之外,还应该把这些监控起来,一旦某server被oos,就发邮件,虽然有时候是正常的oos依然会发邮件,但有消息就是好消息吧。方法也很简单,Load balancer都有api,直接show 然后shell来加工就可以了。
阅读(1296) | 评论(2) | 转发(0) |
给主人留下些什么吧!~~

expert12015-05-23 12:39:28

此外用JIRA的话,可以提交change control request.找对应的人来approve.

expert12015-04-07 17:23:32

当然用了puppet来管理的话,只需要review你的code即可。