一般ops的团队都有数人,每人分工和工作侧重方向不同,可能出现某人改了线上应用的关键配置,但由于信息传递不对称,其他人不知道这个变化。这个情况很常见,即便有了wiki/jira来track,但由于人的疏忽没留意这个。万一某天该同事休假,而这个变动刚好导致了故障发生,其他人不了解变化,可能导致故障处理效率降低。
不知道其他企业如何处理这种问题,我的经历是,用jira/wiki来track变化,同时还定期搜集config等到svn然后做diff,一旦有了变化就trigger一封邮件并且highlight变化的部分,发给group,那么其他人都会留意到这个变化。出现配置错误等还能即使提醒。比如cron job这种基础的问题,可能某人一时疏忽写错了也能立即发现,及时处理避免更大的故障发生。
人的弱点决定了失误不可能避免,比如这里UI升级的时候,会先把其中几个server从Load balancer里面oos,升级完毕确认无误再put back,但人在河边走,哪能不湿鞋,就发生过忘记put back的情况,而且很久才发现,所幸无大碍。再加强标准化流程之外,还应该把这些监控起来,一旦某server被oos,就发邮件,虽然有时候是正常的oos依然会发邮件,但有消息就是好消息吧。方法也很简单,Load balancer都有api,直接show 然后shell来加工就可以了。
阅读(1355) | 评论(2) | 转发(0) |