Chinaunix首页 | 论坛 | 博客
  • 博客访问: 141219
  • 博文数量: 31
  • 博客积分: 10
  • 博客等级: 民兵
  • 技术积分: 318
  • 用 户 组: 普通用户
  • 注册时间: 2011-03-24 22:10
个人简介

2011.4 ~ 2015.7 就职于百度运维部,负责百度推广后台系统运维; 2015.7至今,就职于北京屏芯科技(互联网+餐饮),负责稳定性、安全、敏捷、速度等工作。

文章分类

全部博文(31)

文章存档

2016年(4)

2015年(27)

我的朋友

分类: 系统运维

2015-11-07 11:00:07

运维 -> 架构师

    我们不需要单纯意义上的OP,加监控、收报警、执行预案(重启/扩容),黑盒运维,做一些边角料的事情。
    回想刚加入前厂运维部的时候,感觉运维各种高大上,各种骄傲。我们每天流量好几亿,我们拥有线上机器的work & root权限,我们各种部署,我们各种监控,我们各种容量规划,各种切流量保障服务99.999。
    的确,你NB,了不起。
    但这只是一厢情愿的骄傲,是属于个别部门个别牛人的骄傲资本。
    当一个新人RD开发出各种ugly的代码,只为实现功能,性能、可扩展性通通不考虑也不会考虑的时候,需要你作为OP去擦屁股,加监控、收报警、服务出问题后case study问你为什么没提前发现,为什么预案执行的时间这么长? 你有什么好骄傲的?
当你上了N个模块但是不知道业务上都做了哪些升级,其实RD写的代码就是一坨屎,上了之后回滚,回滚之后又上,反反复复折腾到12点的时候,不禁开始怀疑这个角色存在的意义,TMD做这些都是为了啥?
    当我跳出来,同组的一个小同学迷茫地跟我说,他现在身上有20个产品线,要走的话移交都不知道该移交给谁,但是一个人扛这么多实在是抗不过来。我跟他说,你不要把自己想的太重要,如果要走的时候没OP能移交,移交给RD可不可以? work/root账号初始化给RD可不可以? 本来就是人家写的代码,你能加监控,RD不能加监控? 你能故障之后重启、扩容,RD就不能故障之后重启、扩容? 这真的是有技术壁垒吗? 这些工作是他们做不了还是他们不愿意做?
    诚然,大公司角色细分的厉害,说是可以提高效率,让每个人都可以深入自己的方向。可能也对,但副作用是各个角色之间是割裂对立的。我只管开发,实现需求,代码质量那是你QA要保证的事情,要不招你来干嘛? 加监控处理报警本身就是你OP做的事情,不然你们做什么? 当这样的思想泛滥的时候,作为QA、OP这样的辅助性角色,地位是尴尬的,内心是不爽的。
    前厂至今没有解决这个问题,自动化喊了这么些年,真正的OP小弟小妹还是苦逼呵呵,报警几千条、上线到凌晨。为什么? 私以为解决问题的根源不在于自动化,而在于从哪个层面开始做自动化。可能是我图样,聪明如老大们怎么能不知道? 但怎么改变? 积重难返。
    但,对于你这个傻OP而言,还是有改变的途径的。
    RD代码写的烂,出了稳定性问题,反倒需要OP“推动”RD修改,RD还很不情愿地说,我这边下次迭代需求都排满了,你先通过扩容/自动重启解决下吧。这时候,除了吐槽’这个RD真TMD不靠谱’外,想想为什么你不能改代码? 想想会什么你不会改,为什么你没能力把这个系统的架构从一开始就设计成很健壮、扩展性很强的? “我是OP啊!这些代码、架构上的事不该我去干!” 如果你有这个想法,其他啥也别想了,专心抱怨、吐槽、推动RD吧。
    想想google,facebook,没有QA,SRE是RD中技术的牛人,怎么做到的? eat your dog food。但如果RD不想eat their dog food,作为OP你该怎么办? 如果山不过来,你该怎么办?  
阅读(1050) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~