Chinaunix首页 | 论坛 | 博客
  • 博客访问: 7608471
  • 博文数量: 368
  • 博客积分: 9600
  • 博客等级: 上校
  • 技术积分: 18875
  • 用 户 组: 普通用户
  • 注册时间: 2009-01-01 00:00
文章分类

全部博文(368)

文章存档

2017年(9)

2016年(19)

2015年(3)

2014年(6)

2013年(8)

2012年(78)

2011年(66)

2010年(135)

2009年(44)

分类: IT职场

2015-10-22 13:21:49

       很久没有写KM了,最近lester这边在梳理CDB这边存在的问题,并推动那些问题解决措施的落地。无疑当前CDB存在比较多的问题,也有很多坑。需要我们运维和开发的同学多思考问题的根源和解决办法,并付诸实践,成为问题的终结者,而不是成为一个会发现问题而不知道解决问题或者只是一个制造问题的人。通过最近对CDB运维兄弟们的观察,发现大家做事情的思路和执行力有了很大的提高。这里通过一个case来分享一下关于做事的一些想法。

      事情的起因是由于同事调岗lester这边在接手和梳理内部CDB的相关业务,在接手的过程中遇到了一些坑,其中包括OSS容灾、OSS DB容灾和同步等问题,当主OSS出现硬件故障无法启动,尤其是有一些OSS的机器是比较老的C1机器。当时遇到的一个问题是主OSS所在的服务器硬盘故障,而且里面的数据也无法读取出来。默认CDB的OSS都有备机,但是由于OSS备机的信息是记录在OSS主机的配置文件中,当OSS主机的数据无法读取的时候,压根就不知道备份的机器在哪里。写脚本扫描了半天才找到备机的OSS。经过2个小时的各种配置终于恢复的。心中一万个草泥马奔腾而过。

      碰上了这个坑,促使我们运维的同学去深入思考。无疑这种坑的存在是对我们运维不专业的一个嘲讽,这里体现出几个漏洞:

  • OSS配置除了主备外没有做备份,有的OSS连备机也没有。
  • OSS备机不一定OK
  • OSS DB主从没有监控,有的OSS DB没有从DB。

虽然之前CDB的OSS和OSS DB一直在开发的手里,然后毕竟我们是干运维的,我们运维存在的价值就是确保线上稳定运营和数据安全。将这个问题简单讨论后初步确定运维侧需要将CDB的OSS和OSS DB进行备份起来,出现的问题能快速进行修复。

     接下来这个大坑就由我们组的zhaodeluo负责牵头搞起,接下来要重点介绍的就是zhaode同学做事情的思路和态度,对于一个可以说是非常小的备份的事情,zhaode同学能从这个坑入手延伸出好几公里,功力深厚令人赞叹,处理问题的思路值得我们所有运维的同学思考和学习。他的处理方式如下:

  1. 统计出CDB所有集群OSS的容灾情况(是否都有从机、从机是否真的生效、OSS的机型、是否过保?)
  2. 统计出CDB所有集群的OSS DB的容灾情况(是否有从DB、从DB同步是否正常)
  3. 写脚本备份CDB所有集群的OSS数据。
  4. 写脚本将CDB所有集群的从DB的同步都监控起来。
  5. 写脚本备份CDB所有OSS DB主库的数据。
  6. 研究CDB集群OSS的搭建、从OSS的搭建,完善之前的安装文档。
  7. 实践CDB集群切换到从OSS的详细操作,并整理成可以操作的详细文档。
  8. 实践在备份完集群主OSS和DB后进行恢复验证,确保备份是有效的。

看完zhaode同学的思路,不得不另我这个工作了8年,自以为解决问题有自己方法论的人感到大吃一惊,不愧是曾经在百度和IBM成长起来的大牛。我从中学到的是一个老员工踏踏实实做事,认认真真地做事的态度。这不就是用心做事最好的诠释么?

      经常听人用心做事、用心思考。对应用心做事,无关乎技术、无关乎职级、无关乎岗位,关于的只有你做事的心态。我想对于用心做事的人,事情无大小,当你真正的将心沉浸其中,即使是再小的事情,你也能将它做得出彩。当一个小事你能做得让别人觉得出彩的时候,你将会有更大的舞台。还是那句话,我们的生活是被许许多多平平凡凡的事情包围,当你将平凡的事情做得不平凡,那么你也注定会不平凡。

      小小的一个做事的case,加个小班,写出来,和各位CDB开发和运维的同学共勉!

阅读(10568) | 评论(3) | 转发(2) |
给主人留下些什么吧!~~

shoringchow2015-11-03 08:19:08

文明上网,理性发言...

zcy20142015-10-28 11:52:04

不错文章,赞一个!

sync_15212015-10-27 10:11:34

赞一个