前记:换新工作后,这边有另一个部门的同事打电话过来要协助。说操作系统启动不了。报错Duplicate or bad block in use!
询问过程:
1、稳定对方,问题发生了咱们不急慢慢解决,别脑袋短了思路。
2、询问对方是否有备份
答:是台SVN的机器,都有备份,是以前的老机器,重启后就一直进不去。
3、询问对方现象是怎样
答:一直进不去单用户模式,卡死在百分之60之后,操作系统是centos 5 x86机器,出问题前一直很少关注此机器,所以无法回答之前有哪些操作
4、询问此机器服务的重要级别
答:重要级别在他们中排的比较低,所以有大把时间找事情。
处理过程:
1、首先让发图到群里
:根据分析,是mount /dev/sys后触发/etc/fstab 中选项选描机器,最后检测到有坏块。初步分析可能是文件系统坏掉或者磁盘某些磁道坏了。
2、制定方案
:因为级别不重要并且有备份,所以很好处理。先让他进单用户模式,在ro 后面加single,多等会儿,让机器扫描完或者别的。进系统后fsck -a /dev/$(sda),如果实在进不去,最好用同发行版的光盘进入恢复模式,挂载硬盘之后再确认是否有重要数据,再次备份出来。在询问中得之他的硬盘使用年限为2年,一般5年就老出问题了。如果是5年了就直接换块新硬盘装系统恢复继续跑。如果硬盘还年轻就让他装完系统恢复跑着。把监控做好。
3、反馈
3.1 告之我已经进入系统(中午吃饭让他一直跑),然后正在fsck修复。然后1个小时后修复成功。
3.2 告之我发现是硬盘使用量达到100%,出问题也有一部原因吧,心里在想难道没有做监控?最后通过du发现是tomcat 日志380G,nginx日志40G,单硬盘500G。瞧了一眼就发现很多问题。
3.3 让他备份日志,他说日志都不需要备份,最后给他讲了日志的重要性后,他还是决定删除,我就让他先删除2010年再册2012年的,发现基本没释放多少。最后他决定全删除,我也没反对。最后清空得到400G左右的空闲空间
3.4 让他再次重启确定进入系统是没有问题的。
3.5 让他做好监控
4、事后反馈
4.1 本以为事情到这里已经有段结尾了,对方又联系说要支持。一番询问下来得知tomcat日志又把磁盘写满了,我心在想有这么大的量吗?才一天。他告诉我是内网访问大造成的。最后告诉他这是tomcat的日志分割的作用,切分后不会把以前的内容删掉,所以是叠加。当然一想也不行,这么大的日志过来,谁也受不了。
4.2 他询问我有没有办法不要日志,我当然又是一通讲解,日志的作用。最后他还是坚持不要。哈哈,内网的也无所谓了,重要级别又不高。
4.3 最后把tomcat的日志名建了一个/dev/null的链接。写日志都写到空设备上面去。
4.4 这下事情应该有一个小段落了
5、反思
5.1 备份机制一定要做好,可以做做恢复迅练。
5.2 如果是我要搞这个事我会怎么做?监控没做好,一切问题都发现不了。
5.3 日志问题一定要解决,可以传到内网备份服务器上面。
5.4 如果重要级别高的话可以做个小RAID,坏块盘也没事。但前提也是要做好监控。
5.5 另外硬盘的年限就那么久,跑了5年了就让他去死吧。上了5年问题就会慢慢积多。
5.6 机器启动不了是为啥?linux操作很多都不需要重启的,如果你改了某些配置,但没让他生交效,等你下次重启时生效结果发现机器启动不了了,就跟服务一样,你改了配置文件,过几天你要改个配置,结果发现启动不了,你检查你今天改的配置你找的出问题?幸好有错误提示。
5.7 是否有个流程指导我们怎么操作这些事儿?
阅读(1959) | 评论(0) | 转发(0) |