又见日志-从日志中的思考-xupengtao7-ChinaUnix博客

xupengtao7的ChinaUnix博客

首页　| 　博文目录　| 　关于我

xupengtao7

博客访问： 1580290
博文数量： 157
博客积分： 0
博客等级：民兵
技术积分： 4116
用户组：普通用户
注册时间： 2013-06-14 18:26

文章分类

全部博文（157）

未分配的博文（157）

文章存档

2014年（67）

2013年（90）

我的朋友

最近访客

推荐博文

又见日志-从日志中的思考

分类： IT业界

2013-08-31 09:42:27

前记：换新工作后，这边有另一个部门的同事打电话过来要协助。说操作系统启动不了。报错Duplicate or bad block in use!

询问过程：

1、稳定对方，问题发生了咱们不急慢慢解决，别脑袋短了思路。

2、询问对方是否有备份

   答：是台SVN的机器，都有备份，是以前的老机器，重启后就一直进不去。

3、询问对方现象是怎样

   答：一直进不去单用户模式，卡死在百分之60之后，操作系统是centos 5 x86机器，出问题前一直很少关注此机器，所以无法回答之前有哪些操作

4、询问此机器服务的重要级别

   答：重要级别在他们中排的比较低，所以有大把时间找事情。

处理过程：

1、首先让发图到群里

   ：根据分析，是mount /dev/sys后触发/etc/fstab 中选项选描机器，最后检测到有坏块。初步分析可能是文件系统坏掉或者磁盘某些磁道坏了。

2、制定方案

   ：因为级别不重要并且有备份，所以很好处理。先让他进单用户模式，在ro 后面加single，多等会儿，让机器扫描完或者别的。进系统后fsck -a /dev/$(sda),如果实在进不去，最好用同发行版的光盘进入恢复模式，挂载硬盘之后再确认是否有重要数据，再次备份出来。在询问中得之他的硬盘使用年限为2年，一般5年就老出问题了。如果是5年了就直接换块新硬盘装系统恢复继续跑。如果硬盘还年轻就让他装完系统恢复跑着。把监控做好。

3、反馈

   3.1 告之我已经进入系统（中午吃饭让他一直跑），然后正在fsck修复。然后1个小时后修复成功。

   3.2 告之我发现是硬盘使用量达到100%，出问题也有一部原因吧，心里在想难道没有做监控？最后通过du发现是tomcat 日志380G，nginx日志40G，单硬盘500G。瞧了一眼就发现很多问题。

   3.3 让他备份日志，他说日志都不需要备份，最后给他讲了日志的重要性后，他还是决定删除，我就让他先删除2010年再册2012年的，发现基本没释放多少。最后他决定全删除，我也没反对。最后清空得到400G左右的空闲空间

   3.4 让他再次重启确定进入系统是没有问题的。

   3.5 让他做好监控

4、事后反馈

   4.1 本以为事情到这里已经有段结尾了，对方又联系说要支持。一番询问下来得知tomcat日志又把磁盘写满了，我心在想有这么大的量吗？才一天。他告诉我是内网访问大造成的。最后告诉他这是tomcat的日志分割的作用，切分后不会把以前的内容删掉，所以是叠加。当然一想也不行，这么大的日志过来，谁也受不了。

   4.2 他询问我有没有办法不要日志，我当然又是一通讲解，日志的作用。最后他还是坚持不要。哈哈，内网的也无所谓了，重要级别又不高。

   4.3 最后把tomcat的日志名建了一个/dev/null的链接。写日志都写到空设备上面去。

   4.4 这下事情应该有一个小段落了

5、反思

   5.1 备份机制一定要做好，可以做做恢复迅练。

   5.2 如果是我要搞这个事我会怎么做？监控没做好，一切问题都发现不了。

   5.3 日志问题一定要解决，可以传到内网备份服务器上面。

   5.4 如果重要级别高的话可以做个小RAID，坏块盘也没事。但前提也是要做好监控。

   5.5 另外硬盘的年限就那么久，跑了5年了就让他去死吧。上了5年问题就会慢慢积多。

   5.6 机器启动不了是为啥？linux操作很多都不需要重启的，如果你改了某些配置，但没让他生交效，等你下次重启时生效结果发现机器启动不了了，就跟服务一样，你改了配置文件，过几天你要改个配置，结果发现启动不了，你检查你今天改的配置你找的出问题？幸好有错误提示。

   5.7 是否有个流程指导我们怎么操作这些事儿？

阅读(2014) | 评论(0) | 转发(0) |

上一篇：c++中容器总结

下一篇：php编程安全指南

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6