在解决服务器故障前我们该了解什么-fighting71k-ChinaUnix博客

LINUX

首页　| 　博文目录　| 　关于我

fighting71k

博客访问： 178746
博文数量： 31
博客积分： 1075
博客等级：少尉
技术积分： 215
用户组：普通用户
注册时间： 2008-04-01 17:51

个人简介

文章分类

全部博文（31）

shell（3）
数据结构算法（1）
C（9）
网络编程（7）
apue（1）
工具配置（4）
未分配的博文（6）

文章存档

2013年（1）

2012年（4）

2010年（26）

我的朋友

raochaox

相关博文

在解决服务器故障前我们该了解什么

分类：系统运维

2013-03-20 23:29:52

原文地址：在解决服务器故障前我们该了解什么作者：jjg6256308

今天看了一篇老外的博文，关于解决服务器故障的前5分钟我们该了解什么，知道什么！原文地址是：http://devo.ps/blog/2013/03/06/troubleshooting-5minutes-on-a-yet-unknown-box.html

看了博文，大致的内容如下：

在服务器出现故障之前不要先急于解决问题，而是要先找出和故障相关的一些细节信息，这样才不会浪费大量的时间

比如：

1：出现这个故障会产生什么样的后果，反应变慢？报错？业务中断？

2：这故障时什么时候被人发现的？

3：这个故障会重复产生吗？

4：在产生故障之前对服务器有过什么操作，比如修改代码，参数调整，协议栈等

5：故障是否有特殊性？比如只针对某些用户，某个地域

6：针对该服务故障是否存在可参考的文档?

7：是否有监控平台？比如：Zabbix, Nagios, New Relic

8：是否有服务错误日志可供参考？

下面的一些命令可以让你或许一些有用信息：

查看用户

$ w
$ last

这个2个命令虽然不怎么重要，但它确可以让你知道还有谁在操作这服务器，一个厨房只要一个厨师就够了

之前操作了什么命令

$ history

有哪些进程在跑

$ pstree -a
$ ps aux

有哪些网络服务开启的，监听的端口是什么

$ netstat -ntlp
$ netstat -nulp
$ netstat -nxlp

cpu和内存信息

$ free -m
$ uptime
$ top
$ htop

硬件信息

$ lspci
$ dmidecode
$ ethtool

io 性能

$ iostat -kx 2
$ vmstat 2 10
$ mpstat 2 10
$ dstat --top-io --top-bio

挂载的文件系统信息

$ mount
$ cat /etc/fstab
$ vgs
$ pvs
$ lvs
$ df -h
$ lsof +D / /* beware not to kill your box */

内核，中断和网络负载

$ sysctl -a | grep ...
$ cat /proc/interrupts
$ cat /proc/net/ip_conntrack /* may take some time on busy servers */
$ netstat
$ ss -s

系统内容日志和内核信息

$ dmesg
$ less /var/log/messages
$ less /var/log/secure
$ less /var/log/auth

crontab 执行任务

$ ls /etc/cron* + cat
$ for user in $(cat /etc/passwd | cut -f1 -d:); do crontab -l -u $user; done

总结：

在这5分钟时间内，你应该了解到：

1:有什么东西在运行

2：存在的故障是否有可能和io/硬件/网络/内核有联系

3：有哪些应用是你可以意识到可能存在的故障

阅读(2837) | 评论(0) | 转发(0) |

上一篇：Linux下进程崩溃时定位源代码位置

下一篇：没有了

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6

$ mount $ cat /etc/fstab $ vgs $ pvs $ lvs $ df -h $ lsof +D / /* beware not to kill your box */

$ mount
$ cat /etc/fstab
$ vgs
$ pvs
$ lvs
$ df -h
$ lsof +D / /* beware not to kill your box */