linux服务器宕机分析/性能瓶颈分析-lsklamp-ChinaUnix博客

lsklamp的ChinaUnix博客

首页　| 　博文目录　| 　关于我

lsklamp

博客访问： 211475
博文数量： 45
博客积分： 0
博客等级：民兵
技术积分： 444
用户组：普通用户
注册时间： 2014-03-11 12:23

文章分类

全部博文（45）

WEB（2）
http（6）

nginx（1）
dede（1）
ajax（1）
memcache（4）
mysql（18）

mongo（1）
js（4）
php（9）

CI（1）

sphinx（1）

yii（1）

thinkphp（1）
未分配的博文（0）

文章存档

2017年（1）

2016年（14）

2014年（30）

我的朋友

memory

* swap列表示切换到交换区的内存大小（KB为单位），如果swap的值不为0或者比较大，只要si和so长期为0，一般不是性能问题

* free列表示当前空闲的物理内存数量（以KB为单位）

* buff列表示buffers cache的内存数量，一般对块设备的读写才需要缓冲

* cache列表示page cached的内存数量，一般作为文件系统进行缓存，频繁访问的文件都会被缓存。如果cache值较大，说明缓存文件较多，如果此时io中的bi比较小，说明文件系统效率比较好。

swap

* si列表示由磁盘调入内存，也就是由内存进入内存交换区的内存大小，单位KB/秒

* so列表示由内存调入磁盘，也就是由内存交换区进入内存的大小，单位KB/秒。

在一般情况下，si、so的值都为0，如果si、so值长期不为0，则表示系统内存不足，需要增加系统内存。

io

io项显示磁盘读写情况

bi列表示从块设备读入数据的总量（即读磁盘）（kb/s）

bo列表示写到块设备的数据总量（即写磁盘）（kb/s）

bi+bo的参考值为1000，如果超过1000，而且wa值较大，则表示系统磁盘IO有问题，应该考虑提高磁盘的读写性能。

system

显示采集间隔内发生的中断数

in列表示在某一时间间隔内观测到的每秒设备中断数

cs列表示每秒产生的上下文切换次数

上面的两个值越大，由内核消耗的CPU时间越多。

CPU

显示了CPU的使用状态，此列是关注的重点。

us列显示了用户进程消耗的CPU时间百分比。us的值比较高时，说明用户进程消耗的CPU时间多，但是如果长期大约50%，就需要考虑优化算法或程序。

sy列显示了内核进程消耗的CPU时间百分比。sy的值较高时，说明内核消耗的CPU资源很多。

根据经验，us+sy的参考值为80%，如果us+sy大约80%，说明可能存在CPU资源不足。

id列显示了CPU处在空闲时间的时间百分比。

wa列显示了IO等待所占用的CPU时间百分比。wa值越高，说明IO等待越严重。根据经验，wa的参考值为20%，如果wa超过20%，说明IO等待严重，引起IO等待的原因可能是磁盘大量随机读写造成的，也可能是磁盘或者磁盘控制器的带宽瓶颈（主要是块操作）造成的。

综上所述，在对CPU的评估中，需要重点注意procs项中r列的值和CPU项中us、sy和id列的值。

好： user%+sys%<70%

坏： user%+sys%=85%

糟糕： user%+sys%>=90%

2、查看内存是否瓶颈

内存不足时，可以使用工具观察到频繁使用虚拟内存，虚拟内存可以缓解物理内存的不足，但是虚拟内存的过多占用会导致应用程序的性能明显下降。

服务器内存查看》dmidecode |grep -B5 -A5 -i memory |grep Size

free命令

free是监控linux内存使用的指令。

[plain]view plain copy

1. free -m

2. total used free shared buffers cached

3. Mem: 48291 33630 14660 0 24 22437

4. -/+ buffers/cache: 11168 37122

5. Swap: 0 0 0

free -m表示查看以M为单位的内存使用情况，重点需要关注free列与cached列的输出值。

由输出可以得知，系统共有48G内存，系统空闲内存还有14660MB，其中buffer cache占了24MB，page cache站了22437MB。

由此可知系统缓存了很多的文件和目录，对于应用程序来说还有37122MB内存可以用，当然这37122MB内存包含了buffer cache和page cache的值，从swap项看出，交换分区还未使用，从应用的角度来说，系统的内存资源还非常充足。

vmstat命令可以查看
好：SwapIn(si) = 0 SwapOut(so) = 0

坏：Per CPU with 10page/s

糟糕：more swap In & swap out

3. 磁盘IO性能

命令 iostat 可得到相应的数值

好：iowait%<20%

坏：iowait% = 35%

糟糕：iowait%>=50%

4.网络带宽

查询QLogic HBA卡》lspci | grep -i Fibre

user%表示CPU处在用户模式下的时间百分比

sys%表示CPU处在系统模式下的时间百分比

iowait%表示CPU等待输入输出完成时间的百分比

swap in表示虚拟内存的页导入，从SWAP DISK交换到RAM

swap out表示虚拟内存的页导出，从RAM交换到SWAP DISK

个人总结：

总结论：操作建议：



序号	检查点	检查方法	判断依据	结果判断
1	系统的Uptime时间	uptime last reboot	如果发现系统uptime时间很短，则需要检查系统是否重启过检查系统最近的重启时间
2	检查文件系统的使用率	df -h du -hs * \| sort -n (*用目录路径代替)	对于OS的文件系统，如果发现使用率高于90%就应该再进一步检查是什么原因引起的文件系统使用率上涨。对于应用系统使用的文件系统，我们重点在于发现有没有文件系统使用率到达95%以上，若有，把情况报告给相关的人员。
3	检查网络状态	ping	网络连通性检查
		ifconfig	检查当前处于up状态的网卡
		mii-tool	link ok 显示各个网卡所接链路的状况
		ethtool eth[n]	查看指定网卡所接链路的状况
		ls -al /etc/resolv.conf ls -al /etc/nsswitch.conf	确保以上文件的权限是other可读
		cat /etc/hosts	主机名在hosts文件中只应该与机器的物理IP映射，如果出现有机器的浮动IP与主机映射就需要做进一步检查
		netstat –rn ip route ls table f5 ip rule ls	正常情况下应该只设置了网关，而没有其它的静态路由，如果在列表中发现有其它的路由，则需要确认是否正确
		view /etc/sysconfig/network-scripts/ifcfg-eth*	先检查子网掩码设置是否正确再检查是否ip是否吻合
4	检查ntp时间服务器设置	ntpq -p	正常情况下应该有如下输出信息： [root@cnsz01pl0041 ~]# ntpq -p remote refid st t when poll reach delay offset jitter ============================================================================== *10.0.16.238 118.143.17.82 2 u 24d 1024 0 3.684 0.247 0.000
5	进程状态	ps –ef \| grep defunct；ps -ef \| wc -l；ps -ef \| grep -v root \| wc -l	如果系统中存在大量的僵尸进程则属于异常的状态需要检查处理。如果只是个别进程就不需要处理。
6	内存状态	free -m	检查内存使用情况
7	swap状态	swapon -s	查看swap使用百分比
8	检查机器性能	vmstat	CPU：如果cpu的id字段长时间<10，该机器的CPU负载比较高 MEM：si和so字段频繁>0,则说明该机器的内存使用比较紧张 DISK：如果bi和bo频繁出现大数字，则说明该机器对磁盘的读写比较频繁。
9	检查磁盘性能	iostat	检查iowait 时长是否过大？
10	检查系统日志	view /var/log/messages	可以通过检索error,fail,warn等字眼加快检查的速度关注syslog中关于IO过程的提示信息，有无IO中断，IO丢失，SCSI reset等等
11	收集系统日志	sosreport -a --batch	收集系统日志
12	收集硬件日志	DSET smartCD	Dell PC Server ：用DSET 工具收集硬件日志 HP PC Server：视情况用smartCD收集硬件日志

阅读(2044) | 评论(0) | 转发(0) |

上一篇：为最佳性能调优 Nginx

下一篇：mongo基本操作

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6