性能优化方法总结-jasonjourneys-ChinaUnix博客

jasonjourneys的ChinaUnix博客jasonjourneys.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

jasonjourneys

博客访问： 532602
博文数量： 257
博客积分： 1666
博客等级：上尉
技术积分： 1535
用户组：普通用户
注册时间： 2012-04-02 23:02

文章分类

全部博文（257）

C/C++（6）
读书笔记（2）
待处理。。。（1）
杂谈（2）
ubuntu（2）
arm（2）
软件工程（1）
Android（21）
java（2）
Linux（12）
架构设计（1）
面向对象（0）
网络（0）
图像处理（3）
UML（3）
技术日记（10）
未分配的博文（189）

文章存档

2013年（2）

2012年（255）

我的朋友

最近访客

推荐博文

性能优化方法总结

分类：

2012-07-30 17:29:56

原文地址：性能优化方法总结作者：qqrilxk

1. 通过修改swappiness内核参数来提升性能。

如果程序运行过程中在某一时刻使用内存达到一个峰值，有时虽然这个峰值还远没有达到服务器的物理内存，但也会出现系统开始较多使用swap的情况，这会使系统性能开始下降。这时，可通过调节swappiness内核参数来降低系统对swap的使用，从而避免不必要的swap对系统性能的影响（由于swappiness值设得过大，导致虽然服务器物理内存足够，但还会产生swap）

swappiness默认值为60，值越大表示越倾向于使用swap。可以设为0，这样做并不会禁止对swap的使用，只是最大限度地降低了使用swap的可能性，并尽可能多地使用实际物理内存，少使用虚拟内存。通过sysctl -q vm.swappiness可以查看参数的当前设置。修改参数的方法是修改/etc/sysctl.conf文件，加入vm.swappiness=xxx，并重起系统。如果不想重起，可以通过sysctl -p动态加载/etc/sysctl.conf文件，但建议这样做之前先清空swap。

小贴士：1G内存推荐值为5，2G内存推荐值为3,不推荐值为0。

虚拟内存使用状况查看工具---vmstat

使用示例：vmstat -S M 5

参数-S M表示以M为单位，5表示每5秒钟产生一次报告。

procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------
r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
0  2      0   1277     16   6340    0    0     7     3    1    1  0  2 91  6  0
2  0      0   1277     16   6340    0    0     9   778 1203 3901  0  5 78 17  0
0  1      0   1276     16   6340    0    0     4   510 1094 3855  0  1 96  2  0
0  0      0   1276     16   6340    0    0    13   294 1113 3896  0  3 89  7  0
参数解释：

procs:

r-->;在运行队列中等待的内核线程数

b-->;在等待io或资源的内核线程数

w-->;可以进入运行队列但被替换的进程

memoy

swap-->;现时可用的交换内存（k表示）

free-->;空闲的内存（k表示），注：大部分物理内存都用作文件系统数据的高速缓存，对于保持较小的空闲列表，这是很正常的。

buff: 用作缓冲的内存大小

cache:用作缓存的内存大小

bi-->bi代表每秒钟从硬盘读入数据的块数（因为硬盘是块设备）

bo-->bo表示每秒钟写入硬盘数据的块数

pages

re－－》回收的页面

mf－－》非严重错误的页面

pi－－》进入页面数（k表示），分页(Page)从磁盘重新回到内存的过程被称作Page-In

po－－》出页面数（k表示），分页(Page)写入磁盘的过程被称作Page-Out

fr－－》空余的页面数（k表示）

de－－》提前读入的页面中的未命中数

sr－－》通过时钟算法扫描的页面

disk 显示每秒的磁盘操作。 s表示scsi盘，0表示盘号

fault 显示每秒的中断数

in－－》每秒设备中断数(包括时钟中断）

sy－－》系统调用

cs－－》每秒内核线程上下文切换数。

swap

si:每秒从交换区与到内存的大小

so:每秒从内存写入交换区的内存大小。

cpu 表示cpu的使用状态

us－－》用户进程使用的时间

sy－－》系统进程使用的时间

id－－》cpu空闲的时间

wa-->表示CPU等待IO设备就绪的时间(百分比）

结果解读：

如果 r经常大于 4 ，且id经常少于40，表示cpu的负荷很重。

如果pi，po 长期不等于0，表示内存不足。

如果disk 经常不等于0，且在 b中的队列大于3，表示 io性能不好。

实例

vmstat 5 5 后的结果，我倒（r值达到四百多，id为0）。。。。。。。。。。。。

procs memory page disk faults cpu

r b w swap free re mf pi po fr de sr f0 s0 s1 s2 in sy cs us sy id

17 0 0 8528 19456 0 4 3 13 12 0 0 0 0 0 8 204 2291 102 13 22 65

487 0 0 2357984 22480 1 17 9 62 34 0 0 0 0 0 40 602 107610 411 35 65 0

490 0 0 2357992 22088 1 16 14 84 56 0 0 0 0 0 59 810 104391 505 34 66 0

488 1 0 2357992 21632 0 8 9 64 48 0 0 0 3 0 90 886 106271 348 36 64 0

488 0 0 2357984 21352 0 7 2 40 17 0 0 0 0 0 23 439 110977 304 36 64 0

还可再用mpstat 3监控CPU状况看看

CPU minf mjf xcal intr ithr csw icsw migr smtx srw syscl usr sys wt idl

3 4 0 0 304 104 102 23 0 1 0 2806 13 22 1 63

3 18 0 0 239 39 89 41 0 4 0 114511 42 58 0 0

3 0 0 0 235 35 80 36 0 4 0 113945 39 61 0 0

3 0 0 0 211 11 67 31 0 3 0 114326 39 61 0 0

3 0 0 0 212 12 67 32 0 4 0 115592 36 64 0 0

另一个例子，当将swappiness值设为100时，vmstat -S M 5如下显示：

procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------

r b swpd free buff cache si so bi bo in cs us sy id wa st

0 5 0 1191 19 6422 0 0 36 1774 1212 4009 0 4 47 50 0

0 2 0 1191 19 6422 0 0 29 4292 1208 4479 0 4 48 47 0

0 4 0 1191 19 6422 0 0 44 3392 1204 4705 1 5 45 49 0

1 2 0 1190 19 6423 0 0 56 3950 1250 4541 1 5 55 40 0

0 2 0 1190 19 6423 0 0 67 877 1198 3515 0 2 54 44 0

1 2 0 1189 19 6423 0 0 67 928 1201 3589 0 1 57 41 0

这时发现，在swappiness值为100时，wa基本为50左右的值，这表示cpu 50%的时间都在等待IO设备就绪，这说明系统瓶颈在于IO设备-磁盘。解决办法就是换个转速更快的硬盘，当然，增加内存也是可以的，再把swappiness值设小点，以减少硬盘的io操作，使页面文件都存放在内存中，尽量不使用虚拟内存。不过，在上面这个例子中，因为swpd值始终为0,这表明系统根本就没有使用虚拟内存，说明物理内存的容量是足够的，在这样的情况下，再增加物理内存也不能提升性能了，只有换硬盘一个方法。

多核linux下，调度瓶颈问题可归为四种模式：
1. 丢包，这会造成系统吞吐率不高，cpu占用率不高。比如tcp/ip中socket缓冲区太小，产生丢包（这可

用ifconfig查看是否丢包），解决思路有3个：
a. 提高队列长度。但无限提高队列长度会导致包处理时间延长，出现超时。
b. 缩短调度时间片长度，但可能导致调度增多，整体效率下降。
c. 对队列负反馈机制，但处理复杂。

2. 互斥区：两个cpu线程访问互斥数据，其中一个cpu只能等待另一个cpu处理完，导致cpu利用率不高。每

个用锁的地方也可能出现这样的情况。

3. 频繁切换：每个线程执行时间长短是个两难选择，长了，线程实时性不好，短了，花在调度上的时间过

多。所以一个线程的保持时间总在一个经验范围内。如果在这个线程的保持时间内，由于互斥引入过多

的切换，系统性能就会下降。切换频繁很容易发现：比较一个正常情况的平均切换次数和当前的平均切

换次数就能分辨。看全系统的profile调度函数占用的时间比也可发现问题。很多人有个误区：觉得减少

线程个数就可以减少切换的频度。这不是问题的核心，线程切换频繁是由于线程没有用完自己的时间片

   就发生了切换。
   线程频繁切换的形式有：
   a.线程相互等待。一个线程处理完一个步骤，需要等待另一个线程的处理结果，反之亦然。
   b. 线程相互干扰，线程间有大量的短的互斥区。
   c. 发生供应者-消费者模型。即一个线程向另一个线程发送消息（并notify该线程），而后者很快完成

所需工作，并释放cpu。这样，根据linux调度算法，后者慢慢被判定为interactive线程，这种线程

优先级会被不断提高，以后每次后者被notify,都会发生切换，这样两个线程都无法用完所有的时间

片。解决思路：1.仅需要才创建线程（线程合并）2.把关系密切的线程绑定到同一个cpu.

4. 同步等待随便写一个死循环执行printf,会发现cpu达不到100%,但去掉printf就可达到。这是因为

printf是一个同步操作，而i/o速度不如cpu速度。解决思路 1. 如果还有其他工作，那就为这些工作设

置线程。2. 改用异步i/o。

5. CPU体系结构本身导致的性能瓶颈如在smp系统上多个cpu发起lock信号，其他的cpu核就只能忙等待直

到那个访问结束。这样的指令有x86上的lock前缀，XCHG等交换指令。

解决性能瓶颈还有一条就是编译优化，一些测试发现，gcc的-o0和-o2的性能差距可达30%以上。

中断优化处理
cpu最高优先级任务是处理它的中断，中断来源于网卡，硬盘等子系统。硬中断触发cpu停止当前工作并执行上下文切换，这是不受欢迎的，因为处理器不得不清空当前cache以腾出空间支持新的工作。
这里提供两种有效操作来支持中断处理：
1. 将中断号跟cpu绑定（不适应于单cpu系统）
进入/proc/irq目录中，改变smp_affinity里的cpu mask，比如将中断号19绑定到第3个cpu, #echo 03 >/proc/irq/19/smp_affinity

2. 让物理cpu处理中断
在超线程打开的环境下（例如intel xeon cpu),建议将中断跟物理cpu绑定，这比跟超线程打开后的逻辑cpu绑定强。
查看中断跟cpu绑定信息：cat /proc/irq/0/smp_affinity

阅读(762) | 评论(0) | 转发(0) |

上一篇：Dalvik Optimization and Verification With dexopt

下一篇：常用的Shell脚本整理

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6