linux 内核详解-pk-feiyang-ChinaUnix博客

feiyangpkit.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

pk-feiyang

博客访问： 965113
博文数量： 245
博客积分： 11429
博客等级：上将
技术积分： 2662
用户组：普通用户
注册时间： 2009-08-15 00:16

文章分类

全部博文（245）

php 开发（0）
家乡照（0）
视频相关资料（1）
云计算（1）
生活点滴（4）
存储相关（6）
安全工具介绍（6）
博客链接（0）
perl、shell、pyt（16）
版本控制（4）
工作中错误记录（39）
网络系统安全（25）
服务优化（17）
web 服务（38）
虚拟化（10）
mysql 数据库（7）
13个有用的测试网（1）
邮件（0）
自创诗歌（4）
缓存 cdn squid（19）
系统维护（26）
集群负载（6）
网络监控（10）
未分配的博文（5）

文章存档

2011年（56）

2010年（174）

2009年（15）

我的朋友

相关博文

linux 内核详解

分类： LINUX

2010-06-04 17:32:38

与磁盘IO子系统有关的[] /proc/sys/vm/dirty_ratio这个参数控制文件系统的文件系统写缓冲区的大小，单位是百分比，表示系统内存的百分比，表示当写缓冲使用到系统内存多少的时候，开始向磁盘写出数据。增大之会使用更多系统内存用于磁盘写缓冲，也可以极大提高系统的写性能。但是，当你需要持续、恒定的写入场合时，应该降低其数值，一般启动上缺省是10。下面是增大的方法：
  echo '40' > /proc/sys/vm/dirty_ratio
[] /proc/sys/vm/dirty_background_ratio这个参数控制文件系统的pdflush进程，在何时刷新磁盘。单位是百分比，表示系统内存的百分比，意思是当写缓冲使用到系统内存多少的时候，pdflush开始向磁盘写出数据。增大之会使用更多系统内存用于磁盘写缓冲，也可以极大提高系统的写性能。但是，当你需要持续、恒定的写入场合时，应该降低其数值，一般启动上缺省是 5。下面是增大的方法：
  echo '20' > /proc/sys/vm/dirty_background_ratio
[] /proc/sys/vm/dirty_writeback_centisecs这个参数控制内核的脏数据刷新进程pdflush的运行间隔。单位是 1/100 秒。缺省数值是500，也就是 5 秒。如果你的系统是持续地写入动作，那么实际上还是降低这个数值比较好，这样可以把尖峰的写操作削平成多次写操作。设置方法如下：
  echo "200" > /proc/sys/vm/dirty_writeback_centisecs
如果你的系统是短期地尖峰式的写操作，并且写入数据不大（几十M/次）且内存有比较多富裕，那么应该增大此数值：
echo "1000" > /proc/sys/vm/dirty_writeback_centisecs
[] /proc/sys/vm/dirty_expire_centisecs这个参数声明Linux内核写缓冲区里面的数据多“旧”了之后，pdflush 进程就开始考虑写到磁盘中去。单位是 1/100秒。缺省是30000，也就是 30秒的数据就算旧了，将会刷新磁盘。对于特别重载的写操作来说，这个值适当缩小也是好的，但也不能缩小太多，因为缩小太多也会导致IO提高太快。建议设置为1500，也就是15秒算旧。
echo "1500" > /proc/sys/vm/dirty_expire_centisecs
当然，如果你的系统内存比较大，并且写入模式是间歇式的，并且每次写入的数据不大（比如几十M），那么这个值还是大些的好。
[] 与网络IO子系统有关的[] /proc/sys/net/ipv4/tcp_retrans_collapse这个参数控制TCP双方Window协商出现错误的时候的一些重传的行为。但是在老的2.6的核（<2.6.18）里头，这个重传会导致kernel oops，kernel panic，所以，如果出现有tcp_retrans_*样子的kernel panic，可以把这个参数给设置成0：
  echo '0' > /proc/sys/net/ipv4/tcp_retrans_collapse
[] 提高Linux应对短连接的负载能力在存在大量短连接的情况下，Linux的TCP栈一般都会生成大量的 TIME_WAIT 状态的socket。你可以用下面的命令看到：
  netstat -ant| grep -i time_wait
有时候，这个数目是惊人的：
  netstat -ant|grep -i time_wait |wc -l
可能会超过三四万。这个时候，我们需要修改 linux kernel 的 tcp time wait的时间，缩短之，有个 sysctl参数貌似可以使用，它是 /proc/sys/net/ipv4/tcp_fin_timeout，缺省值是60，也就是60秒，很多网上的资料都说将这个数值设置低一些就可以减少netstat里面的TIME_WAIT状态，但是这个说法是错误的。经过认真阅读Linux的内核源代码，我们发现这个数值其实是输出用的，修改之后并没有真正的读回内核中进行使用，而内核中真正管用的是一个宏定义，在 $KERNEL/include/net/tcp.h里面，有下面的行：
  #define TCP_TIMEWAIT_LEN (60*HZ) /* how long to wait to destroy TIME-WAIT
                                 * state, about 60 seconds    */
而这个宏是真正控制 TCP  TIME_WAIT 状态的超时时间的。如果我们希望减少 TIME_WAIT 状态的数目（从而节省一点点内核操作时间），那么可以把这个数值设置低一些，根据我们的测试，设置为 10 秒比较合适，也就是把上面的修改为：
  #define TCP_TIMEWAIT_LEN (10*HZ) /* how long to wait to destroy TIME-WAIT

                                 * state, about 60 seconds    */
然后重新编译内核，重启系统即可发现短连接造成的TIME_WAIT状态大大减少：
netstat -ant | grep -i time_wait |wc -l
一般情况都可以至少减少2/3。也能相应提高系统应对短连接的速度。
[] /proc/irq/{number}/smp_affinity在多 CPU 的环境中，还有一个中断平衡的问题，比如，网卡中断会教给哪个 CPU 处理，这个参数控制哪些 CPU 可以绑定 IRQ 中断。其中的 {number} 是对应设备的中断编号，可以用下面的命令找出：
cat /proc/interrupt
比如，一般 eth0 的 IRQ 编号是 16，所以控制 eth0 中断绑定的 /proc 文件名是 /proc/irq/16/smp_affinity。上面这个命令还可以看到某些中断对应的CPU处理的次数，缺省的时候肯定是不平衡的。
设置其值的方法很简单，smp_affinity 自身是一个位掩码（bitmask），特定的位对应特定的 CPU，这样，01 就意味着只有第一个 CPU 可以处理对应的中断，而 0f（0x1111）意味着四个 CPU 都会参与中断处理。
几乎所有外设都有这个参数设置，可以关注一下。
这个数值的推荐设置，其实在很大程度上，让专门的CPU处理专门的中断是效率最高的，比如，给磁盘IO一个CPU，给网卡一个CPU，这样是比较合理的。
[] 一些测试结论

来源:

600px-Normal_smp_affinity_with_update.png

阅读(570) | 评论(0) | 转发(0) |

上一篇：13个有用的测试网站

下一篇：Web压力测试工具介绍

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6