Linux内核OOM机制的详细分析 -tringger-ChinaUnix博客

tringger的ChinaUnix博客

首页　| 　博文目录　| 　关于我

tringger

博客访问： 313647
博文数量： 94
博客积分： 0
博客等级：民兵
技术积分： 202
用户组：普通用户
注册时间： 2014-08-08 20:07

文章分类

全部博文（94）

C++（11）
数据结构&算法（3）
linux内核（13）
杂项（41）
C语言（8）
操作系统（18）
未分配的博文（0）

文章存档

2017年（19）

2016年（30）

2015年（12）

2014年（33）

我的朋友

相关博文

Linux内核OOM机制的详细分析

分类：系统运维

2015-08-15 02:27:30

原文地址：Linux内核OOM机制的详细分析作者：linuxnerd

Linux 内核有个机制叫OOM killer（Out-Of-Memory killer），该机制会监控那些占用内存过大，尤其是瞬间很快消耗大量内存的进程，为了防止内存耗尽而内核会把该进程杀掉。典型的情况是：某天一台机器突然ssh远程登录不了，但能ping通，说明不是网络的故障，原因是sshd进程被OOM killer杀掉了（多次遇到这样的假死状况）。重启机器后查看系统日志/var/log/messages会发现Out of Memory: Kill process 1865（sshd）类似的错误信息。

防止重要的系统进程触发(OOM)机制而被杀死：可以设置参数/proc/PID/oom_adj为-17，可临时关闭linux内核的OOM机制。内核会通过特定的算法给每个进程计算一个分数来决定杀哪个进程，每个进程的oom分数可以/proc/PID/oom_score中找到。我们运维过程中保护的一般是sshd和一些管理agent。

保护某个进程不被内核杀掉可以这样操作：

点击(此处)折叠或打开

echo -17 > /proc/$PID/oom_adj

如何防止sshd被杀，可以这样操作：

点击(此处)折叠或打开

pgrep -f "/usr/sbin/sshd" | while read PID;do echo -17 > /proc/$PID/oom_adj;done

可以在计划任务里加入这样一条定时任务，就更安全了：

点击(此处)折叠或打开

#/etc/cron.d/oom_disable

*/1**** root pgrep -f "/usr/sbin/sshd" | while read PID;do echo -17 > /proc/$PID/oom_adj;done

为了避免重启失效，可以写入/etc/rc.d/rc.local

点击(此处)折叠或打开

echo -17 > /proc/$(pidof sshd)/oom_adj

至于为什么用-17而不用其他数值（默认值为0），这个是由linux内核定义的，查看内核源码可知：
以linux-3.3.6版本的kernel源码为例，路径为linux-3.6.6/include/linux/oom.h，阅读内核源码可知oom_adj的可调值为15到-16，其中15最大-16最小，-17为禁止使用OOM。oom_score为2的n次方计算出来的，其中n就是进程的oom_adj值，所以oom_score的分数越高就越会被内核优先杀掉。

当然还可以通过修改内核参数禁止OOM机制