《linux内核设计与实现》学习笔记（四）---进程调度-王贤才-ChinaUnix博客

oops

首页　| 　博文目录　| 　关于我

王贤才

博客访问： 1264988
博文数量： 573
博客积分： 0
博客等级：民兵
技术积分： 66
用户组：普通用户
注册时间： 2016-06-28 16:21

文章分类

全部博文（573）

数据存储和恢复（2）
kernel+相关机制（53）

内核模块机制（3）

内核同步机制（2）

内核中断机制（3）

内核定时机制（2）

电源管理（5）

Linux IO（1）

netlink机制（2）

uio机制（1）

内核输入子系统（3）

platform机制（0）

内核读写文件（2）

initrd机制（1）

系统调用（7）

工作队列（2）

内核调试（5）

内核源码分析（7）

内核试题（2）

设备模型（1）

内核makefile（1）

其他（3）
kernel+设备驱动（48）

cdp驱动（8）

linux块设备驱动（1）

SCSI_target驱动（11）

SPI驱动（1）

IIC驱动（9）

DMA驱动（1）

LCD和触摸屏驱动（2）

内核+驱动移植（1）

应用程序移植（1）

设备驱动和管理（5）

PCI驱动（2）

编写驱动环境准备（6）
kernel+文件系统（23）

VFS（2）

根文件系统（1）

sysfs文件系统（4）

proc文件系统（5）
kernel+内存管理（26）
kernel+网络接口（4）
kernel+进程调度（11）

内核进程（2）

完成量（1）

内核线程（2）
kernel+进程通信（0）
Android系统（0）
嵌入式开发板（34）

S3C2440裸机驱动（15）

ARM体系结构（8）

硬件+原理图（2）

单片机（2）

bootloader（7）
linux系统编程（78）

socket编程（17）

IPC机制（5）

信号（8）

进程控制和管理（9）

线程控制和管理（6）

文件操作（11）

日期时间（3）

libxml2库（9）

系统相关（7）

其他系统调用API（3）
C/C++编程（47）

标准C语法（27）

标准C库函数（13）

GNU C语法（2）

C试题（2）

c++语法（3）
数据结构+算法（51）

排序和查找（2）

B树（0）

二叉树（4）

八皇后（1）

红黑树（3）

赫夫曼树（0）

Hash表（2）

队列（2）

栈（4）

链表（4）

字符串（3）

大整型数（1）

算法题（5）

其他（18）

位操作（1）
系统架构（11）

nginx（9）

zabbix（1）

apache（1）
辅助编程（115）

linux命令（26）

shell脚本（20）

编译链接（14）

动态库静态库（11）

TUXEDO（2）

thrift（10）

xpcom（12）

cmake（1）

makefile（2）

SVN（5）

vim（7）

source insi（1）

doc命令（1）

aix命令（3）
汇编编程（25）

ARM体系汇编（12）

X86体系汇编（11）

c内嵌汇编（1）

反汇编（1）
python编程（3）
java编程（0）
数据库（5）

C嵌入SQL（2）
《内核设计与实现（20）
IT杂谈（17）
未分配的博文（0）

文章存档

2018年（3）

2016年（48）

2015年（522）

我的朋友

1. 什么是调度

现在的操作系统都是多任务的，为了能让更多的任务能同时在系统上更好的运行，需要一个管理程序来管理计算机上同时运行的各个任务（也就是进程）。

这个管理程序就是调度程序，它的功能说起来很简单：

决定哪些进程运行，哪些进程等待
决定每个进程运行多长时间

此外，为了获得更好的用户体验，运行中的进程还可以立即被其他更紧急的进程打断。

总之，调度是一个平衡的过程。一方面，它要保证各个运行的进程能够最大限度的使用CPU(即尽量少的切换进程，进程切换过多，CPU的时间会浪费在切换上)；另一方面，保证各个进程能公平的使用CPU(即防止一个进程长时间独占CPU的情况)。

2. 调度实现原理

前面说过，调度功能就是决定哪个进程运行以及进程运行多长时间。

决定哪个进程运行以及运行多长时间都和进程的优先级有关。为了确定一个进程到底能持续运行多长时间，调度中还引入了时间片的概念。

2.1 关于进程的优先级

进程的优先级有2种度量方法，一种是nice值，一种是实时优先级。

nice值的范围是-20～+19，值越大优先级越低，也就是说nice值为-20的进程优先级最大。

实时优先级的范围是0～99，与nice值的定义相反，实时优先级是值越大优先级越高。

实时进程都是一些对响应时间要求比较高的进程，因此系统中有实时优先级高的进程处于运行队列的话，它们会抢占一般的进程的运行时间。

进程的2种优先级会让人不好理解，到底哪个优先级更优先？一个进程同时有2种优先级怎么办？

其实linux的内核早就有了解决办法。

对于第一个问题，到底哪个优先级更优先？

答案是实时优先级高于nice值，在内核中，实时优先级的范围是 0～MAX_RT_PRIO-1 MAX_RT_PRIO的定义参见 include/linux/sched.h

1611 #define MAX_USER_RT_PRIO        100 1612 #define MAX_RT_PRIO             MAX_USER_RT_PRIO

nice值在内核中的范围是 MAX_RT_PRIO～MAX_RT_PRIO+40 即 MAX_RT_PRIO～MAX_PRIO

1614 #define MAX_PRIO                (MAX_RT_PRIO + 40)

第二个问题，一个进程同时有2种优先级怎么办？

答案很简单，就是一个进程不可能有2个优先级。一个进程有了实时优先级就没有Nice值，有了Nice值就没有实时优先级。

我们可以通过以下命令查看进程的实时优先级和Nice值：(其中RTPRIO是实时优先级，NI是Nice值)

$ ps -eo state,uid,pid,ppid,rtprio,ni,time,comm
S   UID   PID  PPID RTPRIO  NI     TIME COMMAND
S 0 1 0 - 0 00:00:00 systemd
S 0 2 0 - 0 00:00:00 kthreadd
S 0 3 2 - 0 00:00:00 ksoftirqd/0 S 0 6 2 99 - 00:00:00 migration/0 S 0 7 2 99 - 00:00:00 watchdog/0 S 0 8 2 99 - 00:00:00 migration/1 S 0 10 2 - 0 00:00:00 ksoftirqd/1 S 0 12 2 99 - 00:00:00 watchdog/1 S 0 13 2 99 - 00:00:00 migration/2 S 0 15 2 - 0 00:00:00 ksoftirqd/2 S 0 16 2 99 - 00:00:00 watchdog/2 S 0 17 2 99 - 00:00:00 migration/3 S 0 19 2 - 0 00:00:00 ksoftirqd/3 S 0 20 2 99 - 00:00:00 watchdog/3 S 0 21 2 - -20 00:00:00 cpuset
S 0 22 2 - -20 00:00:00 khelper

2.2 关于时间片

有了优先级，可以决定谁先运行了。但是对于调度程序来说，并不是运行一次就结束了，还必须知道间隔多久进行下次调度。

于是就有了时间片的概念。时间片是一个数值，表示一个进程被抢占前能持续运行的时间。

也可以认为是进程在下次调度发生前运行的时间(除非进程主动放弃CPU，或者有实时进程来抢占CPU)。

时间片的大小设置并不简单，设大了，系统响应变慢(调度周期长)；设小了，进程频繁切换带来的处理器消耗。默认的时间片一般是10ms

2.3 调度实现原理（基于优先级和时间片）

下面举个直观的例子来说明：

假设系统中只有3个进程ProcessA(NI=+10)，ProcessB(NI=0)，ProcessC(NI=-10)，NI表示进程的nice值，时间片=10ms

1) 调度前，把进程优先级按一定的权重映射成时间片(这里假设优先级高一级相当于多5msCPU时间)。

假设ProcessA分配了一个时间片10ms，那么ProcessB的优先级比ProcessA高10(nice值越小优先级越高)，ProcessB应该分配10*5+10=60ms，以此类推，ProcessC分配20*5+10=110ms

2) 开始调度时，优先调度分配CPU时间多的进程。由于ProcessA(10ms),ProcessB(60ms),ProcessC(110ms)。显然先调度ProcessC

3) 10ms(一个时间片)后，再次调度时，ProcessA(10ms),ProcessB(60ms),ProcessC(100ms)。ProcessC刚运行了10ms，所以变成100ms。此时仍然先调度ProcessC

4) 再调度4次后(4个时间片)，ProcessA(10ms),ProcessB(60ms),ProcessC(60ms)。此时ProcessB和ProcessC的CPU时间一样，这时得看ProcessB和ProcessC谁在CPU运行队列的前面，假设ProcessB在前面，则调度ProcessB

5) 10ms(一个时间片)后，ProcessA(10ms),ProcessB(50ms),ProcessC(60ms)。再次调度ProcessC

6) ProcessB和ProcessC交替运行，直至ProcessA(10ms),ProcessB(10ms),ProcessC(10ms)。

这时得看ProcessA，ProcessB，ProcessC谁在CPU运行队列的前面就先调度谁。这里假设调度ProcessA

7) 10ms(一个时间片)后，ProcessA(时间片用完后退出),ProcessB(10ms),ProcessC(10ms)。

8) 再过2个时间片，ProcessB和ProcessC也运行完退出。

这个例子很简单，主要是为了说明调度的原理，实际的调度算法虽然不会这么简单，但是基本的实现原理也是类似的：

1）确定每个进程能占用多少CPU时间(这里确定CPU时间的算法有很多，根据不同的需求会不一样)

2）占用CPU时间多的先运行

3）运行完后，扣除运行进程的CPU时间，再回到 1）

3. Linux上调度实现的方法

Linux上的调度算法是不断发展的，在2.6.23内核以后，采用了“完全公平调度算法”，简称CFS。

CFS算法在分配每个进程的CPU时间时，不是分配给它们一个绝对的CPU时间，而是根据进程的优先级分配给它们一个占用CPU时间的百分比。

比如ProcessA(NI=1)，ProcessB(NI=3)，ProcessC(NI=6)，在CFS算法中，分别占用CPU的百分比为：ProcessA(10%)，ProcessB(30%)，ProcessC(60%)

因为总共是100%，ProcessB的优先级是ProcessA的3倍，ProcessC的优先级是ProcessA的6倍。

Linux上的CFS算法主要有以下步骤：(还是以ProcessA(10%)，ProcessB(30%)，ProcessC(60%)为例)

1)计算每个进程的vruntime(注1)，通过update_curr()函数更新进程的vruntime。

2)选择具有最小vruntime的进程投入运行。（注2）

3)进程运行完后，更新进程的vruntime，转入步骤2) （注3）

注1. 这里的vruntime是进程虚拟运行的时间的总和。vruntime定义在：kernel/sched_fair.c 文件的 struct sched_entity 中。

注2. 这里有点不好理解，根据vruntime来选择要运行的进程，似乎和每个进程所占的CPU时间百分比没有关系了。

1）比如先运行ProcessC，(vr是vruntime的缩写)，则10ms后：ProcessA(vr=0)，ProcessB(vr=0)，ProcessC(vr=10)

2）那么下次调度只能运行ProcessA或者ProcessB。(因为会选择具有最小vruntime的进程)

长时间来看的话，ProcessA、ProcessB、ProcessC是公平的交替运行的，和优先级没有关系。

而实际上vruntime并不是实际的运行时间，它是实际运行时间进行加权运算后的结果。

比如上面3个进程中ProcessA(10%)只分配了CPU总的处理时间的10%，那么ProcessA运行10ms的话，它的vruntime会增加100ms。

以此类推，ProcessB运行10ms的话，它的vruntime会增加(100/3)ms,ProcessC运行10ms的话，它的vruntime会增加(100/6)ms。

实际的运行时，由于ProcessC的vruntime增加的最慢，所以它会获得最多的CPU处理时间。

上面的加权算法是我自己为了理解方便简化的，Linux对vruntime的加权方法还得去看源码^-^

注3.Linux为了能快速的找到具有最小vruntime，将所有的进程的存储在一个红黑树中。这样树的最左边的叶子节点就是具有最小vruntime的进程，新的进程加入或有旧的进程退出时都会更新这棵树。

其实Linux上的调度器是以模块方式提供的，每个调度器有不同的优先级，所以可以同时存在多种调度算法。

每个进程可以选择自己的调度器，Linux调度时，首先按调度器的优先级选择一个调度器，再选择这个调度器下的进程。

4. 调度相关的系统调用

调度相关的系统调用主要有2类：

1) 与调度策略和进程优先级相关 (就是上面的提到的各种参数，优先级，时间片等等) - 下表中的前8个

2) 与处理器相关 - 下表中的最后3个

系统调用	描述
nice()	设置进程的nice值
sched_setscheduler()	设置进程的调度策略，即设置进程采取何种调度算法
sched_getscheduler()	获取进程的调度算法
sched_setparam()	设置进程的实时优先级
sched_getparam()	获取进程的实时优先级
sched_get_priority_max()	获取实时优先级的最大值，由于用户权限的问题，非root用户并不能设置实时优先级为99
sched_get_priority_min()	获取实时优先级的最小值，理由与上面类似
sched_rr_get_interval()	获取进程的时间片
sched_setaffinity()	设置进程的处理亲和力，其实就是保存在task_struct中的cpu_allowed这个掩码标志。该掩码的每一位对应一个系统中可用的处理器，默认所有位都被设置，即该进程可以再系统中所有处理器上执行。用户可以通过此函数设置不同的掩码，使得进程只能在系统中某一个或某几个处理器上运行。
sched_getaffinity()	获取进程的处理亲和力
sched_yield()	暂时让出处理器

标签: linux-kernel

阅读(546) | 评论(0) | 转发(0) |

上一篇：《linux内核设计与实现》学习笔记（三）---进程管理

下一篇：《linux内核设计与实现》学习笔记（五）---系统调用

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6