使用完全公平调度程序（CFS）进行多任务处理-droplist-ChinaUnix博客

虚无飘渺

首页　| 　博文目录　| 　关于我

droplist

博客访问： 147723
博文数量： 220
博客积分： 1565
博客等级：上尉
技术积分： 1154
用户组：普通用户
注册时间： 2012-10-30 23:39

文章分类

全部博文（220）

IT技术（12）

网站架构（1）

KVM（0）

java（0）

Openstack（0）

安全（0）

中间件（0）

存储（11）

网络（0）

Docker（0）
为人处世（4）
项目管理（3）
未分配的博文（201）

文章存档

2016年（11）

2015年（2）

2014年（53）

2013年（92）

2012年（62）

我的朋友

相关博文

使用完全公平调度程序（CFS）进行多任务处理

分类： LINUX

2012-10-31 22:29:47

原文：http://www.ibm.com/developerworks/cn/linux/l-cfs/index.html

使用完全公平调度程序（CFS）进行多任务处理

将 CFS 引入 Linux

Avinesh Kumar (), 软件工程师, EMC

简介： Linux? 2.6.23 内核附带了一个模块化调度程序内核和一个被实现为调度模块的完全公平调度程序（Completely Fair Scheduler，CFS）。本文将介绍 CFS 的主要特性和工作原理，并提前预览 2.6.24 版本中的预期变动。?

发布日期： 2008 年 2 月 04 日
级别： 中级
访问情况： 7244 次浏览
评论： 0 (查看 | 添加评论 - 登录)

平均分 (9个评分)
为本文评分

Linux 2.6.23 内核的调度程序为其他调度模块并行处理内核打好了基础（这里所说的 “模块化” 并不意味着将调度程序分解为若干可加载的模块，而是指代码本身模块化）。有关调度程序工作原理的更多细节，请参考 developerWorks 文章 “Inside the Linux scheduler”（参见本文末尾参考资料小节中的链接）。

主要特性和策略

最新版调度程序引入的主要特性包括：

模块化调度程序
完全公平调度程序（Completely Fair Scheduler，CFS）
CFS 组调度

模块化调度程序

调度类的引入显著增强了内核调度程序的可扩展性。这些类（调度程序模块）封装了调度策略。这个调度程序将调度策略模块化，但是与 Pluggable CPU 调度程序框架不同的是，并没有把调度程序本身模块化（后者在内核编译时选择默认调度程序，而通过在启动时向内核传递参数来使用其他 CPU 调度程序）。

CFS

完全公平调度程序（CFS）试图按照对 CPU 时间的 “最大需求（gravest need）” 运行任务；这有助于确保每个进程可以获得对 CPU 的公平共享。如果某个任务休眠时间 “非常短”，那么 CFS 不会将该任务视为休眠任务 — 短暂休眠的进程可能会获得一些额外时间，但是决不会超过它的未休眠时间。

CFS 组调度

考虑一个两用户示例，用户 A 和用户 B 在一台机器上运行作业。用户 A 只有两个作业正在运行，而用户 B 正在运行 48 个作业。组调度使 CFS 能够对用户 A 和用户 B 进行公平调度，而不是对系统中运行的 50 个作业进行公平调度。每个用户各拥有 50% 的 CPU 使用。用户 B 使用自己 50% 的 CPU 分配运行他的 48 个作业，而不会占用属于用户 A 的另外 50% 的 CPU 分配。

CFS 调度模块（在 kernel/sched_fair.c 中实现）用于以下调度策略：SCHED_NORMAL、SCHED_BATCH 和 SCHED_IDLE。对于SCHED_RR 和 SCHED_FIFO 策略，将使用实时调度模块（该模块在 kernel/sched_rt.c 中实现）。

鉴于以下原因，需要对策略作出一些更改：

更好地支持服务器和台式机调度。
提供用户要求的新特性。
改进启发式（heuristic）处理。vanilla 调度程序使用启发式处理可以更轻易地实现调度。同样，如果启发式处理错误估测了场景，将导致意料之外的行为。

回页首

CFS 和 RSDL 对比

RSDL（Rotating Staircase Deadline Scheduler）

RSDL 是一个进程调度程序，以前的 Linux 进程调度程序尝试使用统计信息推测启发式处理的预期行为（或出现的故障），而 RSDL 可以消除这种交互性评估代码和算法。RSDL 以 “公平” 概念为基础，平等对待所有进程并分配相同的时间片。这种调度程序并不关心或者试图猜测进程是 CPU 密集型还是 IO 密集型。RSDL 增强了用户感知的 “交互性”，并且，当 original O(1) 进程调度程序的创建者 Ingo Molnar 用来自 RSDL 的公平调度基本设计原理创建 CFS 后，RSDL 已被合并到 2.6 内核中。这一举措受到众多计算机爱好者的普遍认同，而 RSDL（创建者为 Con Kolivas）功不可没。

Con Kolivas 证明了实现 “公平调度” 不会与交互性的延迟目标相冲突。他已经使用 RSDL/SD 调度程序证明，公平性可以很轻易地实现，不需要使用复杂的启发式处理来判断进程的交互性。

CFS 没有使用优先级数组，它去掉了 vanilla 调度程序的数组切换工件。RSDL 和 CFS 之间的重要区别包括以下几点：

RSDL 基于 “严格的公平性” 概念；然而，CFS 还考虑到交互式进程的休眠时间长度，因此，短暂休眠进程对 CPU 时间的占用会略微多一些。
RSDL 使用诸如 vanilla 调度程序这样的优先级队列，而 CFS 没有使用。
RSDL 和 vanilla 调度程序会受到数组切换工件的影响，而 CFS 不会。

CFS 不会跟踪休眠时间，也不会使用启发式处理识别交互式任务 — 它仅仅确保在既定时间内，对于一定数量的可运行进程，每个进程获得公平的 CPU 占用。

重要的 CFS 数据结构

对于每个 CPU，CFS 使用按时间排序的红黑（red-black）树。

红黑树的 Wikipedia 定义

根据的解释，红黑树 是一种自平衡二叉搜索树，这种数据结构可用于实现关联数组。对于每个运行中的进程，在红黑树上都有一个节点。红黑树上位于最左侧的进程表示将进行下一次调度的进程。红黑树比较复杂，但它的操作具有良好的最差情况（worst-case）运行时，并且在实际操作中非常高效：它可以在 O(log n) 时间内搜索、插入和删除，其中 n 表示树元素的数量。叶节点意义不大并且不包含数据。为节省内存，有时使用单个哨兵（sentinel）节点执行所有叶节点的角色。内部节点到叶节点的所有引用都指向哨兵节点。

该树方法能够良好运行的原因在于：

红黑树可以始终保持平衡。
由于红黑树是二叉树，查找操作的时间复杂度为对数。但是，除了最左侧查找以外，很难执行其他查找，并且最左侧的节点指针始终被缓存。
对于大多数操作，红黑树的执行时间为 O(log n)，而以前的调度程序通过具有固定优先级的优先级数组使用 O(1)。O(log n) 行为具有可测量的延迟，但是对于较大的任务数无关紧要。Molnar 在尝试这种树方法时，首先对这一点进行了测试。
红黑树可通过内部存储实现 — 即不需要使用外部分配即可对数据结构进行维护。

让我们了解一下实现这种新调度程序的一些关键数据结构。

struct task_struct 的变化

CFS 去掉了 struct prio_array，并引入调度实体（scheduling entity）和调度类（scheduling classes），分别由 struct sched_entity 和 struct sched_class 定义。因此，task_struct 包含关于 sched_entity 和 sched_class 这两种结构的信息：

清单 1. task_struct 结构

struct task_struct { /* Defined in 2.6.23:/usr/include/linux/sched.h */ .... - struct prio_array *array; + struct sched_entity se; + struct sched_class *sched_class; .... .... };

struct sched_entity

该结构包含了完整的信息，用于实现对单个任务或任务组的调度。它可用于实现组调度。调度实体可能与进程没有关联。

清单 2. sched_entity 结构

struct sched_entity { /* Defined in 2.6.23:/usr/include/linux/sched.h */ long wait_runtime; /* Amount of time the entity must run to become completely */ /* fair and balanced.*/ s64 fair_key; struct load_weight load; /* for load-balancing */ struct rb_node run_node; /* To be part of Red-black tree data structure */ unsigned int on_rq; .... };

struct sched_class

该调度类类似于一个模块链，协助内核调度程序工作。每个调度程序模块需要实现 struct sched_class 建议的一组函数。

清单 3. sched_class 结构

struct sched_class { /* Defined in 2.6.23:/usr/include/linux/sched.h */ struct sched_class *next; void (*enqueue_task) (struct rq *rq, struct task_struct *p, int wakeup); void (*dequeue_task) (struct rq *rq, struct task_struct *p, int sleep); void (*yield_task) (struct rq *rq, struct task_struct *p); void (*check_preempt_curr) (struct rq *rq, struct task_struct *p); struct task_struct * (*pick_next_task) (struct rq *rq); void (*put_prev_task) (struct rq *rq, struct task_struct *p); unsigned long (*load_balance) (struct rq *this_rq, int this_cpu, struct rq *busiest, unsigned long max_nr_move, unsigned long max_load_move, struct sched_domain *sd, enum cpu_idle_type idle, int *all_pinned, int *this_best_prio); void (*set_curr_task) (struct rq *rq); void (*task_tick) (struct rq *rq, struct task_struct *p); void (*task_new) (struct rq *rq, struct task_struct *p); };

我们来看一下清单 3 中的函数：

enqueue_task：当某个任务进入可运行状态时，该函数将得到调用。它将调度实体（进程）放入红黑树中，并对nr_running 变量加 1。
dequeue_task：当某个任务退出可运行状态时调用该函数，它将从红黑树中去掉对应的调度实体，并从 nr_running 变量中减 1。
yield_task：在 compat_yield sysctl 关闭的情况下，该函数实际上执行先出队后入队；在这种情况下，它将调度实体放在红黑树的最右端。
check_preempt_curr：该函数将检查当前运行的任务是否被抢占。在实际抢占正在运行的任务之前，CFS 调度程序模块将执行公平性测试。这将驱动唤醒式（wakeup）抢占。
pick_next_task：该函数选择接下来要运行的最合适的进程。
load_balance：每个调度程序模块实现两个函数，load_balance_start() 和 load_balance_next()，使用这两个函数实现一个迭代器，在模块的 load_balance 例程中调用。内核调度程序使用这种方法实现由调度模块管理的进程的负载平衡。
set_curr_task：当任务修改其调度类或修改其任务组时，将调用这个函数。
task_tick：该函数通常调用自 time tick 函数；它可能引起进程切换。这将驱动运行时（running）抢占。
task_new：内核调度程序为调度模块提供了管理新任务启动的机会。CFS 调度模块使用它进行组调度，而用于实时任务的调度模块则不会使用这个函数。

运行队列中与 CFS 有关的字段

对于每个运行队列，都提供了一种结构来保存相关红黑树的信息。

清单 4. cfs_rq 结构

struct cfs_rq {/* Defined in 2.6.23:kernel/sched.c */ struct load_weight load; unsigned long nr_running; s64 fair_clock; /* runqueue wide global clock */ u64 exec_clock; s64 wait_runtime; u64 sleeper_bonus; unsigned long wait_runtime_overruns, wait_runtime_underruns; struct rb_root tasks_timeline; /* Points to the root of the rb-tree*/ struct rb_node *rb_leftmost; /* Points to most eligible task to give the CPU */ struct rb_node *rb_load_balance_curr; #ifdef CONFIG_FAIR_GROUP_SCHED struct sched_entity *curr; /* Currently running entity */ struct rq *rq; /* cpu runqueue to which this cfs_rq is attached */ ... ... #endif };

回页首

CFS 工作原理

CFS 调度程序使用安抚（appeasement）策略确保公平性。当某个任务进入运行队列后，将记录当前时间，当某个进程等待 CPU 时，将对这个进程的 wait_runtime 值加一个数，这个数取决于运行队列当前的进程数。当执行这些计算时，也将考虑不同任务的优先级值。将这个任务调度到 CPU 后，它的 wait_runtime 值开始递减，当这个值递减到其他任务成为红黑树的最左侧任务时，当前任务将被抢占。通过这种方式，CFS 努力实现一种理想状态，即 wait_runtime 值为 0！

CFS 维护任务运行时（相对于运行队列级时钟，称为 fair_clock(cfs_rq->fair_clock)），它在某个实际时间的片段内运行，因此，对于单个任务可以按照理想的速度运行。

粒度和延迟如何关联？

关联粒度和延迟的简单等式为：

gran = (lat/nr) - (lat/nr/nr)
其中 gran = 粒度，
lat = 延迟，而
nr = 运行中的任务数。

例如，如果具有 4 个可运行的任务，那么 fair_clock 将按照实际时间速度的四分之一增加。每个任务将设法跟上这个速度。这是由分时多任务处理的量子化特性决定的。也就是说，在任何一个时间段内只有一个任务可以运行；因此，其他进程在时间上的拖欠将增大（wait_runtime）。因此，一旦某个任务进入调度，它将努力赶上它所欠下的时间（并且要比所欠时间多一点，因为在追赶时间期间，fair_clock 不会停止计时）。

加权任务引入了优先级。假设我们有两个任务：其中一个任务占用 CPU 的时间量是另一个任务的两倍，比例为 2:1。执行数学转换后，对于权重为 0.5 的任务，时间流逝的速度是以前的两倍。

我们根据 fair_clock 对树进行排队。

请注意，CFS 没有使用时间片（time slices），至少，没有优先使用。CFS 中的时间片具有可变的长度并且动态确定。

对于负载平衡程序，调度模块实现了迭代器，使用它遍历由调度模块管理的所有任务，从而进行负载平衡。

运行时调优选项

引入了重要的 sysctls 来在运行时对调度程序进行调优（以 ns 结尾的名称以纳秒为单位）：

sched_latency_ns：针对 CPU 密集型任务进行目标抢占延迟（Targeted preemption latency）。
sched_batch_wakeup_granularity_ns：针对 SCHED_BATCH 的唤醒（Wake-up）粒度。
sched_wakeup_granularity_ns：针对 SCHED_OTHER 的唤醒粒度。
sched_compat_yield：由于 CFS 进行了改动，严重依赖 sched_yield() 的行为的应用程序可以要求不同的性能，因此推荐启用 sysctls。
sched_child_runs_first：child 在 fork 之后进行调度；此为默认设置。如果设置为 0，那么先调度 parent。
sched_min_granularity_ns：针对 CPU 密集型任务执行最低级别抢占粒度。
sched_features：包含各种与调试相关的特性的信息。
sched_stat_granularity_ns：收集调度程序统计信息的粒度。

下面是系统中运行时参数的典型值：

清单 5. 典型的运行时参数值

[root@dodge ~]# sysctl -A|grep "sched" | grep -v "domain" kernel.sched_min_granularity_ns = 4000000 kernel.sched_latency_ns = 40000000 kernel.sched_wakeup_granularity_ns = 2000000 kernel.sched_batch_wakeup_granularity_ns = 25000000 kernel.sched_stat_granularity_ns = 0 kernel.sched_runtime_limit_ns = 40000000 kernel.sched_child_runs_first = 1 kernel.sched_features = 29 kernel.sched_compat_yield = 0 [root@dodge ~]#

新的调度程序调试接口

新调度程序附带了一个非常棒的调试接口，还提供了运行时统计信息，分别在 kernel/sched_debug.c 和 kernel/sched_stats.h 中实现。要提供调度程序的运行时信息和调试信息，需要将一些文件添加到 proc pseudo 文件系统：

/proc/sched_debug：显示运行时调度程序可调优选项的当前值、CFS 统计信息和所有可用 CPU 的运行队列信息。当读取这个 proc 文件时，将调用 sched_debug_show() 函数并在 sched_debug.c 中定义。
/proc/schedstat：为所有相关的 CPU 显示特定于运行队列的统计信息以及 SMP 系统中特定于域的统计信息。kernel/sched_stats.h 中定义的 show_schedstat() 函数将处理 proc 条目中的读操作。
/proc/[PID]/sched：显示与相关调度实体有关的信息。在读取这个文件时，将调用 kernel/sched_debug.c 中定义的proc_sched_show_task() 函数

回页首

内核 2.6.24 中的变化

Linux 2.6.24 版本中有哪些值得期待的新变化？新版本中不再追赶全局时钟（fair_clock），任务之间将彼此追赶。将引入每个任务（调度实体）的时钟 vruntime（wall_time/task_weight），并且将使用近似的平均时间初始化新任务的时钟。

其他重要改动将影响关键数据结构。下面展示了 struct sched_entity 中的预期变动：

清单 6. 2.6.24 版本中 sched_entity 结构的预期变动

struct sched_entity { /* Defined in /usr/include/linux/sched.h */ - long wait_runtime; - s64 fair_key; + u64 vruntime; - u64 wait_start_fair; - u64 sleep_start_fair; ... ... }

以下是 struct cfs_rq 中的变动：

清单 7. 2.6.24 版本中 cfs_rq 结构的预期变动

struct cfs_rq { /* Defined in kernel/sched.c */ - s64 fair_clock; - s64 wait_runtime; - u64 sleeper_bonus; - unsigned long wait_runtime_overruns, wait_runtime_underruns; + u64 min_vruntime; + struct sched_entity *curr; +#ifdef CONFIG_FAIR_GROUP_SCHED ... + struct task_group *tg; /* group that "owns" this runqueue */ ... #endif };

组任务中引入了一个全新结构：

清单 8. 新添加的 task_group 结构

struct task_group { /* Defined in kernel/sched.c */ #ifdef CONFIG_FAIR_CGROUP_SCHED struct cgroup_subsys_state css; #endif /* schedulable entities of this group on each cpu */ struct sched_entity **se; /* runqueue "owned" by this group on each cpu */ struct cfs_rq **cfs_rq; unsigned long shares; /* spinlock to serialize modification to shares */ spinlock_t lock; struct rcu_head rcu; };

每个任务都跟踪它的运行时，并根据该值对任务进行排队。这意味着运行最少的任务将位于树的最左侧。同样，通过对时间加权划分优先级。每个任务在下面的时间段内力求获得精确调度：

sched_period = (nr_running > sched_nr_latency) ? sysctl_sched_latency : ((nr_running * sysctl_sched_latency) / sched_nr_latency)

其中 sched_nr_latency = (sysctl_sched_latency / sysctl_sched_min_granularity)。这表示，当可运行任务数大于latency_nr 时，将线性延长调度周期。sched_fair.c 中定义的 sched_slice() 是进行这些计算的位置。

因此，如果每个可运行任务运行与 sched_slice() 等价的时间，那么将花费的时间为 sched_period，每个任务将运行与其权重成比例的时间量。此外，在任何时刻，CFS 都承诺超前运行 sched_period，因为最后执行调度的任务将在这个时限内再次运行。

因此，当一个新任务变为可运行状态时，对其位置有严格的要求。在所有其他任务运行之前，此任务不能运行；否则，将破坏对这些任务作出的承诺。然而，由于该任务确实进行了排队，对运行队列的额外权重将缩短其他所有任务的时间片，在 sched_priod 的末尾释放一点位置，刚好满足新任务的需求。这个新的任务就被放在这个位置。

2.6.24 中的组调度增强

在 2.6.24 中，您将能够对调度程序进行调优，从而实现对用户或组的公平性，而不是任务公平性。可以将任务进行分组，形成多个实体，调度程序将平等对待这些实体，继而公平对待实体中的任务。要启用这个特性，在编译内核时需要选择CONFIG_FAIR_GROUP_SCHED。目前，只有 SCHED_NORMAL 和 SCHED_BATCH 任务可以进行分组。

可以使用两个独立的方法对任务进行分组，它们分别基于：

用户 ID。
cgroup pseudo 文件系统：这个选项使管理员可以根据需要创建组。有关更多细节，阅读内核源文档目录中的 cgroups.txt 文件。

内核配置参数 CONFIG_FAIR_USER_SCHED 和 CONFIG_FAIR_CGROUP_SCHED 可帮助您进行选择。

回页首

结束语

通过引入调度类并通过增强调度统计信息来简化调试，这个新的调度程序进一步扩展了调度功能。当针对线程密集型应用程序（包括 3D 游戏）进行测试时，CFS 赢得了高度的评价。

致谢

在此要感谢 Peter Zijlstra 对 CFS 调度程序开发做出的重大贡献，并在百忙之中抽出时间为本文的修改提出宝贵意见和建议。非常感谢 Srivatsa Vaddagiri 对 CFS 组调度所做的杰出工作，同时感谢 RSDL 的创建者 Con Kolivas。还要感谢 Linux Scheduler 的维护者 Ingo Molnar 对本文的关注。

参考资料

学习

您可以参阅本文在 developerWorks 全球站点上的英文原文。
“Linux 调度器内幕”（developerWorks，2006 年 6 月）探讨了 Linux 2.6 调度程序的属性。
阅读 “走向 Linux 2.6”（developerWorks，2003 年 9 月），从技术和历史角度了解 Linux 2.6 及其调度程序。
“Linux 和对称多处理”（developerWorks，2007 年 3 月）介绍了 2.6 内核和对称多任务处理主题。
在 “管理处理器的亲和性（affinity）”（developerWorks，2005 年 9 月）中，进一步了解 Linux 2.6 调度程序处理 CPU 亲和力（CPU affinity）的方式，不管如何，都有助于您设计更好的 userspace 应用程序。
展示了针对 2.6.24 计划实施的修改时间线。
在 developerWorks Linux 专区中，获得面向 Linux 开发人员的更多资料，并浏览最受读者欢迎的文章和教程。
查看 developerWorks 上所有的 Linux 技巧和 Linux 教程。
随时关注 developerWorks 技术事件和网络广播。

获得产品和技术

订购 SEK for Linux，共含两张 DVD，包括来自 DB2?、 Lotus?、Rational?、Tivoli? 和 WebSphere? 的面向 Linux 的最新 IBM 试用软件。
使用可从 developerWorks 直接下载的 IBM 试用软件构建下一个 Linux 开发项目。

讨论

通过新的 developerWorks 空间中的博客、论坛、podcast 和社区主题，参与 developerWorks 社区。

关于作者

Avinesh Kumar 是位于印度 Pune 的 IBM Software Labs 的 Andrew File System 团队的系统软件工程师。他从事转储及崩溃的内核级和用户级调试，以及报告 Linux、AIX 和 Solaris 平台中的错误。Avinesh 拥有 Pune 大学计算机科学系的 MCA 学位。Avinesh 是一个 Linux 爱好者，他用业余时间在 Fedora Core 6 机器上研究 Linux 内核。

阅读(367) | 评论(0) | 转发(0) |

上一篇：没有了

下一篇：Linux进程切换分析

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6