linux调度器-alex-huang-ChinaUnix博客

alex-huang的ChinaUnix博客

首页　| 　博文目录　| 　关于我

alex-huang

博客访问： 260741
博文数量： 35
博客积分： 883
博客等级：准尉
技术积分： 656
用户组：普通用户
注册时间： 2011-06-17 09:38

文章分类

全部博文（35）

心理学（8）
国学（2）
中国式管理（0）
市场销售（2）
财务（0）
人力资源（3）
MBA（1）
linux内核之2.6.3（16）
PMP管理（3）
未分配的博文（0）

文章存档

2013年（1）

2012年（34）

我的朋友

相关博文

linux调度器

分类： LINUX

2012-10-27 14:49:15

linux调度器主要基于两个函数：1、周期调度器 2、主调度器

周期调度器scheduler_tick基于HZ会被周期性自动调用，其注册过程如下：

点击(此处)折叠或打开

static struct irqaction irq0 = {
.handler = timer_interrupt,
.flags = IRQF_DISABLED | IRQF_NOBALANCING | IRQF_IRQPOLL | IRQF_TIMER,
.name = "timer"
};
void __init setup_default_timer_irq(void)
{
setup_irq(0, &irq0);
}
/* Default timer init function */
void __init hpet_time_init(void)
{
if (!hpet_enable())
setup_pit_timer();
setup_default_timer_irq();
}

scheduler_tick的主要流程：

1、更新运行队列时钟

点击(此处)折叠或打开

update_rq_clock(rq);

2、更新cpu负载

点击(此处)折叠或打开

update_cpu_load(rq);

3、由具体的调度策略来决定，cfs就会更新虚拟时钟和物理时钟，可能的话，会引起一次调度。

curr->sched_class->task_tick(rq, curr, 0);

4、在smp系统中则判断当前cpu是否运行的是idle进程，若是，则在处理器间引起一次负载均衡的操作。

点击(此处)折叠或打开

#ifdef CONFIG_SMP
rq->idle_at_tick = idle_cpu(cpu);
trigger_load_balance(rq, cpu);
#endif

主调度器schedule的主要流程：

1、更新运行队列时钟，清除当前进程的运行标志

点击(此处)折叠或打开

update_rq_clock(rq);
clear_tsk_need_resched(prev);

2、判断当前进程是否是在可中断模式下且收到了信号，若是，则将进行置为运行态，否则，从就绪队列中取出。

点击(此处)折叠或打开

if (prev->state && !(preempt_count() & PREEMPT_ACTIVE)) {
if (unlikely(signal_pending_state(prev->state, prev)))
prev->state = TASK_RUNNING;
else
deactivate_task(rq, prev, 1);
switch_count = &prev->nvcsw;
}

3、检查运行队列是否有进程，若是没有就绪进程，此时，又是一个负载均衡的时机，开始进行负载均衡。

点击(此处)折叠或打开

if (unlikely(!rq->nr_running))
idle_balance(cpu, rq);

4、通知调度类先前的进程要被取代，同时挑选下一个可能要运行的进程

点击(此处)折叠或打开

put_prev_task(rq, prev);
next = pick_next_task(rq);

5、若是当前进程与即将运行的下一个进程不是同一个进程，此时，就要执行最重要的上下文切换了。

点击(此处)折叠或打开

if (likely(prev != next)) {
。。。。。。
context_switch(rq, prev, next); /* unlocks the rq */
。。。。。。
} else
raw_spin_unlock_irq(&rq->lock);

到这里最关键的切换已经完成了，当进程再次回来执行时，将执行第6步。

6、判断是否还需要继续重新调度，若是的话，则再重新选择新进程进行调度。

点击(此处)折叠或打开

if (need_resched())
goto need_resched;

到此整个主调度器的大致过程已经完毕。下面我们说说最关键的上下文切换context_switch(rq, prev, next);是如何实现的。

1、先处理内存地址空间的问题，若即将被切换进来的进程是一个线程的话，就借用当前进程的地址空间，同时，对tlb进行lazy模式处理，即不刷新tlb；否则，切换进程地址空间上下文。同时，若当前进程是一个线程的话，要将其运行时占有内存的标识域active_mm置为空。

点击(此处)折叠或打开

if (likely(!mm)) {
next->active_mm = oldmm;
atomic_inc(&oldmm->mm_count);
enter_lazy_tlb(oldmm, next);
} else
switch_mm(oldmm, mm, next);
if (likely(!prev->mm)) {
prev->active_mm = NULL;
rq->prev_mm = oldmm;
}
/*

2、接下来，要来真的了，真正的切换上下文，主要是切换任务堆栈、下一个进程的eip，具体如下：

点击(此处)折叠或打开

#define switch_to(prev, next, last)     \
do {         \
/*        \
* Context-switching clobbers all registers, so we clobber \
* them explicitly, via unused output variables.  \
* (EAX and EBP is not listed because EBP is saved/restored \
* explicitly for wchan access and EAX is the return value of \
* __switch_to())      \
*/        \
unsigned long ebx, ecx, edx, esi, edi;    \
         \
asm volatile("pushfl\n\t"  /* save    flags */ \
       "pushl %%ebp\n\t"  /* save    EBP   */ \
       "movl %%esp,%[prev_sp]\n\t" /* save    ESP   */ \
       "movl %[next_sp],%%esp\n\t" /* restore ESP   */ \
       "movl $1f,%[prev_ip]\n\t" /* save    EIP   */ \
       "pushl %[next_ip]\n\t" /* restore EIP   */ \
       __switch_canary     \
       "jmp __switch_to\n" /* regparm call */ \
       "1:\t"      \
       "popl %%ebp\n\t"  /* restore EBP   */ \
       "popfl\n"   /* restore flags */ \
         \
       /* output parameters */    \
       : [prev_sp] "=m" (prev->thread.sp),  \
         [prev_ip] "=m" (prev->thread.ip),  \
         "=a" (last),     \
         \
         /* clobbered output registers: */  \
         "=b" (ebx), "=c" (ecx), "=d" (edx),  \
         "=S" (esi), "=D" (edi)    \
                \
         __switch_canary_oparam    \
         \
         /* input parameters: */    \
       : [next_sp] "m" (next->thread.sp),  \
         [next_ip] "m" (next->thread.ip),  \
                \
         /* regparm parameters for __switch_to(): */ \
         [prev]     "a" (prev),    \
         [next]     "d" (next)    \
         \
         __switch_canary_iparam    \
         \
       : /* reloaded segment registers */   \
   "memory");     \
} while (0)

这段汇编大意不难，关键在于为什么是三个参数的理解？

主要原因在于prev和next都是局部变量，在进程切换的后，保存在每个进程各自的内核栈中。
这样可能就出现一个问题：A B C 三个进程按照A、B、C、A 顺序切换的话，我们看看这个过程中prev和next的值是多少？

1、prev=A next=B

2、prev=B next=C

3、prev=A next=B

这一步之所以不是我们预期的prev=C，就是因为在第一步的时候保存的A和B被恢复了。所以，linux就采用了三参数的技巧。将第三个参数last作为输出参数，其寄存器都是和第一个参数prev的寄存器是同一个，这样，每回切换后，就是用last来更新eax，也就是更新了prev，即纠正了第三步的错误，最终，变成prev=C。

最后，我们再说说进程与调度器交互的两个时机：1、创建进程的时候（fork类）2、唤醒进程wake_up_new_task

1、创建进程时，会调用sched_fork这个钩子函数，其主要做的事情就是讲进程与调度类结合及保证父进程的

优先级翻转不影响子进程（通过将父进程的正常优先级设置为子进程的动态优先级）。

点击(此处)折叠或打开

p->prio = current->normal_prio;
if (!rt_prio(p->prio))
p->sched_class = &fair_sched_class;
if (p->sched_class->task_fork)
p->sched_class->task_fork(p);

2、wake_up_new_task会将新进程加入相应的就绪队列中。

点击(此处)折叠或打开

activate_task(rq, p, 0);

阅读(3192) | 评论(0) | 转发(0) |

上一篇：管理心理学8

下一篇：完全公平调度CFS探索之时间更新相关内容

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6