TREE RCU 实现之一：数据结构-nlxswig-ChinaUnix博客

修炼吧

首页　| 　博文目录　| 　关于我

nlxswig

博客访问： 365909
博文数量： 167
博客积分： 2867
博客等级：少校
技术积分： 1306
用户组：普通用户
注册时间： 2010-05-12 00:08

文章分类

全部博文（167）

C语言（5）
网络（23）
tools（37）
kernel（58）
xen（17）
Gluster（20）
开始读内核（6）
未分配的博文（1）

文章存档

2017年（10）

2016年（5）

2015年（9）

2014年（10）

2013年（5）

2012年（17）

2011年（110）

2010年（1）

我的朋友

代码分布

在分析代码之前，先看看代码的分布情况。RCU实现的代码包含在下列一些文件中，此处用到的是linux 3.6.4的代码。

< include/linux/rcupdate.h >

RCU实现的头文件，所有使用RCU的代码都需要包含它

< include/rcutree.h >

包含rcupdate.h中没有包含的函数声明。

< include/rcutiny.h >

包含rcupdate.h中没有包含的函数声明。

< kernel/rcupdate.c >

包括一些RCU实现的基础函数的实现。

< kernel/rcutree.h >

包含Tree RCU用到的结构信息，TREE_RCU将所有的CPU组织成一颗树，通过层次结构来判别进程是否通过了宽限期，这种方式适用于多个CPU的系统。

< kernel/rcutree.c >

包含Tree RCU的主要实现代码。

< kernel/rcutree_plugin.h >

其实也是TREE RCU实现的一部分。主要包含了抢入式TreeRCU的代码。适用于抢入式的系统，抢入式的系统适用于需要低延迟的桌面或者嵌入式系统。

< kernel/rcutiny.c >

Tiny RCU的主要实现代码，TINY_RCU适用于单个CPU，尤其是嵌入式操作系统。

< kernel/rcutiny_plugin.h >

主要包含了抢入式Tiny RCU的代码

< kernel/rcu.h >

定义了debug的接口，实现了__rcu_reclaim。

< kernel/rcutorture.c>

对RCU进行稳定性测试的代码，通过配置CONFIG_RCU_TORTURE_TEST，可以在系统启动的时候运行稳定性测试。

< kernel/rcutree_trace.c>

通过配置CONFIG_RCU_TRACE，可以记录RCU的运行信息。

< include/trace/events/rcu.h>

为rcutree_trace.c定义的头文件。

RCU处理的基本流程

RCU实现的关键集中在宽限期的处理上，这个过程需要保证销毁对象前，当前系统中所有CPU上运行的进程都通过了静止状态（quiescent state）。

1，程序调用call_rcu，将要删除的对象保存起来。并标记或者开始一个宽限期（同一时间只能运行一个宽限期，所以当已经有宽限期在运行的时候，其它的宽限期必须等待）。

2，在读取数据开始和结尾处增加 rcu_read_lock 和 rcu_read_unlock来标记读过程。为了保证删除过程知道读过程的结束，在非抢占式RCU实现中是在rcu_read_lock开始处禁止进程抢占。这样做就可以保证再运行下一次进程切换的时候，读过程已经结束。其实系统也不会去统计各个CPU上是否存在过读线程，所以所有的CPU都会在进程切换的时候通知系统它处于进制状态。当所有的CPU都通过静止状态的时候，系统就会标记它通过了一个宽限期。

3，由于一个宽限期结束的时候，只有最后一个通过静止状态的CPU知道当前的宽限期已经结束，它并不会去通知其它CPU；同时出于性能考虑，系统也不会在宽限期结束后，马上去执行销毁过程。所以每个CPU都有一个固定的函数去检测是否有等待执行的宽限期，如果没有特别紧急的任务时，会去执行这些过程。

接下来，要分析Tree RCU的实现，先来看看它提供的一些接口函数。

1， call_rcu 与 synchronize_rcu都是删除对象时调用的函数。call_rcu将数据提交后会返回，而synchronize_rcu会调用call_rcu，并一直等待对象被删除后才返回。还有call_rcu_bh与synchronize_rcu_bh等接口函数，会在后续讲述。

2，rcu_read_lock 和 rcu_read_unlock

				[cpp] view plain copy 
			
				static inline void __rcu_read_lock(void)   
			
				{   
			
				        preempt_disable();   
			
				}   
			
				static inline void __rcu_read_unlock(void)   
			
				{   
			
				        preempt_enable();   
			
				}

				[cpp] view plain copy 
			
				static inline void rcu_read_lock(void)   
			
				{   
			
				        __rcu_read_lock();   
			
				        __acquire(RCU);   
			
				        rcu_lock_acquire(&rcu_lock_map);   
			
				        rcu_lockdep_assert(!rcu_is_cpu_idle(),   
			
				                           "rcu_read_lock() used illegally while idle");   
			
				}   
			
				static inline void rcu_read_unlock(void)   
			
				{   
			
				        rcu_lockdep_assert(!rcu_is_cpu_idle(),   
			
				                           "rcu_read_unlock() used illegally while idle");   
			
				        rcu_lock_release(&rcu_lock_map);   
			
				        __release(RCU);   
			
				        __rcu_read_unlock();   
			
				}

rcu_read_lock与rcu_read_unlock在非抢占式下的实现比较简单就是 preempt_disable与preempt_enable。这样做的目的是当调用schedule的时候，就可以肯定读的过程已经结束。其它_acquire(RCU)等函数是调试用的代码，暂不做讨论。

3， rcu_note_context_switch 在schedule中调用，每次进程切换就代表着一个静止状态。该函数会把当前的CPU状态设置为通过状态。

4， rcu_check_callbacks 在每次时钟周期里调用(update_process_times)。通过它会触发软件中断，软件中断对应着rcu_process_callbacks，这是一个真正繁忙的函数，他会检测当前CPU的状态，向父节点传递静止状态信息，调用注册函数等一系列工作。

在进一步了解这些函数之前，我们先来看看你Tree RCU的结构。

TREE RCU简介

在统计CPU的状态的时候，需要用到一个结构来存放所有CPU的状态。在早期的实现中，所有的状态都保存在一个结构中，这样做的后果是所有的CPU在更新自己状态的时候，都需要锁定该结构对象，一定程度上影响了系统性能。为了提高性能，把一定数目的CPU组成了一个节点（默认设定64个CPU为一个节点）；当节点超过64个的时候，再把这些节点按64为单位划分为归属不同的父节点；如此类推，最后的一个单独的节点作为根节点。这样在更新CPU状态的时候，只需要锁定自己所属的节点就可以了。按节点设置的数目，可见这个结构只对CPU数成百上千的系统才真正起作用（我都没见过超过32个cpu的机器，不知道是啥样的感觉）。

这样所有的CPU就按层级结构组织了起来，也就是一个树结构。当一个系统的CPU数少于64个的时候，只要一个rcu_node就可以。

每个CPU在完成宽限期检测的时候，就会去更新它所属的rcu_node的值，当一个rcu_node所包含的CPU的状态都更新过以后，该node就会去更新它所属的父节点的值。直到最后一个根节点。

TREE RCU数据结构

为了实现该结构，系统提供了以下结构。

rcu_data

由于RCU需要统计每个CPU是否通过了宽限期，提供了rcu_data来保存信息。另外每个销毁的对象并不是直接删除，也保存在rcu_data中，等到合适的时机来执行。

				[cpp] view plain copy 
			
				struct rcu_data {   
			
				         /* 1) 静止状态和宽限期处理: */   
			
				         unsigned long   completed;      /* 对比 rsp->completed */   
			
				                                         /* 目的是检测宽限期是否完成. */   
			
				         unsigned long   gpnum;          /* 当前CPU上最高的宽限期数目*/   
			
				                                         /* 在宽限期开始的时候设置. */   
			
				         unsigned long   passed_quiesce_gpnum;   
			
				                                         /* 已经通过的宽限期数目. */   
			
				         bool            passed_quiesce; /* 是否通过了静止状态，在进程切换等状态会设置. */   
			
				         bool            qs_pending;     /* 对于当前执行的宽限期，该CPU是否执行完成. */   
			
				         bool            beenonline;     /* CPU是否在线，不在线的CPU需要特殊处理，以提高性能*/   
			
				         bool            preemptible;    /* 是否抢占式RCU? */   
			
				         struct rcu_node *mynode;        /* 这个CPU对应的 rcu_node */   
			
				         unsigned long grpmask;          /* 占用1bit，对应与所属的rcu_node. */   
			
				 #ifdef CONFIG_RCU_CPU_STALL_INFO   
			
				         unsigned long   ticks_this_gp;  /* The number of scheduling-clock */   
			
				                                         /*  ticks this CPU has handled */   
			
				                                         /*  during and after the last grace */   
			
				                                         /* period it is aware of. */   
			
				 #endif /* #ifdef CONFIG_RCU_CPU_STALL_INFO */   
			
				         /* 2) 批处理*/   
			
				         /*  
			
				          *  
			
				          * 当nxtlist不为空的时候，会通过nxttail划分为以下几部分  
			
				          * 每一个部分为空的时候，它的指针会被设置成与它的下一部分相同  
			
				          * 当nxtlist为空的时候，所有的nxttail都会指向nxtlist的地址，这时候nxtlist指向NULL  
			
				          *  
			
				          * [nxtlist, *nxttail[RCU_DONE_TAIL]):  
			
				          *    批处理的开始节点# <= ->completed  
			
				          *    这些节点的宽限期已经完成，可以执行销毁操作。  
			
				          *    当调用rcu_process_callbacks()的时候，下一批完成宽限期的节点也会放到这儿.  
			
				          * [*nxttail[RCU_DONE_TAIL], *nxttail[RCU_WAIT_TAIL]):  
			
				          *    批处理的开始节点 # <= ->completed - 1: 等待当前的批处理完成  
			
				          * [*nxttail[RCU_WAIT_TAIL], *nxttail[RCU_NEXT_READY_TAIL]):  
			
				          *    已知的当下次宽限期开始，可以开始等待的节点。  
			
				          * [*nxttail[RCU_NEXT_READY_TAIL], *nxttail[RCU_NEXT_TAIL]):  
			
				          *    当前不确定下次宽限期开始后，是否可以开始等待状态的节点。  
			
				          *    *nxttail[RCU_NEXT_TAIL] 的值将永远是NULL，  
			
				          *    它表示nxtlist的结束.  
			
				          *  
			
				          */   
			
				         struct rcu_head *nxtlist;   
			
				         struct rcu_head **nxttail[RCU_NEXT_SIZE];   
			
				         long            qlen_lazy;      /* # kfree_rcu调用的次数，kfee_rcu等同于call_rcu，只是它不需要销毁的对象提供销毁函数*/   
			
				         long            qlen;           /* # 当前需要执行销毁操作的次数，每次call_rcu会加一，执行过后减一*/   
			
				         long            qlen_last_fqs_check;   
			
				                                         /* 对应与qlen，最后一次执行的次数*/   
			
				         unsigned long   n_cbs_invoked;  /* 执行销毁操作的次数. */   
			
				         unsigned long   n_cbs_orphaned; /* 统计离线后CPU上剩下的callback函数的个数 */   
			
				         unsigned long   n_cbs_adopted;  /* 从离线后的CPU上移出的callback函数的个数 */   
			
				         unsigned long   n_force_qs_snap;   
			
				                                         /* 其它CPU是否在执行fore_qs? */   
			
				         long            blimit;         /* nxtlist保存的上限 */   
			
				         /* 3) 动态时钟,*/   
			
				         struct rcu_dynticks *dynticks;  /* 每个CPU都包含一个动态时钟. */   
			
				         int dynticks_snap;              /* 用于检测CPU是否在线. */   
			
				         /* 4) 强制执行时候处理的CPU */   
			
				         unsigned long dynticks_fqs;     /* 由于进入dynticks idle而被处理的CPU. */   
			
				         unsigned long offline_fqs;      /* 由于不在在线被处理的CPU. */   
			
				         /* 5) __rcu_pending() 的统计信息，这些信息都是在记录调用信息的时候使用. */   
			
				         unsigned long n_rcu_pending;    /* rcu_pending() 调用次数，自从启动. */   
			
				         unsigned long n_rp_qs_pending;   
			
				         unsigned long n_rp_report_qs;   
			
				         unsigned long n_rp_cb_ready;   
			
				         unsigned long n_rp_cpu_needs_gp;   
			
				         unsigned long n_rp_gp_completed;   
			
				         unsigned long n_rp_gp_started;   
			
				         unsigned long n_rp_need_fqs;   
			
				         unsigned long n_rp_need_nothing;   
			
				         /* 6) _rcu_barrier() 的回调函数. */   
			
				         struct rcu_head barrier_head;   
			
				         int cpu;   
			
				         struct rcu_state *rsp;   
			
				 };

1，completed ，gpnum ， passed_quiesce_gpnum

gpnum表示当前正在运行的宽限期的个数，每当一个宽限期开始的时候，会设置这个值与其父节点相同。passed_quiesce_gpnum为当前CPU通过的宽限期个数，它的值在宽限期开始的时候小于gpnum，当这个CPU经过一个静止状态的时候，会把它设置成gpnum的值，通过对比它与父节点中的gpnum是否相同，可以确定该CPU是否通过了宽限期。passed_quiesce_gpnum只是表示这个CPU通过了宽限期，而completed表示所有的CPU都通过了宽限期，设置该值的同时，可以将nxtlist中等待的回调函数移动到完成队列。

2， nxtlist 与nxttail

nxtlist保存的是指向rcu_head对象，rcu_head的定义如下：

struct callback_head {
struct callback_head *next;
void (*func)(struct callback_head *head);
};
#define rcu_head callback_head

rcu_head的结构并不复杂，它包含一个回调函数指针。而next可以把rcu_head连成一个列表。

nxtlist指向一个rcu_head 列表，而nxttail的四个元素是指向指针的指针，它们指向的是rcu_head对象的next。RCU_DONE_TAIL指向的rcu_head对象之前的对象是可以销毁的对象。RCU_WAIT_TAIL指向的正在等待宽限期的元素，RCU_NEXT_READ_TAIL指向的是等待下次宽限期的元素，RCU_NEXT_TAIL指向最后一个元素，这个元素总是指向NULL。

rcu_node

				[cpp] view plain copy 
			
				struct rcu_node {   
			
				         raw_spinlock_t lock;    /* rcu_node的锁，用来保护以下的一些成员*/   
			
				         unsigned long gpnum;    /* 该节点当前的宽限期的数量 */   
			
				                                 /* 该值等于或者比父节点的值小1*/   
			
				         unsigned long completed; /* 该节点完成的宽限期数量*/   
			
				                                  /* 该值等于或者比父节点的值小1*/   
			
				         unsigned long qsmask;   /* 标记这个节点对应的所有CPU或者子节点是否完成了当前的宽限期*/   
			
				                                 /* 每一个bit对应一个cpu或者一个子节点.*/   
			
				         unsigned long expmask;  /* 需要执行 ->blkd_tasks 的元素 */                               
			
				                                 /*  (应用于TREE_PREEMPT_RCU). */   
			
				         atomic_t wakemask;      /* 需要唤醒kthread的CPU. */   
			
				         unsigned long qsmaskinit;   
			
				                                 /* 每个宽限期开始时，用它来初始化qsmask，不存在或者不在线的CPU需要清除. */   
			
				         unsigned long grpmask;  /* 对应于父节点中的位置. */   
			
				                                 /* 只是用一bit. */   
			
				         int     grplo;          /* 该节点代表的CPU或者子节点开始的位置. */   
			
				         int     grphi;          /* 该节点代表的CPU或者子节点结束的位置. */   
			
				         u8      grpnum;         /* 下一级的CPU或者子节点的个数. */   
			
				         u8      level;          /* 跟节点是 0. */   
			
				         struct rcu_node *parent;   
			
				         struct list_head blkd_tasks;   
			
				                                 /* 阻断读关键段的任务列表 */   
			
				                                 /*  */   
			
				         struct list_head *gp_tasks;   
			
				                                 /* 指向第一个阻断读关键段的任务 */   
			
				         struct list_head *exp_tasks;   
			
				     /*以下为抢先式下加速RCU过程的变量*/                                  
			
				#ifdef CONFIG_RCU_BOOST   
			
				         struct list_head *boost_tasks;   
			
				                                 /* Pointer to first task that needs to be */   
			
				                                 /*  priority boosted, or NULL if no priority */   
			
				                                 /*  boosting is needed for this rcu_node */   
			
				                                 /*  structure.  If there are no tasks */   
			
				                                 /*  queued on this rcu_node structure that */   
			
				                                 /*  are blocking the current grace period, */   
			
				                                 /*  there can be no such task. */   
			
				         unsigned long boost_time;   
			
				                                 /* When to start boosting (jiffies). */   
			
				         struct task_struct *boost_kthread_task;   
			
				                                 /* kthread that takes care of priority */   
			
				                                 /*  boosting for this rcu_node structure. */   
			
				         unsigned int boost_kthread_status;   
			
				                                 /* State of boost_kthread_task for tracing. */   
			
				         unsigned long n_tasks_boosted;   
			
				                                 /* Total number of tasks boosted. */   
			
				         unsigned long n_exp_boosts;   
			
				                                 /* Number of tasks boosted for expedited GP. */   
			
				         unsigned long n_normal_boosts;   
			
				                                 /* Number of tasks boosted for normal GP. */   
			
				         unsigned long n_balk_blkd_tasks;   
			
				                                 /* Refused to boost: no blocked tasks. */   
			
				         unsigned long n_balk_exp_gp_tasks;   
			
				                                 /* Refused to boost: nothing blocking GP. */   
			
				         unsigned long n_balk_boost_tasks;   
			
				                                 /* Refused to boost: already boosting. */   
			
				         unsigned long n_balk_notblocked;   
			
				                                 /* Refused to boost: RCU RS CS still running. */   
			
				         unsigned long n_balk_notyet;   
			
				                                 /* Refused to boost: not yet time. */   
			
				         unsigned long n_balk_nos;   
			
				                                 /* Refused to boost: not sure why, though. */   
			
				                                 /*  This can happen due to race conditions. */   
			
				 #endif /* #ifdef CONFIG_RCU_BOOST */   
			
				         struct task_struct *node_kthread_task;   
			
				                                 /* kthread that takes care of this rcu_node */   
			
				                                 /*  structure, for example, awakening the */   
			
				                                 /*  per-CPU kthreads as needed. */   
			
				         unsigned int node_kthread_status;   
			
				                                 /* State of node_kthread_task for tracing. */   
			
				 } ____cacheline_internodealigned_in_smp;

每个rcu_node代表着一组CPU或者子节点。在非抢占式下，它的结构并不复杂。由于可能有多个CPU对它进行处理，所有进行相应操作的时候，需要lock保护。

rcu_state

				[cpp] view plain copy 
			
				struct rcu_state {   
			
				        struct rcu_node node[NUM_RCU_NODES];    /* 保存了所有的节点. */   
			
				        struct rcu_node *level[RCU_NUM_LVLS];   /* 每个层级所指向的节点. */   
			
				        u32 levelcnt[MAX_RCU_LVLS + 1];         /* # 每一层的节点数. */   
			
				        u8 levelspread[RCU_NUM_LVLS];           /* 每一层的CPU/节点数. */   
			
				        struct rcu_data __percpu *rda;          /* 指向rcu_data. */   
			
				        void (*call)(struct rcu_head *head,     /* rcu_barrier指向的回调函数. */   
			
				                     void (*func)(struct rcu_head *head));   
			
				        /* The following fields are guarded by the root rcu_node's lock. */   
			
				        u8      fqs_state ____cacheline_internodealigned_in_smp;   
			
				                                                /* 调用force_quiescent_state时的状态. */   
			
				        u8      fqs_active;                     /* force_quiescent_state() 正在运行*/   
			
				        u8      fqs_need_gp;                    /* 因为 force_quiescent_state() 正在运行*/   
			
				                                                /* 一个CPU需要运行的宽限期被阻止*/   
			
				        u8      boost;                          /* 加速. */   
			
				        unsigned long gpnum;                    /* 当前的宽限起数量. */   
			
				        unsigned long completed;                /* # 最后一次完成的宽限期数量. */   
			
				        /* 以下的成员被根rcu_node的lock保护. */   
			
				        raw_spinlock_t onofflock;               /* 开始一个新的宽限期的时候，阻止CPU上下线*/   
			
				        struct rcu_head *orphan_nxtlist;        /* 等待宽限期的孤儿回调函数的列表 */   
			
				        struct rcu_head **orphan_nxttail;       /* 以上列表的结尾. */   
			
				        struct rcu_head *orphan_donelist;       /* 需要执行的孤儿回调函数列表 */   
			
				        struct rcu_head **orphan_donetail;      /* 以上列表的结尾. */   
			
				        long qlen_lazy;                         /* 懒惰回调函数的个数. */   
			
				        long qlen;                              /* 总的回调函数的个数. */   
			
				        struct task_struct *rcu_barrier_in_progress;   
			
				                                                /* 调用rcu_barrier()的进程, */   
			
				                                                /* 没有的话指向NULL. */   
			
				        struct mutex barrier_mutex;             /* 执行barrier需要的互斥锁. */   
			
				        atomic_t barrier_cpu_count;             /* # 等待barrier的CPU数 . */   
			
				        struct completion barrier_completion;   /* 在barrier结束的时候调用. */   
			
				        unsigned long n_barrier_done;           /* 在_rcu_barrier()开始结束处都需要调用++ */   
			
				        raw_spinlock_t fqslock;                 /* 只有一个进程能调用 force_quiescent_state().*/   
			
				        unsigned long jiffies_force_qs;         /* force_quiescent_state()开始的时间 */   
			
				        unsigned long n_force_qs;               /* 调用force_quiescent_state()的次数 */   
			
				        unsigned long n_force_qs_lh;            /* 因为lock不可用，而退出force_quiescent_state()的次数 */   
			
				        unsigned long n_force_qs_ngp;           /* 因为当前有宽限期执行，而退出force_quiescent_state()的次数*/   
			
				        unsigned long gp_start;                 /* 宽限期开始的时间*/   
			
				        unsigned long jiffies_stall;               
			
				        unsigned long gp_max;                   /*  最长的宽限的jiffie数 */   
			
				        char *name;                             /* 结构的名字. */   
			
				        struct list_head flavors;               /* 系统中的rcu_state. */   
			
				};

rcu_state 保存了所有的node，宽限期的判断只要取出根节点，也就是第一个元素就可以。还有一些初始化要用到的变量。还有孤儿回调函数用于处理离线CPU遗留的信息。剩下还有很多统计信息，这些内容在讲解代码实现的时候再仔细考虑。

阅读(6904) | 评论(0) | 转发(0) |

上一篇：TREE RCU 实现之一：数据结构

下一篇：没有了

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6