漫谈Linux内核哈希表(1)-wjlkoorey258-ChinaUnix博客

wjlkoorey的博客wjlkoorey.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

wjlkoorey258

博客访问： 4253520
博文数量： 82
博客积分： 671
博客等级：上尉
技术积分： 24576
用户组：普通用户
注册时间： 2010-12-18 16:08

个人简介

www.kernel.org

文章分类

全部博文（82）

内核学习（4）
Netfilter&ebtabl（0）
算法设计（7）
计算机系统（7）
商海ABC（0）
存储（6）
翻译（3）
Java（0）
内核源码（5）
其他（3）
多媒体（4）

语音（1）

图形图像（3）
网络编程（6）
系统管理（0）
SNMP（2）
Netfilter和iptab（0）
未分配的博文（35）

文章存档

2016年（1）

2015年（3）

2014年（12）

2013年（14）

2012年（52）

我的朋友

相关博文

漫谈Linux内核哈希表(1)

分类： LINUX

2015-04-20 22:50:31

关于哈希表，在内核里设计两个很重要的数据结构:
哈希链表节点：

点击(此处)折叠或打开

/*Kernel Version : 3.4.x [include/linux/types.h]*/
struct hlist_node {
struct hlist_node *next, **pprev;
};

可以看到哈希节点和内核普通双向链表的节点唯一的区别就在于，前向节点pprev是个两级指针，至于为什么这样设计而不采用struct list_head{}来作为哈希链表的节点，我们后面会详细介绍。另外一个重要的数据结构是，哈希链表的表头。

哈希链表表头：

点击(此处)折叠或打开

/*Kernel Version : 3.4.x [include/linux/types.h]*/
struct hlist_head {
struct hlist_node *first;
};

因为哈希链表并不需要双向循环的技能，它一般适用于单向散列的场景。所以，为了减少开销，并没有用struct hlist_node{}来代表哈希表头，而是重新设计struct hlist_head{}这个数据结构。此时，一个哈希表头就只需要4Byte了，相比于struct hlist_node{}来说，存储空间已经减少了一半。这样一来，在需要大量用到哈希链表的场景，其存储空间的节约是非常明显的，特别是在嵌入式设备领域。

接下来，我们来重点回答一下哈希节点里那个两级指针的问题。先讲个小插曲，记得本人当年刚参加工作时，导师给安排了一个活儿，那时候年轻气盛、血气方刚，没一会儿功夫，三下五除二就搞定了。然后拿着自己的“杰作”去师傅看，师傅瞄了一眼说，你这函数简直是一坨shi(和乔老爷当年骂另外一个程序员的用词、语气差不多)，谁让你函数入参传个三级指针进去的？这段代码TM能维护么？谁看得懂？完了之后感觉自己还受了莫大的委屈一样，不过谁的人生没有那么点波澜壮阔的过往呢，就像有句名言说的：程序写出来是给人看的，顺带能在机器上运行。OK，那这个故事跟我们要介绍的哈希节点的关系在哪儿呢？没错，就是struct hlist_node{}里那个前向的两级指针的存在意义。

关于两级指针的目的与意义，让我们采用反证法来看看，如果struct hlist_node{}被设计成如下一级指针的样子，会发生什么：

点击(此处)折叠或打开

struct hlist_node {
struct hlist_node *next, *pprev;
};

假如我们现在已经有一个哈希链表了myhlist(先别管这个链表是怎么来的)，链表里有4个节点node1~node4：

然后就有以下两个问题跟着冒出来：
1)、在往哈希链myhlist里插入node1时必须这么写：

点击(此处)折叠或打开

mylist.first = node1;
node1->pprev=( struct hlist_node*)&mylist;

除此之外，在插入node2~node4以及后续其他节点时(假如按顺序插入的话)，写法如下（X>=2）：

点击(此处)折叠或打开

node[X]->next = node[X+1];
node[X]->pprev = node[X-1];

简而言之啥意思呢？往哈希链表里插入元素时，如果在表头的第一个位置上插入元素，和插入在哈希链表的其他位置上的代码处理逻辑是不一样的。因为哈希表头是list_head类型，而其他节点都是list_node类型。

2)、同样，如果删除节点时，对于非首节点，以node2为例：

点击(此处)折叠或打开

node2->pprev->next = node2->next;
node2->next->pprev = node2->pprev;

如果要删除首节点node1呢，则写法如下：

点击(此处)折叠或打开

((struct hlist_head*)(node1->pprev))->first = node1->next;
node1->next->pprev = ( struct hlist_node*)&mylist; 或者 node1->next->pprev = node1->pprev;

很明显，内核开发者们怎么会容许这样的代码存在，而且还要充分考虑效率的问题。那么，当hlist_node.pprev被设计成两级指针后有啥好处？

还是以删除节点为例，如果要删除首节点，因为node1->pprev里保存的是myhlist的地址，而myhlist.first永远都指向哈希链表的第一个节点，我们要间接改变表头里的hlist_node类型的first指针的值，能想到的最直接的办法当然是二级指针，这是两级指针的宿命所决定的，为了间接改变一级指针所指的内存地址的场景。这样一来，node节点里的pprev其实指向的是其前一个节点里的第一个指针元素的地址。对于hlist_head来说，它里面只有一个指针元素，就是first指针；而对于hlist_node来说，第一个指针元素就是next。具体如下所示：