linux内核哈希查找（1）-jiuzhuaxiong-ChinaUnix博客

jiuzhuaxiong

首页　| 　博文目录　| 　关于我

jiuzhuaxiong

博客访问： 2092512
博文数量： 610
博客积分： 11499
博客等级：上将
技术积分： 5511
用户组：普通用户
注册时间： 2008-03-12 19:27

文章分类

全部博文（610）

am335x-linux（33）
指令集以及汇编程（3）

Mips（0）

avr32（0）

MCS51（0）

Powerpc（0）

ARM（1）
FREEBSD（0）

安装指导（0）
深入Windows开发（0）
深入.NET开发（0）

NUnit（0）
深入DSP开发技术（4）

282xx（0）

2833X（0）

bios（0）

ucos（0）

2812（3）

CMD file（0）
深入理解GDB调试（8）

kgdb（6）
深入理解shell（2）
深入理解perl（0）
深入理解JAVA（1）
深入android开发（8）
RT-RTHREAD（0）
UCOS II/III（0）
深入linux内核开（24）

buddy算法（0）

内存管理（0）
数据库（0）

ORCALE（0）

IBM DB2（0）

mysql（0）

sqlite（0）
协议栈（4）

SSL（0）

61850（0）

SNMP（0）

HTTP（1）

BACNET（0）

TCP/IP（3）
深入linux驱动技（5）

SPI（0）

I2C（0）

PCI驱动（0）

触摸屏（0）

ATA/IDE（0）

TTY驱动（0）

CAN（0）

串口/485（0）

LCD（0）

USB驱动技术（5）
linux frame buff（0）
电源设计（3）

滤波器设计（1）
版本控制（1）
深入程序算法（2）
深入linux应用程（22）

linux内存管理（5）

linux 进程间通信（14）
数据结构（6）

排序算法（0）

常用数据结构（6）
MIPS-LINUX（1）
编码（2）
arm-linux编译器（0）
linux SHELL编程（7）
使用curses管理基（1）
linux 数据管理（8）
LINUX 调试（6）
linux 进程与信号（5）
linux 多线程编程（6）
linux shell学习（5）
linux socket 学（25）
TCP IP 网络协议（2）
嵌入式VXWORKS开（1）

VXWORKS BSP开发（0）

VXWORKS启动过程（0）

VXWORKS多任务机（0）

VXWORKS在AT91RM9（0）

VXWORKS在MPC860（0）
前辈经验（2）
C语言技巧讨论（12）
嵌入式LINUX开发（160）

linux块设备驱动（3）

深入linux驱动开（3）

深入linux网络开（2）

深入linux内核（32）

linux中断分析（16）

内核跟文件系统合（0）

Image启动（0）

ulmage启动（0）

bootpImage启动（0）

zImage启动（0）

linux内核启动方（0）

LINUX 网卡驱动（1）

LCD 驱动开发（2）

QT 4开发（3）

LINUX驱动开发笔（1）

LINUX内核移植（0）

S2C2410LINUX2.6.（0）

AT9200 LINUX2.6.（19）

SHELL命令学习（4）

U-BOOT POWERPC移（0）

UCLINUX开发笔记（0）

AT91RM9200开发笔（12）

AVR在LINUX平台下（1）

MAKEFILE制作（2）

ARM嵌入式开发（2）

LINUX系统启动（9）

RAMDISK系统的制（6）

JFFS2文件系统制（4）

LINUX交叉编译器（4）

U-BOOT移植（7）
未分配的博文（241）

文章存档

2016年（5）

2015年（18）

2014年（12）

2013年（16）

2012年（297）

2011年（45）

2010年（37）

2009年（79）

2008年（101）

我的朋友

最近访客

推荐博文

linux内核哈希查找（1）

分类：

2012-07-30 16:12:28

原文地址：linux内核哈希查找（1）作者：zhe_wang

在内核中，查找是必不可少的，比如说内核管理这么多用户进程，现在要快速定位
某一个进程，这儿需要查找，还有，一个进程的地址空间中有多个虚存区，内核要快速
定位进程地址空间的某个虚存区，这儿也需要查找，等等。其中用的最多就是基于树的
查找-------->红黑树。和基于计算的查找------->哈希查找。两者的查找的效率高，而且
适应内核的情况，而基于线性表的查找-------->二分查找，尽管效率高但不能适应内核
里面的情况，现在版本的内核几乎不可能使用数组管理一些数据，这太原始了。而二分
查找必须使用数组，所以内核中不用二分查找。
--------------------------------------------------------------------------------
1，内核哈希查找的初始化。（用于进程的快速查找）

/*
* The pid hash table is scaled according to the amount of memory in the
* machine. From a minimum of 16 slots up to 4096 slots at one gigabyte or
* more.
*/
void __init pidhash_init(void)
{
int i, pidhash_size;
//为数组开辟空间
pid_hash = alloc_large_system_hash("PID", sizeof(*pid_hash), 0, 18,
HASH_EARLY | HASH_SMALL,
&pidhash_shift, NULL, 4096);
pidhash_size = 1 << pidhash_shift;//数组的长度
for (i = 0; i < pidhash_size; i )
INIT_HLIST_HEAD(&pid_hash[i]);//将数组中的指针都初始化为NULL
}

初始化思想很简单，就是建立一个哈希数组（自己定义的一个概念，哈希表中的那个数组），
并将该数组进行初始化，该函数在start_kernel中被调用，至于数组的长度，可以写个小的
内核模块很简单就可以把它的大小读出来。pidhash_shift是个全局的变量，没有导出，可以
在内核符号表中找到其地址，cat /proc/kallsyms | grep pidhash_shift 把该值打印出来就
知道数组的大小了。从上面的代码可以看出，这个数组的长度还依赖于机器内存的大小，一般
内存环境该数组的长度都为4096.下面有个小模块可以读出pidhash_shift的值。
--------------------------------------------------------------------------------------------

1 #include <linux/module.h>
2 #include <linux/kernel.h>
3 #include <linux/init.h>
4 #include <linux/moduleparam.h>
5 #include <linux/list.h>
6 #include <linux/hash.h>
7
//cat /proc/kallsyms | grep pidhash_shift
8 unsigned int *p_shift = (unsigned int *)0xc176ab0c;
9
10 static int __init hash_size_init(void)
11 {
12 ---printk("pidhash_shift----------------->%u\n",*p_shift);
13 ---return 0;
14 }
15
16 static void __exit hash_size_exit(void)
17 {
18 printk("<1>exit ---------------------!\n");
19 }
20
21 module_init(hash_size_init);
22 module_exit(hash_size_exit);
23 MODULE_LICENSE("GPL");

--------------------------------------------------------------------------------------------
2，哈希函数的建立。
哈希查找肯定离不开哈希函数，其实哈希函数就是一个数学函数，用来将实体分布在
哈希表中，前少冲突的发生。

40 #define pid_hashfn(nr, ns) -\
41 ---hash_long((unsigned long)nr (unsigned long)ns, pidhash_shift)

26 #define hash_long(val, bits) hash_32(val, bits)

19 /* 2^31 2^29 - 2^25 2^22 - 2^19 - 2^16 1 */
20 #define GOLDEN_RATIO_PRIME_32 0x9e370001UL
57 static inline u32 hash_32(u32 val, unsigned int bits)
58 {
59 ---/* On some cpus multiply is faster, on others gcc will do shifts */
60 ---u32 hash = val * GOLDEN_RATIO_PRIME_32;
61
62 ---/* High bits are more random, so use them. */
63 ---return hash >> (32 - bits);
64 }

由此看出，内核将进程分布到哈希表的索引是由进程号和命名空间两个决定的，使用的
数学函数也比较复杂。我想这也是为了减少冲突的发生。
--------------------------------------------------------------------------------------------
3，如何避免哈希冲突。
内核里面的哈希一般都是使用连地址法解决冲突，这种方式在应用上很可行，使用
双向链表把冲突的节点都链接起来。

-----------------------------------------------------------------------------------------
4,在创建进程的过程中往哈希表中插入进程的“索引”。
进程在alloc_pid函数中将struct pid插入到哈希表中。
调用过程见下图：

----------------------------------------------------------------------------------------------
alloc_pid中的代码：

spin_lock_irq(&pidmap_lock);
for ( ; upid >= pid->numbers; --upid)
hlist_add_head_rcu(&upid->pid_chain,
&pid_hash[pid_hashfn(upid->nr, upid->ns)]);
spin_unlock_irq(&pidmap_lock);

进程将创建好的struct pid中的nr和ns作为哈希函数的输入，从而计算出哈希数组的下标，
然后使用头插法，将struct hlist_node *pid_chain节点插入到链表中。
----------------------------------------------------------------------------------------------
5，使用哈希查找快速定位struct pid
在内核函数中，有个find_vpid函数，可以通过进程的pid快速找到进程的struct pid。
其中就是在建立好的哈希表中进行查找。

struct pid *find_pid_ns(int nr, struct pid_namespace *ns)
{
struct hlist_node *elem;
struct upid *pnr;
hlist_for_each_entry_rcu(pnr, elem,
&pid_hash[pid_hashfn(nr, ns)], pid_chain)
if (pnr->nr == nr && pnr->ns == ns)
return container_of(pnr, struct pid,
numbers[ns->level]);
return NULL;
}

find_vpid就是直接调用find_pid_ns，该函数的两个参数，一个是进程pid，一个是命名空间ns
通过这两个就可以使用哈希函数定位到哈希数组的下标索引，然后遍历该数组单元的链表即可找到
进程的struct pid
----------------------------------------------------------------------------------------------

阅读(854) | 评论(0) | 转发(0) |

上一篇：linux ps命令，查看进程cpu和内存占用率排序

下一篇：Linux中修改shmmax的方法

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6