文件读写(1)--页面缓冲(Page Cache)的管理-thewayma-ChinaUnix博客

thewayma

首页　| 　博文目录　| 　关于我

thewayma

博客访问： 733004
博文数量： 183
博客积分： 2650
博客等级：少校
技术积分： 1428
用户组：普通用户
注册时间： 2008-11-22 17:02

文章分类

全部博文（183）

QEMU（9）
Xen（0）
虚拟化（5）
KVM（32）
系统优化（2）
嵌入式（5）
GPU架构（2）
硬件（4）
I2C总线（2）
构建嵌入式文件系（0）
MIPS架构研究（8）
Linux内核线程（2）
Linux 基础编程（2）
PCI总线（5）
Linux性能（3）
nsfocus产品（0）
Linux TCP/IP协议（6）
Linux内核初始化（5）
Linux文件系统（15）
Linux内核攻击（0）
内核同步（4）
Linux IPC（1）
Linux进程管理（2）
网络攻击（5）

IP分片攻击（3）
Linux rootkit（3）
Linux中断（1）
Linux设备驱动（19）

块设备（14）
Linux 内核重要算（7）

I/O调度分析（2）
GUN C（3）
算法设计（2）
Linux内存管理（24）
未分配的博文（5）

文章存档

2017年（1）

2015年（46）

2014年（4）

2013年（8）

2012年（2）

2011年（27）

2010年（35）

2009年（60）

我的朋友

相关博文

文件读写(1)--页面缓冲(Page Cache)的管理

分类： LINUX

2009-12-20 10:48:52

文件读写(1)--页面缓冲(Page Cache)的管理

一、本文分析文件的读写过程。当用户进程发出一个read()系统调用时，它首先通过VFS从disk cache中去查找相应的文件块有没有已经被缓存起来，如果有，则不需要再次从设备中去读，直接从CACHE中去拷贝给用户缓冲区就可以了，否则它就要先分配一个缓冲页面，并且将其加入到对应的inode节点的address_space中，再调用address_space的readpage()函数，通过submit_bio()向设备发送一个请求，将所需的文件块从设备中读取出来存放在先前分配的缓冲页面中，最后再从该页面中将所需数据拷贝到用户缓冲区。

图1

二、页面缓冲(Page Cache)的管理

页面缓冲的核心数据结构是struct address_space ：

struct backing_dev_info;

struct address_space {

struct inode *host; /* owner: inode, block_device */

struct radix_tree_root page_tree; /* radix tree of all pages */

rwlock_t tree_lock; /* and rwlock protecting it */

unsigned int i_mmap_writable;/* count VM_SHARED mappings */

struct prio_tree_root i_mmap; /* tree of private and shared mappings */

struct list_head i_mmap_nonlinear;/*list VM_NONLINEAR mappings */

spinlock_t i_mmap_lock; /* protect tree, count, list */

unsigned int truncate_count; /* Cover race condition with truncate */

unsigned long nrpages; /* number of total pages */

pgoff_t writeback_index;/* writeback starts here */

const struct address_space_operations *a_ops; /* methods */

unsigned long flags; /* error bits/gfp mask */

struct backing_dev_info *backing_dev_info; /* device readahead, etc */

spinlock_t private_lock; /* for use by the address_space */

struct list_head private_list; /* ditto */

struct address_space *assoc_mapping; /* ditto */

} __attribute__((aligned(sizeof(long))));

如下图2，缓冲页面的是通过一个基数树（Radix Tree）来管理的，这是一个简单但非常高效的树结构。

图2

由图2可以看到，当RADIX_TREE_MAP_SHIFT为6（即每个节点有2^6＝64个slot）且树高是1时，它可以寻址大小为64个页面（256kb）的文件，同样，当树高为2时，它可以寻址64*64个页面(16M)大小的文件，如此下去，在32位的系统中，树高为6级，（最高级只有2位：32-6*5），所以它可以寻址2^32-1个页面大小的文件，约为16TB大小，所以目前来说已经足够了。

基数树的遍历也是很简单，且类似于虚拟线性地址的转换过程。只要给定树根及文件偏移，就可以找到相应的缓存页面。再如图2右，如果在文件中的偏移为131个页面，这个偏移值的高6位就是第一级偏移，而低6位就是在第二级的偏移，依此类推。如对于偏移值131(10000011)，高6位值是131>>6 = 2，所以它在第一级的偏移是2，而在第2级的领衔就是低6位，值为3，即偏移为3，所以得到的结果如图2右方所示。

#define RADIX_TREE_MAP_SHIFT (CONFIG_BASE_SMALL ? 4 : 6)

#define RADIX_TREE_MAP_SIZE (1UL << RADIX_TREE_MAP_SHIFT)

#define RADIX_TREE_MAX_TAGS 2

#define RADIX_TREE_TAG_LONGS \ //其值为64

((RADIX_TREE_MAP_SIZE + BITS_PER_LONG - 1) / BITS_PER_LONG)

struct radix_tree_node {

unsigned int height; /* Height from the bottom */

unsigned int count;

struct rcu_head rcu_head;

void *slots[RADIX_TREE_MAP_SIZE];

unsigned long tags[RADIX_TREE_MAX_TAGS][RADIX_TREE_TAG_LONGS];

};

struct radix_tree_path {

struct radix_tree_node *node;

int offset;

};

struct radix_tree_node {

unsigned int height; /* Height from the bottom */

unsigned int count;

struct rcu_head rcu_head;

void *slots[RADIX_TREE_MAP_SIZE];

unsigned long tags[RADIX_TREE_MAX_TAGS][RADIX_TREE_TAG_LONGS];

};

以上是相关的几个数据结构，第一个为树根结点结构，第二个用于路径查找，第三个就是树的节点结构。

注意节点结构中的tags域，这个一个典型的用空间换时间的应用。它是一个二维数组，用于记录该节点下面的子节点有没有相应的标志。目前RADIX_TREE_MAX_TAGS为2，表示只记录两个标志，其中tags[0]为PAGE_CACHE_DIRTY，tags[1]为PAGE_CACHE_WRITEBACK。它表示，如果当前节点的tags[0]值为1，那么它的子树节点就存在PAGE_CACHE_DIRTY节点，否则这个子树分枝就不存在着这样的节点，就不必再查找这个子树了。比如在查找PG_dirty的页面时，就不需要遍历整个树，而可以跳过那些tags[0]为0值的子树，这样就提高了查找效率。

阅读(1249) | 评论(0) | 转发(0) |

上一篇：2.4.18预读算法详解

下一篇：文件读写(2)

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6