Linux文件系统FAQ-zyd_cu-ChinaUnix博客

YunNotesydzhang.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

zyd_cu

博客访问： 4113086
博文数量： 251
博客积分： 11197
博客等级：上将
技术积分： 6862
用户组：普通用户
注册时间： 2008-12-05 14:41

个人简介

@HUST张友东 work@taobao zyd_com@126.com

文章分类

全部博文（251）

互联网（8）
课程笔记（7）
技术交流（5）
KV存储（8）
搜索引擎（5）
系统管理（14）
网络编程（22）
程序设计（14）
文件系统（15）
C/C++（18）
Linux内核（29）
Linux编程（27）
FUSE专辑（10）
分布式系统（19）
工作杂记（17）
TFS开发（33）
未分配的博文（0）

文章存档

2014年（10）

2013年（20）

2012年（22）

2011年（74）

2010年（98）

2009年（27）

我的朋友

相关博文

Linux文件系统FAQ

分类： LINUX

2010-03-25 20:40:03

最近实验室搞了一些列讲座，阿福师兄关于文件系统的讲座帮我弄清楚了一些以前不清楚的问题，以问答的形式对文件系统常见的问题进行了总结。

Q: 文件系统如何看待底层物理块设备？

Ÿ 文件系统把块设备简单的看做线性的组合，即对文件系统而言，块设备是一系列可以读写的块。文件系统不需要知道这些物理设备的实际布局及如何读写，这些是设备驱动的工作。

Q: 跟文件系统相关的系统调用主要有那些？

Ÿ 打开文件open，读取文件read，写文件write，关闭文件close，删除文件unlink，创建目录mkdir，删除目录rmdir等，linux通过VFS提供了符合POSIX标准的接口。

Q: 如何实现一个文件系统?

Ÿ 实现VFS提供的一组文件系统操作接口，向内核注册；

Ÿ 实现用户空间文件系统或堆叠式文件系统；

Q: VFS如何管理super_block，inode，dentry，file，vfsmount等主要数据结构？

Ÿ 参见http://blog.chinaunix.net/u2/87570/showart_2126000.html；

Q: 哪些接口必须实现？

Ÿ VFS实现了很多通用接口，如基本所有的读写操作都可直接使用generic_file_aio_read，generic_file_aio_write接口（我的内核版本为2.6.19），ext2的读写就是使用该接口，但各个文件系统必须实现自己的read_page方法，用于从磁盘读取一页的数据（还可实现read_pages，一次读取多页，以提高效率），如果要实现direct_io访问，必须实现direct_IO接口。

Ÿ read_page的实现需要基于文件系统实际的数据组织，它将用户的文件请求位置（逻辑页号）转换为物理块号，并向通用块层发送请求。

Q: ext2文件系统如何组织文件的数据？

Ÿ ext2使用长度为15的数组（ext2_inode的一个字段），其中前12个数组元素记录直接块映射，即其内容即为文件前12个块的地址；第13个元素，记录一级索引关系，即该元素的内容为一个块的地址，这个块的内容为一系列块的地址；第14，15个元素分别为二级索引，三级索引。

Q: 内核如何根据用户态传递的路径名得到文件的inode，dentry信息？

Ÿ 通过路径名查找可以通过路径名得到inode，dentry的信息；

Ÿ Linux提供了path_lookup接口来实现路径名的解析，其具体实现以下工作：

1. 获取路径名查找的起点，当前目录或是根目录；

2. 以/为分隔符，解析每个目录项。

3. 针对每个目录项，首先查找目录项高速缓存，判断当前的目录项对象是否在缓存中，如果在，则直接从缓存中获取结果；如果不在，则需要在上一级目录中调用实际文件系统实现的lookup方法查找，并读取目录项对应的inode信息，填充dentry结构，并将该结构加入到高速缓存。

Q: 内核如何根据路径名查找的结果得到file结构？

Ÿ 通过dentry_open实现，具体执行以下工作：

1. 分配一个文件对象；

2. 根据传递进来的dentry信息，vfsmnt信息，初始化file对象的f_fentry，f_vfsmnt；

3. 以索引节点的i_fop填充f_op。

4. 将文件对象插入到文件系统超级块的s_files字段所指向的链表中。

Q: 索引节点的i_fop，i_op，i_mapping的a_ops字段何时被初始化？

Ÿ 具体文件系统读取索引节点时初始化，如ext2的ext2_read_inode方法；

Ÿ 在ext2_read_inode中，该方法根据get_ext2_inode从磁盘上读取ext2_inode，并根据ext2_inode的信息初始化vfs的inode，如mode，uid，gid，timestamp等，并根据文件的类型不同，将i_fop，i_op，i_mapping的a_ops初始化为相应的方法。

1. 对于普通的文件，三者的值分别为ext2_file_operations，ext2_file_inode_operations，ext2_aops；

2. 对于目录三者的值分别为ext2_dir_operations，ext2_dir_inode_operations，ext2_aops;

3. 对于链接文件i_op被赋值为ext2_symlink_inode_operations；

4. 对于其他的类型的文件，如块设备，字符设备，fifo管道，socket，则通过init_special_inode进行初始化。其相应的被初始化为def_blk_fops，def_chr_fops，def_fifo_fops，bad_sock_fops;

Q: 对于打开的文件，在用户态以fd标识，在内核态以file结构标识，fd与 file如何对应？

Ÿ 每一个进程由一个task_struct结构描述，其中的files字段是一个files_struct的结构，主要描述文件打开的文件信息，包括fd使用位图，files对象数组fd_array，其中fd_array的下标即对应着该file对象对应的fd。

Ÿ 当进程通过路径名获取到file对象后，会将file对象的指针放入fd_array数组的相应位置；

Q: direct io是怎么回事？

Ÿ 直接IO(direct io)是指读写文件系统数据时绕过页高速缓存。

Ÿ 具体文件系统支持直接IO需要实现a_ops中的direct_IO方法；

Ÿ 不管是直接IO，还是经过页高速缓存的IO操作，都是将请求通过bio发到通用块层来实现的。

Q: 高速缓存页分哪些类型？

Ÿ 含有普通文件数据或目录的页；

Ÿ 含有直接从块设备文件，跳过文件系统层，读出来的数据的页；

Ÿ 含有用户态进程数据的页，但页中的数据已经被交换到磁盘；

Ÿ 属于特殊文件系统的页，如共享内存的IPC所使用的特殊文件系统shm；

Q: 页高速缓存中页的数据都是不同的么？

Ÿ 页高速缓存可以包含同一磁盘数据的多个副本，可以一下两种方式可以访问普通文件的同一块：

1. 读文件，此时，数据包含在普通文件索引节点所拥有的页中；

2. 从文件所在的设备文件（磁盘分区）读取块，此时，数据就包含在块设备文件的主索引节点所拥有的块中。

Q:　页高速缓存如何组织？

Ÿ Linux支持TB级的文件，访问大文件时，页高速缓存中可能充满太多的文件页，因此需要对这些页进行高效的组织，使得内核能迅速高效的查找页。

Ÿ Linux采用基树（radix tree）对页高速缓存进行组织，添加，删除，查找页的操作的时间复杂度都为O(1)。Linux提供一组方法方法用于处理页高速缓存：

find_get_page()接受address_space对象指针及偏移量，返回对应的页描述符；

find_get_pages()查找一组具有相邻索引的页；

add_to_page_cache()把一个新页的描述符插入到页高速缓存；

remove_from_page_cache()将页从高速缓存中移除；

read_cache_page()确保高速缓存中包含最新版本的指定页；

Q: 缓冲区页于页内缓冲区的关系？

Ÿ 如下图所示：page结构的private字段指向第一个缓冲区首部，各个缓冲区首部通过b_this_page链接，并通过b_page指向包含自己的page结构，b_data为其相对于页的位置。当页在高端内存时，b_data为缓冲区块在业内的偏移量；否则，b_data为缓冲区的线性地址，因高端内存页没有固定的映射。

Q: 什么情况下内核会创建缓冲区页？

Ÿ 当读或写的文件页在磁盘块上不相邻时,即文件系统为文件分配了非连续的块，或者因为文件有洞；在块大小与页大小相等的情况下，这种情况不会出现。

Ÿ 当访问一个单独的磁盘块时（如读超级块或索引节点块）。

Q: 如何创建和释放缓冲区页？

Ÿ 调用grow_buffers()，其具体执行如下步骤：

1．如果对应的页不在块设备的基树中，需创建新的页。

2．调用alloc_page_buffer()为页创建缓冲区，一次创建页能容纳的所有缓冲区，并建立好链接关系，进行必要的初始化。

Ÿ 调用try_to_free_page()释放缓冲区页。

Q: 如何在页高速缓存中搜索块？

Ÿ 将块号转换成页号索引，并通过基树提供的接口进行查找。

Ÿ __find_get_block(), __getblk()接口提供搜索块的接口，根据给定的设备信息及块号，块大小，返回块对应的buffer_head结构，后者在块所在的缓冲区页不存在时会分配缓冲区页，创建缓冲区块，并返回对应块的buffer_head结构。

Ÿ 为了提高系统性能，内核维持了一个小的磁盘高速缓存数组bh_lrus（每CPU变量）,数组包含8个元素，指向最近访问过的缓冲区首部。

Q: 如何向通用块层提交缓冲区首部？

Ÿ 使用submit_bh()向通用块层传递一个缓冲区首部，使用ll_rw_block可向通用块层传递一组缓冲区首部；两者都附带读写传输方向标志。

Ÿ sumbit_bh()根据缓冲区首部内容创建一个bio，具体执行如下步骤：

1．调用bio_alloc分配一个bio描述符；

2．将bi_sector字段赋值为bh->b_blocknr * bh->b_size / 512;

3．将bi_bdev字段赋值为bh->b_bdev；

4．把bi_size设置为块大小bh->b_size；

5．初始化bi_io_vec的第一个元素以使该段对应于块缓冲区；

bi_io_vec[0].bv_page = bh->b_page;

bi_io_vec[0].bv_len = bh->b_size;

bi_io_vec[0].bv_offset = bh->b_data;

6. 将bi_cnt字段置1，并把bi_idx置为0；

7. 将bi_end_io字段赋值为end_bh_bio_sync，bi_private字段赋值为缓冲区首部地址。

作为数据传输完毕后的执行方法，数据传输完后，通过bi_private获取buffer_head结构，执行期bi_end_io字段的方法。

8. 调用submit_bio将bio提交到通用块层。

Ÿ ll_rw_block对数组中每个buffer_head调用submit_bh。

Q: 页高速缓存何时被刷新？

Ÿ 基于性能考虑，linux系统采用延迟写策略，即将把脏缓冲区写入块设备的操作延迟执行；基于延迟写，几次写操作可能只需要一次物理更新。从而使得物理块设备平均为读请求服务的时间多于写请求。

Ÿ 以下条件会触发把脏页写到磁盘：

1. 页高速缓存变得太满，但还需要更多的页，或者脏页的数量已经太多；

2. 从页变成脏页的时间太长，超过某一阈值；

3. 进程请求或者特定文件系统特定的变化。如同过sync(),fsync(),fdatasync()系统调用实现；

Ÿ Linux通过pdflush内核线程系统地扫描页高速缓存以刷新脏页，pdflush线程的数量随着系统运行动态调整，具体原则如下：

1. 必须有至少两个，之多八个pdflush内核线程；

2. 如果到最近的1s期间没有空闲的pdflush，就应该创建新的pdflush；

3. 如果最近一次pdflush变为空闲的时间超过1s，就应该删除一个pdflush；

4. 通过定期唤醒的pdflush保证陈旧的页及时写回，页保持脏状态的最长时间为30s；

Q: sync(), fsync(),fdatasync()系统调用区别？

Ÿ sync()把所有的脏缓冲区刷新到磁盘；

Ÿ fsync()把属于特定打开文件的所有块刷新到磁盘；

Ÿ fdatasync()与fsync()类似，但不刷新文件的索引节点块；

Q: linux文件系统如何预读取？

Ÿ 为了保证预读命中率，linux只对顺序读进行预读，内核通过如下条件判断read()是否为顺序读：

1. 这是文件被打开后的第一次读，并且从文件头开始读；

2. 当前的读请求与前一次读请求在文件内的位置是连续的；

否则为随机读，任何一次随机读将终止预读，而不是缩减预读窗口。

Ÿ 当确定了需要进行预读时，就需要确定合适的预读大小，预读粒度太小，效果提升不明显；预读太多，可能载入太多不需要的页面而造成资源浪费；linux的策略是：

1. 首次预读：readahead_size = read_size * 2; // or *4；

2. 后续预读：readahead_size = readahead_size * 2；

3. 系统设定的最大预读大小为128K，该值可配置；

阅读(3979) | 评论(0) | 转发(1) |

上一篇：RPC超时重传机制浅析

下一篇：需求决定一切

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6