张同光：Hello_everyone!ztguang.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

博客访问： 6777816
博文数量： 1159
博客积分： 12444
博客等级：上将
技术积分： 12570
用户组：普通用户
注册时间： 2008-03-13 21:34

文章分类

全部博文（1159）

Android---Mobile（164）
编程-C/C++（104）
服务计算-物联网-（65）

物联网（2）

服务（1）

大数据（1）

云计算（5）

安全（4）
Web技术（101）
教材/著作（10）
linux内核（39）
Kali（1）
操作系统原理（16）
Linux操作系统RHE（268）

入门导读（3）

教学进度表-大纲（4）

Linux简介与安装（57）

Linux的用户界面（14）

系统管理（31）

磁盘与文件管理（48）

软件包管理（37）

组建Linux局域网（22）

提供Internet服务（21）

MySQL与PHP（12）

系统管理高级（4）

Shell编程（11）
嵌入式系统开发实（4）

第1章-嵌入式系统（0）

第2章-嵌入式系统（0）

第3章-嵌入式软件（1）

第4章-BootLoader（0）

第5章-Linux在ARM（0）

第6章-根文件系统（0）

第7章-嵌入式Linu（0）

第8章-嵌入式Linu（0）
信息安全技术实用（16）

第1章-信息安全概（2）

第2章-物理安全技（0）

第3章-基础安全技（0）

第4章-操作系统安（6）

第5章-网络安全技（4）

第6章-数据库系统（0）

第7章-应用安全技（1）

第8章-容灾与数据（0）
随想--&--相册（10）

相册（5）
论文（13）
IT & Linux文章（28）
教学--选修--考试（12）
嵌入式开发（9）
嵌入式实验（17）

skyeye（3）

qemu（9）
学生成果（16）
教育（48）
2009级嵌入式方向（51）
2010级嵌入式方向（80）
健身与保健（12）
信息发布（27）
嵌入式资料（14）
网文（34）
未分配的博文（0）

文章存档

2016年（126）

2015年（350）

2014年（56）

2013年（91）

2012年（182）

2011年（193）

2010年（138）

2009年（23）

我的朋友

Linux 2.4.30 内核文件关键数据结构

1. 概述
根据以前学习内核源码的经验，在学习文件系统实现之前，我大概定了个目标：

建立一个清晰的全局概念。为将来需要研究代码细节打下坚实基础。
只研究虚拟文件系统 VFS 的实现，不研究具体文件系统。

为什么选择 Linux 2.4.30？因为可以参考《Linux 源码情景分析》一书，减少学习难度。

1.1. 基本概念
1、一块磁盘（块设备），首先要按照某种文件系统（如 NTFS）格式进行格式化，然后才能在其上进行创建目录、保存文件等操作。
    在Linux 中，有“安装”文件系统和“卸载”文件系统的概念。
    一块经过格式化的“块设备”（不管是刚刚格式化完的，没有创建任何名录和文件；还是已经创建了目录和文件），只有先被“安装”，才能融入 Linux 的文件系统中，用户才可以在它上面进行正常的文件操作。

2、 Linux 把目录或普通文件，统一看成“目录节点”。通常一个“目录节点”具有两个重要属性：名称以及磁盘上实际对应的数据。本文中，“目录节点”有时简称为“节点”
    “符号链接”是一种特殊的目录节点，它只有一个名称，没有实际数据。这个名称指向一个实际的目录节点。

3、 “接口结构”：在内核代码中，经常可以看到一种结构，其成员全部是函数指针，例如：
struct file_operations {
struct module *owner;
loff_t (*llseek) (struct file *, loff_t, int);
ssize_t (*read) (struct file *, char *, size_t, loff_t *);
ssize_t (*write) (struct file *, const char *, size_t, loff_t *);
int (*readdir) (struct file *, void *, filldir_t);
unsigned int (*poll) (struct file *, struct poll_table_struct *);
int (*ioctl) (struct inode *, struct file *, unsigned int, unsigned long);
int (*mmap) (struct file *, struct vm_area_struct *);
int (*open) (struct inode *, struct file *);
int (*flush) (struct file *);
int (*release) (struct inode *, struct file *);
int (*fsync) (struct file *, struct dentry *, int datasync);
int (*fasync) (int, struct file *, int);
int (*lock) (struct file *, int, struct file_lock *);
ssize_t (*readv) (struct file *, const struct iovec *, unsigned long, loff_t *);
ssize_t (*writev) (struct file *, const struct iovec *, unsigned long, loff_t *);
ssize_t (*sendpage) (struct file *, struct page *, int, size_t, loff_t *, int);
unsigned long (*get_unmapped_area)(struct file *, unsigned long, unsigned long, unsigned long, unsigned long);
};

    这种结构的作用类似与 C++ 中的“接口类”，它是用 C 语言进行软件抽象设计时最重要的工具。通过它，将一组通用的操作抽象出来，核心的代码只针对这种“接口结构”进行操作，而这些函数的具体实现由不同的“子类”去完成。
    以这个 file_operations“接口”为例，它是“目录节点”提供的操作接口。不同的文件系统需要提供这些函数的具体实现。
    本文中，“接口结构”有时简称“接口”。

1.2. 虚拟文件系统
    Linux 通过虚拟文件系统（VFS）来支持不同的具体的文件系统，那么 VFS 到底是什么？
    从程序员的角度看，我认为 VFS 就是一套代码框架（framework），它将用户与具体的文件系统隔离开来，使得用户能够通过这套框架，以统一的接口在不同的具体的文件系统上进行操作。

这套框架包括：

为用户提供统一的文件和目录的操作接口，如 open, read, write
抽象出文件系统共有的一些结构，包括“目录节点”inode、“超级块”super_block 等。
面向具体的文件系统，定义一系列统一的操作“接口”，如 file_operations, inode_operations, dentry_operation，具体的文件系统必须提供它们的实现。
提供一套机制，让具体的文件系统融入 VFS 框架中，包括文件系统的“注册”和“安装”
实现这套框架逻辑的核心代码

我对文件系统的学习，实际上就是学习虚拟文件系统这套框架是如何实现的。

2. 核心数据结构
数据结构是代码的灵魂，要分析一个复杂的系统，关键是掌握那些核心的数据结构，这包括：

弄清数据结构的核心功能。一个数据结构通常具有比较复杂的成员，此外，还有一些成员用于建立数据结构之间的关系。如果要一个个去理解，就会陷入细节。
弄清数据结构之间的静态关系
弄清数据结构之间是如何建立起动态的关系的

本文重点分析文件系统中的关键数据结构以及它们之间的关系。

2.1. inode 和 file_operations

inode 用以描述“目录节点” ，它描述了一个目录节点物理上的属性，例如大小，创建时间，修改时间、uid、gid 等
file_operations 是“目录节点”提供的操作“接口”。它包括 open, read, wirte, ioctl, llseek, mmap 等操作。
一个 inode 通过成员 i_fop 对应一个 file_operations
打开文件的过程就是寻找 “目录节点”对应的 inode 的过程
文件被打开后，inode 和 file_operation 都已经在内存中建立，file_operations 的指针也已经指向了具体文件系统提供的函数，此后都文件的操作，都由这些函数来完成。

例如打开了一个普通文件 /root/file，其所在文件系统格式是 ext2，那么，内存中结构如下：

2.2. 目录节点入口dentry
本来，inode 中应该包括“目录节点”的名称，但由于符号链接的存在，导致一个物理文件可能有多个文件名，因此把和“目录节点”名称相关的部分从 inode 中分开，放在一个专门的 dentry 结构中。这样：

一个dentry 通过成员 d_inode 对应到一个 inode上，寻找 inode 的过程变成了寻找 dentry 的过程。因此，dentry 变得更加关键，inode 常常被 dentry 所遮掩。可以说， dentry 是文件系统中最核心的数据结构，它的身影无处不在。
由于符号链接的存在，导致多个 dentry 可能对应到同一个 inode 上

例如，有一个符号链接 /tmp/abc 指向一个普通文件 /root/file，那么 dentry 与 inode 之间的关系大致如下：

2.3. super_block 和 super_operations
    一个存放在磁盘上的文件系统如 EXT2 等，在它的格式中通常包括一个“超级块”或者“控制块”的部分，用于从整体上描述文件系统，例如文件系统的大小、是否可读可写等等。
    虚拟文件系统中也通过“超级块”这种概念来描述文件系统整体的信息，对应的结构是 struct super_block。
    super_block 除了要记录文件大小、访问权限等信息外，更重要的是提供一个操作“接口”super_operations。

struct super_operations {
            struct inode *(*alloc_inode)(struct super_block *sb);
            void (*destroy_inode)(struct inode *);
            void (*read_inode) (struct inode *);
            void (*read_inode2) (struct inode *, void *) ;
            void (*dirty_inode) (struct inode *);
            void (*write_inode) (struct inode *, int);
            void (*put_inode) (struct inode *);
            void (*delete_inode) (struct inode *);
            void (*put_super) (struct super_block *);
            void (*write_super) (struct super_block *);
            int (*sync_fs) (struct super_block *);
            void (*write_super_lockfs) (struct super_block *);
            void (*unlockfs) (struct super_block *);
            int (*statfs) (struct super_block *, struct statfs *);
            int (*remount_fs) (struct super_block *, int *, char *);
            void (*clear_inode) (struct inode *);
            void (*umount_begin) (struct super_block *);
            struct dentry * (*fh_to_dentry)(struct super_block *sb, __u32 *fh, int len, int fhtype, int parent);
            int (*dentry_to_fh)(struct dentry *, __u32 *fh, int *lenp, int need_parent);
            int (*show_options)(struct seq_file *, struct vfsmount *);
};

    我们通过分析“获取一个 inode ”的过程来只理解这个“接口”中两个成员 alloc_inode 和 read_inode 的作用。
    在文件系统的操作中，经常需要获得一个“目录节点”对应的 inode，这个 inode 有可能已经存在于内存中了，也可能还没有，需要创建一个新的 inode，并从磁盘上读取相应的信息来填充。

对应的代码是 iget() （inlcude/linux/fs.h）过程如下：

通过 iget4_locked() 获取 inode。如果 inode 在内存中已经存在，则直接返回；否则创建一个新的 inode
如果是新创建的 inode，通过 super_block->s_op->read_inode() 来填充它。也就是说，如何填充一个新创建的 inode，是由具体文件系统提供的函数实现的。

    iget4_locked() 首先在全局的 inode hash table 中寻找，如果找不到，则调用 get_new_inode() ，进而调用 alloc_inode() 来创建一个新的 inode。
    在 alloc_inode() 中可以看到，如果具体文件系统提供了创建 inode 的方法，则由具体文件系统来负责创建，否则采用系统默认的的创建方法。

static struct inode *alloc_inode(struct super_block *sb)
{

            static struct address_space_operations empty_aops;
            static struct inode_operations empty_iops;
            static struct file_operations empty_fops;
            struct inode *inode;

             if (sb->s_op->alloc_inode)
                        inode = sb->s_op->alloc_inode(sb);
            else {
                        inode = (struct inode *) kmem_cache_alloc(inode_cachep, SLAB_KERNEL);
                         if (inode)
                                    memset(&inode->u, 0, sizeof(inode->u));
            }

             if (inode) {
                        struct address_space * const mapping = &inode->i_data;
                        inode->i_sb = sb;
                        inode->i_dev = sb->s_dev;
                        inode->i_blkbits = sb->s_blocksize_bits;
                        inode->i_flags = 0;
                        atomic_set(&inode->i_count, 1);
                        inode->i_sock = 0;
                        inode->i_op = &empty_iops;
                        inode->i_fop = &empty_fops;
                        inode->i_nlink = 1;
                        atomic_set(&inode->i_writecount, 0);
                        inode->i_size = 0;
                        inode->i_blocks = 0;
                        inode->i_bytes = 0;
                        inode->i_generation = 0;
                        memset(&inode->i_dquot, 0, sizeof(inode->i_dquot));
                        inode->i_pipe = NULL;
                        inode->i_bdev = NULL;
                        inode->i_cdev = NULL;

                        mapping->a_ops = &empty_aops;
                        mapping->host = inode;
                        mapping->gfp_mask = GFP_HIGHUSER;
                        inode->i_mapping = mapping;
            }
            return inode;
}

    super_block 是在安装文件系统的时候创建的，后面会看到它和其它结构之间的关系。

3. 安装文件系统

一个经过格式化的块设备，只有安装后，才能融入 Linux 的 VFS 之中。
安装一个文件系统，必须指定一个目录作为安装点。
一个设备可以同时被安装到多个目录上。
如果某个目录下原来有一些文件和子目录，一旦将一个设备安装到目录下后，则原有的文件和子目录消失。因为这个目录已经变成了一个安装点。
一个目录节点下可以同时安装多个设备。

3.1. “根安装点”、“根设备”和“根文件系统”
    安装一个文件系统，除了需要“被安装设备”外，还要指定一个“安装点”。“安装点”是已经存在的一个目录节点。例如把 /dev/sda1 安装到 /mnt/win 下，那么 /mnt/win 就是“安装点”。
    可是文件系统要先安装后使用。因此，要使用 /mnt/win 这个“安装点”，必然要求它所在文件系统已也经被安装。
    也就是说，安装一个文件系统，需要另外一个文件系统已经被安装。
    这是一个鸡生蛋，蛋生鸡的问题：最顶层的文件系统是如何被安装的？
    答案是，最顶层文件系统的时候是被安装在“根安装点”上的，而根安装点不属于任何文件系统，它对应的 dentry 、inode 是由内核在初始化阶段凭空构造出来的。
    最顶层的文件系统叫做“根文件系统”。Linux 在启动的时候，要求用户必须指定一个“根设备”，内核在初始化阶段，将“根设备”安装到“根安装点”上，从而有了根文件系统。这样，文件系统才算准备就绪。此后，用户就可以通过 mount 命令来安装新的设备。

3.2.   安装连接件 vfsmount
    “安装”一个文件系统涉及“被安装设备”和“安装点”两个部分，安装的过程就是把“安装点”和“被安装设备”关联起来，这是通过一个“安装连接件”结构 vfsmount 来完成的。
    vfsmount 将“安装点”dentry 和“被安装设备”的根目录节点 dentry 关联起来。
    每安装一次文件系统，会导致：

创建一个 vfsmount
为“被安装设备”创建一个 super_block，并由具体的文件系统来设置这个 super_block。（我们在“注册文件系统”一节将再来分析这一步）
为被安装设备的根目录节点创建 dentry
为被安装设备的根目录节点创建 inode，并由 super_operations->read_inode() 来设置此 inode
将 super_block 与“被安装设备“根目录节点 dentry 关联起来
将 vfsmount 与“被安装设备”的根目录节点 dentry 关联起来

在内核将根设备安装到“根安装点”上后，内存中有如下结构关系：

现在假设我们在 /mnt/win 下安装了 /dev/sda1， /dev/sda1 下有 dir1，然后又在 dir1 下安装了 /dev/sda2，那么内存中就有了如下的结构关系

阅读(2885) | 评论(0) | 转发(1) |

上一篇：linux awk命令详解

下一篇：2013上半年—嵌入式系统开发—中考

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6