-- linux爱好者,业余时间热衷于分析linux内核源码 -- 目前主要研究云计算和虚拟化相关的技术,主要包括libvirt/qemu,openstack,opennebula架构和源码分析。 -- 第五届云计算大会演讲嘉宾 微博:@Marshal-Liu
分类: LINUX
2009-06-27 13:25:36
X86 指令集是IT业内久经考验并获得最广泛支持的指令集。但传统的32位x86系列产品限制了可用的物理内存总量以及单个进程的地址空间,虽然可用 PAE(page address extension)机制进行扩展,但这只是一种补救措施,并不是一个完美的方案。AMD率先推出的64位x86处理器系列可以支持需要占用较大物理及虚 拟存储地址的应用方案,如高性能服务器、数据库管理系统及计算机辅助设计工具等。同时AMD的x86-64与32位的计算架构完全兼容,这使得一方面能确 保用户可以改用高性能的64位计算机系统,另一方面又可以保障业界在32位软件方面高达数十乃至数百亿美元的投资。
下面我们就来分析运行于X86-64上的Linux操作系统的虚拟内存管理系统。
X86-64 可以运行在两种模式下,一种是遗传模式,包括传统32位x86系统的四种模式:实模式,保护模式,虚拟8086模式和系统管理模式;另一种是新增的长模 式,包括兼容模式和64位模式。各种状态之间的转换通过CR0,CR4控制寄存器(Control Registers),RFLAGS系统标志寄存器(System-flag Registers,遗传模式下对应的是EFLAGS)和EXER扩展功能使能寄存器(Extended-Feature-Enable Register)的某些位进行控制,如图1所示。
X86-64上的Suse Linux 8.0运行于长模式下的64位模式,这种模式的特征是:
64位模式下的虚实地址转换有两种方式,一种是采用4K大小页面的普通模式,另外一种是采用2M大小页面super page方式。分别见图2和图3所示。可以看到,64位的X86增加了一级映射 - PML4。
一个页面的大小是由CR4寄存器中的的PAE,PSE位以及地址转换表项中PDE的PS位进行控制,具体的对应关系如表1所示。在64位模式下,PAE总是打开的,因而只用4K/2M两种大小的页面。
X86-64 的PML4中的每一项对应着512G地址空间,512项对应256TB地址空间。其地址空间的分布如下: PML4的第1项512GB空间对应着应用程序的用户地址空间;第2项未映射;第3项到第508项是直接映射的区间,即物理地址与虚地址相差一个固定值; 第510项是一些IO映射区域;第511项是vmalloc和ioremap对应的区间;最后一项是内核代码以及模块和修复代码的地址空间。由此可见,除 去4项之外,内核总共可见的物理地址有508*512G=254TB。新的PAGE_OFFSET现在是0x10000000000。
事实上,512G的用户空间目前来看是十分充足的,而且这使得虚地址空间的管理效率较高,可以想象一下,如果每个进程需要管理254TB虚拟地址空间,想要做到高效管理的难度会有多大。
此外,在Linux的实现中,内核地址空间采用2M页面转换,而用户空间则采用4K页面转换。其初始化的映射表填写代码如下(arch/x86_64/mm/init.c中函数phys_pgd_init):
for (j = 0; j < PTRS_PER_PMD; pmd++, j++ , paddr += PMD_SIZE) { |
这个函数的调用路径是start_kernel(init/main.c)-> setup_arch(arch/x86_64/kernel/setup.c)-> init_memory_mapping(arch/x86_64/mm/init.c)。
在 32位X86上的进程切换时,需要将PGD的地址装入CR3寄存器以实现地址空间的切换。而从上一节的描述可以看到在64位环境下,PML4中只有第一项 是独立于进程自身的,考虑到这一点,Linux在进程切换时只是更新PML4中第一项的值并刷新TLB。其代码在include/asm-x86_64 /mmu_context.h中:
*read_pda(level4_pgt) = __pa(next->pgd) | _PAGE_TABLE; |
这样做有几个好处:
Linux在X86-64体系结构上VM管理系统的设计是充满技巧的,它考虑到了可用物理以及虚地址空间的限制,效率以及向后兼容性。使得最终既能获得64位的好处,同时开发的工作量也不至于太大。