X86-64上的Linux VM管理系统-liujunwei1234-ChinaUnix博客

少帅的天空linuxsky.blog.chinaunix.net

博客访问： 3391533
博文数量： 258
博客积分： 9440
博客等级：少将
技术积分： 6998
用户组：普通用户
注册时间： 2009-05-03 10:28

个人简介

-- linux爱好者，业余时间热衷于分析linux内核源码 -- 目前主要研究云计算和虚拟化相关的技术，主要包括libvirt/qemu，openstack，opennebula架构和源码分析。 -- 第五届云计算大会演讲嘉宾微博：@Marshal-Liu

文章分类

全部博文（258）

OpenStack（20）
OpenNebula（11）
系统问题（19）
虚拟化/云计算（26）
用户态驱动（3）
latex（10）
嵌入式（13）
环境搭建（linux（20）
体系结构（12）
IT 新闻（9）
linux环境编程（29）
qt程序设计（9）
c/c++ 学习（11）
linux 源码分析（61）
未分配的博文（5）

文章存档

2016年（1）

2015年（4）

2014年（16）

2013年（22）

2012年（41）

2011年（59）

2010年（40）

2009年（75）

我的朋友

相关博文

X86-64上的Linux VM管理系统

分类： LINUX

2009-06-27 13:25:36

X86 指令集是IT业内久经考验并获得最广泛支持的指令集。但传统的32位x86系列产品限制了可用的物理内存总量以及单个进程的地址空间，虽然可用 PAE(page address extension)机制进行扩展，但这只是一种补救措施，并不是一个完美的方案。AMD率先推出的64位x86处理器系列可以支持需要占用较大物理及虚拟存储地址的应用方案，如高性能服务器、数据库管理系统及计算机辅助设计工具等。同时AMD的x86-64与32位的计算架构完全兼容，这使得一方面能确保用户可以改用高性能的64位计算机系统，另一方面又可以保障业界在32位软件方面高达数十乃至数百亿美元的投资。

下面我们就来分析运行于X86-64上的Linux操作系统的虚拟内存管理系统。

X86-64 可以运行在两种模式下，一种是遗传模式，包括传统32位x86系统的四种模式：实模式，保护模式，虚拟8086模式和系统管理模式；另一种是新增的长模式，包括兼容模式和64位模式。各种状态之间的转换通过CR0，CR4控制寄存器（Control Registers)，RFLAGS系统标志寄存器（System-flag Registers，遗传模式下对应的是EFLAGS）和EXER扩展功能使能寄存器（Extended-Feature-Enable Register）的某些位进行控制，如图1所示。

X86-64上的Suse Linux 8.0运行于长模式下的64位模式，这种模式的特征是：

通用寄存器扩展为64位，同时增加了8个通用寄存器R8-R15；
增加了8个128位的SSE（streaming SIMD extension）寄存器；
虚地

64位模式下的虚实地址转换有两种方式，一种是采用4K大小页面的普通模式，另外一种是采用2M大小页面super page方式。分别见图2和图3所示。可以看到，64位的X86增加了一级映射 - PML4。

一个页面的大小是由CR4寄存器中的的PAE，PSE位以及地址转换表项中PDE的PS位进行控制，具体的对应关系如表1所示。在64位模式下，PAE总是打开的，因而只用4K/2M两种大小的页面。

X86-64 的PML4中的每一项对应着512G地址空间，512项对应256TB地址空间。其地址空间的分布如下： PML4的第1项512GB空间对应着应用程序的用户地址空间；第2项未映射；第3项到第508项是直接映射的区间，即物理地址与虚地址相差一个固定值；第510项是一些IO映射区域；第511项是vmalloc和ioremap对应的区间；最后一项是内核代码以及模块和修复代码的地址空间。由此可见，除去4项之外，内核总共可见的物理地址有508*512G=254TB。新的PAGE_OFFSET现在是0x10000000000。

事实上，512G的用户空间目前来看是十分充足的，而且这使得虚地址空间的管理效率较高，可以想象一下，如果每个进程需要管理254TB虚拟地址空间，想要做到高效管理的难度会有多大。

此外，在Linux的实现中，内核地址空间采用2M页面转换，而用户空间则采用4K页面转换。其初始化的映射表填写代码如下（arch/x86_64/mm/init.c中函数phys_pgd_init)：

				for (j = 0; j < PTRS_PER_PMD; pmd++, j++ , paddr += PMD_SIZE) {
			unsigned long pe;
			if (paddr >= end) { 
				for (; j < PTRS_PER_PMD; j++, pmd++)
					set_pmd(pmd,  __pmd(0)); 
				break;
			}
			pe = _PAGE_PSE | _KERNPG_TABLE | _PAGE_NX | _PAGE_GLOBAL | paddr;
			pe &= __supported_pte_mask; 
			set_pmd(pmd, __pmd(pe));
		}

这个函数的调用路径是start_kernel（init/main.c）-> setup_arch（arch/x86_64/kernel/setup.c）-> init_memory_mapping（arch/x86_64/mm/init.c）。

在 32位X86上的进程切换时，需要将PGD的地址装入CR3寄存器以实现地址空间的切换。而从上一节的描述可以看到在64位环境下，PML4中只有第一项是独立于进程自身的，考虑到这一点，Linux在进程切换时只是更新PML4中第一项的值并刷新TLB。其代码在include/asm-x86_64 /mmu_context.h中：

				*read_pda(level4_pgt) = __pa(next->pgd) | _PAGE_TABLE;
		__flush_tlb();

这样做有几个好处：

整个系统中所有进程共用一个PML4表，从而节省内存；
PML4第一项的值完全等同与32位上PGD的地址，这样，系统中其他部分的代码就可以完全不用考虑地址空间映射的变化，从而实现了最大程度的向后兼容。

Linux在X86-64体系结构上VM管理系统的设计是充满技巧的，它考虑到了可用物理以及虚地址空间的限制，效率以及向后兼容性。使得最终既能获得64位的好处，同时开发的工作量也不至于太大。

阅读(2734) | 评论(0) | 转发(1) |

上一篇： Translation Lookaside Buffer (TLB)

下一篇：从我的新电脑谈oprofile的使用

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6