分类: LINUX
2011-07-18 17:24:35
转自http://www.dbafan.com/blog/?cat=23
====转帖开始===
Hugepages是从Linux kernal 2.6后被引入的,其目的是使用更大的memory page size以适应越来越大的系统内存。
在我上大学那会,买一条64M 133Mhz的内存(对,你没看错,64M)价格为500多人民币,而现在4G 1600Mhz的内存的价格也就500多。
计算机硬件的发展速度太快了,所以操作系统的一些配置也要相应的随之改变。
在Linux下,默认的page size大小为4k。显然对于现在的SGA比较大的数据库系统来说,4k的page size有点太小了。
我们来看看两者之间有什么区别
1. Page Table大小
Page Table是用来存放虚拟内存也和物理内存页对应关系的内存结构。因为page size较小,所以相应的改内存结构也会比较大。
而Hugepages的常见page size为2M,是4k size的500倍,所以可以大大减小page table的size。
我们来看两个例子:
这是一个没有配置Hugepage的系统,系统内存128G,pagetable大小大约为4G。
cat /proc/meminfo
MemTotal: 132086880 kB
PageTables: 4059612 kB
这是配置了Hugepage的系统,系统内存96G, PageTable大小仅为78M
MemTotal: 98999880 kB
PageTables: 79916 kB
2. 大大提高了CPU cache中存放的page table所覆盖的内存大小,从而提高了TLB命中率
进程的虚拟内存地址段先连接到page tables然后再连接到物理内存。所以在访问内存时需要先访问page tables得到虚拟内存和物理内存的映射关系,然后再访问物理内存。
CPU cache中有一部分TLB(Translation Lookaside Buffer)用来存放部分page table以提高这种装换的速度。因为page size变大了,所以同样大小的TLB,所覆盖的内存大小也变大了。提高了TBL命中率,也就是提高了地址转换的速度。
3. 使用Hugepages的内存页是不会被交换出去的,永远常驻在内存中,所以也减少了内存也替换的额外开销
下面再说说在数据库服务器上使用Hugepages要注意的几点
1. Hugepages是在分配后就会预留出来的,其大小一定要比服务器上所有实例的SGA总和要大,差一点都不行。
比如说Hugepages设置为90G,oracle SGA为91G,那么oracle在启动的时候就不会使用到这90G的Hugepages。这90G就浪费了。所以在设置Hugepages时要计算SGA的大小,后面会给出一个脚本来计算。
2. 其他进程无法使用Hugepages的内存,所以不要设置太大,稍稍比SGA大一点保证SGA可以使用到hugepages就好了。
3. PGA不会使用Hugepages的内存。所以11g的AMM (Automatic Memory Management,memory_target参数)是不被支持的。而ASMM(Automatic Shared Memory Management, SGA_target参数)是被支持的,这两个不要搞混淆了。
4. 在meminfo中和Hugepage相关的有四项(RHEL5)
HugePages_Total: 43000
HugePages_Free: 29493
HugePages_Rsvd: 23550
Hugepagesize: 2048 kB
HugePages_Total为所分配的页面数目,和Hugepagesize相乘后得到所分配的内存大小。43000*2/1024大约为84GB
HugePages_Free为从来没有被使用过的Hugepages数目。即使oracle sga已经分配了这部分内存,但是如果没有实际写入,那么看到的还是Free的。这是很容易误解的地方
HugePages_Rsvd为已经被分配预留但是还没有使用的page数目。在Oracle刚刚启动时,大部分内存应该都是Reserved并且Free的,随着oracle SGA的使用,Reserved和Free都会不断的降低
HugePages_Free – HugePages_Rsvd 这部分是没有被使用到的内存,如果没有其他的oracle instance,这部分内存也许永远都不会被使用到,也就是被浪费了。在该系统上有11.5GB的内存被浪费了。
Note: RHEL4上的meminfo有所区别,没有HugePages_Rsvd这一项,并且当oracle instance启动时,所分配的内存就从free list上被移除掉了。也就是启动后HugePages_Free就是没有被SGA用到被浪费的内存。
最后说说如何设置HugePages:
1. 首先计算SGA大小已决定你要使用多少HugePages内存页。
你可以手工计算,如果使用了ASMM可以用SGA_Target/Hugepagesize,否则可以将 db_cache_size,large_pool_size, shared_pool_size,jave_pool_size, streams_pool_size五个部分加起来除以Hugepagesize。
或者可以先将oracle instance都起起来,然后ipcs -m查看共享内存段大小来计算。oracle在401749.1中也提供了一个脚本来帮助计算,脚本如下:
2. 关闭所有oracle实例
3. 用root设定oracle memlock limit,设置一个较大的数值或者unlimited
在/etc/security/limits.conf最后添加
oracle hard memlock unlimited
oracle soft memlock unlimited
4. 分配hugepages内存
在/etc/sysctl.conf中添加
vm.nr_hugepages =
执行sysctl -p使其生效。这时候内存就已经被分配了,可以查看meminfo
grep Huge /proc/meminfo
HugePages_Total为设定的值大小,HugePages_Free应该和HugePages_Total一样大,HugePages_Rsvd为0.
5. 启动Oracle instance
这时候再次查看meminfo
HugePages_Total为设定的值大小不变,HugePages_Free有所降低,HugePages_Rsvd为一个较大的数值(因为刚刚启动时,大部分SGA被分配但是没有被使用到)。
如果Hugepages没有被使用,可能一些memory page被分配为4k大小了,那么需要重启server来设置。
从我们的测试结果看,Hugepages可以提高OLTP系统10%的吞吐量,当然不同的数据库应用结果可能不同,但是总体来说这是一个nice to have的设置。
推荐一些Hugepages相关的文章:
Metalink Note: 361323.1,744769.1, 748637.1
Yong’s blog:
Kevin Closson’s blog: http://kevinclosson.wordpress.com/2010/09/28/configuring-linux-hugepages-for-oracle-database-is-just-too-difficult-part-i/ http://kevinclosson.wordpress.com/2010/10/21/configuring-linux-hugepages-for-oracle-database-is-just-too-difficult-isn%E2%80%99t-it-part-%E2%80%93-ii/