Linux Hugepages-gflei-ChinaUnix博客

学而时习之gflei.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

gflei

博客访问： 2364203
博文数量： 310
博客积分： 6853
博客等级：准将
技术积分： 2833
用户组：普通用户
注册时间： 2005-08-04 16:41

文章分类

全部博文（310）

net（7）
工具（4）
Windows（26）

windows阀值（5）

硬件配置（3）

批处理（8）
UNIX&LINUX（52）

问题排查（8）

Security（1）

LINUX（31）

AIX（5）

HP-UX 学习（2）
JAVA（2）

RMI（1）
邮件服务器（1）
Mysql（20）

sql_reference（7）

优化（2）

数据库管理（6）

JDBC（2）

用户管理（1）
SQLSERVER（62）

性能（12）

SQL-REFERENCE（8）

maintain（15）

Concept（4）

lock（15）
Oracle（108）

SQL_REFERENCE（4）

Wait（3）

基础概念（3）

安全（11）

Client（5）

日常维护（7）

常见错误（27）

性能（19）

内存（9）

存储（11）

Lock（3）
LoadRunner（4）
应用服务器（4）

TOMCAT（2）

WEBSPHERE（1）
Apache（17）

虚拟主机（5）

与tomcat集成（5）

FAQ（0）
未分配的博文（3）

文章存档

2013年（17）

2012年（42）

2011年（76）

2010年（71）

2009年（99）

2007年（2）

2006年（1）

2005年（2）

我的朋友

相关博文

Linux Hugepages

分类： Oracle

2013-03-22 16:24:10

转自：http://www.dbafan.com/blog/?p=435

Hugepages是从Linux kernal 2.6后被引入的，其目的是使用更大的memory page size以适应越来越大的系统内存。

在我上大学那会，买一条64M 133Mhz的内存（对，你没看错，64M）价格为500多人民币，而现在4G 1600Mhz的内存的价格也就500多。

计算机硬件的发展速度太快了，所以操作系统的一些配置也要相应的随之改变。

在Linux下，默认的page size大小为4k。显然对于现在的SGA比较大的数据库系统来说，4k的page size有点太小了。

我们来看看两者之间有什么区别

1. Page Table大小

Page Table是用来存放虚拟内存也和物理内存页对应关系的内存结构。因为page size较小，所以相应的改内存结构也会比较大。

而Hugepages的常见page size为2M，是4k size的500倍，所以可以大大减小page table的size。

我们来看两个例子：

这是一个没有配置Hugepage的系统，系统内存128G，pagetable大小大约为4G。

cat /proc/meminfo

MemTotal: 132086880 kB
PageTables: 4059612 kB

这是配置了Hugepage的系统，系统内存96G, PageTable大小仅为78M

MemTotal: 98999880 kB
PageTables: 79916 kB

2. 大大提高了CPU cache中存放的page table所覆盖的内存大小，从而提高了TLB命中率

进程的虚拟内存地址段先连接到page tables然后再连接到物理内存。所以在访问内存时需要先访问page tables得到虚拟内存和物理内存的映射关系，然后再访问物理内存。

CPU cache中有一部分TLB（Translation Lookaside Buffer）用来存放部分page table以提高这种装换的速度。因为page size变大了，所以同样大小的TLB，所覆盖的内存大小也变大了。提高了TBL命中率，也就是提高了地址转换的速度。

3. 使用Hugepages的内存页是不会被交换出去的，永远常驻在内存中，所以也减少了内存也替换的额外开销

下面再说说在数据库服务器上使用Hugepages要注意的几点

1. Hugepages是在分配后就会预留出来的，其大小一定要比服务器上所有实例的SGA总和要大，差一点都不行。

比如说Hugepages设置为90G，oracle SGA为91G，那么oracle在启动的时候就不会使用到这90G的Hugepages。这90G就浪费了。所以在设置Hugepages时要计算SGA的大小，后面会给出一个脚本来计算。

2. 其他进程无法使用Hugepages的内存，所以不要设置太大，稍稍比SGA大一点保证SGA可以使用到hugepages就好了。

3. PGA不会使用Hugepages的内存。所以11g的AMM (Automatic Memory Management，memory_target参数）是不被支持的。而ASMM(Automatic Shared Memory Management, SGA_target参数)是被支持的，这两个不要搞混淆了。

4. 在meminfo中和Hugepage相关的有四项（RHEL5）

HugePages_Total: 43000
HugePages_Free: 29493
HugePages_Rsvd: 23550
Hugepagesize: 2048 kB

HugePages_Total为所分配的页面数目，和Hugepagesize相乘后得到所分配的内存大小。43000*2/1024大约为84GB
HugePages_Free为从来没有被使用过的Hugepages数目。即使oracle sga已经分配了这部分内存，但是如果没有实际写入，那么看到的还是Free的。这是很容易误解的地方
HugePages_Rsvd为已经被分配预留但是还没有使用的page数目。在Oracle刚刚启动时，大部分内存应该都是Reserved并且Free的，随着oracle SGA的使用，Reserved和Free都会不断的降低

HugePages_Free – HugePages_Rsvd 这部分是没有被使用到的内存，如果没有其他的oracle instance，这部分内存也许永远都不会被使用到，也就是被浪费了。在该系统上有11.5GB的内存被浪费了。

Note: RHEL4上的meminfo有所区别，没有HugePages_Rsvd这一项，并且当oracle instance启动时，所分配的内存就从free list上被移除掉了。也就是启动后HugePages_Free就是没有被SGA用到被浪费的内存。

最后说说如何设置HugePages：

1. 首先计算SGA大小已决定你要使用多少HugePages内存页。

你可以手工计算，如果使用了ASMM可以用SGA_Target/Hugepagesize，否则可以将db_cache_size，large_pool_size, shared_pool_size,jave_pool_size， streams_pool_size五个部分加起来除以Hugepagesize。

或者可以先将oracle instance都起起来，然后ipcs -m查看共享内存段大小来计算。oracle在401749.1中也提供了一个脚本来帮助计算，脚本如下：

#!/bin/bash
#
# hugepages_settings.sh
#
# Linux bash script to compute values for the
# recommended HugePages/HugeTLB configuration
#
# Note: This script does calculation for all shared memory
# segments available when the script is run, no matter it
# is an Oracle RDBMS shared memory segment or not.
#
# This script is provided by Doc ID 401749.1 from My Oracle Support
#

# Welcome text
echo "
This script is provided by Doc ID 401749.1 from My Oracle Support
() where it is intended to compute values for
the recommended HugePages/HugeTLB configuration for the current shared
memory segments. Before proceeding with the execution please make sure
that:
* Oracle Database instance(s) are up and running
* Oracle Database 11g Automatic Memory Management (AMM) is not setup
(See Doc ID 749851.1)
* The shared memory segments can be listed by command:
# ipcs -m

Press Enter to proceed..."

read

# Check for the kernel version
KERN=`uname -r | awk -F. '{ printf("%d.%d\n",$1,$2); }'`

# Find out the HugePage size
HPG_SZ=`grep Hugepagesize /proc/meminfo | awk '{print $2}'`

# Initialize the counter
NUM_PG=0

# Cumulative number of pages required to handle the running shared memory segments
for SEG_BYTES in `ipcs -m | awk '{print $5}' | grep "[0-9][0-9]*"`
do
MIN_PG=`echo "$SEG_BYTES/($HPG_SZ*1024)" | bc -q`
if [ $MIN_PG -gt 0 ]; then
NUM_PG=`echo "$NUM_PG+$MIN_PG+1" | bc -q`
fi
done

RES_BYTES=`echo "$NUM_PG * $HPG_SZ * 1024" | bc -q`

# An SGA less than 100MB does not make sense
# Bail out if that is the case
if [ $RES_BYTES -lt 100000000 ]; then
echo "***********"
echo "** ERROR **"
echo "***********"
echo "Sorry! There are not enough total of shared memory segments allocated for
HugePages configuration. HugePages can only be used for shared memory segments
that you can list by command:

# ipcs -m

of a size that can match an Oracle Database SGA. Please make sure that:
* Oracle Database instance is up and running
* Oracle Database 11g Automatic Memory Management (AMM) is not configured"
exit 1
fi

# Finish with results
case $KERN in
'2.4') HUGETLB_POOL=`echo "$NUM_PG*$HPG_SZ/1024" | bc -q`;
echo "Recommended setting: vm.hugetlb_pool = $HUGETLB_POOL" ;;
'2.6') echo "Recommended setting: vm.nr_hugepages = $NUM_PG" ;;
*) echo "Unrecognized kernel version $KERN. Exiting." ;;
esac

# End

2. 关闭所有oracle实例

3. 用root设定oracle memlock limit,设置一个较大的数值或者unlimited

在/etc/security/limits.conf最后添加
oracle hard memlock unlimited
oracle soft memlock unlimited

4. 分配hugepages内存

在/etc/sysctl.conf中添加

vm.nr_hugepages =

执行sysctl -p使其生效。这时候内存就已经被分配了，可以查看meminfo

grep Huge /proc/meminfo

HugePages_Total为设定的值大小，HugePages_Free应该和HugePages_Total一样大，HugePages_Rsvd为0.

5. 启动Oracle instance

这时候再次查看meminfo

HugePages_Total为设定的值大小不变，HugePages_Free有所降低，HugePages_Rsvd为一个较大的数值（因为刚刚启动时，大部分SGA被分配但是没有被使用到）。