首页　| 　博文目录　| 　关于我

博客访问： 3680965
博文数量： 217
博客积分： 0
博客等级：民兵
技术积分： 7482
用户组：普通用户
注册时间： 2013-01-23 18:56

个人简介

将晦涩难懂的技术讲的通俗易懂

文章分类

全部博文（217）

RDMA（1）
NCCL（8）
服务器硬件（1）
AI infra（11）
网络安全（3）
容器技术（5）
spdk（1）
SDN（0）
论文（2）
论文（0）
网络大二层（1）
性能优化（6）
虚拟化（22）

qemu-kvm（5）
体系结构（5）
dpdk（23）
链接、装载与库（2）
python（1）
内核网络（13）
分布式存储（1）
Nginx（1）
经典算法（1）
学习生活（2）
Web（2）
网络编程（8）
疑难杂症（5）
Linux系统使用（5）
算法（2）
ASP.NET（1）
linux系统编程（28）

epoll（7）
Linuc/unix（36）

内核（17）
C/C++（18）
未分配的博文（2）

文章存档

2025年（9）

2024年（11）

2023年（9）

2022年（4）

2021年（12）

2020年（8）

2019年（18）

2018年（19）

2017年（9）

2016年（26）

2015年（18）

2014年（54）

2013年（20）

我的朋友

NUMA相关配置介绍

什么是NUMA

在早期，对于x86架构的计算机，那时的内存控制器还没有整合进CPU，所有内存的访问都需要通过北桥芯片来完成。此时的内存访问如下图所示，被称为UMA（uniform memory access, 一致性内存访问）。这样的访问对于软件层面来说非常容易实现：总线模型保证了所有的内存访问是一致的，不必考虑由不同内存地址之前的差异。

之后的x86平台经历了一场从“拼频率”到“拼核心数”的转变，越来越多的核心被尽可能地塞进了同一块芯片上，各个核心对于内存带宽的争抢访问成为了瓶颈；此时软件、OS方面对于SMP多核心CPU的支持也愈发成熟；再加上各种商业上的考量，x86平台也顺水推舟的搞了NUMA（Non-uniform memory access, 非一致性内存访问）。在这种架构之下，每个Socket都会有一个独立的内存控制器IMC（integrated memory controllers, 集成内存控制器），分属于不同的socket之内的IMC之间通过QPI link通讯。

然后就是进一步的架构演进，由于每个socket上都会有多个core进行内存访问，这就会在每个core的内部出现一个类似最早SMP架构相似的内存访问总线，这个总线被称为IMC bus。

于是，很明显的，在这种架构之下，两个socket各自管理1/2的内存插槽，如果要访问不属于本socket的内存则必须通过QPI link。也就是说内存的访问出现了本地/远程（local/remote）的概念，内存的延时是会有显著的区别的。这也是为什么在NUMA架构下有些应用性能反而更差的原因。

回到当前世面上的CPU，工程上的实现其实更加复杂了。以来看，两个Socket之之间通过各自的一条9.6GT/s的QPI link互访。而每个Socket事实上有2个内存控制器。双通道的缘故，每个控制器又有两个内存通道（channel），每个通道最多支持3根内存条（DIMM）。理论上最大单socket支持76.8GB/s的内存带宽，而两个QPI link，每个QPI link有9.6GT/s的速率（~57.6GB/s）事实上QPI link已经出现瓶颈了。

内核的NUMA的默认行为

Linux内核中/ , //文件定义了NUMA的数据结构和操作方式。在一个启用了NUMA支持的Linux中，Kernel不会将任务内存从一个NUMA node搬迁到另一个NUMA node。

一个进程一旦被启用，它所在的NUMA node就不会被迁移，为了尽可能的优化性能，在正常的调度之中，CPU的core也会尽可能的使用可以local访问的本地core，在进程的整个生命周期之中，NUMA node保持不变。

一旦当某个NUMA node的负载超出了另一个node一个阈值（默认25%），则认为需要在此node上减少负载，不同的NUMA结构和不同的负载状况，系统见给予一个延时任务的迁移——类似于漏杯算法。在这种情况下将会产生内存的remote访问。

NUMA node之间有不同的拓扑结构，各个 node 之间的访问会有一个距离（node distances）的概念，如numactl -H命令的结果有这样的描述：node distances:
node 0 1 2 3
0: 10 11 21 21
1: 11 10 21 21
2: 21 21 10 11
3: 21 21 11 10

可以看出：0 node 到0 node之间距离为10，这肯定的最近的距离，不提。0-1之间的距离远小于2或3的距离。这种距离方便系统在较复杂的情况下选择最合适的NUMA设定。

NUMA相关配置

查看 NUMA node 信息

点击(此处)折叠或打开

numactl --hardware

    # NUMA 关闭时：

    # available: 1 nodes (0) # node 列表

    # node 0 cpus: 0 1 .. # node0 核列表

    # node 0 size: 65523 MB # node0 总内存大小

    # node 0 free: 51796 MB # node0 空闲内存大小

    # node distances: # node 之间 distances 大小

    # node 0 # distances 会由矩阵来表示

    # 0: 10

查看 NUMA 绑定信息

点击(此处)折叠或打开

numactl --show
# NUMA 关闭时：
# policy: default
# preferred node: current
# physcpubind: 0 1 ... # 核绑定
# cpubind: 0 # CPU 绑定
# nodebind: 0 # node 绑定
# membind: 0 # 内存绑定

查看 NUMA 统计信息

点击(此处)折叠或打开

numastat 等同于 cat /sys/devices/system/node/node[0…n]/numastat。
numastat
# NUMA 关闭时：
# node0
# numa_hit 5571187 //打算在本节点上分配内存，最后从本节点分配的次数
# numa_miss 0 //打算在本节点分配内存，最后却从其他节点分配的次数
# numa_foreign 0 //打算在其他节点分配内存，最后却从这个节点分配的次数
# interleave_hit 53465 //采用interleave策略最后从本节点分配的次数
# local_node 5571187//本节点上的进程，在本节点上分配的次数
# other_node 0 //其他节点进程，在本节点上分配的次数

NUMA 的内存分配策略

选项：

–localalloc, -l

规定进程从当前 node 上请求分配内存。

–membind=nodes, -m nodes

规定进程只能从指定的 nodes 上请求分配内存。

–preferred=node

指定了一个推荐的 node 来获取内存，如果失败，则尝试别的 node。

–interleave=nodes, -i nodes

规定进程从指定的 nodes 上，以 round robin 算法交织地请求分配内存。

NUMA的分配策略例子

点击(此处)折叠或打开

# Unset default cpuset awareness.
numactl --all
# Run ${process} on node 0 with memory allocated on node 0 and 1.
numactl --cpunodebind=0 --membind=0,1 ${process} ${process_arguments}
# Run ${process} on cpus 0-4 and 8-12 of the current cpuset.
numactl --physcpubind=+0-4,8-12 ${process} ${process_arguments}
# Run ${process} with its memory interleaved on all CPUs
numactl --interleave=all ${process} ${process_arguments}
# Run process as above, but with an option (-l) that would be confused with a numactl option.
numactl --cpunodebind=0 --membind=0,1 -- ${process} -l
# Run ${network-server} on the node of network device eth0 with its memory also in the same node.
numactl --cpunodebind=netdev:eth0 --membind=netdev:eth0 ${network-server}
# Set preferred node 1 and show the resulting state.
numactl --preferred=1 numactl --show
# Interleave all of the sysv shared memory region specified by /tmp/shmkey over all nodes.
numactl --interleave=all --shm /tmp/shmkey
# Place a tmpfs file on 2 nodes.
numactl --membind=2 dd if=/dev/zero of=/dev/shm/A bs=1M count=1024
numactl --membind=3 dd if=/dev/zero of=/dev/shm/A seek=1024 bs=1M count=1024
# Reset the policy for the shared memory file file to the default localalloc policy.
numactl --localalloc /dev/shm/file

查看设备NUMA

事实上，在PCIe channel上也是有NUMA亲和性的。比如：查看网卡enp0s20f0u5的NUMA，用到了netdev:<设备名称>这种方式。

点击(此处)折叠或打开

[root@local ~]# numactl --prefer netdev:enp0s20f0u5 --show
policy: preferred
preferred node: 0
physcpubind: 0
cpubind: 0
nodebind: 0
membind: 0 1 2 3

或者一个PCI address 为00:17的SATA控制器，用到了pci:

点击(此处)折叠或打开

[root@local~]# numactl --prefer pci:00:17 --show
policy: preferred
preferred node: 0
physcpubind: 0
cpubind: 0
nodebind: 0
membind: 0 1 2 3

还有block/ip/file的方式查看NUMA affinity，这里也就不再累述了。

NUMA的开启和关闭

NUMA可以在BIOS和OS两个层面开关，其实关于两个层面开关的区别网上并没有找到详细资料。有一种说法是：BIOS和OS的关闭NUMA在interleave的粒度上有区别，BIOS应该是在cache line（64B）的粒度，而OS利用内核页表所以是页（4kB）的粒度。效果上BIOS表现应该更稳定一些，但OS的配置相对更方便。

BIOS 层的 NUMA 设置

1. 查看 BIOS 层是否开启 NUMA

grep -i numa /var/log/dmesg

# 1. 如果为 "No NUMA configuration found"

# 则说明 NUMA 为 disable。

# 2. 如果不是 "No NUMA configuration found"

# 则说明 NUMA 为 enable。

2. 修改 BIOS interleave

注意，由于 BIOS 种类繁多，请以实际情况为准。

参数路径：

BIOS: interleave

设定值：

Disable # interleave 关闭，开启 NUMA。

Enable # interleave 开启，关闭 NUMA。

OS 层的 NUMA 设置

1. 查询当前内核启动参数

cat /porc/cmdline

2. 修改内核启动参数

vim /etc/grub.conf

# 修改 kernel 或 linuxe 或 linuxefi 行

# 添加 `numa=off`，关闭 NUMA。

# 去除 `numa=off`，开启 NUMA。

# 例子：

# linuxefi /vmlinuz-3.10.0-123.el7.x86_64 ... numa=off

阅读(7392) | 评论(0) | 转发(0) |

上一篇：IOMMU和VFIO概述

下一篇：“RDMA for VPC”方案之MasQ分析

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6

NUMA相关配置介绍

什么是NUMA

内核的NUMA的默认行为

NUMA相关配置

查看 NUMA node 信息

查看 NUMA 绑定信息

查看 NUMA 统计信息

NUMA 的 内存 分配策略

NUMA的分配策略例子

查看设备NUMA

NUMA的开启和关闭

BIOS 层 的 NUMA 设置

OS 层 的 NUMA 设置

NUMA 的内存分配策略

BIOS 层的 NUMA 设置

OS 层的 NUMA 设置