首页　| 　博文目录　| 　关于我

博客访问： 3689288
博文数量： 217
博客积分： 0
博客等级：民兵
技术积分： 7483
用户组：普通用户
注册时间： 2013-01-23 18:56

个人简介

将晦涩难懂的技术讲的通俗易懂

文章分类

全部博文（217）

RDMA（1）
NCCL（8）
服务器硬件（1）
AI infra（11）
网络安全（3）
容器技术（5）
spdk（1）
SDN（0）
论文（2）
论文（0）
网络大二层（1）
性能优化（6）
虚拟化（22）

qemu-kvm（5）
体系结构（5）
dpdk（23）
链接、装载与库（2）
python（1）
内核网络（13）
分布式存储（1）
Nginx（1）
经典算法（1）
学习生活（2）
Web（2）
网络编程（8）
疑难杂症（5）
Linux系统使用（5）
算法（2）
ASP.NET（1）
linux系统编程（28）

epoll（7）
Linuc/unix（36）

内核（17）
C/C++（18）
未分配的博文（2）

文章存档

2025年（9）

2024年（11）

2023年（9）

2022年（4）

2021年（12）

2020年（8）

2019年（18）

2018年（19）

2017年（9）

2016年（26）

2015年（18）

2014年（54）

2013年（20）

我的朋友

DPDK 22.11内存管理变化解析

——lvyilong316

DPDK的内存管理之前有专门分析过，但是其实DPDK在18.05和18.08版本对内存的管理发生了较大的变化，比如增加了动态内存管理，no_hugetlbfs的支持，单个文件段（single_file），内存模式（in_memory）等。本文直接针对相对较新的DPDK 22.11进行内存管理分析，主要分析一下新的动态内存管理方式。相对新的内存管理方式，我们将早期版本的DPDK（17.11或更早版本）的内存管理方式称之为legacy模式（静态管理）。

下面我们分析DPDK22.11中和内存管理相关的代码，还是从DPDK初始化函数rte_eal_init开始。

IOVA模式的选择

和内存相关的{BANNED}中国第一部分是关于IOVA模式的选择，代码如下，关于IOVA我们在前面文章中已经有所介绍。可以看到只有使用hugepage才可能支持PA，否则（no_hugetlbfs）无法支持PA模式。

点击(此处)折叠或打开

/*
* PA are only available for hugepages via contigmem.
* If contigmem is inaccessible, rte_eal_hugepage_init() will fail
* with a message describing the cause.
*/
has_phys_addr = internal_conf->no_hugetlbfs == 0;
iova_mode = internal_conf->iova_mode;
if (iova_mode == RTE_IOVA_PA && !has_phys_addr) {
rte_eal_init_alert("Cannot use IOVA as 'PA' since physical addresses are not available");
rte_errno = EINVAL;
return -1;
}
if (iova_mode == RTE_IOVA_DC) {
RTE_LOG(DEBUG, EAL, "Specific IOVA mode is not requested, autodetecting\n");
if (has_phys_addr) {
RTE_LOG(DEBUG, EAL, "Selecting IOVA mode according to bus requests\n");
iova_mode = rte_bus_get_iommu_class();
if (iova_mode == RTE_IOVA_DC)
iova_mode = RTE_IOVA_PA;
} else {
iova_mode = RTE_IOVA_VA;
}
}

IOVA的选择主要有三种：RTE_IOVA_PA，RTE_IOVA_VA，RTE_IOVA_DC（都支持，依赖命令行参数选择）。具体选择哪种模式主要看rte_bus_get_iommu_class的返回情况。对于pci bus其函数是rte_pci_get_iommu_class，具体如下。rte_pci_get_iommu_class通过判断设备是否支持VA（取决于设备硬件支持iommu且系统开启iommu），以及设备所绑定的驱动，如vfio，igb_uio等是否支持VA，{BANNED}最佳终确定支持VA还是PA，还是都支持DC（取决于命令行参数）。

点击(此处)折叠或打开

enum rte_iova_mode
rte_pci_get_iommu_class(void)
{
enum rte_iova_mode iova_mode = RTE_IOVA_DC;
const struct rte_pci_device *dev;
const struct rte_pci_driver *drv;
bool devices_want_va = false;
bool devices_want_pa = false;
int iommu_no_va = -1;
/* 遍历pci bus上每个设备 */
FOREACH_DEVICE_ON_PCIBUS(dev) {
/*
* We can check this only once, because the IOMMU hardware is
* the same for all of them.
*/
if (iommu_no_va == -1)
/* 通过读取设备的/sys/bus/pci/devices/$BDF/iommu/intel-iommu/cap文件，判断是设备否支持VA能力 */
iommu_no_va = pci_device_iommu_support_va(dev)
? 0 : 1;
if (dev->kdrv == RTE_PCI_KDRV_UNKNOWN ||
dev->kdrv == RTE_PCI_KDRV_NONE)
continue;
/* 遍历pci bus上的所有驱动 */
FOREACH_DRIVER_ON_PCIBUS(drv) {
enum rte_iova_mode dev_iova_mode;
/* 找到对应设备绑定的驱动，如vfio，或者igb_uio等 */
if (!rte_pci_match(drv, dev))
continue;
/* 判断设备绑定的驱动是否支持VA模式，如果是igb_uio或uio_pci_generic则直接返回PA，如果是vfio但是开启了vfio_noiommu_enabled则也返回PA，否则（vfio且没有开启vfio_noiommu_enabled）则返回可以支持VA */
dev_iova_mode = pci_device_iova_mode(drv, dev);
RTE_LOG(DEBUG, EAL, "PCI driver %s for device "
PCI_PRI_FMT " wants IOVA as '%s'\n",
drv->driver.name,
dev->addr.domain, dev->addr.bus,
dev->addr.devid, dev->addr.function,
dev_iova_mode == RTE_IOVA_DC ? "DC" :
(dev_iova_mode == RTE_IOVA_PA ? "PA" : "VA"));
if (dev_iova_mode == RTE_IOVA_PA)
devices_want_pa = true;
else if (dev_iova_mode == RTE_IOVA_VA)
devices_want_va = true;
}
}
/* 根据设备对VA和PA的支持以及设备绑定驱动对VA或PA的支持，{BANNED}最佳终确定是用VA模式还是PA模式，还是都可以（DC） */
if (iommu_no_va == 1) {
iova_mode = RTE_IOVA_PA;
if (devices_want_va) {
RTE_LOG(WARNING, EAL, "Some devices want 'VA' but IOMMU does not support 'VA'.\n");
RTE_LOG(WARNING, EAL, "The devices that want 'VA' won't initialize.\n");
}
} else if (devices_want_va && !devices_want_pa) {
iova_mode = RTE_IOVA_VA;
} else if (devices_want_pa && !devices_want_va) {
iova_mode = RTE_IOVA_PA;
} else {
iova_mode = RTE_IOVA_DC;
if (devices_want_va) {
RTE_LOG(WARNING, EAL, "Some devices want 'VA' but forcing 'DC' because other devices want 'PA'.\n");
RTE_LOG(WARNING, EAL, "Depending on the final decision by the EAL, not all devices may be able to initialize.\n");
}
}
return iova_mode;
}

no_hugetlbfs

第二部分同样来自rte_eal_init函数中，对no_hugepagefs的支持，即可以支持不使用hugepage内存，比如使用普通的4k页。

点击(此处)折叠或打开

if (internal_conf->no_hugetlbfs == 0) {
/* rte_config isn't initialized yet */
ret = internal_conf->process_type == RTE_PROC_PRIMARY ?
eal_hugepage_info_init() :
eal_hugepage_info_read();
if (ret < 0) {
rte_eal_init_alert("Cannot get hugepage information.");
rte_errno = EACCES;
__atomic_store_n(&run_once, 0, __ATOMIC_RELAXED);
return -1;
}
}
if (internal_conf->memory == 0 && internal_conf->force_sockets == 0) {
if (internal_conf->no_hugetlbfs)
internal_conf->memory = MEMSIZE_IF_NO_HUGE_PAGE;
else
internal_conf->memory = eal_get_hugepage_mem_size();
}

如果不是使用no_hugetlbfs，则说明是要用hugepage，所以要进行hugepage_info的初始化。关于hugepage_info在前面文章介绍DPDK 17.11内存管理时已经分析过，其结构体如下，针对系统中所有的hugepage_size（2M，1G）和每个numa node分别创建一个hugepage_info结构。这里不再重复分析。

memzone初始化

接下来是rte_eal_memzone_init函数对memzone结构的初始化，如果是primary{BANNED}最佳终会调用rte_fbarray_init，而rte_fbarray_init主要是否分配RTE_MAX_MEMZONE个struct rte_memzone结构，并mmap在DPDK运行目录下的”fbarray_smemzone”文件。具体结构关系如下图，

关于memzone和后文出现的memseg两个结构是DPDK内存管理的关键，在介绍DPDK 17.11内存管理已经介绍过，两者都是表示物理内存连续的一块区域，不过memseg是初始化时系统找到的连续内存，而memzone是进程动态申请产生的，是从memseg中分配出来的。但是在DPDK 22.11中有所不同，因为memseg不再表示一段连续的物理页，而是表示一个单独的物理页，另一方面memzone表示的还是是一段连续的物理页部分。

内存管理初始化

下面进入我们真正的重头戏，rte_eal_memory_init函数，它主要负责内存管理初始化的一些操作。在介绍其具体流程前，我们先介绍一下关键的数据结构。

在DPDK17.11中有struct rte_memseg结构，用于描述一段物理连续的内存。而在DPDK22.11中增加了struct rte_memseg_list结构，其下面再挂载struct rte_memseg。如下图所示：

为什么多引入一个struct rte_memseg_list呢？这主要是为了将struct rte_memseg进行分组，首先，可以将每个memtype上的内存放在不同的rte_memseg_list上。这里又要介绍一下什么是memtype，它是由系统中的numa node和hugepage_size共同决定的，其个数计算方式如下：

点击(此处)折叠或打开

n_memtypes = internal_conf->num_hugepage_sizes * rte_socket_count();

例如一个有两个numa node的系统，同时支持2M和1G两种hugepage_size，那么就有4种memtype。把每个memtype的rte_memseg分开组织便于查找和管理。其次，是不是一个memtype对应一个rte_memseg_list呢？其实也不是，因为DPDK22.11中有很多可配置的约束，如：max_mem_per_type（每种memtype允许的{BANNED}最佳大内存），max_segs_per_type（每种memtype允许的{BANNED}最佳大memseg数量），max_segs_per_list（每个memseg_list允许的{BANNED}最佳大memseg数量）等，这些约束可能导致一个memtype有多个memseg_list。详情可以参考eal_dynmem_memseg_lists_init函数。

另外一个不通点是memseg的含义，在DPDK 17.11的内存分析中我们了解到一个rte_memseg结构表示的是系统初始化是的一块物理连续的内存，一般对应多个物理连续的hugepage，而在DPDK 22.11中一个rte_memseg结构对应的是一个hugepage，由于一个hugepage当然也是物理连续的。

动态内存模式(Dynamic Memory Mode)

动态内存模式是新版本DPDK关于内存方面的一个{BANNED}最佳大的变化。当前只在linux和window系统上支持。与动态内存模式相对应的是原有的lagecy模式（静态内存模式）。我们熟悉DPDK 17.11及早期版本的都知道，一般应用程序启动会通过-m或--socket-mem参数指定应用程序使用的内存大小，之后DPDK应用程序就会reserve相应大小的内存，然后整个程序运行期间调用rte_malloc()或rte_memzone_reserve()等内存分配结构都是从这个reserve内存池中进行分配的，超过reserve内存的大小将无法分配。但在动态内存模式下，应用程序可以不再需要通过-m或--socket-mem来预留内存，应用程序启动是完全可以不占用什么内存，当调用rte_malloc()或rte_memzone_reserve()等接口时动态的从系统中分配内存，并注册到DPDK的内存管理中，同样在调用释放内存接口时也会动态的将内存进行释放（从DPDK内存管理中删除）。这样应用程序可以不需要事先估算需要的内存大小，而采用按需分配，更加灵活（不过对于使用hugepage时，系统还是需要预留足够的hugepage）。

不过在动态内存模式情况下-m或--socket-mem参数仍然可以使用，但是其语义和lagecy模式有所不同，动态模式下-m或--socket-mem参数指定的是应用程序预留的{BANNED}最佳小内存。这部分内存应用程序不会释放，当需要申请更多的内存时应用程序可以超出这部分预留内存动态添加，为了可以限制应用程序所能使用的{BANNED}最佳大内存，动态内存提供了--socket-limit参数来指定当前socket所能使用的内存大小上限。他们的关系如下图所示：

关于动态内存的实现流程，其相关代码流程图如下所示，代码分析不再详细展开，通过下面的流程图和数据结构图对照代码应该很好理解：

其中动态内存的初始化入口是eal_dynmem_hugepage_init，与之对应老的lagecy模式的初始化入口是eal_legacy_hugepage_init。Lagecy模式我们不再分析，我们看一下动态内存初始化相关的数据结构，如下图所示：

除了前文在内存管理初始化中提到，新的DPDK内存管理是对每个页面（hugepage）创建一个memseg，并且将每个numa node的每个hugepage_size组成memseg_list，而不是像lagecy模式一样将多个连续的hugepage对应为一个memseg外。还有一个重要变化就是，我们这里预留的memseg个数和系统可用的hugepge相当，并且只有通过-m或--socket-mem指定大小的内存在启动中才会真的进行hugepage文件的创建和mmap，同时初始化对应的memseg，其他memseg都是未初始化的，为的就是系统动态分配内存时可用于临时创建对应hugepage文件并初始化对应memeseg。

通过上面的代码流程分析，在动态内存模式情况下我们发现还有其他几个关键功能和注意事项，下面一一介绍。

IOVA连续性

动态内存模式情况下的内存分配默认不保证是IOVA连续的。什么意思呢？换句话说内存分配只保证VA连续（这是肯定的，例如分配一个数据结构肯定是一个连续的虚拟地址空间），但不能保证这段内存在IO视角是连续的地址空间。再进一步解释就是，在VA作为IOVA的情况，内存分配保证了VA连续，自然就保证了IOVA连续；但在PA作为IOVA时，内存分配就只能保证VA连续无法保证IOVA（PA）连续了。为什么呢？因为从动态内存的实现上也可以看出来，频繁的内存分配/释放，肯定会很少有连续的的大块物理内存的。那在lagecy（如DPDK 17.11）情况下为什么没有这个问题呢？我们可以用下图解释，在VA作为IOVA的情况，无论是动态内存还是lagecy方式分配内存都是连续的VA，底层也是连续的IOVA（尽管可能跨PA空间，PA不连续）;但是在PA作为IOVA时，lagecy模式由于PA和VA空间是对应的，在PA作为IOVA时，如下图有三块连续的PA空间，那么DPDK初始就有三个memseg，对应三个IOVA空间，所以应用程序分配一块内存（这种情况不能跨memseg），如果是VA连续，一定是IOVA（PA）连续，但是在动态内存场景，如图中（DPDK 18.11），即使PA作为IOVA的情况，VA的组织和IOVA也没有任何关联，这种情况分配一块内存（是可以跨物理page的，也就是可以跨memseg的），所以底层IOVA（PA）不一定是连续的。

总结一下就是：在VA作为IOVA时，动态内存和lagecy模式分配的内存都一样，都可以保证IOVA连续（因为VA是连续的），在PA作为IOVA时，lagecy分配内存可以保证IOVA（PA）连续，但是动态内存模式无法保证分配出的内存是IOVA（PA）连续的。

动态内存这个特点是比较有意义的，因为即使PA作为IOVA，我们正常的内存结构（如ring，mempool，哈希表等）也仅需要VA连续内存，而不需要底层物理内存连续。但是有些特殊场景，比如网卡驱动需要参与DMA的mbuf内存必须需要IOVA连续怎么办呢？有以下三种方案：

1. 使用vfio驱动（前提是设备支持iommu），一遍VA作为IOVA；

2. 使用lagecy模式；

3. 在动态模式的情况下，分配内存使用RTE_MEMZONE_IOVA_CONTIG，如在调用rte_memzone_reserve()函数时指定RTE_MEMZONE_IOVA_CONTIG作为flag，将保证底层IOVA连续（或者申请失败）；

内存模式(in_memory)

在DPDK 17.11中，有一个--huge-unlink选项可以在创建和映射大页面文件之后立即从hugetlbfs文件系统中删除它们。在DPDK 18.11后，这仍然有效，但是有一个新的EAL命令行参数--in-memory，将激活所谓的内存模式，建议使用它代替--huge-unlink。

所谓内存模式，即DPDK不会在任何文件系统（hugetlbfs或其他文件系统）上创建文件。DPDK首先避免创建任何文件，而不是创建然后删除文件（因此仍然需要hugetlbfs文件系统）。实际上，在此模式下甚至不需要hugetlbfs挂载点，因此使用此模式使DPDK更加易于设置，在hugetlbfs挂载点不常见的环境中工作(例如云本地场景)。

此外，与--huge-unlink仅处理大页文件并且不会阻止EAL创建任何其他文件不同的是，--in-memory模式还覆盖了EAL创建的其他文件，这实际上允许DPDK运行和关闭只读文件系统，同时避免申请对该系统的写访问权。

从DPDK 22.11代码eal_memalloc_init中我们可知，在指定了in_memory参数后，会尝试memfd_create测试系统是否支持memfd共享内存方式，如果支持则DPDK内存直接采用memfd_create进行创建，否则就只能采用mmap创建匿名内存了。

单个文件段(single_file_segments)

在动态内存中我们还看到一个single_file_segments的参数，较旧的DPDK版本在hugetlbfs文件系统中的每个大页上存储一个文件，这适用于大多数用例，但有时会出现问题，特别是，vhost-user后端的virtio将与后端共享文件，并且有可共享文件描述符数量的硬性限制。当使用大页（例如1 GB的页面）时，它可以很好地工作，但是在页面大小较小的情况下(如2M页)，文件数量会很快超过文件描述符限制。

为了解决此问题，版本DPDK 18.11中引入了一种新模式，即单文件段模式，该模式通过--single-file-segments EAL命令行标志启用，这使得EAL在hugetlbfs中创建的文件更少，并且使具有vhost-user后端的Virtio甚至可以在{BANNED}最佳小页面大小下工作。此外注意，这个选项必须依赖memfd的支持。在指定这个参数后，原有一个memseg（hugepage）对应一个文件将变为一个memseg_list对应一个文件。

内存相关的回调

动态内存模式也支持了一些内存管理的回调机制，主要由两个API。

1. 内存映射更改时的回调：rte_mem_event_callback_register()

在lagecy模式下大页内存初始化完成后就固定不变了，但是在动态内存模式下应用的内存是会动态增加和减少的，对于有些模块是需要感知这些变化的，如vfio需要将整个内存pin住，所以就需要即使知道新增的内存，并将其pin住。因此DPDK提供了rte_mem_event_callback_register这个API，用于关系内存映射变化的模块注册相应函数。

2. 内存超限时的回调函数：rte_mem_alloc_validator_callback_register()

前面我们介绍过，在动态内存情况下可以通过--socket-limit参数来指定当前socket所能使用的内存大小上限。有时候我们不希望应用程序超出这个限制就一定返回失败，但又希望能够感知这种情况，因此可以通过rte_mem_alloc_validator_callback_register这个API注册回调函数，当应用程序申请的内存超过--socket-limit时注册函数就会被调用，我们可以在函数中输出一下警告信息，并做一些更温和的处理，如：可以接受超出限制的几百兆字节，但拒绝超出限制千兆字节的情况。

Hugepage Allocation Matching

这也是动态内存模式新引入的一个特性，是通过--match-allocations这个参数指定的。他的作用是用于一些需要释放的的大页与分配的完全相同。什么意思呢？就是保证应用释放内存时和其当初申请的内存是完全一样的。这一点引用malloc_heap_free中代码更为直观：

点击(此处)折叠或打开

/* if user requested to match allocations, the sizes must match - if not,
* we will defer freeing these hugepages until the entire original allocation
* can be freed
*/
if (internal_conf->match_allocations && elem->size != elem->orig_size)
goto free_unlock;

可以看到，如果释放的内存大小和当初申请的不同，就延时释放，当前这种模式会增加系统内存的消耗（因为内存可能无法及时释放）。

动态内存的大页映射管理

我们知道通过--huge-dir可以指定DPDK进程创建大页文件的目录，大页文件名称通常类似rtemap_0这种，通过--file-prefix可以指定大页文件的前缀，以便不同进程可以在同一个目录下创建不同的大页内存。在动态内存模式下大页文件是随时申请创建和删除的，如果在DPDK进程存在内存泄露或者进程crash，则这些大页文件可能会残留无法删除。当然我们可以使用--huge-unlink参数，这个参数可以在每次mmap完大页就立刻删除，但是它有可能删除其他进程创建的大页文件，因此针对这种情况动态内存情况建议使用--in-memory参数。

此外，DPDK进程默认每次启动都会删除当然目录的大页文件，然后花费大量时间创建hugepage以及初始化（清除大页信息）。为此DPDK提供了--huge-unlink=never参数，如果设置了这个启动参数，在启动时默认不会删除和清理原有大页，启动时会将原有memseg标记为RTE_MEMSEG_FLAG_DIRTY，在申请新内存时会将这部分内存进行清理。

Hugepage Worker Stacks

通过--huge-worker-stack[=size]参数可以将DPDK线程的栈内存从hugepage中进行分配，还可以通过可选的size参数设置线程的栈大小，如果不指定size就使用系统的默认设置。

其他一些相关点

通过阅读内存相关代码，还有一些其他的内存管理的细节需要说明：

1. legacy模式不支持in_memory

点击(此处)折叠或打开

internal_conf->legacy_mem = true;
if (internal_conf->in_memory) {
RTE_LOG(WARNING, EAL, "Warning: ignoring unsupported flag, '%s'\n", OPT_IN_MEMORY);
internal_conf->in_memory = false;
}

从以上代码中可以看出in_memory只支持在动态内存模式使用。

2. 动态内存模式不感知numa

在函数rte_eal_memseg_init中，有如下代码：

点击(此处)折叠或打开

#ifndef RTE_EAL_NUMA_AWARE_HUGEPAGES
if (!internal_conf->legacy_mem && rte_socket_count() > 1) {
RTE_LOG(WARNING, EAL, "DPDK is running on a NUMA system, but is compiled without NUMA support.\n");
RTE_LOG(WARNING, EAL, "This will have adverse consequences for performance and usability.\n");
RTE_LOG(WARNING, EAL, "Please use --"OPT_LEGACY_MEM" option, or recompile with NUMA support.\n");
}
#endif

可以看到，如果没有使用legacy的内存管理方式，则内存是无法感知numa的，因此编译指定NUMA_AWARE也是无效的，如果希望内存感知numa就需要用老的legacy模式管理内存。

3. 外部内存

{BANNED}最佳后就是在DPDK新版本中可以支持将外部内存注册给DPDK内存管理，比如自己应用通过非DPDK API malloc的内存或者mmap的内存。将这部分内存注册进DPDK的内存管理中，同样可以使用DPDK的内存API进行访问，详细使用方法可以参考DPDK代码中的 ./app/test/test_external_mem.c中的例子。

阅读(3382) | 评论(0) | 转发(0) |

上一篇：容器技术常见概念介绍

下一篇：DPDK virtio-net加载注意事项

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6