NUMA 架构下的 Linux 内核内存管理：优化、实践与内核探索

2025/3/13 11:49:20 629 0 0 0

你好，我是老码农。今天，我们深入探讨 Linux 内核内存管理中的 NUMA (Non-Uniform Memory Access) 架构。对于服务器端应用开发者和内核工程师来说，理解 NUMA 不仅仅是理论知识，更是优化性能、解决问题的关键。本文将从 NUMA 架构的基本概念出发，深入分析 Linux 内核如何处理 NUMA 架构下的内存分配，并提供一些实用的优化技巧和内核探索方法。准备好迎接挑战了吗？Let's go!

1. 什么是 NUMA？为什么我们需要它？

在传统的 SMP (Symmetric Multi-Processing) 架构中，所有 CPU 共享一个统一的内存空间。每个 CPU 访问任何内存地址的时间都是相同的。然而，随着 CPU 核数和内存容量的增加，这种架构会遇到瓶颈。因为所有 CPU 都要通过一个共享的内存控制器访问内存，这会导致竞争和延迟。这种架构也被称为 UMA (Uniform Memory Access)。

NUMA 架构应运而生，它将系统划分为多个节点 (Node)，每个节点包含一个或多个 CPU 和本地内存。节点内的 CPU 可以快速访问本地内存，而访问其他节点的内存则需要通过互连 (Interconnect) 进行，这会引入额外的延迟。虽然 NUMA 访问速度不如本地内存，但整体性能往往优于 UMA 架构，特别是在多核服务器上。

简单来说，NUMA 架构的主要优点在于：

扩展性： 允许构建具有大量 CPU 和内存的大型服务器。
性能： 通过减少内存访问延迟，提高整体性能。虽然跨节点访问内存会带来延迟，但本地内存访问速度更快。
带宽： 每个节点拥有自己的内存控制器和带宽，避免了 UMA 架构中共享内存带宽的瓶颈。

2. Linux 内核中的 NUMA 支持

Linux 内核对 NUMA 架构提供了全面的支持。内核通过多种机制来管理 NUMA 节点、内存分配和进程调度。下面我们来了解一下几个核心概念：

2.1. NUMA 节点和内存域

内核将物理内存划分为多个 NUMA 节点，每个节点代表一个物理内存区域。每个节点又被划分为不同的内存域 (Memory Zone)，例如：

ZONE_DMA： 用于 DMA 传输的内存，通常在物理地址较低的区域。
ZONE_DMA32： 32 位 DMA 区域。
ZONE_NORMAL： 常规内存区域。
ZONE_HIGHMEM： 用于访问超过 4GB 物理内存的区域 (在 32 位系统上)。

通过内存域，内核可以更精细地管理内存分配，并根据不同的需求选择合适的内存区域。

2.2. 内存分配策略

内核提供了多种内存分配策略，用于在 NUMA 架构下分配内存：

默认策略 (Preferred Node)： 默认情况下，内核倾向于在进程运行的 CPU 所在的 NUMA 节点上分配内存。这是为了减少内存访问延迟。
Interleave 策略： 将内存分配在所有 NUMA 节点上交替进行。这种策略可以提高内存带宽，但可能会增加内存访问延迟。
Bind 策略： 将进程或内存分配绑定到特定的 NUMA 节点上。这种策略可以确保内存分配在指定的节点上进行，适用于对内存位置有严格要求的应用。
Local 策略： 尽量在本地分配内存。

2.3. 进程调度和内存亲和性

内核的进程调度器也会考虑 NUMA 架构。调度器会尽量将进程调度到与内存亲和性高的 CPU 上运行，以减少内存访问延迟。例如，如果一个进程在某个 NUMA 节点上分配了大量内存，调度器会尽量将该进程调度到该节点的 CPU 上运行。

2.4. 内核数据结构和 API

内核使用一些关键的数据结构来管理 NUMA 相关的状态和信息：

pg_data_t: 每个节点都有一个 pg_data_t 结构体，用于描述该节点上的物理内存信息，包括内存域、空闲页面列表等。
node_online_map: 一个位图，用于表示当前在线的 NUMA 节点。
numa_node_of_node(node): 获取节点的 NUMA 节点 ID。
numa_node_id(): 获取当前 CPU 所在的 NUMA 节点 ID。

内核提供了一组 API，用于查询和设置 NUMA 相关的属性，例如：

numa_node_size(node, zoneid): 获取指定 NUMA 节点上指定内存域的大小。
numa_alloc_interleaved(size, nodemask): 以 Interleave 策略分配内存。
numa_alloc_local(size): 在当前节点分配内存。
migrate_pages(nodemask, migrate_pages_cb, arg): 将页面迁移到指定的 NUMA 节点。

3. NUMA 优化实践

了解了 NUMA 架构的基本概念和 Linux 内核的支持，我们就可以开始进行优化了。下面是一些在 NUMA 架构下优化应用程序性能的实践技巧：

3.1. 监控 NUMA 性能

首先，我们需要监控 NUMA 相关的性能指标，以便了解应用程序在 NUMA 架构下的运行状况。一些常用的工具包括：

numastat： 用于显示 NUMA 节点上的内存使用情况，包括本地内存、远程内存、页面迁移等。
```
numastat -m
```
numastat 提供了按节点、按进程的内存使用情况，可以帮助我们快速定位问题。
perf： Linux 性能分析工具，可以用于分析 NUMA 相关的事件，例如页面访问、页面迁移等。
```
perf stat -e numa_hit,numa_miss ...
```
使用 perf 可以更深入地分析 NUMA 性能问题。
top/htop： 也可以显示 NUMA 相关的内存使用情况，例如进程使用的内存是否位于本地节点。

3.2. 调整内存分配策略

根据应用程序的特性，选择合适的内存分配策略非常重要。

优先使用本地内存： 对于大多数应用程序，优先使用本地内存可以减少内存访问延迟，提高性能。你可以通过 numactl 工具来设置内存分配策略。
```
numactl --membind=0,1 ...  # 将进程绑定到节点 0 和 1
numactl --preferred=0 ...  # 优先在节点 0 上分配内存
```
使用 Interleave 策略： 对于需要高内存带宽的应用程序，可以使用 Interleave 策略。例如，数据库服务器可以使用 Interleave 策略来提高并发性能。
```
numactl --interleave=all ...  # 使用 Interleave 策略
```
手动绑定： 对于对内存位置有严格要求的应用程序，可以使用 Bind 策略，将内存分配到特定的 NUMA 节点上。

3.3. 调整进程调度

确保进程调度器能够充分利用 NUMA 架构，尽量将进程调度到与内存亲和性高的 CPU 上运行。

CPU 亲和性： 使用 taskset 或 sched_setaffinity 系统调用来设置进程的 CPU 亲和性，将进程绑定到特定的 CPU 核上。这可以减少 CPU 间的切换，提高性能。
```
taskset -c 0,1 ...  # 将进程绑定到 CPU 0 和 1
```
NUMA 亲和性： 内核会自动处理 NUMA 亲和性，但你可以通过调整进程优先级等方式来影响调度器的行为。

3.4. 减少页面迁移

页面迁移是指将页面从一个 NUMA 节点移动到另一个 NUMA 节点。页面迁移会引入额外的开销，降低性能。为了减少页面迁移，可以采取以下措施：

合理分配内存： 尽量在进程运行的 CPU 所在的 NUMA 节点上分配内存，避免跨节点访问内存。
避免内存碎片： 内存碎片会导致页面分配失败，从而触发页面迁移。可以通过调整内核参数或使用大页 (Huge Pages) 来减少内存碎片。
使用 transparent hugepages (THP)： THP 可以减少 TLB miss，提高性能，但可能会增加内存碎片，需要根据实际情况进行调整。

3.5. 案例分析

让我们来看一个实际的案例，假设你有一个运行在 NUMA 架构服务器上的数据库服务器。在监控过程中，你发现数据库的性能下降，并且 numastat 显示大量的远程内存访问。这意味着数据库进程正在访问其他 NUMA 节点的内存，导致性能下降。

为了解决这个问题，你可以采取以下步骤：

确定 NUMA 节点： 使用 numactl --hardware 命令查看服务器的 NUMA 节点配置。
分析数据库进程： 使用 top 或 htop 命令查看数据库进程的内存使用情况，确定它使用了哪些 NUMA 节点的内存。
设置内存亲和性： 使用 numactl 命令，将数据库进程绑定到包含数据库数据的主要 NUMA 节点上。
```
numactl --membind=0 --cpunodebind=0  /path/to/database
```
重新监控： 重新运行 numastat 和其他性能监控工具，观察远程内存访问是否减少，数据库性能是否得到提升。

通过调整内存分配和进程调度策略，你可以显著提高数据库服务器的性能。

4. Linux 内核 NUMA 源码探索

对于希望深入了解 NUMA 机制的内核工程师，阅读和理解内核源码是必不可少的。下面是一些与 NUMA 相关的关键源码文件和函数：

mm/numa.c： 包含了 NUMA 相关的核心逻辑，例如内存分配策略、页面迁移等。
include/linux/mmzone.h： 定义了内存域相关的结构体和宏。
include/linux/numa.h： 定义了 NUMA 相关的结构体、函数和 API。
kernel/sched/core.c： 进程调度相关的代码，包括 NUMA 亲和性。
mm/page_alloc.c： 内存分配相关的代码，包括 NUMA 相关的内存分配函数。

以下是一些重要的内核函数，你可以通过阅读源码来了解它们的实现细节：

alloc_pages_node(): 在指定的 NUMA 节点上分配页面。
numa_alloc_interleaved_cpumask(): 使用 Interleave 策略分配内存。
migrate_pages(): 将页面迁移到指定的 NUMA 节点。
set_mempolicy(): 设置内存分配策略。
migrate_page(): 单个页面迁移。

源码阅读技巧：

从顶层函数开始： 从用户空间调用的 API 函数开始，例如 numa_alloc_local()，然后逐步跟踪调用链，了解内核是如何处理请求的。
使用代码导航工具： 使用代码编辑器 (例如 VS Code、Emacs) 或代码浏览器 (例如 cscope, ctags) 来方便地跳转到函数定义、变量声明等。
结合调试工具： 使用内核调试器 (例如 KGDB) 来单步执行代码，观察变量的值，加深对内核机制的理解。
参考文档和书籍： 阅读内核文档、书籍和技术博客，可以帮助你理解内核的设计思路和实现细节。

例如，我们来简单分析一下 alloc_pages_node() 函数的实现。这个函数用于在指定的 NUMA 节点上分配页面。在 mm/page_alloc.c 文件中，你可以找到它的定义。该函数会首先检查指定的节点是否在线，然后根据节点的内存域信息，选择合适的内存域进行分配。最后，它会调用底层的页面分配函数，从空闲页面列表中分配页面。

// mm/page_alloc.c
struct page *alloc_pages_node(int nid, gfp_t gfp, unsigned int order) {
    struct zonelist *zonelist;
    struct zone *zone;
    struct page *page;
    int alloc_flags;

    /* ...一些参数检查 ... */

    zonelist = node_zonelist(pgdat, gfp);
    alloc_flags = ALLOC_WMARK_LOW | ALLOC_CPUSET | ALLOC_NOFRAGMENT | ALLOC_OOM;
    if (gfp & __GFP_THISNODE)  alloc_flags |= ALLOC_THISNODE;
    if (gfp & __GFP_HARDWALL) alloc_flags |= ALLOC_HARDWALL;

    page = __alloc_pages(gfp | __GFP_NOMEMALLOC, order, zonelist, alloc_flags, NULL);

    /* ...处理分配失败的情况 ... */
    return page;
}

通过阅读源码，你可以更深入地了解 NUMA 架构的内部工作原理，并为优化应用程序性能提供更可靠的依据。

5. 总结与展望

NUMA 架构已经成为现代多核服务器的标配。理解 NUMA 架构，并掌握在 Linux 内核中优化内存分配和进程调度的技能，对于开发高性能服务器端应用程序至关重要。通过监控 NUMA 性能、调整内存分配策略、优化进程调度和减少页面迁移，你可以充分发挥 NUMA 架构的优势，提升应用程序的性能。

随着硬件技术的不断发展，NUMA 架构也在不断演进。例如，Intel Optane DC Persistent Memory 等技术，为 NUMA 架构带来了新的挑战和机遇。未来，NUMA 架构将在云计算、大数据、人工智能等领域发挥越来越重要的作用。作为程序员，我们需要不断学习和探索新的技术，才能在不断变化的时代保持竞争力。

希望这篇文章能够帮助你更好地理解 Linux 内核中的 NUMA 架构。记住，理论学习是基础，实践才是关键。动手实践，亲自体验，你才能真正掌握 NUMA 优化技巧，成为一名优秀的服务器端应用开发者和内核工程师！

如果你有任何问题，或者想分享你的 NUMA 优化经验，欢迎在评论区留言讨论！

老码农 NUMA Linux内核内存管理性能优化服务器