NUMA 架构下内存优化：程序员进阶指南

2025/3/13 11:59:26 248 0 0 0

1. 啥是 NUMA？

2. 为啥要关心 NUMA？

3. NUMA 优化：从“意识”到“行动”

3.1. 树立“NUMA 意识”

3.2. 了解你的“战场”：NUMA 拓扑

3.3. 内存分配策略：让数据“安家落户”

3.4. 内存分配器：选择合适的“管家”

3.5. 缓存优化：减少“远距离恋爱”

3.7. 监控和调优

4. 总结

你好，我是你们的“赛博朋克老码农”。今天咱们来聊聊一个听起来有点“硬核”，但实际上对每个追求极致性能的程序员都至关重要的主题——NUMA（Non-Uniform Memory Access，非统一内存访问）架构下的内存优化。

1. 啥是 NUMA？

在咱们深入“优化”之前，先得搞清楚 NUMA 到底是个啥。想象一下，你有一台多核 CPU 的电脑，每个 CPU 都有自己“私藏”的一小块内存，访问这块内存速度飞快。但同时，这台电脑也有一块大家都能访问的“公共内存”。问题来了，如果你是 CPU A，想访问 CPU B 的“私房钱”，那速度肯定比访问自己的“私房钱”慢，对吧？这就是 NUMA 的基本概念。

更正式一点地说，NUMA 是一种用于多处理器的内存设计，其中内存访问时间取决于内存相对于处理器的位置。每个处理器都有自己的本地内存，访问速度最快；而访问其他处理器的本地内存（远程内存）则需要通过互连通道，速度较慢。

2. 为啥要关心 NUMA？

你可能会想：“这跟我有啥关系？我平时写代码也不用管这些啊？” 朋友，如果你只是写个 “Hello, World!”，那确实没啥关系。但如果你要开发的是：

高性能计算应用：比如科学模拟、天气预报、基因测序…
数据库服务器：处理海量数据，每一毫秒的延迟都可能影响用户体验…
大型应用程序：比如大型游戏、视频编辑软件、3D 渲染…

那么，NUMA 就是你必须面对的“拦路虎”。如果不能充分利用 NUMA 架构，你的程序可能会遇到：

性能瓶颈：频繁的远程内存访问会导致严重的延迟。
资源浪费：本地内存闲置，却大量访问远程内存。
扩展性问题：随着 CPU 核心数增加，性能提升不明显，甚至下降。

3. NUMA 优化：从“意识”到“行动”

3.1. 树立“NUMA 意识”

首先，你要意识到 NUMA 的存在，并且在编程时时刻“惦记”着它。这意味着：

数据局部性原则：尽量让数据“靠近”使用它的 CPU 核心。也就是说，如果一个 CPU 核心频繁访问某个数据，那么最好把这个数据放在该核心的本地内存中。
避免“乒乓效应”：不要让多个 CPU 核心频繁地争抢同一个内存区域。这会导致大量的远程内存访问，就像打乒乓球一样，数据在不同 CPU 核心之间“传来传去”。

3.2. 了解你的“战场”：NUMA 拓扑

在优化之前，你需要了解你的硬件环境，也就是 NUMA 拓扑。这包括：

CPU 核心数：你的系统有多少个 CPU 核心？
NUMA 节点数：你的系统有多少个 NUMA 节点？通常一个物理 CPU 插槽对应一个 NUMA 节点。
内存分布：每个 NUMA 节点的本地内存大小是多少？

在 Linux 系统中，你可以使用 numactl --hardware 命令来查看 NUMA 拓扑信息。输出结果类似于：

 available: 2 nodes (0-1)
node 0 cpus: 0 1 2 3
node 0 size: 32768 MB
node 0 free: 16384 MB
node 1 cpus: 4 5 6 7
node 1 size: 32768 MB
node 1 free: 8192 MB

这表示你的系统有两个 NUMA 节点（0 和 1），每个节点有 4 个 CPU 核心，每个节点的本地内存大小为 32GB。

3.3. 内存分配策略：让数据“安家落户”

在 NUMA 系统中，如何分配内存至关重要。Linux 提供了几种内存分配策略：

默认策略（Default）：通常是本地分配（Local Allocation），即从当前 CPU 核心所在的 NUMA 节点分配内存。但如果该节点内存不足，可能会从其他节点分配。
绑定策略（Bind）：将内存分配限制在指定的 NUMA 节点上。如果这些节点内存不足，分配会失败。
优选策略（Preferred）：优先从指定的 NUMA 节点分配内存，但如果该节点内存不足，会从其他节点分配。
交织策略（Interleave）：在所有（或指定的）NUMA 节点上轮流分配内存。这可以提高内存带宽利用率，但可能增加远程访问的概率。

你可以使用 numactl 命令来设置内存分配策略。例如：

numactl --membind=0 ./myprogram：将 myprogram 的内存分配限制在 NUMA 节点 0 上。
numactl --interleave=all ./myprogram：在所有 NUMA 节点上交织分配 myprogram 的内存。

在 C/C++ 代码中，你可以使用 libnuma 库提供的 API 来更精细地控制内存分配。例如：

 #include <numa.h>
 
// 分配 1GB 内存，并绑定到 NUMA 节点 0
void *ptr = numa_alloc_onnode(1024 * 1024 * 1024, 0);
 
// 释放内存
numa_free(ptr, 1024 * 1024 * 1024);

3.4. 内存分配器：选择合适的“管家”

内存分配器（Memory Allocator）负责管理内存的分配和释放。不同的内存分配器在 NUMA 环境下的表现可能差异很大。一些常见的内存分配器包括：

glibc malloc：GNU C 库的默认内存分配器。它对 NUMA 的支持相对有限。
jemalloc：FreeBSD 开发的内存分配器，对 NUMA 有较好的支持。它会尽量将内存分配到当前线程所在的 NUMA 节点。
tcmalloc：Google 开发的内存分配器，也对 NUMA 有较好的支持。它使用线程本地缓存（Thread-Local Cache）来减少锁竞争，并尽量将内存分配到当前线程所在的 NUMA 节点。

你可以通过设置环境变量 LD_PRELOAD 来选择不同的内存分配器。例如：

LD_PRELOAD=/usr/lib/libjemalloc.so ./myprogram

3.5. 缓存优化：减少“远距离恋爱”

即使你已经尽力将数据分配到本地内存，但仍然可能存在远程内存访问。这时，你可以通过优化缓存来减少延迟。

数据结构对齐：确保你的数据结构按照缓存行大小（Cache Line Size）对齐。这可以减少缓存行的跨 NUMA 节点访问。
使用 NUMA 感知的缓存算法：一些缓存算法（如 LRU）在 NUMA 环境下可能表现不佳。你可以考虑使用 NUMA 感知的缓存算法，如 CLOCK-Pro。
预取：如果访问模式是 NUMA-local 的，可以尝试增加预取大小。但如果数据访问 pattern 跨越 NUMA 节点，增加预取反而会降低性能。

###3.6 亲和性

线程/进程亲和性 (Affinity) 是指将线程/进程绑定到特定的 CPU 核心或 NUMA 节点。通过设置亲和性，你可以确保线程/进程始终在同一个 CPU 核心或 NUMA 节点上运行，从而减少远程内存访问和上下文切换的开销。

使用 taskset 命令设置进程亲和性：

taskset -c 0,1 ./myprogram # 将 myprogram 绑定到 CPU 核心 0 和 1

使用 sched_setaffinity 函数设置线程亲和性（C/C++）：

 #define _GNU_SOURCE
#include <sched.h>
 
cpu_set_t cpuset;
CPU_ZERO(&cpuset);
CPU_SET(0, &cpuset); // 将当前线程绑定到 CPU 核心 0
sched_setaffinity(0, sizeof(cpu_set_t), &cpuset);

使用 numa_set_affinity/numa_bind 设置 NUMA 节点亲和性。

3.7. 监控和调优

优化是一个迭代的过程。你需要不断地监控程序的性能，找出瓶颈，并进行调优。一些有用的工具包括：

numastat：显示每个 NUMA 节点的内存统计信息，如本地内存命中率、远程内存访问次数等。
perf：Linux 性能分析工具，可以用来分析程序的 CPU 使用情况、缓存命中率、内存访问延迟等。
Intel VTune Amplifier：Intel 开发的性能分析工具，可以提供更详细的 NUMA 性能分析。

4. 总结

NUMA 优化是一个复杂但有趣的话题。它需要你对硬件、操作系统和编程都有深入的了解。希望这篇文章能帮助你入门 NUMA 优化，并在你的项目中发挥作用。

记住，没有“银弹”，只有不断地尝试和调优，才能找到最适合你的应用程序的 NUMA 优化策略。祝你在“驯服”NUMA 的道路上一帆风顺！

赛博朋克老码农 NUMA 内存优化多核编程

	available: 2 nodes (0-1)
	node 0 cpus: 0 1 2 3
	node 0 size: 32768 MB
	node 0 free: 16384 MB
	node 1 cpus: 4 5 6 7
	node 1 size: 32768 MB
	node 1 free: 8192 MB

	#include <numa.h>

	// 分配 1GB 内存，并绑定到 NUMA 节点 0
	void ptr = numa_alloc_onnode(1024 1024 * 1024, 0);

	// 释放内存
	numa_free(ptr, 1024 * 1024 * 1024);

	#define _GNU_SOURCE
	#include <sched.h>

	cpu_set_t cpuset;
	CPU_ZERO(&cpuset);
	CPU_SET(0, &cpuset); // 将当前线程绑定到 CPU 核心 0
	sched_setaffinity(0, sizeof(cpu_set_t), &cpuset);

NUMA 架构下内存优化：程序员进阶指南

1. 啥是 NUMA？

2. 为啥要关心 NUMA？

3. NUMA 优化：从“意识”到“行动”

3.1. 树立“NUMA 意识”

3.2. 了解你的“战场”：NUMA 拓扑

3.3. 内存分配策略：让数据“安家落户”

3.4. 内存分配器：选择合适的“管家”

3.5. 缓存优化：减少“远距离恋爱”

3.7. 监控和调优

4. 总结

1. 啥是 NUMA？

2. 为啥要关心 NUMA？

3. NUMA 优化：从“意识”到“行动”

3.1. 树立“NUMA 意识”

3.2. 了解你的“战场”：NUMA 拓扑

3.3. 内存分配策略：让数据“安家落户”

3.4. 内存分配器：选择合适的“管家”

3.5. 缓存优化：减少“远距离恋爱”

3.7. 监控和调优

4. 总结

评论点评