为什么 JVM NMT 报告的 Committed 内存远小于容器 RSS，却依然被 cgroup v2 OOM-killer 杀死？

2026/6/30 13:32:32 3 0 0 0

在容器化环境中部署 Java 应用时，一个非常经典的诡异现象是：通过 JVM Native Memory Tracking (NMT) 监控到的 Committed 内存远低于容器的外围限制（例如 memory.max），甚至也远小于容器实际占用的物理内存（RSS），但容器依然因为触发了 OOM-killer 而崩溃。

在 cgroup v2 机制下，这种“账面内存安全，实际物理内存暴涨”的现象更为隐蔽。要彻底排查这个问题，必须厘清 JVM NMT 的统计盲区、glibc 的内存分配行为以及 cgroup v2 的内存记账（Accounting）机制。

一、 JVM NMT 的“统计盲区”：它到底漏掉了什么？

JVM NMT（原生内存跟踪）是一个极好的工具，但它不是一个系统级的内存分析器。NMT 的工作原理是通过拦截 JVM 内部的 malloc、free、mmap 等调用来记账。

如果内存分配没有通过 JVM 的内部包装函数（例如没有使用 JVM 的 os::malloc），NMT 就会完全处于失明状态。以下是 NMT 无法追踪的核心部分：

1. JNI 与本地第三方库（Native Libraries）

Java 应用中大量使用的第三方库（如 Netty 的 Epoll 传输、RocksDB、Snappy/Zstd 压缩算法、OpenSSL 加密库等）都是通过 JNI 调用底层 C/C++ 动态链接库。
这些 C++ 代码直接调用系统的 std::malloc 或 mmap。由于它们不经过 JVM 运行时的分配器，NMT 对其分配的这部分物理内存（RSS）的感知为 0。

2. glibc 的内存分配器开销与碎片（Malloc Arenas）

Linux 默认使用 glibc 作为标准 C 库。为了提高多线程下内存分配的并发性能，glibc 引入了 Arena（内存竞技场） 机制。

每个线程在申请内存时，glibc 可能会为其分配一个独立的 Arena。
在 64 位系统上，默认情况下一个进程最多可以创建 8 * CPU核心数 个 Arena。
每个 Arena 默认占用高达 64MB 的虚拟内存空间。
更致命的是，glibc 的 free 并不一定会立刻把内存归还给操作系统，而是保留在自己的内存池中以备后用。这就导致了严重的内存碎片化。在 JVM 看来，它已经释放了某些本地临时对象，但系统的 RSS 依然居高不下。这部分由 glibc 持有、未归还给 OS 的物理内存，NMT 同样无法统计。

二、 cgroup v2 的内存记账机制：谁在推高 `memory.current`？

在 cgroup v2 中，控制组的内存限制由 /sys/fs/cgroup/.../memory.max 决定，而当前的实时内存占用由 memory.current 决定。当 memory.current 尝试超越 memory.max 且无法回收时，OOM-killer 就会被激活。

我们需要明白，cgroup v2 统计的 memory.current 包含的内容远比 JVM 的 RSS 宽泛。

1. Page Cache（文件页缓存）的归属

这是 cgroup v2 与 JVM 监控产生巨大背离的常见原因。

当 Java 应用进行大量的本地磁盘 I/O（如写日志、读取大文件、使用 FileChannel.map() 做 MappedByteBuffer 操作）时，Linux 内核会使用 Page Cache 来加速文件读写。
在 cgroup v2 中，这些 Page Cache 产生的物理内存消耗，会被精准地记账到发起 I/O 的容器 cgroup 身中。
虽然 Page Cache 在系统内存不足时是可以被回收的（Reclaimable），但在高并发 I/O、脏页积压、或者内存回收速度跟不上分配速度的极端瞬间，内核来不及回收这些 Page Cache，就会直接触发 OOM-killer。

2. Kernel Memory（内核内存占坑）

容器内进程创建的 socket 缓冲区、系统的目录项缓存（dentry）、索引节点缓存（inode）等内核数据结构，都会被 cgroup v2 计入该容器的内存开销中。如果 Java 应用维持了成千上万个 Keep-Alive 连接，或者频繁创建/销毁线程，这部分内核开销（Slab）同样是 NMT 无法覆盖的。

三、生产环境排查与定位路径

当面对 NMT 账面健康但容器 OOM 的情况时，可以通过以下步骤进行根因诊断：

步骤 1：分析 cgroup v2 的内存结构

当容器发生 OOM 或接近 OOM 阈值时，直接查看该容器 cgroup 目录下的 memory.stat 文件：

cat /sys/fs/cgroup/memory.stat

重点关注以下指标的数值关系：

anon：匿名内存（主要是 JVM 堆、元空间、JNI 申请的内存）。如果 anon 远大于 NMT 的 committed，说明有严重的 JNI 泄漏 或 glibc 内存碎片。
file：文件页缓存。如果 file 极高，说明容器被大量 Page Cache 塞满了，需要排查 I/O 写入逻辑或日志轮转。
slab：内核数据结构占用的内存。

步骤 2：比对 NMT 与进程实际的 `/proc` 映射

通过 pmap 或读取 /proc/[PID]/smaps 来观察进程实际的物理内存分布。

# 查看物理内存消耗前 20 的内存段
pmap -x [PID] | sort -k 3 -n -r | head -n 20

如果在 pmap 中看到大量大小为 64MB（即 65536 KB）左右的匿名内存段（anon），这几乎可以断定是 glibc Malloc Arena 导致的内存膨胀。

步骤 3：分析动态链接库分配（JNI 定位）

如果怀疑是 JNI 库泄漏，可以使用 jemalloc 替代系统的 glibc 进行内存分配分析，或者使用 valgrind / bytehound 等工具拦截底层的 malloc 调用。

例如，通过环境变量配置 jemalloc 开启内存分析（Memory Profiling）：

export LD_PRELOAD=/usr/lib/x86_64-linux-gnu/libjemalloc.so
export MALLOC_CONF=prof:true,lg_prof_interval:30,prof_prefix:/tmp/jeprof.out

这将在运行期间生成内存分配快照，通过 jeprof 工具即可绘制出到底是哪个 Native 函数在疯狂分配内存。

四、针对性的解决方案

1. 限制 glibc 的 Arena 数量（最立竿见影的手段）

对于高并发多线程的 Java 应用，强烈建议在容器启动脚本中限制 glibc 竞技场的最大数量。默认的无限制会导致内存随线程数暴增。

在容器启动环境变量中加入：

export MALLOC_ARENA_MAX=4

注：通常设置为 2 到 4 即可。将其限制后，可以显著降低 JVM 进程的虚拟内存和物理内存碎片，且对绝大多数 Java 应用的性能影响微乎其微。

2. 考虑更换更现代的内存分配器

jemalloc 或 mimalloc 在防内存碎片和多线程并发分配上的表现远优于默认的 glibc malloc。
在 Dockerfile 中集成 jemalloc，并在启动时通过 LD_PRELOAD 加载，往往能让非 JVM 容器内物理内存（RSS）下降 20%~30%。

3. 规避 Page Cache 积压

如果 memory.stat 显示 file 占比过高：

检查 Java 应用的日志框架，避免高频同步刷盘，可开启异步日志（如 Log4j2 Async Appender）。
对于大文件传输，避免一次性读入内存，采用流式读写。
调整 Linux 内核的脏页回收阈值，促使内核更早、更主动地回收 Page Cache。

4. 合理设定容器的 Memory Limit 结构

在 cgroup v2 环境下，可以利用弹性限制。不要只设一个硬性的 memory.max，合理利用 memory.high（高位水位线）。
当容器内存达到 memory.high 时，内核会开始对该容器的进程进行节流（Throttle）并积极回收其内存（包括 Page Cache），从而平滑地避免进程直接被 OOM-killer 暴力杀死。

SRE神盾局 JVM cgroup v2 OOM-killer