Linux内核参数 vm.vfs_cache_pressure 深度解析：平衡内存回收与磁盘 I/O 的艺术

2026/6/14 05:09:38 123 0 0 0

在 Linux 系统的性能调优中，我们经常会遇到内存被“吃光”的现象。通过 free -m 命令查看，往往会发现大半内存都被划归到了 buff/cache 下。这本身是 Linux 充分利用空闲内存提升 I/O 效率的优秀特性。

然而，在面对高并发、高频小文件读写或大内存数据库应用（如 MySQL、PostgreSQL、Redis）时，如何平衡**文件内容缓存（Page Cache）与文件元数据缓存（dentry/inode cache）**的回收优先级，往往决定了系统是流畅运行，还是陷入突发性的磁盘 I/O 抖动甚至 OOM（Out Of Memory）。

而决定这一平衡的关键阀门，就是内核参数：vm.vfs_cache_pressure。

一、核心概念：Page Cache 与 VFS Metadata Cache

要理解 vm.vfs_cache_pressure 的作用，首先需要厘清 Linux 内存中两种核心缓存的区别：

Page Cache（页面缓存）：
- 存储内容：文件的实际数据内容。
- 作用：避免每次读写文件都直接操作磁盘，通过内存加速文件 I/O。
- 分配机制：由页表管理，以 4KB 页面为单位。
VFS Metadata Cache（虚拟文件系统元数据缓存）：
- 存储内容：主要是 dentry（目录项缓存，记录文件路径与 inode 的映射关系）和 inode（索引节点缓存，记录文件的权限、大小、修改时间、磁盘块指针等）。
- 作用：加速文件路径查找。例如，当系统执行 open("/var/log/nginx/access.log") 时，快速在内存中定位该文件，而无需遍历磁盘上的目录结构。
- 分配机制：由于这些结构体通常较小，它们不直接占用标准的 Page Cache 空间，而是通过 Slab（或 Slub）分配器 进行管理。在 /proc/meminfo 中，这部分开销主要体现在 SReclaimable（可回收的内核缓存）中。

当系统面临内存压力，内核的 kswapd 守护进程或直接内存回收机制（Direct Reclaim）启动时，它必须做出选择：是释放 Page Cache 腾出空间，还是收缩 Slab 释放 dentry/inode 缓存？

二、 `vm.vfs_cache_pressure` 的数学逻辑与工作原理

vm.vfs_cache_pressure 正是用来控制上述选择权重的。

该参数定义在内核源码的 fs/dcache.c 和 mm/vmscan.c 中。简而言之，它是一个控制 Slab 缓存回收优先级的乘数系数。

其默认值为 100。

1. 内存回收公式的直观理解

在内核进行内存回收时，会分别评估 Page Cache 和 Slab 的回收价值。
对于 Slab 缓存（特别是 dentry 和 inode），内核在调用 shrink_slab() 计算应该扫描多少个缓存项时，会套用类似如下的逻辑：

$$\text{扫描的 Slab 缓存项数} \propto \frac{\text{系统当前内存压力} \times \text{当前Slab占用的Page数}}{\text{某个控制常数}} \times \frac{\text{vfs_cache_pressure}}{100}$$

当 vm.vfs_cache_pressure 的值发生变化时，对回收策略的影响极其显著：

等于 100（默认值）：
内核在回收内存时，会以“公平”的语境评估 Page Cache 和 dentry/inode 缓存。两者的回收速率与其内存占比和活跃度基本一致。
小于 100（例如 50）：
内核会偏向于保留 dentry 和 inode 缓存。
当值为 50 时，内核在计算回收 Slab 的数量时会直接“打五折”。这意味着，相比于 Page Cache，内核极不情愿回收元数据缓存。即使内存紧张，dentry/inode 也会常驻内存。
大于 100（例如 500 或 1000）：
内核会极其激进地回收 dentry 和 inode 缓存。
这会使内核在回收时把元数据当成“累赘”，优先将其扫地出门，从而尽可能多地保留 Page Cache。
等于 0：
这是一个危险的极端值。当设为 0 时，内核将永远不会主动回收 dentry 和 inode 缓存。在文件系统频繁操作的场景下，这会导致 SReclaimable 持续暴涨，最终耗尽系统内存触发 OOM，即使此时 Page Cache 几乎是空的。

三、对磁盘 I/O 的深层影响

调整这个参数，实质上是在**“降低文件查找的磁盘 I/O”与“降低文件数据读写的磁盘 I/O”**之间做权衡。

场景 A：`vm.vfs_cache_pressure` 设置过低（如 10 ~ 50）

优势（低 VFS I/O）：
对于拥有大量小文件、频繁进行深层目录遍历（如 Git 服务器、大文件索引服务、复杂的 Web 静态资源服务器）的系统，dentry/inode 几乎全部缓存在内存中。ls、find、stat 等操作极快，几乎没有磁盘 I/O 产生。
劣势（潜在的 Page Cache 饥饿与磁盘写回压力）：
由于 VFS 缓存不释放，Page Cache 的生存空间被严重压缩。一旦运行需要大量内存的进程，系统被迫频繁将 Page Cache 中的脏页（Dirty Pages）刷写到磁盘中并进行释放，造成高频的数据读写 I/O 抖动。

此外，Slab 的回收延迟可能导致系统在瞬间需要分配大块连续物理内存时，触发严重的直接内存回收延迟（Direct Reclaim Latency），使应用出现几百毫秒甚至数秒的卡顿。

场景 B：`vm.vfs_cache_pressure` 设置过高（如 1000）

优势（Page Cache 最大化）：
内核腾出了绝大部分内存给 Page Cache。对于大型关系型数据库（如 MySQL），数据文件的 Page Cache 留存率极高，数据查询的磁盘 I/O 命中率表现优异。
劣势（元数据 I/O 暴增，即“Slab 抖动”）：
由于 dentry/inode 被极快地回收，当应用需要打开文件时，即便该文件的数据已经存在于 Page Cache 中，内核也必须先从磁盘中重新读取文件的 inode。

这会导致大量的随机小 I/O（读取元数据）。在机械硬盘（HDD）上，这种随机 I/O 会导致磁头频繁寻道，性能瞬间崩溃；即使在高速 NVMe SSD 上，也会产生不必要的延迟。

四、生产环境下的调优实战指南

没有一个放之四海而皆准的“黄金值”，参数的设定完全取决于系统的业务负载特征。

1. 监控与诊断工具

在调优前，必须先看清系统的现状。

查看当前值：
```
cat /proc/sys/vm/vfs_cache_pressure
```
查看内存中 Slab 的占用情况：
使用 slabtop 交互式命令，或者直接读取 /proc/slabinfo。重点观察 dentry 和 *_inode_cache（如 ext4_inode_cache 或 xfs_inode）占用的内存大小：
```
# 快速查看当前可回收 Slab 内存
grep -E "SReclaimable|SUnreclaim" /proc/meminfo
```

监控系统的 Direct Reclaim 行为：

# 观察 pgscand 和 pgscand_direct 的增长情况
sar -B 1 10

2. 典型业务场景配置推荐

场景一：数据库专用服务器（MySQL / PostgreSQL / Redis）

特征：文件数量少且固定，但数据量极大，要求内存尽可能用于缓存数据页（Page Cache 或数据库自身的 Buffer Pool）。
优化建议：150 到 500。
原因：数据库启动后，所需的数据文件已经打开，不需要频繁进行路径解析。提高 pressure 可以加速无用元数据的释放，把每一兆字节的内存都留给数据缓存，减少数据读写 I/O。

场景二：高频小文件/海量文件服务器（图片服务器、Git 仓库、静态 Web 托管、邮件服务器）

特征：存在数百万甚至上千万个小文件，目录层级深。频繁进行文件打开、关闭、属性读取。
优化建议：50 到 80。
原因：这些场景下，路径解析的开销远大于单文件内容的读写开销。降低 pressure 可以让内核强力锁住 dentry 和 inode，极大减少在磁盘上寻找文件元数据的随机 I/O。

场景三：容器化平台（Kubernetes 节点 / Docker 宿主机）

特征：容器频繁创建与销毁，伴随着大量的 OverlayFS 挂载和临时文件产生。
优化建议：100（保持默认）或微调至 120。
原因：容器环境容易产生 dentry 泄露（尤其是使用旧版本内核且开启了 memory cgroup 的环境）。过低的 vfs_cache_pressure 会加速此类内存泄露。提高到 120 左右，有助于更主动地清理容器消亡后留下的元数据残留。

3. 如何配置修改

临时生效（即时测试，无需重启）：
```
sysctl -w vm.vfs_cache_pressure=150
```
永久生效：
编辑 /etc/sysctl.conf 文件，添加或修改以下行：
```
vm.vfs_cache_pressure = 150
```
然后运行以下命令使配置生效：
```
sysctl -p
```

五、联动调优：不要孤立地看待 `vfs_cache_pressure`

在进行内核性能优化时，单一参数的调整往往会触及其他机制的红线。要想获得最佳的 I/O 平衡，需要将 vm.vfs_cache_pressure 与以下参数进行联动：

vm.swappiness：
- 如果 swappiness 设置较高（如 60），当内存紧张时，内核可能会选择将匿名内存（Anonymous Memory，即进程运行内存）交换到 Swap 空间，以保留更多的 Page Cache 和 VFS Cache。
- 对于数据库服务器，通常建议将 vm.swappiness 设为 1 到 10，配合 vm.vfs_cache_pressure = 150，强迫内核在物理内存紧张时，积极释放 VFS 和 Page Cache，而不是去动应用进程的内存。
vm.dirty_background_ratio 和 vm.dirty_ratio：
- 如果降低了 vfs_cache_pressure，导致 Page Cache 可用空间变小，那么脏页更容易触及写回水位线。
- 适当调低 dirty_background_ratio（如设为 5），可以让内核更早、更平滑地将数据异步刷盘，避免由于内存可用空间突降引发的系统整体 I/O 阻塞。

六、总结

vm.vfs_cache_pressure 绝非一个“越大越好”或“越小越省磁盘”的单向参数。它是一个精密的天平：

往 左（低数值） 倾斜，保护的是文件系统的骨架（元数据），代价是可能挤压数据血肉（Page Cache）的空间，适合“多文件、繁检索”的场景。
往 右（高数值） 倾斜，保护的是具体的数据血肉（数据页），代价是每次寻找文件时可能都要重新去磁盘“摸索”，适合“少文件、重读写”的场景。

了解你的应用特征，监控你的 Slab 占比，辅以精准的压测，才能真正释放出 Linux 存储子系统的终极潜能。

Linux探路者 Linux内核性能调优内存管理

Linux内核参数 vm.vfs_cache_pressure 深度解析：平衡内存回收与磁盘 I/O 的艺术

一、 核心概念：Page Cache 与 VFS Metadata Cache

二、 vm.vfs_cache_pressure 的数学逻辑与工作原理

1. 内存回收公式的直观理解

三、 对磁盘 I/O 的深层影响

场景 A：vm.vfs_cache_pressure 设置过低（如 10 ~ 50）

场景 B：vm.vfs_cache_pressure 设置过高（如 1000）

四、 生产环境下的调优实战指南