软硬结合的艺术：透视 SSD 写入放大与 LSM 树合并策略的协同调优

2026/4/11 19:40:27 46 0 0 0

在现代高性能存储体系中，基于 LSM 树（Log-Structured Merge-Tree）的存储引擎（如 RocksDB, TiKV, Cassandra）已成为处理高并发写入的首选。然而，开发者往往会面临一个棘手的现实：即便使用了 NVMe SSD，随着数据量的增长，系统的 I/O 延迟仍会剧烈波动。这背后的核心矛盾之一，便是 LSM 树的软件层写放大（Write Amplification）与 SSD 硬件层写放大之间的叠加效应。

1. 硬件层面的困境：SSD 的写入放大（WAF）

SSD 的物理特性决定了数据不能直接覆盖。在 NAND Flash 中，最小读取单位是 Page（通常 4KB-16KB），但最小擦除单位是 Block（包含数百个 Page）。当需要修改旧数据时，SSD 必须在新的空白 Page 写入数据，并将旧 Page 标记为无效。

当可用空间不足时，SSD 内部的 垃圾回收（GC）机制 会被触发：将散落在各个 Block 中的有效数据搬移到新的位置，然后擦除整个 Block。这种由硬件内部搬运数据导致的实际写入量大于用户请求量的现象，即为 SSD 的写放大（WAF）。

2. 软件层面的成本：LSM 树的 Compaction

LSM 树通过将随机写转换为顺序写，极大地提升了写入吞吐。但代价是周期性的 Compaction（合并）。

为了保持查询效率，LSM 树需要定期将多层 SSTable 进行合并、去重和排序。Compaction 本质上是不断的读出、排序、再重新写入。在 Leveled Compaction 策略下，LSM 树本身的写放大倍数可能高达 10-30 倍。

3. 协同调优：当软件遇上硬件

当 LSM 树的 Compaction 流量下发到 SSD 时，如果两者互不感知，会产生“1+1 > 2”的灾难性后果。以下是目前工业界主流的协同调优思路：

A. ZNS（Zoned Namespaces）与空间对齐

传统 SSD 模拟块设备接口，导致 LSM 树的顺序写在 SSD 控制器看来依然是碎片化的。ZNS SSD 抛弃了传统的 FTL（闪存转换层），将存储空间划分为等大小的 Zone，要求软件必须顺序写入。

思路：将 LSM 树的一个或多个 SSTable 直接映射到一个物理 Zone。这样，当 LSM 树删除某个 SSTable 时，可以直接重置整个 Zone，彻底消除 SSD 内部的 GC 搬运，将硬件 WAF 降至趋近于 1。

B. 多流（Multi-stream）与冷热分离

LSM 树天然具有冷热分层：L0/L1 层数据变动频繁（热），底层数据相对稳定（冷）。

思路：利用 NVMe 的 Multi-stream 接口，将不同层级的 Compaction 流量打上不同的 Stream ID。SSD 内部会将相同 ID 的数据存放在同一个物理 Block 中。由于同一层级的数据往往具有相近的生命周期，这能显著减少 GC 时的有效数据搬迁量。

C. 速率限制（Rate Limiting）与感知调度

LSM 树的 Compaction 往往是爆发性的，这会挤占正常用户请求的带宽，并诱发 SSD 的剧烈 GC。

思路：在存储引擎层实现 Auto-tuned Rate Limiting。根据 SSD 的实时剩余空间和延迟反馈，动态调整 Compaction 的并发度和写入速度。避免在 SSD 已经在进行硬件 GC 时下发大规模合并任务。

D. 减少不必要的合并：分层策略优化

并非所有的 Compaction 都是必须的。通过引入 Size-Tiered 与 Leveled 的混合策略（如 RocksDB 的 Unified Compaction），在空间放大和写放大之间寻找平衡。对于某些时序场景，采用 FIFO 策略 直接根据过期时间物理删除旧数据，可以完全规避 Compaction。

总结

SSD 不再只是一个“黑盒”块设备。在存储引擎开发中，“软件定义存储” 的核心已转向如何让上层算法适配 NAND Flash 的物理特性。通过 ZNS 等新技术实现 LSM 树与 SSD 的协同，不仅能显著延长 SSD 的使用寿命，更能让数据库在持续高负载下保持极其平滑的延迟曲线。

架构师老张 LSM-Tree SSD优化写入放大