文章标签

RocksDB

RocksDB + ZenFS on ZNS SSD：从理论到生产的调优实战笔记

最近半年在负责一个海量 KV 存储集群的硬件升级，目标是把单机存储密度从 16TB 提升到 64TB，同时保持 P99 写入延迟 < 10ms。在传统 NVMe SSD 上，RocksDB 的写放大（Write Amplificat...

2026/4/11 0 213 0 0 0 RocksDB ZNS SSD 存储引擎优化
RocksDB 在 NVMe-oF 架构下的挑战：RDMA 网络延迟如何影响 LSM-Tree 压缩性能

随着存算分离架构在数据中心普及，将 RocksDB 部署在 NVMe-oF（尤其是基于 RDMA 的实现）之上已成为提升资源利用率的主流选择。然而，这种架构将原本的本地 PCIe 访问转变为网络 IO，虽然 RDMA 提供了微秒级的极低延...

2026/4/11 0 158 0 0 0 RocksDB NVMe-oF RDMA
彻底告别写放大：ZNS 如何重塑分布式存储性能？

随着数据中心对存储密度和性能要求的不断压榨，传统的 NVM Express (NVMe) 块设备协议逐渐显现出其局限性。在 NVMe 2.0 时代， ZNS (Zoned Namespaces) 规范的正式引入，标志着存储架构从“黑盒管...

2026/4/11 0 198 0 0 0 NVMe 20 ZNS 分布式存储
软硬结合的艺术：透视 SSD 写入放大与 LSM 树合并策略的协同调优

在现代高性能存储体系中，基于 LSM 树（Log-Structured Merge-Tree）的存储引擎（如 RocksDB, TiKV, Cassandra）已成为处理高并发写入的首选。然而，开发者往往会面临一个棘手的现实：即便使用了 ...

2026/4/11 0 156 0 0 0 LSM-Tree SSD优化写入放大
Kafka Streams API 状态管理实战：从零构建高可用性订单状态追踪系统

Kafka Streams API 状态管理实战：从零构建高可用性订单状态追踪系统最近公司电商平台订单量暴增，原有的订单状态追踪系统不堪重负，经常出现延迟甚至数据丢失的情况。为了解决这个问题，我们决定使用 Kafka Streams...

2024/12/1 0 302 0 0 0 Kafka Streams 状态管理流处理
大规模 Flink 作业的性能监控与快速故障定位实践

在生产环境中，部署大规模 Flink 作业常常伴随着性能波动的挑战，特别是当数据洪峰来临，突然的延迟增加或吞吐量下降往往让人措手不及，而快速定位问题根源更是难上加难。本文将系统地探讨如何在生产环境中对 Flink 作业进行性能监控与故障定...

2025/10/12 0 319 0 0 0 Flink 性能监控故障排查
实时事件流处理瓶颈攻克指南：赋能高并发个性化推荐

突破实时事件流处理瓶颈：赋能高并发个性化推荐的实践之路作为后端工程师，我们常常面临一个棘手的问题：当系统需要处理海量实时事件流时，尤其在数据清洗和聚合环节，性能瓶颈会如影随形。用户提出的痛点——“数据写入和读取的性能问题不解决，再好...

2025/11/21 0 2159 0 0 0 实时流处理性能优化个性化推荐
为什么 JVM NMT 报告的 Committed 内存远小于容器 RSS，却依然被 cgroup v2 OOM-killer 杀死？

在容器化环境中部署 Java 应用时，一个非常经典的诡异现象是：通过 JVM Native Memory Tracking (NMT) 监控到的 Committed 内存远低于容器的外围限制（例如 memory.max ），甚至也远...

2026/6/30 0 50 0 0 0 JVM cgroup v2 OOM-killer
Flink 大规模流处理作业：性能监控与瓶颈诊断实战

在大规模流处理场景中，Apache Flink 以其高吞吐、低延迟和强一致性等特性，成为构建实时数据应用的首选。然而，随着业务的复杂性和数据量的爆炸式增长，即使是设计精良的 Flink 作业也可能遭遇性能瓶颈。有效地监控和诊断这些瓶颈，是...

2025/10/12 0 361 0 0 0 Flink 性能优化流处理
数据工程师自述：Kafka Streams 和 Kafka Connect 选型与实战避坑指南

作为一名数据工程师，每天都要和海量数据打交道，构建稳定高效的实时数据管道是我的核心工作之一。在众多工具中，Kafka Streams 和 Kafka Connect 绝对是我的得力助手。它们都能帮助我实现数据的实时处理和传输，但它们之间到...

2025/5/10 0 407 0 0 0 Kafka Streams Kafka Connect 数据管道
推荐系统实时特征存储选型：吞吐与延迟的博弈

在推荐系统领域，实时特征的重要性日益凸显。例如，用户近期的浏览、购买行为，商品的实时热度等，都能显著提升推荐的精准度。为了支持这些实时特征，我们需要引入实时特征存储，并将其提供给推荐模型进行快速调用。然而，这背后隐藏着巨大的挑战：海...

2025/12/10 0 251 0 0 0 推荐系统实时特征存储选型
实时推荐系统特征存储：RocksDB如何平衡低延迟与高一致性

在构建现代广告推荐系统时，特征服务的性能与可靠性无疑是决定系统成败的关键因素。用户行为特征的实时更新与快速查询，对底层存储提出了严苛的要求：既要保证数据的低延迟读写以响应毫秒级的推荐请求，又要确保数据一致性和持久化，避免因系统...

2025/12/10 0 252 0 0 0 推荐系统特征存储 RocksDB
深入浅出：以太坊高级Merkle Patricia Trie的改进和演变历程

深入浅出：以太坊高级Merkle Patricia Trie的改进和演变历程以太坊作为全球领先的公链，其底层数据结构的健壮性和效率至关重要。Merkle Patricia Trie作为以太坊状态数据库的核心数据结构，承担着存储和管理...

2024/11/20 0 491 0 0 0 以太坊 Merkle Patricia Trie 数据结构
WebAssembly在边缘计算中的业务逻辑下沉：存储与消息集成挑战及应对

作为一名长期关注分布式系统和云计算的后端架构师，我一直在思考如何将部分业务逻辑更高效地下沉到边缘。当计算资源更接近数据源和用户时，理论上可以显著提升响应速度并降低网络带宽成本。WebAssembly (Wasm) 凭借其出色的跨语言能力、...

2025/10/4 0 280 0 0 0 边缘计算后端架构
在K3s边缘集群中，如何为数据库和缓存组件设计轻量级配置，并与消息队列协同构建稳定架构？

在K3s边缘集群的严苛资源环境下，构建一个稳定可靠的服务架构，确实不能只盯着消息队列。消息队列（如RabbitMQ、NATS）负责解耦和异步通信，但数据持久化和状态管理需要数据库和缓存组件的强力支撑。然而，传统的重量级方案（如MySQL、...

2026/1/22 0 175 0 0 0 K3s边缘计算轻量化配置服务架构
Flink Checkpoint 优化与问题排查指南

团队成员反馈 Flink Checkpoint 经常超时或失败，尤其是在状态量较大的作业中。这严重影响了数据处理的实时性，并增加了恢复时间。本文档旨在提供一套 Checkpoint 优化和排查方案，以提高作业的稳定性和容错能力。一、...

2025/10/12 0 611 0 0 0 Flink Checkpoint 优化
高并发场景下，如何设计 Kafka Streams 应用以应对突发流量冲击？

高并发场景下，如何设计 Kafka Streams 应用以应对突发流量冲击？在现代互联网应用中，高并发场景已经成为常态。对于依赖实时数据处理的应用来说，选择合适的流处理框架至关重要。Kafka Streams 作为一款基于 Kafk...

2024/12/1 0 264 0 0 0 Kafka Streams 高并发流处理
Flink vs. Spark Streaming：CEP、状态计算及AI工程化考量

在构建新的数据平台时，实时流处理框架的选择至关重要。面对 Flink 和 Spark Streaming 这两个主流选项，除了常见的性能指标，更需要深入了解它们在复杂事件处理（CEP）、有状态计算、生态成熟度、社区支持以及与机器学习框架集...

2025/10/12 0 271 0 0 0 Flink 实时流处理
边缘节点资源受限？Redis之外的轻量级缓存与消息队列实践

在物联网和边缘计算的浪潮下，我们越来越频繁地遇到需要在资源极其受限的边缘节点上部署服务的情况。这些节点可能只有几十MB内存、单核低功耗CPU，甚至不稳定的网络连接。传统的重量级中间件，如Redis、Kafka，在这种环境下往往显得力不从心...

2026/1/22 0 234 0 0 0 边缘计算轻量级缓存消息队列
用 Rust 实现 KV 数据库，有哪些轻量级的持久化存储库推荐？

Rust KV 数据库持久化存储：轻量级方案推荐想用 Rust 撸一个简单的 KV 数据库，但又对数据持久化一头雾水？别慌，今天就给你推荐几个轻量级的 Rust 库，帮你轻松搞定数据落地。为什么选择轻量级方案？对于简单的...

2025/7/5 0 642 0 0 0 Rust KV数据库持久化存储

文章标签

RocksDB

RocksDB + ZenFS on ZNS SSD：从理论到生产的调优实战笔记

RocksDB 在 NVMe-oF 架构下的挑战：RDMA 网络延迟如何影响 LSM-Tree 压缩性能

彻底告别写放大：ZNS 如何重塑分布式存储性能？

软硬结合的艺术：透视 SSD 写入放大与 LSM 树合并策略的协同调优

Kafka Streams API 状态管理实战：从零构建高可用性订单状态追踪系统

大规模 Flink 作业的性能监控与快速故障定位实践

实时事件流处理瓶颈攻克指南：赋能高并发个性化推荐

为什么 JVM NMT 报告的 Committed 内存远小于容器 RSS，却依然被 cgroup v2 OOM-killer 杀死？

Flink 大规模流处理作业：性能监控与瓶颈诊断实战

数据工程师自述：Kafka Streams 和 Kafka Connect 选型与实战避坑指南

推荐系统实时特征存储选型：吞吐与延迟的博弈

实时推荐系统特征存储：RocksDB如何平衡低延迟与高一致性

深入浅出：以太坊高级Merkle Patricia Trie的改进和演变历程

WebAssembly在边缘计算中的业务逻辑下沉：存储与消息集成挑战及应对

在K3s边缘集群中，如何为数据库和缓存组件设计轻量级配置，并与消息队列协同构建稳定架构？

Flink Checkpoint 优化与问题排查指南

高并发场景下，如何设计 Kafka Streams 应用以应对突发流量冲击？

Flink vs. Spark Streaming：CEP、状态计算及AI工程化考量

边缘节点资源受限？Redis之外的轻量级缓存与消息队列实践

用 Rust 实现 KV 数据库，有哪些轻量级的持久化存储库推荐？