文章标签

RDMA

RocksDB 在 NVMe-oF 架构下的挑战：RDMA 网络延迟如何影响 LSM-Tree 压缩性能

随着存算分离架构在数据中心普及，将 RocksDB 部署在 NVMe-oF（尤其是基于 RDMA 的实现）之上已成为提升资源利用率的主流选择。然而，这种架构将原本的本地 PCIe 访问转变为网络 IO，虽然 RDMA 提供了微秒级的极低延...

2026/4/11 0 150 0 0 0 RocksDB NVMe-oF RDMA
DSA硬件卸载 vs CXL.mem用户态直访：SPDK海量数据搬运的架构抉择

在构建下一代云原生存储引擎时，工程师面临一个关键的架构分歧：当需要移动TB级冷数据或重建EC分片时，应该选择Intel DSA的异步硬件卸载路径，还是依赖CXL.mem协议提供的缓存一致性内存扩展能力？这两种技术看似都服务于&quo...

2026/4/12 0 154 0 0 0 SPDK CXL Intel DSA
深度解析：利用 SPDK accel 与 Intel DSA 打造 NVMe-oF 零拷贝存储路径

在高性能分布式存储领域，NVMe-oF（NVMe over Fabrics）已成为事实上的标准。然而，随着网络带宽跨入 100GbE 甚至 400GbE 时代，传统的由 CPU 执行的数据拷贝、CRC 校验及 Data Integrity...

2026/4/12 0 155 0 0 0 SPDK Intel DSA NVMe-oF
深度解析 K8s 调度器扩展框架：编写自定义插件支持复杂 AI 任务

在云原生时代，Kubernetes (K8s) 已成为管理容器化应用的事实标准。然而，随着 AI/ML 任务的爆发式增长，默认调度器的“逐个 Pod 调度”逻辑逐渐显露疲态。AI 训练通常涉及分布式计算（如 PyTorch DDP、Ten...

2026/4/12 0 111 0 0 0 Kubernetes AI基础设施调度算法
从 QAT 迁移到 DSA：对称加密卸载与数据流加速的架构决策指南

技术背景：两种加速哲学的本质差异 Intel QAT（QuickAssist Technology）和 DSA（Data Streaming Accelerator）代表了硬件加速的两种截然不同的设计哲学。理解这种差异是架构选型的前提...

2026/4/12 0 113 0 0 0 硬件加速 DSA QAT
深入解析 K8s Coscheduling：实现 Gang 调度及其在大规模拓扑下的局限性

在分布式训练（如 AI 模型训练）和高性能计算（HPC）场景中，任务通常要求“要么全部运行，要么全不运行”。这种需求被称为 Gang Scheduling 。虽然 Kubernetes 原生调度器最初是为长连接微服务设计的，但通过 S...

2026/4/12 0 141 0 0 0 Kubernetes 调度插件云原生架构
Volcano Queue 混合云 GPU 调度实践：本地 IDC 与公有云资源的弹性配额联邦方案

架构背景与挑战在 AI 大模型训练与推理场景中，企业本地 IDC 的 GPU 资源往往面临潮汐式压力：日常开发测试资源闲置，而模型训练高峰期资源排队严重。单纯扩容本地 GPU 集群会导致 TCO（总拥有成本）激增，且硬件迭代周期...

2026/4/12 0 105 0 0 0 Volcano GPU 调度混合云架构
CXL 2.0 内存池化架构中 SPDK 的角色演变：用户态驱动如何接管缓存一致性责任

内存语义革命：当 SPDK 面对字节级寻址 CXL 2.0 引入的内存池化（Memory Pooling）彻底改变了数据中心的资源拓扑。传统架构中，SPDK 通过用户态轮询（Polling）机制绕过内核 I/O 栈，专为 NVMe 块...

2026/4/12 0 114 0 0 0 CXL 20 SPDK 内存池化
深入解析I/O操作优化：从基础到高级策略

深入解析I/O操作优化：从基础到高级策略在计算机系统中，I/O（输入/输出）操作是影响性能的关键因素之一。无论是数据库管理系统、文件系统还是网络通信，高效的I/O操作都能显著提升系统的整体性能。本文将深入探讨I/O操作的优化策略，从...

2025/2/24 0 566 0 0 0 I/O优化系统性能数据库优化
云端AI推理芯片：NUMA架构下多租户远程内存访问的深度优化与瓶颈突破

在面向云服务的AI推理芯片设计与部署中，“内存墙”一直是悬在性能工程师和架构师头顶的达摩克利斯之剑。尤其当我们的目光投向多租户环境下的非均匀内存访问（NUMA）架构时，这个问题变得尤为复杂和棘手。如何高效利用NUMA，克服远程内存访问带来...

2025/7/29 0 309 0 0 0 AI推理 NUMA优化云计算
从500ms到5ms：Redis实战揭秘传统操作与Pipeline的性能鸿沟

凌晨3点的性能警报上周三深夜，我正盯着监控大屏上突然飙升的Redis延迟曲线——从平稳的2ms直冲500ms大关。这是某社交平台的消息队列服务，每秒要处理20万+的写入请求。传统操作的问题显微镜我们最初的实现是典型的同步...

2025/2/14 0 309 0 0 0 Redis优化 Pipeline技术高并发处理
etcd在高并发与大规模集群下的性能优化实战：从存储、网络到应用层的最佳实践

在构建或运维大规模分布式系统，特别是 Kubernetes 集群时，etcd 往往是那个“幕后英雄”，默默支撑着整个系统的状态管理和一致性保障。但如果它出了问题，或者性能跟不上，那整个系统都可能像多米诺骨牌一样崩塌。所以，etcd 的性能...

2025/8/15 0 502 0 0 0 etcd性能分布式系统 Kubernetes
万亿参数级AI模型推理：NUMA内存墙与分片、同步、数据流优化实践

作为一名深耕高性能计算和AI基础设施的工程师，我深知当我们将万亿参数级别的多模态AI模型推向生产环境时，那些看似微不足道的系统瓶颈会如何放大，最终成为横亘在推理性能面前的“内存墙”。尤其是在现有的非统一内存访问（NUMA）架构下，这个问题...

2025/7/29 0 368 0 0 0 AI推理内存墙 NUMA架构
从硬件选型到退役管理：智能网卡全生命周期监控实战指南

一、智能网卡监控体系的演进背景网络接口卡处理流量从2018年的5Gbps发展到2023年的400Gbps（数据来源：Dell'Oro Group），传统软件定义网络逐渐转向DPU硬件卸载架构。在蚂蚁金服2022年实际案例中，...

2025/2/26 0 2184 0 0 0 智能网卡运维监控硬件加速

文章标签

RDMA

RocksDB 在 NVMe-oF 架构下的挑战：RDMA 网络延迟如何影响 LSM-Tree 压缩性能

DSA硬件卸载 vs CXL.mem用户态直访：SPDK海量数据搬运的架构抉择

深度解析：利用 SPDK accel 与 Intel DSA 打造 NVMe-oF 零拷贝存储路径

深度解析 K8s 调度器扩展框架：编写自定义插件支持复杂 AI 任务

从 QAT 迁移到 DSA：对称加密卸载与数据流加速的架构决策指南

深入解析 K8s Coscheduling：实现 Gang 调度及其在大规模拓扑下的局限性

Volcano Queue 混合云 GPU 调度实践：本地 IDC 与公有云资源的弹性配额联邦方案

CXL 2.0 内存池化架构中 SPDK 的角色演变：用户态驱动如何接管缓存一致性责任

深入解析I/O操作优化：从基础到高级策略

云端AI推理芯片：NUMA架构下多租户远程内存访问的深度优化与瓶颈突破

从500ms到5ms：Redis实战揭秘传统操作与Pipeline的性能鸿沟

etcd在高并发与大规模集群下的性能优化实战：从存储、网络到应用层的最佳实践

万亿参数级AI模型推理：NUMA内存墙与分片、同步、数据流优化实践

从硬件选型到退役管理：智能网卡全生命周期监控实战指南