文章标签

NUMA

SPDK 用户态驱动实战：构建微秒级延迟的存储引擎

从内核陷阱到用户态突围传统 Linux 存储栈在处理 NVMe SSD 时面临结构性瓶颈。一次完整的 I/O 请求需要穿越文件系统、VFS、块层、驱动层，上下文切换和内存拷贝带来的延迟往往在数十微秒级别。对于金融高频交易、实时数据分...

2026/4/11 0 228 0 0 0 SPDK 用户态驱动 NVMe
K8s 调度 DSA 设备：如何化解 NUMA 拓扑感知与 Pod 约束的冲突？

在高性能计算（HPC）和数据密集型应用中，Intel 的 DSA（Data Streaming Accelerator）设备已成为提升内存拷贝与数据转换效率的利器。然而，在 Kubernetes (K8s) 环境中，通过 Device P...

2026/4/12 0 86 0 0 0 Kubernetes DSA NUMA
CPU调度延迟排查：揪出幕后黑手，优化性能瓶颈

CPU调度延迟排查：揪出幕后黑手，优化性能瓶颈作为一名性能工程师，你是否经常遇到这样的困扰：明明CPU利用率不高，但应用程序的响应却慢如蜗牛？这很可能就是CPU调度延迟在作祟。CPU调度延迟是指进程在准备好运行后，到真正获得CPU执...

2025/4/29 0 2764 0 0 0 CPU调度延迟性能优化 Linux内核
深入NUMA：边缘AI轻量级模型内存访问模式评估与性能调优实战

在当下AI无处不在的浪潮中，将大型模型“瘦身”后下放到边缘设备，进行实时、低延迟的推理，已经成为一股不可逆的趋势。我们把这些经过剪枝（Pruning）或蒸馏（Distillation）处理的“轻量级大模型”部署到资源有限的边缘服务器或特定...

2025/7/29 0 493 0 0 0 NUMA优化边缘AI 内存访问
在高并发场景下，如何优雅地解决网卡多队列（RSS）导致的 CPU 软中断不均与风暴问题？

在承载高并发、大吞吐量网络业务（如 LVS、Nginx 网关、高 QPS Redis 集群）的 Linux 多核服务器上， “CPU 0 独占网络软中断，其他 CPU 闲得发慌” 或者 “ksoftirqd/0 进程 CPU 占用率飙...

2026/5/23 0 186 0 0 0 Linux内核网卡多队列软中断风暴
单机千万PPS：基于 XDP_TX 的极速四层负载均衡器设计与性能调优实践

在现代互联网架构中，四层负载均衡器（L4LB）是应对海量流量的第一道防线。传统的基于 LVS（IPVS）或 DPDK 的方案各有痛点：LVS 受限于内核网络协议栈的上下文切换与锁开销，在高并发下容易遇到瓶颈；而 DPDK 虽然性能强悍，但...

2026/5/23 0 175 0 0 0 eBPF XDP 负载均衡
打满万兆网卡：基于 AF_XDP 的高性能发包工具设计与内核级优化实践

在传统 Linux 网络编程中，使用 sendto 或 write 向 Raw Socket 发送数据包时，会经历多次内存拷贝（用户态 -> 内核态 -> 网卡驱动）、频繁的系统调用上下文切换以及繁重的 TCP/IP ...

2026/5/27 0 130 0 0 0 AFXDP 网络性能优化 Linux内核
400G骨干网流量清洗利器基于XDP与eBPF的高性能架构设计与极限调优

在超大规模数据中心和骨干网边缘，面对 400G 带宽的线速（Line-rate）流量清洗挑战，传统的内核网络栈早已力不从心。在 64 字节小包的极端场景下，400G 链路每秒会产生高达 5.95 亿个数据包（595 Mpps）。这意味着每...

2026/5/26 0 149 0 0 0 eBPF XDP 高并发网络
在云原生环境中利用Kubernetes进行NUMA感知的资源调度与管理

引言在云原生环境中，资源的高效利用是提升系统性能的关键。NUMA（非一致性内存访问）架构在现代多核服务器中广泛使用，能够通过优化内存访问路径来提升性能。然而，NUMA架构的复杂性也对资源调度和管理提出了更高的要求。本文将探讨如何在K...

2025/3/13 0 521 0 0 0 Kubernetes NUMA 云原生
突破32GB限制：详解ZGC在超大堆（512GB+）下如何应对指针压缩失效与性能衰退

在Java后端架构向大内存、高并发演进的今天，512GB甚至1TB以上的JVM堆内存需求已经屡见不鲜。然而，伴随内存容量跨越 32GB 这一关键门槛，传统的JVM垃圾收集器（如G1、Parallel）都会面临一个致命的性能拐点—— 普通对...

2026/6/17 0 83 0 0 0 ZGC JVM调优垃圾回收
云端AI推理芯片：NUMA架构下多租户远程内存访问的深度优化与瓶颈突破

在面向云服务的AI推理芯片设计与部署中，“内存墙”一直是悬在性能工程师和架构师头顶的达摩克利斯之剑。尤其当我们的目光投向多租户环境下的非均匀内存访问（NUMA）架构时，这个问题变得尤为复杂和棘手。如何高效利用NUMA，克服远程内存访问带来...

2025/7/29 0 313 0 0 0 AI推理 NUMA优化云计算
深入探讨NUMA架构中的内存访问模式对锁竞争的影响

在多核处理器系统中，NUMA（非统一内存访问）架构的引入旨在优化内存访问性能。然而，这种架构也带来了新的挑战，尤其是在多线程环境下，内存访问模式对锁竞争的影响尤为显著。本文将深入分析NUMA架构中的内存访问模式如何影响锁竞争，并结合多核处...

2025/3/5 0 369 0 0 0 NUMA架构锁竞争多核处理器
深入理解NUMA架构中的锁分片技术：原理、实现与优化实践

你好，老铁们！我是你们的性能优化老司机。今天咱们聊聊在NUMA（Non-Uniform Memory Access，非一致性内存访问）架构下，如何通过“锁分片”技术来提升多线程程序的性能。这可是个非常实用而且“硬核”的话题，特别是对于那些...

2025/3/5 0 2107 0 0 0 NUMA架构锁分片多线程编程
基于 eBPF 构建容器资源限制器? 这样做更有效!

基于 eBPF 构建容器资源限制器? 这样做更有效! 容器技术极大地简化了应用程序的部署和管理，但同时也带来了资源管理的挑战。如何有效地限制容器的资源使用，防止它们过度消耗系统资源，影响其他容器或宿主机的稳定运行？传统的 cgroup...

2025/5/18 0 347 0 0 0 eBPF 容器资源限制 Linux内核
深入探究NUMA架构下的锁竞争特征曲线：如何优化多线程性能

在现代高性能计算中，NUMA（Non-Uniform Memory Access，非统一内存访问）架构已成为主流。其设计核心在于将内存和处理器划分为多个节点，每个节点内的内存访问速度较快，而跨节点的内存访问则相对较慢。这种架构虽然在资源分...

2025/3/5 0 336 0 0 0 NUMA 锁竞争多线程优化
NUMA 架构下的 Linux 内核内存管理：优化、实践与内核探索

你好，我是老码农。今天，我们深入探讨 Linux 内核内存管理中的 NUMA (Non-Uniform Memory Access) 架构。对于服务器端应用开发者和内核工程师来说，理解 NUMA 不仅仅是理论知识，更是优化性能、解决问题的...

2025/3/13 0 909 0 0 0 NUMA Linux内核内存管理
万亿参数级AI模型推理：NUMA内存墙与分片、同步、数据流优化实践

作为一名深耕高性能计算和AI基础设施的工程师，我深知当我们将万亿参数级别的多模态AI模型推向生产环境时，那些看似微不足道的系统瓶颈会如何放大，最终成为横亘在推理性能面前的“内存墙”。尤其是在现有的非统一内存访问（NUMA）架构下，这个问题...

2025/7/29 0 375 0 0 0 AI推理内存墙 NUMA架构
NUMA 架构在分布式系统中的优化：榨干每一滴性能

大家好，我是你们的赛博老铁，今天咱们来聊聊 NUMA（Non-Uniform Memory Access，非统一内存访问）架构在分布式系统中的优化，保证干货满满，让你一次看个够！啥是 NUMA？先来个“忆苦思甜” 在聊 NUMA...

2025/3/13 0 2627 0 0 0 NUMA 分布式系统性能优化
NUMA 架构下内存优化：程序员进阶指南

你好，我是你们的“赛博朋克老码农”。今天咱们来聊聊一个听起来有点“硬核”，但实际上对每个追求极致性能的程序员都至关重要的主题——NUMA（Non-Uniform Memory Access，非统一内存访问）架构下的内存优化。 1. 啥...

2025/3/13 0 1182 0 0 0 NUMA 内存优化多核编程
Redis Cluster 性能瓶颈分析与优化实践：高并发写入、大 Key 扫描场景深度剖析

Redis Cluster 性能瓶颈分析与优化实践：高并发写入、大 Key 扫描场景深度剖析作为一名 DBA 或者高级运维人员，你肯定遇到过 Redis Cluster 性能瓶颈的问题。今天，咱们就来聊聊 Redis Cluster...

2025/3/11 0 751 0 0 0 Redis Cluster 性能优化

文章标签

NUMA

SPDK 用户态驱动实战：构建微秒级延迟的存储引擎

K8s 调度 DSA 设备：如何化解 NUMA 拓扑感知与 Pod 约束的冲突？

CPU调度延迟排查：揪出幕后黑手，优化性能瓶颈

深入NUMA：边缘AI轻量级模型内存访问模式评估与性能调优实战

在高并发场景下，如何优雅地解决网卡多队列（RSS）导致的 CPU 软中断不均与风暴问题？

单机千万PPS：基于 XDP_TX 的极速四层负载均衡器设计与性能调优实践

打满万兆网卡：基于 AF_XDP 的高性能发包工具设计与内核级优化实践

400G骨干网流量清洗利器 基于XDP与eBPF的高性能架构设计与极限调优

在云原生环境中利用Kubernetes进行NUMA感知的资源调度与管理

突破32GB限制：详解ZGC在超大堆（512GB+）下如何应对指针压缩失效与性能衰退

云端AI推理芯片：NUMA架构下多租户远程内存访问的深度优化与瓶颈突破

深入探讨NUMA架构中的内存访问模式对锁竞争的影响

深入理解NUMA架构中的锁分片技术：原理、实现与优化实践

基于 eBPF 构建容器资源限制器? 这样做更有效!

深入探究NUMA架构下的锁竞争特征曲线：如何优化多线程性能

NUMA 架构下的 Linux 内核内存管理：优化、实践与内核探索

万亿参数级AI模型推理：NUMA内存墙与分片、同步、数据流优化实践

NUMA 架构在分布式系统中的优化：榨干每一滴性能

NUMA 架构下内存优化：程序员进阶指南

Redis Cluster 性能瓶颈分析与优化实践：高并发写入、大 Key 扫描场景深度剖析

400G骨干网流量清洗利器基于XDP与eBPF的高性能架构设计与极限调优