文章标签

linux内核

告别事后诸葛：用PSI趋势预测实现内存压力智能扩容

在运维日常中，“内存压力爆了”往往是一个让人头疼的警报——它通常意味着服务已经受到影响，团队不得不紧急响应、手动扩容，整个过程充满被动和风险。你是否也幻想过这样一个场景：系统能提前几小时告诉你：“根据压力增长曲线，预计两小时后内存压力将...

2026/4/18 0 78 0 0 0 PSI监测自动扩容运维自动化
RocksDB + ZenFS on ZNS SSD：从理论到生产的调优实战笔记

最近半年在负责一个海量 KV 存储集群的硬件升级，目标是把单机存储密度从 16TB 提升到 64TB，同时保持 P99 写入延迟 < 10ms。在传统 NVMe SSD 上，RocksDB 的写放大（Write Amplificat...

2026/4/11 0 209 0 0 0 RocksDB ZNS SSD 存储引擎优化
突破 sysctl 限制：利用 eBPF 动态干预 nf_conntrack_max 的进阶实践

在处理高并发网络应用（如 K8s 集群节点、负载均衡器）时， nf_conntrack: table full, dropping packet 是最令运维和开发者头疼的报错之一。通常，我们会直接通过 sysctl -w net.ne...

2026/4/17 0 132 0 0 0 eBPF Linux内核网络性能优化
深度解析：利用 SPDK accel 与 Intel DSA 打造 NVMe-oF 零拷贝存储路径

在高性能分布式存储领域，NVMe-oF（NVMe over Fabrics）已成为事实上的标准。然而，随着网络带宽跨入 100GbE 甚至 400GbE 时代，传统的由 CPU 执行的数据拷贝、CRC 校验及 Data Integrity...

2026/4/12 0 155 0 0 0 SPDK Intel DSA NVMe-oF
CentOS 7 进阶指南：升级内核并开启 PSI（Pressure Stall Information）特性全记录

在进行容器化改造或高性能服务器调优时，Linux 的 PSI (Pressure Stall Information) 特性已成为监控 CPU、内存及 IO 资源压力程度的“金标准”。它可以告诉运维人员：系统由于资源短缺导致进程阻塞的...

2026/4/18 0 191 0 0 0 CentOS 7 Linux内核升级 PSI监控
从亚马逊到"甩锅现场"：YBIYRI落地失败的五个致命陷阱

"You Build It, You Run It"（构建者即运维者）这句话，最早出自亚马逊2006年的一次内部会议。Werner Vogels那句"谁写代码，谁半夜起床修Bug"被奉为DevOps...

2026/4/14 0 199 0 0 0 DevOps SRE 团队管理
性能骤降 50%？深度解析 eBPF 与 XDP 中的“伪共享”陷阱

在高性能网络编程领域，XDP（Express Data Path）以其在内核协议栈之前处理报文的能力而闻名。然而，许多开发者在从单核基准测试转向多核生产环境时，常会发现性能并未如预期般线性增长，甚至出现剧烈抖动。这种现象背后的“隐形...

2026/4/16 0 75 0 0 0 eBPF XDP 性能优化
云原生安全实战：利用 Tetragon + LSM BPF 实现容器文件系统细粒度审计

在云原生环境下，容器的运行时安全防护（Runtime Security）一直是技术难点。传统的审计工具（如审计日志或基于 kprobes 的方案）往往存在被绕过的风险，或在防御时存在“检测到即已发生”的滞后性。 Cilium 社区推出...

2026/4/15 0 142 0 0 0 eBPF Tetragon 容器安全
生产环境eBPF程序踩坑全记录:从资源限制破解到性能翻倍实战

为什么你的eBPF程序总在生产环境崩溃？上周深夜收到告警——某核心服务的TCP重传监控eBPF程序突然OOM被杀。查了半小时才发现是map默认32KB上限被突发流量击穿。这种经历恐怕很多同行都有过痛感: eBPB在生产环境的表现远比...

2026/4/16 0 94 0 0 0 eBPP实战 Linux内核调优生产环境监控
徒手打造 eBPF 执行追踪器：为何及如何超越 Tetragon 的预设边界

当你已经用上了 Tetragon 或 Falco 这类成熟的运行时安全工具，却仍感觉“隔靴搔痒”——策略引擎不够灵活、事件粒度太粗、或是那额外的抽象层带来了不可忽视的性能开销——那么是时候直接与内核对话了。本文将带你从零编写一个自定义的 ...

2026/4/16 0 141 0 0 0 eBPF Linux内核系统调用跟踪
别再纠结了：Tokio Codec 真的比手动 poll_read 慢很多吗？深度性能剖析

在 Rust 异步网络编程中， tokio-util 提供的 Codec （配合 Framed 使用）是处理协议编解码的标准姿势。然而，很多追求极致性能的开发者往往会产生疑虑：这种高度抽象的接口，比起直接在 poll_read...

2026/4/28 0 93 0 0 0 Rust Tokio 网络编程
别再迷恋 reload 了：为什么容器化时代需要更硬核的平滑重启方案？

在传统的运维时代， nginx -s reload 或 systemctl reload gunicorn 是我们引以为傲的“神技”。它能在不中断现有连接的情况下加载新配置，优雅、快速且低感知。然而，随着技术栈全面转向 Doc...

2026/5/11 0 100 0 0 0 容器化 Kubernetes 运维最佳实践
批处理任务资源限制与调度：保障在线服务稳定性的关键策略

在许多生产系统中，夜间运行的批处理任务是数据清理、报表生成、数据同步等场景不可或缺的一部分。然而，正如你所遇到的，这些任务如果规划不当，往往会在凌晨时段抢占大量系统资源，进而严重影响到白天在线服务的用户体验。这不仅是技术问题，更是业务连续...

2025/11/11 0 209 0 0 0 批处理资源管理系统优化
嵌入式 Linux WebView 性能优化：数据与建议

WebView 在嵌入式 Linux 上运行前端应用的性能数据和优化建议问题：我们正在为下一代智能显示屏选择嵌入式操作系统和应用开发技术栈。目前团队对 Qt、Electron 和 Web 技术栈都有所考虑。Web 技术栈在开发...

2025/10/15 0 317 0 0 0 WebView 嵌入式 Linux 性能优化
应对促销高峰：数据库层面的极致性能与一致性优化实战

作为一名后端工程师，你遇到的问题——促销活动导致数据库CPU和IO飙升，甚至服务宕机——是许多高并发系统都会面临的经典挑战。分库分表固然是解决数据量和并发瓶颈的有效手段，但它并非唯一的银弹，而且引入了分布式事务的复杂性。在考虑更复杂的架构...

2025/10/15 0 228 0 0 0 数据库优化高并发性能调优
告别手绘：Kubernetes环境下如何实时、自动化发现服务依赖？

在微服务架构盛行的今天，特别是当我们的服务运行在Kubernetes这样的动态容器编排平台之上时，服务拓扑结构的变化速度简直令人咋舌。新服务上线、老服务下线、版本迭代、灰度发布、流量迁移……这些日常操作都可能瞬间改变服务间的调用关系。手动...

2025/11/26 0 297 0 0 0 Kubernetes 微服务服务依赖
IoT设备续航深度优化：五大技术策略详解

电池供电IoT设备续航深度优化策略：技术详解与实战指南电池续航是电池供电IoT设备的关键痛点。除了常规的低功耗模式，更深层次的优化策略能显著延长设备离线工作时间。本文将深入探讨几种技术方案，着重分析其实际效果和实现难度。 1. ...

2025/10/16 0 304 0 0 0 IoT 电池续航低功耗
微服务分布式追踪：OpenTelemetry与自动化CI/CD实践

微服务架构的崛起，在带来高内聚、低耦合等优势的同时，也给传统的问题排查带来了前所未有的挑战。作为一个SRE，我深知在复杂的分布式系统中定位性能瓶颈或故障根源的痛苦。尤其在面对非HTTP协议（如RPC、消息队列）的调用链时，传统的APM工具...

2025/10/26 0 276 0 0 0 分布式追踪微服务 CICD
嵌入式Linux无HRNG？利用定时器、ADC、GPIO实现低开销软件随机数生成器

在嵌入式Linux系统中，当硬件随机数生成器（HRNG）不可用时，构建一个高性能、低开销的软件随机数生成器（SRNG）是保障系统安全的关键。核心思路是不依赖额外硬件，而是从现有硬件组件中挖掘物理熵，并通过精巧的软件机制将其注入内核的熵...

2026/1/24 0 191 0 0 0 嵌入式Linux 随机数生成熵池注入
Pulsar集群运维：SRE眼中的那些“魔鬼细节”

Pulsar作为下一代分布式消息系统，其强大的功能和灵活的架构令人印象深刻。但就像所有复杂的分布式系统一样，Pulsar集群的运维绝非易事，除了常规的CPU、内存、网络IO、消息TPS等监控指标，SRE们还有许多“魔鬼细节”需要时刻保持警...

2026/1/21 0 149 0 0 0 Pulsar运维 SRE经验分布式消息

文章标签

linux内核

告别事后诸葛：用PSI趋势预测实现内存压力智能扩容

RocksDB + ZenFS on ZNS SSD：从理论到生产的调优实战笔记

突破 sysctl 限制：利用 eBPF 动态干预 nf_conntrack_max 的进阶实践

深度解析：利用 SPDK accel 与 Intel DSA 打造 NVMe-oF 零拷贝存储路径

CentOS 7 进阶指南：升级内核并开启 PSI（Pressure Stall Information）特性全记录

从亚马逊到"甩锅现场"：YBIYRI落地失败的五个致命陷阱

性能骤降 50%？深度解析 eBPF 与 XDP 中的“伪共享”陷阱

云原生安全实战：利用 Tetragon + LSM BPF 实现容器文件系统细粒度审计

生产环境eBPF程序踩坑全记录:从资源限制破解到性能翻倍实战

徒手打造 eBPF 执行追踪器：为何及如何超越 Tetragon 的预设边界

别再纠结了：Tokio Codec 真的比手动 poll_read 慢很多吗？深度性能剖析

别再迷恋 reload 了：为什么容器化时代需要更硬核的平滑重启方案？

批处理任务资源限制与调度：保障在线服务稳定性的关键策略

嵌入式 Linux WebView 性能优化：数据与建议

应对促销高峰：数据库层面的极致性能与一致性优化实战

告别手绘：Kubernetes环境下如何实时、自动化发现服务依赖？

IoT设备续航深度优化：五大技术策略详解

微服务分布式追踪：OpenTelemetry与自动化CI/CD实践

嵌入式Linux无HRNG？利用定时器、ADC、GPIO实现低开销软件随机数生成器

Pulsar集群运维：SRE眼中的那些“魔鬼细节”