文章标签

Service

NVIDIA MIG 多租户推理实战：在隔离性、碎片率与调度复杂度之间寻找最优解

问题背景：当 GPU 成为"超售"的重灾区在承载数百个在线推理服务的多租户平台中，我们面临一个经典困境：单个 A100-80GB GPU 上跑一个 7B 参数的 LLM 服务，显存占用仅 16GB，计算单元利用率...

2026/4/12 0 113 0 0 0 MIG GPU虚拟化多租户调度
微前端"去共享化"架构：在 Native Federation 与 Module Federation 之间寻找第三条路

引言：被误解的"共享" 微前端领域长期存在一个认知误区：将运行时依赖共享（Runtime Dependency Sharing）视为性能优化的必要手段，却忽视了其带来的版本协商复杂度与运行时不确定性。近年来，随...

2026/4/14 0 119 0 0 0 微前端 Monorepo 前端工程化
别再迷恋 reload 了：为什么容器化时代需要更硬核的平滑重启方案？

在传统的运维时代， nginx -s reload 或 systemctl reload gunicorn 是我们引以为傲的“神技”。它能在不中断现有连接的情况下加载新配置，优雅、快速且低感知。然而，随着技术栈全面转向 Doc...

2026/5/11 0 61 0 0 0 容器化 Kubernetes 运维最佳实践
深度实战：使用 Proxy-Wasm Rust SDK 构建 Envoy 高性能扩展插件

在现代服务网格（Service Mesh）架构中，Envoy 作为事实上的数据面标准，其可扩展性一直是开发者关注的焦点。传统的 C++ 内置插件开发门槛高、编译慢，且容易导致 Sidecar 崩溃；Lua 脚本虽然灵活，但在处理复杂逻辑时...

2026/5/12 0 53 0 0 0 Envoy Rust编程
架构师的抉择：Proxy-Wasm 还是 Lua？深剖 Envoy 扩展在高并发下的长尾延迟

在云原生网关和 Service Mesh 的实践中，Envoy 的可扩展性一直是其核心竞争力。无论是处理复杂的鉴权逻辑，还是实现动态的流量分发，开发者往往需要在 Envoy Lua 和 Proxy-Wasm 之间做出选择。然...

2026/5/12 0 38 0 0 0 Envoy 长尾延迟
实战指南：通过 EnvoyFilter 将自定义 Header 注入 SkyWalking 链路标签

在微服务治理中，分布式链路追踪（Distributed Tracing）是定位性能瓶颈和排查调用故障的核心手段。通过 Istio + SkyWalking 的组合，我们往往能轻松获得服务间的拓扑关系和耗时数据。但在实际业务场景中，仅...

2026/5/14 0 36 0 0 0 Istio SkyWalking
深入浅出 Linux Netfilter 与 Conntrack：从内核机制到高并发排障实战

在维护高并发、高吞吐的互联网业务，或者在大规模 Kubernetes 集群中，你大概率遇到过这样的生产事故：系统突然无法建立新的连接，访问极其缓慢，甚至直接报 502/504 错误。登录服务器，执行 dmesg -T ，屏幕上赫然...

2026/5/25 0 49 0 0 0 Linux内核 Netfilter Conntrack
Linux内核源码剖析：Netfilter Conntrack 连接跟踪状态机是如何运转的？

在 Linux 网络协议栈中，Connection Tracking（简称 Conntrack，连接跟踪）是实现状态防火墙（Stateful Firewall）、网络地址转换（NAT）以及 Kubernetes 中 IPVS/Iptabl...

2026/5/25 0 52 0 0 0 Linux内核 Netfilter Conntrack
高并发网络架构抉择：深度对比 DPDK 与 XDP 的技术本质与落地痛点

在构建百 G 带宽、千万级 PPS（Packet Per Second）的高并发网络系统时，传统的 Linux 内核网络栈（Netfilter/IPVS）往往会因为中断引入的上下文切换、SKB（socket buffer）结构体的分配与...

2026/5/26 0 55 0 0 0 DPDK XDP eBPF
Docker Swarm 脑裂双活灾难：用 Keepalived + 状态自愈脚本实现分区节点秒级自动切断

在生产环境中，最让人头疼的不是整个集群彻底宕机，而是节点处于**“半死不活”**的状态。在基于 Docker Swarm 搭建的高可用集群中，我们通常会在多个 Manager 节点上部署 Keepalived，通过虚拟 IP（VIP...

2026/5/31 0 40 0 0 0 Keepalived 脑裂保护
Docker Swarm 脑裂灾难恢复：利用 Ansible 与 Restic 快速重建 Raft 集群

在生产环境中，Docker Swarm 凭借其轻量化、易维护的特点被广泛部署。然而，由于 Swarm Manager 节点之间强依赖 Raft 共识协议，当遭遇网络分区、磁盘 I/O 严重抖动或节点异常宕机时，Manager 节点数量极易...

2026/5/31 0 31 0 0 0 Ansible Restic
拒绝过度设计：中小团队微服务多环境 CI/CD 落地实践

很多中小团队在从单体架构转向微服务时，最先崩溃的往往不是业务代码，而是发布流水线。当服务拆分到十几个甚至几十个后，如果还沿用老一套的部署方式，很快就会遇到以下痛点：配置文件满天飞：每个微服务在测试、预发、生产环境的配置...

2026/5/31 0 38 0 0 0 微服务 CICD GitLab CI
无 Sidecar 时代下，遗留系统（Legacy）如何无感接入 zTunnel mTLS 零信任网络？

在 Service Mesh 的演进历程中，Istio Ambient Mesh（无 Sidecar 模式）的出现无疑具有划时代的意义。它通过将数据面拆分为负责 L4 安全传输的 zTunnel 和负责 L7 流量处理的 Waypo...

2026/6/1 0 28 0 0 0 zTunnel 零信任安全
高并发系统的容量瓶颈：如何用 G/G/k 排队模型求解双非复杂系统的性能极限

在分布式系统设计与容量规划中，我们经常使用经典的排队论模型（如 $M/M/k$ 或 $M/G/k$）来估算系统的并发承载能力、平均响应时间和队列长度。然而，在线上真实复杂的生产环境中，这两个模型的基本假设往往会被无情击碎：非泊...

2026/6/3 0 97 0 0 0 排队论容量规划高并发系统
M/M/c与M/G/1排队模型深度对比：高并发系统选型指南

高并发系统设计中，排队论是理解延迟、吞吐量、资源利用率的核心框架。但面对具体业务，很多开发者会陷入一个困惑：什么时候该用M/M/c，什么时候该用M/G/1？这两个模型看似只是数学符号的差异，实际上代表着完全不同的建模假设和工程实践边界...

2026/6/3 0 105 0 0 0 排队论高并发系统 MMC队列
Kubernetes 临时容器在 Containerd 底层的生命周期与 Task 状态转换剖析

在 Kubernetes 日常运维中， kubectl debug 已经成为诊断容器内故障的标准手段。通过引入临时容器（Ephemeral Containers），我们无需在生产镜像中预装大量的排障工具，即可动态地将调试工具注入到运行中...

2026/6/6 0 29 0 0 0 Kubernetes Containerd 容器运行时
Kubernetes 混部实践：基于 CPU Manager 扩展的在离线容器高精度隔离方案

在企业级 Kubernetes 集群中，为了提升资源利用率，“在离线混部（Co-location）”已成为降低算力成本的标配手段。然而，简单的将延迟敏感型（Latency-Sensitive, 在线）与高吞吐非实时型（Best-Effor...

2026/6/7 0 28 0 0 0 Kubernetes 在离线混部
深入内核：如何利用 eBPF 诊断 Kubernetes 容器网络延迟与瓶颈

在云原生架构中，Kubernetes 容器网络的复杂性常常让排查工作变成一场噩梦。多层虚拟化网络设备（Bridge、Veth-pair、OVS）、复杂的网络策略（NetworkPolicy）、频繁的 IPVS/IPTables 规则刷新，...

2026/6/7 0 27 0 0 0 eBPF 容器网络 Kubernetes
Cgroup v2 生产实战：从“暴力杀进程”到“优雅限流”的内存管理演进

在容器化高度普及的今天，很多开发者依然被 OOM Killer 频繁杀掉进程的问题所困扰。传统的 Cgroup v1 内存管理机制相对“暴力”：一旦达到阈值，要么立即触发内存回收（Reclaim），要么直接触发 OOM 机制杀掉进程。...

2026/4/17 0 159 0 0 0 Cgroupv2 容器优化 Linux内核
Java 21 虚拟线程中 ThreadLocal 的内存泄露与 OOM 隐患排查

在 Java 21 引入虚拟线程（Virtual Threads）后，高并发通道的建设变得极其简单。开发者无需再纠结于复杂的异步回调或响应式编程，只需像往常一样编写同步阻塞代码，就能轻松应对数万乃至数百万的并发连接。然而，这种“无缝...

2026/6/15 0 12 0 0 0 Java 21 虚拟线程内存泄露

文章标签

Service

NVIDIA MIG 多租户推理实战：在隔离性、碎片率与调度复杂度之间寻找最优解

微前端"去共享化"架构：在 Native Federation 与 Module Federation 之间寻找第三条路

别再迷恋 reload 了：为什么容器化时代需要更硬核的平滑重启方案？

深度实战：使用 Proxy-Wasm Rust SDK 构建 Envoy 高性能扩展插件

架构师的抉择：Proxy-Wasm 还是 Lua？深剖 Envoy 扩展在高并发下的长尾延迟

实战指南：通过 EnvoyFilter 将自定义 Header 注入 SkyWalking 链路标签

深入浅出 Linux Netfilter 与 Conntrack：从内核机制到高并发排障实战

Linux内核源码剖析：Netfilter Conntrack 连接跟踪状态机是如何运转的？

高并发网络架构抉择：深度对比 DPDK 与 XDP 的技术本质与落地痛点

Docker Swarm 脑裂双活灾难：用 Keepalived + 状态自愈脚本实现分区节点秒级自动切断

Docker Swarm 脑裂灾难恢复：利用 Ansible 与 Restic 快速重建 Raft 集群

拒绝过度设计：中小团队微服务多环境 CI/CD 落地实践

无 Sidecar 时代下，遗留系统（Legacy）如何无感接入 zTunnel mTLS 零信任网络？

高并发系统的容量瓶颈：如何用 G/G/k 排队模型求解双非复杂系统的性能极限

M/M/c与M/G/1排队模型深度对比：高并发系统选型指南

Kubernetes 临时容器在 Containerd 底层的生命周期与 Task 状态转换剖析

Kubernetes 混部实践：基于 CPU Manager 扩展的在离线容器高精度隔离方案

深入内核：如何利用 eBPF 诊断 Kubernetes 容器网络延迟与瓶颈

Cgroup v2 生产实战：从“暴力杀进程”到“优雅限流”的内存管理演进

Java 21 虚拟线程中 ThreadLocal 的内存泄露与 OOM 隐患排查