网络工程师如何利用 eBPF 追踪 TCP 连接状态，排查性能瓶颈？

2025/4/28 19:43:31 205 0 0 0

eBPF：网络工程师追踪 TCP 连接状态的利器

作为一名网络工程师，你是否经常遇到这样的困扰：

线上服务偶发性卡顿，却难以定位问题根源？
TCP 连接建立缓慢，用户体验不佳，却无从下手优化？
应用层监控数据滞后，无法实时掌握网络连接的健康状况？

传统的网络诊断工具，如 tcpdump、wireshark 等，虽然功能强大，但往往存在以下局限性：

性能开销大：在高并发场景下，抓包分析会消耗大量的 CPU 和内存资源，甚至影响线上服务的稳定性。
侵入性强：需要修改内核参数或重启服务，对生产环境造成影响。
数据分析复杂：抓取到的数据包信息繁杂，需要专业的知识和经验才能从中提取有价值的信息。

而 eBPF (Extended Berkeley Packet Filter) 的出现，为解决这些问题提供了一种全新的思路。它允许你在内核中安全地运行自定义代码，无需修改内核源码或重启服务，即可实现高性能、低侵入性的网络数据分析。

什么是 eBPF？

简单来说，eBPF 就像一个内核“沙箱”，你可以在其中运行经过验证的程序，对内核事件进行监控、过滤和修改。这些程序运行在内核态，拥有极高的性能，同时又受到严格的安全限制，避免对系统造成破坏。

eBPF 在 TCP 连接追踪中的优势

实时性：eBPF 程序直接运行在内核中，可以实时捕获 TCP 连接状态变化，例如连接建立、关闭、数据传输等事件。
高性能：eBPF 程序经过 JIT (Just-In-Time) 编译，执行效率接近原生代码，对系统性能影响极小。
灵活性：你可以根据自己的需求，编写自定义 eBPF 程序，提取特定的 TCP 连接信息，例如延迟、丢包率、重传率等。
非侵入性：无需修改内核源码或重启服务，即可部署和更新 eBPF 程序，对生产环境影响极小。

如何利用 eBPF 追踪 TCP 连接状态？

下面，我将通过一个简单的例子，演示如何使用 eBPF 追踪 TCP 连接状态的改变。

1. 确定追踪目标：TCP 状态变迁

TCP 状态变迁是网络连接的关键事件。例如，从 SYN_SENT 到 ESTABLISHED 表示连接建立成功，从 ESTABLISHED 到 FIN_WAIT1 表示连接进入关闭流程。通过追踪这些状态变迁，我们可以了解连接的生命周期和健康状况。

2. 寻找合适的内核 Hook 点

我们需要找到内核中与 TCP 状态变迁相关的 Hook 点。在 Linux 内核中，tcp_v4_state_process 函数负责处理 IPv4 TCP 连接的状态变迁。我们可以将 eBPF 程序 Hook 到这个函数上，监控 TCP 状态的变化。

3. 编写 eBPF 程序

使用 BCC (BPF Compiler Collection) 工具包，我们可以方便地编写和部署 eBPF 程序。以下是一个简单的 eBPF 程序示例，用于追踪 TCP 状态变迁：

from bcc import BPF

# 定义 eBPF 程序
program = '''
#include <uapi/linux/tcp.h>
#include <net/sock.h>

// 定义输出结构体
struct data_t {
  u32 pid;
  u32 saddr;
  u32 daddr;
  u16 sport;
  u16 dport;
  u32 oldstate;
  u32 newstate;
};

BPF_PERF_OUTPUT(events);

int kprobe__tcp_v4_state_process(struct pt_regs *ctx, struct sock *sk) {
  // 获取进程 ID
  u32 pid = bpf_get_current_pid_tgid();

  // 获取源 IP 地址和端口
  u32 saddr = sk->__sk_common.skc_rcv_saddr;
  u16 sport = sk->__sk_common.skc_num;

  // 获取目标 IP 地址和端口
  u32 daddr = sk->__sk_common.skc_daddr;
  u16 dport = sk->__sk_common.skc_dport;

  // 获取旧的状态和新的状态
  u32 oldstate = sk->sk_state;
  u32 newstate = args->newstate;

  // 过滤掉不关心的状态变迁
  if (oldstate == newstate) {
    return 0;
  }

  // 填充数据结构
  struct data_t data = {};
  data.pid = pid;
  data.saddr = saddr;
  data.daddr = daddr;
  data.sport = sport;
  data.dport = dport;
  data.oldstate = oldstate;
  data.newstate = newstate;

  // 输出事件
  events.perf_submit(ctx, &data, sizeof(data));

  return 0;
}
'''

# 加载 eBPF 程序
bpf = BPF(text=program)

# 定义事件处理函数
def print_event(cpu, data, size):
  event = bpf["events"].event(data)
  print("%-6d %-16s %-16s %-6d %-6d %-12s -> %-12s" % (
    event.pid,
    socket.inet_ntop(socket.AF_INET, struct.pack(">I", event.saddr)),
    socket.inet_ntop(socket.AF_INET, struct.pack(">I", event.daddr)),
    event.sport,
    event.dport,
    tcp_states[event.oldstate],
    tcp_states[event.newstate]))

# 打印表头
print("PID    %-16s %-16s %-6s %-6s %-12s -> %-12s" % (
  "SRC ADDR", "DEST ADDR", "SPORT", "DPORT", "OLD STATE", "NEW STATE"))

# 绑定事件处理函数
bpf["events"].open_perf_buffer(print_event)

# 循环读取事件
while True:
  try:
    bpf.perf_buffer_poll()
  except KeyboardInterrupt:
    exit()

代码解释：

#include <uapi/linux/tcp.h> 和 #include <net/sock.h>：引入必要的头文件，定义了 TCP 状态和 socket 结构体。
struct data_t：定义输出的数据结构，包含进程 ID、源 IP 地址、目标 IP 地址、源端口、目标端口、旧状态和新状态。
BPF_PERF_OUTPUT(events)：定义一个名为 events 的 perf 输出队列，用于将数据从内核态传递到用户态。
kprobe__tcp_v4_state_process：定义一个 kprobe，Hook 到 tcp_v4_state_process 函数上。当该函数被调用时，这个 kprobe 会被执行。
bpf_get_current_pid_tgid()：获取当前进程 ID。
sk->__sk_common.skc_rcv_saddr、sk->__sk_common.skc_num、sk->__sk_common.skc_daddr、sk->__sk_common.skc_dport：从 socket 结构体中获取源 IP 地址、源端口、目标 IP 地址和目标端口。
sk->sk_state：获取 TCP 连接的当前状态。
args->newstate: 获取 TCP 连接的新状态 (需要通过传递参数获得，具体取决于内核版本和 BPF 工具链的支持).
events.perf_submit(ctx, &data, sizeof(data))：将数据提交到 perf 输出队列。
print_event：定义一个事件处理函数，用于打印接收到的事件数据。
bpf["events"].open_perf_buffer(print_event)：将事件处理函数绑定到 perf 输出队列。
bpf.perf_buffer_poll()：循环读取 perf 输出队列中的事件。

4. 编译和运行 eBPF 程序

将上述代码保存为 tcp_state.py，然后使用以下命令编译和运行：

sudo python tcp_state.py

运行后，你将看到类似以下的输出：

PID    SRC ADDR         DEST ADDR        SPORT  DPORT  OLD STATE    -> NEW STATE
1234   192.168.1.100    10.0.0.1         50000  80     ESTABLISHED  -> FIN_WAIT1
5678   192.168.1.200    10.0.0.2         60000  443    SYN_SENT     -> ESTABLISHED
...

5. 分析结果

通过分析这些输出，你可以了解 TCP 连接的状态变迁情况，例如：

哪些连接正在建立？
哪些连接正在关闭？
是否存在大量的连接超时或重传？

这些信息可以帮助你定位网络连接的性能瓶颈，例如：

连接建立缓慢：可能是由于 DNS 解析问题、路由问题或服务器负载过高导致。
连接关闭异常：可能是由于客户端或服务器端程序错误导致。
大量的连接超时或重传：可能是由于网络拥塞或丢包导致。

进阶应用：结合其他 eBPF 技术

除了追踪 TCP 状态变迁，你还可以结合其他 eBPF 技术，实现更强大的网络分析功能。

追踪 TCP 延迟：使用 kprobe Hook 到 tcp_sendmsg 和 tcp_recvmsg 函数上，记录数据包的发送和接收时间，计算 TCP 延迟。
追踪 TCP 丢包率：使用 tracepoint Hook 到 tcp_retransmit_skb 函数上，统计 TCP 重传的次数，计算丢包率。
追踪 TCP 拥塞控制：使用 kprobe Hook 到 TCP 拥塞控制算法相关的函数上，例如 tcp_reno_cong_avoid，了解拥塞控制算法的运行情况。

实际案例：利用 eBPF 优化 CDN 性能

某 CDN 服务提供商，在使用 eBPF 技术之前，经常遇到以下问题：

用户访问延迟高，影响用户体验。
难以定位延迟高的原因，例如是网络问题还是服务器问题。

为了解决这些问题，他们使用 eBPF 技术，实现了以下功能：

实时追踪 TCP 连接状态：了解连接建立、关闭和数据传输情况。
追踪 TCP 延迟：定位延迟高的连接。
追踪 TCP 丢包率：判断是否存在网络拥塞或丢包。

通过分析 eBPF 收集到的数据，他们发现：

部分 CDN 节点存在网络拥塞。
部分服务器的 TCP 拥塞控制参数配置不合理。

针对这些问题，他们采取了以下措施：

调整 CDN 节点的流量分配，缓解网络拥塞。
优化服务器的 TCP 拥塞控制参数，提高数据传输效率。

最终，他们成功地降低了用户访问延迟，提高了 CDN 服务的性能和稳定性。

总结

eBPF 作为一种强大的网络分析工具，可以帮助网络工程师实时追踪 TCP 连接状态，定位性能瓶颈，优化网络性能。掌握 eBPF 技术，将使你在网络故障排查和性能优化方面更上一层楼。

希望这篇文章能够帮助你了解 eBPF 在 TCP 连接追踪中的应用。如果你有任何问题或建议，欢迎在评论区留言。

一些额外的思考

安全问题：虽然 eBPF 有安全机制，但编写不当的 eBPF 程序仍然可能对系统造成风险。因此，需要对 eBPF 程序进行严格的测试和验证。
内核版本兼容性：不同的内核版本对 eBPF 的支持程度不同。因此，需要根据目标内核版本选择合适的 eBPF 工具链和程序。
学习曲线：eBPF 的学习曲线比较陡峭，需要一定的内核知识和编程经验。但是，随着 eBPF 技术的普及，越来越多的工具和文档出现，学习 eBPF 也变得越来越容易。

网络巡查员 eBPF TCP 追踪网络性能