用eBPF揪出HTTP慢请求? 这几招让响应时间分析快准狠!

2025/5/3 10:03:55 473 0 0 0

前言：你的HTTP请求还好吗？

作为一名苦逼的开发者/运维，你是否经常被以下问题困扰？

用户投诉网站慢，但你却找不到原因？
监控报警一堆，但不知道从何下手？
想分析HTTP请求的性能，却苦于工具复杂，配置繁琐？

如果你的答案是肯定的，那么eBPF就是你的救星！

什么是eBPF？

eBPF（extended Berkeley Packet Filter）是一种强大的内核技术，它允许你在内核中安全地运行自定义代码，而无需修改内核源代码或加载内核模块。这意味着你可以用它来做很多事情，比如网络监控、安全分析、性能分析等等。

为什么选择eBPF分析HTTP请求？

高性能： eBPF代码在内核中运行，可以捕获和分析网络数据包，而无需将数据包复制到用户空间，从而大大提高了性能。
灵活性： 你可以用eBPF编写自定义的分析逻辑，以满足特定的需求。例如，你可以只关注特定URL的请求，或者只统计特定状态码的响应。
安全性： eBPF代码在运行前会经过内核的验证，以确保其安全性。这可以防止恶意代码对系统造成损害。
无侵入性： eBPF无需修改应用程序代码，即可实现对HTTP请求的监控和分析，对现有系统影响小。

本文目标

本文将介绍如何使用eBPF来分析HTTP请求的响应时间，并识别慢请求和错误请求。我们将使用bpftrace工具，它是一个高级的eBPF跟踪语言，可以让你轻松地编写和运行eBPF程序。通过本文，你将学会：

使用eBPF跟踪HTTP请求的响应时间。
识别慢请求和错误请求。
分析HTTP请求的性能瓶颈。

准备工作

在开始之前，你需要确保你的系统满足以下要求：

Linux内核版本 >= 4.14： eBPF技术需要较新的内核版本支持。
安装bpftrace： bpftrace是一个易于使用的eBPF工具。你可以从bpftrace的官方网站（https://github.com/iovisor/bpftrace）下载并安装它。
root权限： 运行bpftrace需要root权限。

如果你的系统满足以上要求，那么就可以开始我们的eBPF之旅了！

实践：用eBPF分析HTTP请求

1. 跟踪HTTP请求的响应时间

首先，我们需要找到HTTP请求的入口和出口。对于大多数Web服务器来说，HTTP请求通常会经过以下几个步骤：

接收客户端的连接。
接收客户端的HTTP请求。
处理HTTP请求。
发送HTTP响应。
关闭连接。

我们可以使用eBPF来跟踪这些步骤的时间戳，并计算出HTTP请求的响应时间。以下是一个使用bpftrace跟踪HTTP请求响应时间的脚本：

#!/usr/bin/bpftrace

#include <linux/socket.h>
#include <netinet/in.h>

// 存储请求开始时间的map
global start

// kprobe:内核探针，用于跟踪内核函数
kprobe:tcp_recvmsg {
  // 获取socket指针
  $sk = (struct sock *)arg0->sk;
  // 获取源IP地址和端口
  $src_addr = ntop($sk->__sk_common.skc_rcv_saddr);
  $src_port = $sk->__sk_common.skc_num;
  // 构造key，用于存储请求开始时间
  $key = str($src_addr) . ":" . str($src_port);
  // 记录请求开始时间
  start[$key] = nsecs;
}

kprobe:tcp_sendmsg {
  // 获取socket指针
  $sk = (struct sock *)arg0->sk;
  // 获取源IP地址和端口
  $src_addr = ntop($sk->__sk_common.skc_rcv_saddr);
  $src_port = $sk->__sk_common.skc_num;
  // 构造key，用于查找请求开始时间
  $key = str($src_addr) . ":" . str($src_port);
  // 获取请求开始时间
  $start_time = start[$key];
  // 计算响应时间
  $latency = (nsecs - $start_time) / 1000000;
  // 清除map中的记录
  delete(start[$key]);
  // 打印响应时间
  printf("HTTP request latency: %d ms\n", $latency);
}

脚本解读：

kprobe:tcp_recvmsg：这个探针会在内核函数tcp_recvmsg被调用时触发。tcp_recvmsg函数用于接收TCP消息，通常是HTTP请求的入口。
kprobe:tcp_sendmsg：这个探针会在内核函数tcp_sendmsg被调用时触发。tcp_sendmsg函数用于发送TCP消息，通常是HTTP响应的出口。
start：这是一个全局的map，用于存储每个HTTP请求的开始时间。key是客户端的IP地址和端口号，value是请求开始的时间戳。
nsecs：这是一个内置的变量，表示当前的时间戳（纳秒）。
ntop()：这是一个内置的函数，用于将IP地址从网络字节序转换为字符串。
delete(start[$key])：从map中删除已完成的请求记录，避免内存泄漏。
printf()：这是一个内置的函数，用于打印输出。

运行脚本：

将以上代码保存为http_latency.bt文件，然后使用以下命令运行它：

sudo bpftrace http_latency.bt

运行脚本后，你将会看到类似以下的输出：

Attaching 2 probes...
HTTP request latency: 123 ms
HTTP request latency: 456 ms
HTTP request latency: 789 ms
...

这些输出表示每个HTTP请求的响应时间（毫秒）。

2. 识别慢请求和错误请求

有了HTTP请求的响应时间，我们就可以很容易地识别慢请求和错误请求了。我们可以修改上面的脚本，添加一些过滤条件：

#!/usr/bin/bpftrace

#include <linux/socket.h>
#include <netinet/in.h>

// 存储请求开始时间的map
global start

// 慢请求阈值（毫秒）
$slow_threshold = 200;

// kprobe:tcp_recvmsg
kprobe:tcp_recvmsg {
  $sk = (struct sock *)arg0->sk;
  $src_addr = ntop($sk->__sk_common.skc_rcv_saddr);
  $src_port = $sk->__sk_common.skc_num;
  $key = str($src_addr) . ":" . str($src_port);
  start[$key] = nsecs;
}

kprobe:tcp_sendmsg {
  $sk = (struct sock *)arg0->sk;
  $src_addr = ntop($sk->__sk_common.skc_rcv_saddr);
  $src_port = $sk->__sk_common.skc_num;
  $key = str($src_addr) . ":" . str($src_port);
  $start_time = start[$key];
  $latency = (nsecs - $start_time) / 1000000;
  delete(start[$key]);

  // 识别慢请求
  if ($latency > $slow_threshold) {
    printf("Slow HTTP request latency: %d ms, src_addr: %s, src_port: %d\n", $latency, $src_addr, $src_port);
  }

  // TODO: 识别错误请求 (需要根据实际情况添加错误判断逻辑)
  // 例如，可以检查HTTP响应状态码
  // if (/* 错误状态码 */) {
  //   printf("Error HTTP request: ...\n");
  // }
}

脚本解读：

$slow_threshold：这是一个变量，表示慢请求的阈值（毫秒）。你可以根据实际情况修改这个值。
if ($latency > $slow_threshold)：这个条件判断语句用于判断是否是慢请求。
printf("Slow HTTP request latency: %d ms, src_addr: %s, src_port: %d\n", $latency, $src_addr, $src_port)：如果请求的响应时间超过了阈值，就打印一条慢请求的日志，包括响应时间、客户端IP地址和端口号。
// TODO: 识别错误请求：这部分代码需要你根据实际情况添加错误判断逻辑。例如，你可以检查HTTP响应状态码，如果状态码是4xx或5xx，就认为这是一个错误请求。

运行脚本：

将以上代码保存为http_slow_requests.bt文件，然后使用以下命令运行它：

sudo bpftrace http_slow_requests.bt

运行脚本后，你将会看到类似以下的输出：

Attaching 2 probes...
Slow HTTP request latency: 500 ms, src_addr: 192.168.1.100, src_port: 12345
Slow HTTP request latency: 1000 ms, src_addr: 192.168.1.101, src_port: 54321
...

这些输出表示慢请求的日志，包括响应时间、客户端IP地址和端口号。你可以根据这些信息来分析慢请求的原因。

3. 分析HTTP请求的性能瓶颈 (进阶)

除了识别慢请求和错误请求之外，eBPF还可以用来分析HTTP请求的性能瓶颈。例如，你可以使用eBPF来跟踪以下指标：

CPU使用率： 跟踪Web服务器进程的CPU使用率，可以帮助你找到CPU瓶颈。
内存使用率： 跟踪Web服务器进程的内存使用率，可以帮助你找到内存泄漏或内存不足的问题。
磁盘I/O： 跟踪Web服务器进程的磁盘I/O，可以帮助你找到磁盘I/O瓶颈。
网络I/O： 跟踪Web服务器进程的网络I/O，可以帮助你找到网络I/O瓶颈。
锁竞争： 跟踪Web服务器进程的锁竞争情况，可以帮助你找到锁竞争瓶颈。

以下是一个使用bpftrace跟踪CPU使用率的脚本：

#!/usr/bin/bpftrace

// 每秒采样一次CPU使用率
interval:s {
  // 获取Web服务器进程的PID
  $pid = pid("nginx"); // 将 "nginx" 替换为你的Web服务器进程名
  // 如果进程不存在，则退出
  if ($pid == 0) {
    exit();
  }
  // 跟踪CPU使用率
  printf("CPU usage: %d%%\n", kstack(@)$pid);
}

脚本解读：

interval:s：这个探针会每秒触发一次。
pid("nginx")：这个函数用于获取进程名为"nginx"的进程ID。你需要将"nginx"替换为你的Web服务器进程名。
kstack(@)$pid：这个表达式用于获取进程ID为$pid的进程的内核堆栈。通过分析内核堆栈，我们可以得到CPU使用率的信息。

运行脚本：

将以上代码保存为cpu_usage.bt文件，然后使用以下命令运行它：

sudo bpftrace cpu_usage.bt

运行脚本后，你将会看到类似以下的输出：

Attaching 1 probe...
CPU usage: 10%
CPU usage: 20%
CPU usage: 15%
...

这些输出表示Web服务器进程的CPU使用率。你可以根据这些信息来分析CPU瓶颈。

总结

本文介绍了如何使用eBPF来分析HTTP请求的响应时间，并识别慢请求和错误请求。我们使用了bpftrace工具，它是一个高级的eBPF跟踪语言，可以让你轻松地编写和运行eBPF程序。通过本文，你学会了：

使用eBPF跟踪HTTP请求的响应时间。
识别慢请求和错误请求。
分析HTTP请求的性能瓶颈。

eBPF是一个非常强大的工具，它可以帮助你解决很多性能问题。希望本文能够帮助你入门eBPF，并在实际工作中应用它。记住，这只是一个开始，eBPF的世界还有很多值得探索的地方！

注意事项

运行eBPF程序需要root权限。
eBPF程序可能会对系统性能产生影响，请谨慎使用。
在生产环境中，建议使用更完善的监控系统来收集和分析HTTP请求的性能数据。

希望这篇文章对你有所帮助！如果你有任何问题或建议，请随时留言。祝你编码愉快！

性能调优侠 eBPF HTTP性能分析慢请求

用eBPF揪出HTTP慢请求? 这几招让响应时间分析快准狠!

前言：你的HTTP请求还好吗？

准备工作

实践：用eBPF分析HTTP请求

总结

延伸阅读

注意事项

评论点评