基于eBPF的HTTP请求监控：捕获URL、Host，分析用户行为

2025/5/18 08:13:29 308 0 0 0

基于eBPF的HTTP请求监控：捕获URL、Host，分析用户行为

作为一名Web开发者或者网站运维人员，你是否经常需要了解网站的访问情况，分析用户的行为模式？传统的HTTP请求监控方案，例如使用tcpdump抓包，或者在Web服务器上配置日志，往往存在性能开销大、配置复杂、无法实时分析等问题。而eBPF（extended Berkeley Packet Filter）技术的出现，为我们提供了一种高效、灵活、实时的HTTP请求监控方案。

本文将介绍如何利用eBPF技术，实现一个简单的HTTP请求监控工具，它可以捕获HTTP请求的头部信息，例如URL、Host、User-Agent等，用于分析网站的访问情况和用户行为。我们将深入探讨eBPF的原理，并提供详细的代码示例，帮助你快速上手。

为什么选择eBPF？

在深入探讨实现细节之前，我们先来了解一下eBPF的优势：

高性能：eBPF程序运行在内核态，可以直接访问网络数据包，避免了用户态和内核态之间的数据拷贝，从而大大提高了性能。
灵活性：eBPF程序可以动态加载和卸载，无需修改内核代码，可以根据实际需求灵活定制监控策略。
安全性：eBPF程序运行在沙箱环境中，受到严格的权限控制，可以防止恶意代码对内核造成损害。
实时性：eBPF程序可以实时捕获网络数据包，并进行分析处理，从而实现实时监控。

eBPF原理简介

eBPF是一种在Linux内核中运行用户自定义程序的机制。它允许开发者在内核中注入自定义的代码，以便在内核空间中执行各种任务，例如网络包过滤、性能分析、安全监控等。

eBPF程序通常由以下几个部分组成：

事件源：触发eBPF程序执行的事件，例如网络数据包到达、系统调用发生等。
eBPF程序：用户自定义的代码，用于处理事件。eBPF程序通常使用一种受限的C语言编写，并经过eBPF编译器编译成字节码。
eBPF虚拟机：一个运行eBPF程序的沙箱环境，负责解释和执行eBPF字节码。eBPF虚拟机对程序的执行进行严格的限制，以确保程序的安全性和稳定性。
Map：eBPF程序和用户空间程序之间共享数据的机制。Map是一种键值对存储，eBPF程序可以将数据存储到Map中，用户空间程序可以从Map中读取数据。

实现HTTP请求监控的步骤

下面，我们将介绍如何使用eBPF实现一个简单的HTTP请求监控工具。该工具将捕获HTTP请求的头部信息，例如URL、Host、User-Agent等，并将其存储到Map中，供用户空间程序读取。

确定事件源：我们需要在网络数据包到达时触发eBPF程序。对于HTTP请求，我们可以选择在TCP连接建立时，或者在接收到HTTP请求数据包时触发eBPF程序。为了简单起见，我们选择在接收到HTTP请求数据包时触发eBPF程序。
编写eBPF程序：我们需要编写一个eBPF程序，用于捕获HTTP请求的头部信息。该程序需要解析TCP数据包，提取HTTP请求头，并将其存储到Map中。下面是一个简单的eBPF程序示例：

#include <linux/bpf.h>
#include <linux/tcp.h>
#include <linux/ip.h>
#include <linux/string.h>

#include <bpf/bpf_helpers.h>
#include <bpf/bpf_endian.h>

#define MAX_URL_LEN 256

struct data_t {
    u32 pid;
    u32 tid;
    char comm[TASK_COMM_LEN];
    char url[MAX_URL_LEN];
};

// 定义一个BPF Map，用于存储HTTP请求信息
BPF_MAP_DEF(http_requests, LRU_HASH, u32, struct data_t, 65536);
DECLARE_LICENSE("GPL");


// 定义一个函数，用于从TCP数据包中提取HTTP请求URL
static int parse_http_url(void *data, int len, char *url) {
    // 查找GET/POST等请求方法
    char *method = data;
    if (method + 4 > data + len) {
        return 0;
    }

    if (memcmp(method, "GET ", 4) != 0 &&
        memcmp(method, "POST ", 5) != 0 &&
        memcmp(method, "PUT ", 4) != 0 &&
        memcmp(method, "DELETE ", 7) != 0 &&
        memcmp(method, "HEAD ", 5) != 0 &&
        memcmp(method, "OPTIONS ", 8) != 0 &&
        memcmp(method, "PATCH ", 6) != 0) {
        return 0; // Not an HTTP request
    }

    // 查找URL的起始位置
    char *url_start = method; // URL starts after the method
    while (*url_start != ' ' && url_start < (char *)data + len) {
        url_start++;
    }
    if (url_start >= (char *)data + len) {
        return 0;
    }
    url_start++; // Move past the space

    // 查找URL的结束位置
    char *url_end = url_start;
    while (*url_end != ' ' && url_end < (char *)data + len && (url_end - url_start) < MAX_URL_LEN - 1) {
        url_end++;
    }
    if (url_end >= (char *)data + len) {
        return 0;
    }

    // 复制URL到目标缓冲区
    long url_len = url_end - url_start;
    bpf_probe_read_kernel(url, url_len, url_start);
    url[url_len] = 0; // Null-terminate the string
    return 1;
}


// 定义eBPF程序的入口函数
SEC("kprobe/tcp_recvmsg")
int BPF_KPROBE(tcp_recvmsg, struct sock *sk, struct msghdr *msg, size_t len) {
    struct data_t data = {};
    u32 pid = bpf_get_current_pid_tgid() >> 32;
    u32 tid = bpf_get_current_pid_tgid();

    // 获取进程名
    bpf_get_current_comm(&data.comm, sizeof(data.comm));
    data.pid = pid;
    data.tid = tid;

    // 获取TCP数据包的起始地址
    struct sk_buff *skb = msg->msg_iov->iov_base;
    if (!skb) {
        return 0;
    }
    // 计算TCP数据包的长度
    int data_len = msg->msg_iov->iov_len;

    // 解析HTTP URL
    if (parse_http_url(skb->data, data_len, data.url)) {
        // 将HTTP请求信息存储到Map中
        bpf_map_update_elem(&http_requests, &pid, &data, BPF_ANY);
    }

    return 0;
}

代码说明

*   *头文件*：包含了eBPF程序所需的头文件，例如`linux/bpf.h`、`linux/tcp.h`、`linux/ip.h`等。
*   *数据结构*：定义了一个名为`data_t`的结构体，用于存储HTTP请求的信息，包括进程ID、线程ID、进程名和URL。
*   *BPF Map*：定义了一个名为`http_requests`的BPF Map，用于存储HTTP请求的信息。该Map的键为进程ID，值为`data_t`结构体。
*   *`parse_http_url` 函数*：用于解析HTTP请求的URL，从TCP数据包中提取URL。首先检查是否为HTTP请求（通过检查GET/POST等方法），然后定位URL的起始和结束位置，并将其复制到`url`缓冲区。
*   *eBPF程序入口函数*：定义了一个名为`tcp_recvmsg`的eBPF程序入口函数。该函数在`tcp_recvmsg`内核函数被调用时触发。函数首先获取进程ID、线程ID和进程名，然后获取TCP数据包的起始地址和长度。接着，调用`parse_http_url`函数解析HTTP URL，并将HTTP请求信息存储到Map中。

编译eBPF程序：使用eBPF编译器将eBPF程序编译成字节码。

可以使用 clang/LLVM 工具链进行编译。确保安装了 libbpf 和相关的开发头文件。编译命令如下：

clang -O2 -target bpf -D__TARGET_ARCH_x86_64 -I./usr/include/ -I./ -c ebpf_http_monitor.c -o ebpf_http_monitor.o

这会生成一个 `.o` 文件，其中包含编译后的 eBPF 字节码。

加载eBPF程序：将编译后的eBPF程序加载到内核中。

加载 eBPF 程序通常需要使用 libbpf 库。以下是一个简单的加载 eBPF 程序的示例代码（使用 Python 和 bcc 库）：

from bcc import BPF

# 加载 eBPF 程序
b = BPF(src_file="ebpf_http_monitor.c")

# attach to kprobe/tcp_recvmsg
function_name = b"tcp_recvmsg" # 函数名称
b.attach_kprobe(event=function_name, fn_name="tcp_recvmsg")

# 打印 Map 中的数据
http_requests = b["http_requests"]

# 循环打印，可以根据实际情况调整
while True:
    for k, v in http_requests.items():
        print("PID: %d, TID: %d, COMM: %s, URL: %s" % (v.pid, v.tid, v.comm.decode('utf-8', 'replace'), v.url.decode('utf-8', 'replace')))
    time.sleep(2)

代码说明

*   *BPF(src_file="ebpf_http_monitor.c")*：初始化BPF对象，并加载C源代码。
*   *b.attach_kprobe(event=function_name, fn_name="tcp_recvmsg")*：将eBPF程序附加到`tcp_recvmsg`内核探针点。
*   *http_requests = b["http_requests"]*：获取eBPF程序中定义的名为`http_requests`的BPF Map。
*   *循环打印*：循环遍历BPF Map，并打印HTTP请求的信息。

编写用户空间程序：编写一个用户空间程序，用于从Map中读取HTTP请求的信息，并进行分析处理。

该程序可以使用 libbpf 库或者 bcc 工具来与内核中的 eBPF 程序进行交互，读取 Map 中的数据并进行展示。

确保安装了 bcc 库：

sudo apt-get update
sudo apt-get install bpfcc-tools linux-headers-$(uname -r)

运行程序：运行用户空间程序，开始监控HTTP请求。

运行用户空间的 Python 脚本即可开始监控 HTTP 请求，脚本会定期从 eBPF Map 中读取数据并打印出来。根据实际情况调整采样频率和展示方式。

进一步的优化和扩展

以上只是一个简单的HTTP请求监控工具的示例。你可以根据实际需求，对其进行进一步的优化和扩展，例如：

捕获更多的HTTP头部信息：除了URL、Host、User-Agent之外，还可以捕获其他的HTTP头部信息，例如Cookie、Referer等。
过滤特定的HTTP请求：可以根据URL、Host、User-Agent等信息，过滤特定的HTTP请求。
统计HTTP请求的QPS：可以统计HTTP请求的QPS（Queries Per Second），用于监控网站的性能。
与Web服务器集成：可以将eBPF程序与Web服务器集成，例如Nginx、Apache等，从而实现更加精细化的监控。

注意事项

内核版本：eBPF技术需要较新的Linux内核版本支持。建议使用4.14及以上版本的内核。
权限：加载eBPF程序需要root权限。
安全性：编写eBPF程序时，需要注意安全性，避免出现安全漏洞。
性能：eBPF程序的性能对整个系统的性能有影响。需要仔细评估eBPF程序的性能开销，并进行优化。

总结

eBPF技术为我们提供了一种高效、灵活、实时的HTTP请求监控方案。通过本文的介绍，相信你已经了解了eBPF的原理，并掌握了使用eBPF实现HTTP请求监控的基本步骤。希望本文能够帮助你更好地了解网站的访问情况，分析用户的行为模式，从而提升网站的性能和用户体验。

eBPF的强大之处在于其灵活性和高性能，能够让你在不侵入应用代码的前提下，深入了解系统的运行状况。希望你能掌握这项技术，并在实际工作中发挥它的价值。

网络巡查员 eBPF HTTP监控网络分析

基于eBPF的HTTP请求监控：捕获URL、Host，分析用户行为