eBPF与Prometheus的结合：解锁高级监控的无限可能

2025/7/1 08:48:15 183 0 0 0

最近一直在啃 eBPF 这块硬骨头，不得不说，这玩意儿是真的强大。它能在内核里“插桩”，而且性能损耗极低，简直是做性能分析和安全监控的神器。正好最近也在用 Prometheus，就琢磨着把这两个家伙结合起来，看看能擦出什么火花。

为什么要结合 eBPF 和 Prometheus？

简单来说，就是为了更深入、更实时、更灵活地监控系统。

更深入： 传统的监控方式往往只能获取一些表面的指标，比如 CPU 使用率、内存占用等等。但 eBPF 可以直接访问内核数据，能让你深入了解系统内部的运行状态，例如网络延迟的根源、某个进程的系统调用等等。
更实时： eBPF 程序运行在内核态，数据采集的效率非常高。Prometheus 可以定期从 eBPF 程序暴露的指标接口拉取数据，实现近乎实时的监控。
更灵活： 你可以根据自己的需求，编写自定义的 eBPF 程序，采集任何你感兴趣的指标。这比那些预定义的监控项灵活多了。

eBPF 如何采集数据？

eBPF 的核心在于它的“程序”和“Map”。

eBPF 程序： 这段程序运行在内核态，负责采集数据。你可以用 C 编写 eBPF 程序，然后用 LLVM 编译成 eBPF 字节码。eBPF 程序可以挂载到各种内核事件上，比如系统调用、函数调用、网络事件等等。当这些事件发生时，eBPF 程序就会被触发，采集相关的数据。
eBPF Map： 这是一种内核态的 Key-Value 存储，用于存储 eBPF 程序采集到的数据。Prometheus 可以通过特定的接口，读取 eBPF Map 中的数据。

举个例子，假设你想监控某个进程的网络延迟。你可以编写一个 eBPF 程序，挂载到 tcp_sendmsg 和 tcp_recvmsg 这两个内核函数上。当进程发送或接收 TCP 消息时，eBPF 程序就会记录下时间戳，并计算出延迟。然后，将延迟数据存储到 eBPF Map 中。

Prometheus 如何获取 eBPF 数据？

Prometheus 本身并不能直接读取 eBPF Map。你需要一个“桥梁”，把 eBPF Map 中的数据暴露成 Prometheus 可以识别的指标格式。这个“桥梁”通常是一个用户态的程序，它会定期读取 eBPF Map 中的数据，然后将数据转换成 Prometheus 的 Exporter 格式。

目前有很多开源的工具可以帮你做这件事，比如：

bcc (BPF Compiler Collection): 这是一个非常强大的 eBPF 工具包，它提供了一系列 Python 脚本，可以让你轻松地编写和运行 eBPF 程序。bcc 也自带了一些 Exporter，可以将 eBPF 程序采集到的数据暴露给 Prometheus。https://github.com/iovisor/bcc
bpftrace: 这是一个高级的 eBPF 追踪工具，它使用一种类似于 awk 的语言，让你快速地编写 eBPF 程序。bpftrace 也可以将 eBPF 程序采集到的数据暴露给 Prometheus。https://github.com/iovisor/bpftrace
自定义 Exporter: 如果你想更灵活地控制数据的暴露方式，可以自己编写一个 Exporter。这个 Exporter 需要读取 eBPF Map 中的数据，然后将数据转换成 Prometheus 的 Exporter 格式，并通过 HTTP 接口暴露出去。

eBPF + Prometheus 的高级监控场景

现在，我们来看看 eBPF 和 Prometheus 结合起来，能实现哪些高级的监控功能。

1. 网络性能监控

TCP 连接延迟： 监控 TCP 连接建立、数据传输的延迟，快速定位网络瓶颈。
丢包率： 监控 TCP 丢包率，判断网络是否拥塞。
重传率： 监控 TCP 重传率，判断网络是否不稳定。
HTTP 请求延迟： 监控 HTTP 请求的各个阶段的延迟，例如 DNS 解析、TCP 连接、TLS 握手、服务器处理等等，找出影响 Web 应用性能的因素。
网络拥塞控制算法： 监控内核使用的网络拥塞控制算法的行为，例如 Cubic、BBR 等等，了解网络拥塞控制算法对应用性能的影响。

你可以使用 bcc 提供的 tcp_latency 工具来监控 TCP 连接延迟。这个工具会挂载到 tcp_sendmsg 和 tcp_recvmsg 这两个内核函数上，记录 TCP 消息的发送和接收时间，并计算出延迟。然后，你可以用 Prometheus 抓取这个工具暴露的指标，并用 Grafana 可视化。

2. 安全事件检测

恶意进程检测： 监控进程的系统调用行为，判断进程是否在执行恶意操作，例如访问敏感文件、创建恶意进程等等。
异常网络连接： 监控进程的网络连接行为，判断进程是否在进行异常的网络连接，例如连接到未知的 IP 地址、发送大量的恶意流量等等。
文件篡改检测： 监控文件的访问行为，判断文件是否被篡改。
内核漏洞利用检测： 监控内核函数的调用行为，判断是否存在内核漏洞被利用的情况。

你可以编写一个 eBPF 程序，挂载到 execve 系统调用上，监控进程的启动行为。如果发现有进程启动了可疑的程序，例如 /tmp/evil.sh，就可以发出告警。

3. 自定义指标监控

业务指标： 监控应用程序的业务指标，例如订单量、用户活跃度等等。你可以编写一个 eBPF 程序，挂载到应用程序的关键函数上，采集业务指标数据。
GC 延迟： 监控 JVM 的 GC 延迟，判断 JVM 是否存在性能问题。你可以编写一个 eBPF 程序，挂载到 JVM 的 GC 相关函数上，采集 GC 延迟数据。
数据库查询延迟： 监控数据库查询的延迟，判断数据库是否存在性能问题。你可以编写一个 eBPF 程序，挂载到数据库的查询相关函数上，采集查询延迟数据。

例如，你想监控 Nginx 的请求处理时间。你可以编写一个 eBPF 程序，挂载到 Nginx 的 ngx_http_process_request 函数上，记录请求的开始和结束时间，并计算出处理时间。然后，你可以用 Prometheus 抓取这个 eBPF 程序暴露的指标，并用 Grafana 可视化。

实践案例：使用 bcc 监控 TCP 连接延迟

这里我用一个简单的例子，演示如何使用 bcc 监控 TCP 连接延迟。

安装 bcc:

sudo apt-get update
sudo apt-get install bpfcc-tools linux-headers-$(uname -r)

运行 tcp_latency 工具:
```
sudo /usr/share/bcc/tools/tcp_latency
```
这个命令会启动 tcp_latency 工具，它会开始监控 TCP 连接延迟，并将结果打印到终端。
配置 Prometheus 抓取指标:

tcp_latency 工具默认会将指标暴露在 localhost:9101 上。你需要在 Prometheus 的配置文件中添加以下内容：
```
scrape_configs:
  - job_name: 'tcp_latency'
    static_configs:
      - targets: ['localhost:9101']
```
重启 Prometheus:
```
sudo systemctl restart prometheus
```
在 Grafana 中可视化:

在 Grafana 中创建一个新的 Dashboard，然后添加一个 Graph 面板。在 Graph 面板的 Query 中，输入 tcp_latency_us_sum 和 tcp_latency_us_count 这两个指标，就可以看到 TCP 连接延迟的统计信息了。

总结

eBPF 和 Prometheus 的结合，为我们打开了一扇通往高级监控的大门。通过 eBPF，我们可以深入到内核层面，采集各种有价值的数据。通过 Prometheus，我们可以对这些数据进行高效的可视化和告警。掌握了这两种技术，你就能更好地了解系统的运行状态，快速定位问题，并保障应用程序的稳定运行。

当然，eBPF 的学习曲线还是比较陡峭的。你需要掌握 C 语言、Linux 内核、以及 eBPF 的相关知识。不过，只要你肯花时间学习，相信你一定能掌握这门强大的技术。

Linux探索者 eBPF Prometheus 监控