使用 eBPF 追踪 Java 方法执行耗时：原理、实践与注意事项

2025/6/26 16:48:29 234 0 0 0

在性能优化领域，精准地定位性能瓶颈至关重要。对于 Java 应用而言，了解特定方法的执行耗时是进行性能分析的关键一步。传统的 profiling 工具虽然强大，但往往会带来较高的性能开销。而 eBPF (extended Berkeley Packet Filter) 作为一种内核技术，以其低开销和高灵活性，为我们提供了一种全新的性能追踪手段。

1. 什么是 eBPF？

eBPF 最初设计用于网络数据包过滤，但现在已发展成为一个通用的内核虚拟机，允许用户在内核中安全地运行自定义代码。eBPF 程序可以 hook 内核和用户空间的各种事件，例如函数调用、系统调用、网络事件等，并收集相关数据。与传统的内核模块相比，eBPF 程序运行在沙箱环境中，并经过严格的验证，从而保证了系统的安全性和稳定性。

eBPF 的优势在于：

低开销： eBPF 程序在内核中运行，避免了用户态和内核态之间的频繁切换，从而降低了性能开销。
高灵活性： eBPF 允许用户自定义追踪逻辑，可以根据具体需求收集各种性能指标。
安全性： eBPF 程序运行在沙箱环境中，并经过严格的验证，保证了系统的安全性和稳定性。

2. 为什么使用 eBPF 追踪 Java 方法执行耗时？

对于 Java 应用，传统的 profiling 工具（例如 JProfiler、YourKit 等）通常基于 Java Agent 技术，通过修改字节码来实现性能追踪。这种方式虽然功能强大，但会带来一定的性能开销，尤其是在高并发场景下。

使用 eBPF 追踪 Java 方法的执行耗时，可以有效地降低性能开销。eBPF 程序直接在内核中运行，无需修改 Java 字节码，从而避免了额外的性能损耗。此外，eBPF 还可以追踪更底层的系统调用和内核事件，帮助我们更全面地了解 Java 应用的性能瓶颈。

3. 如何编写 eBPF 程序追踪 Java 方法执行耗时？

使用 eBPF 追踪 Java 方法的执行耗时，主要涉及以下几个步骤：

3.1 选择合适的 probe 类型

eBPF 提供了多种 probe 类型，用于 hook 不同的事件。对于追踪 Java 方法的执行耗时，我们可以使用 uprobe 和 uretprobe。

uprobe：在用户空间函数的入口处插入 probe，可以获取函数的参数和局部变量。
uretprobe：在用户空间函数的返回处插入 probe，可以获取函数的返回值。

我们可以使用 uprobe 记录方法的开始时间，使用 uretprobe 记录方法的结束时间，然后计算耗时。

3.2 确定需要 hook 的 Java 方法的地址

要使用 eBPF 追踪 Java 方法，首先需要确定该方法在内存中的地址。由于 Java 代码会经过 JIT (Just-In-Time) 编译，因此方法的地址可能会发生变化。一种常用的方法是使用 perf map 来获取 JIT 编译后的方法的地址。

perf map 是一个记录 JIT 编译后的代码地址和符号信息的映射表。我们可以通过读取 /tmp/perf-pid.map 文件来获取 Java 方法的地址，其中 pid 是 Java 进程的 ID。

例如，假设我们要追踪 com.example.MyClass.myMethod() 方法的执行耗时，可以使用以下命令来获取该方法的地址：

jcmd <pid> VM.native_memory summary | grep perf-pid.map
cat /tmp/perf-<pid>.map | grep com.example.MyClass.myMethod

3.3 编写 eBPF 代码

接下来，我们需要编写 eBPF 代码来记录方法的开始时间和结束时间，并计算耗时。以下是一个简单的 eBPF 程序的示例：

#include <uapi/linux/ptrace.h>

struct data_t {
    u64 ts;
    u64 pid;
    u64 duration;
    char comm[64];
};

BPF_HASH(start, u64, u64);
BPF_PERF_OUTPUT(events);

int uprobe(struct pt_regs *ctx) {
    u64 pid = bpf_get_current_pid_tgid();
    u64 ts = bpf_ktime_get_ns();
    start.update(&pid, &ts);
    return 0;
}

int uretprobe(struct pt_regs *ctx) {
    u64 pid = bpf_get_current_pid_tgid();
    u64 *tsp = start.lookup(&pid);
    if (tsp == NULL) {
        return 0;
    }
    u64 ts = bpf_ktime_get_ns();
    u64 delta = ts - *tsp;
    start.delete(&pid);

    struct data_t data = {};
    data.ts = ts;
    data.pid = pid;
    data.duration = delta;
    bpf_get_current_comm(&data.comm, sizeof(data.comm));
    events.perf_submit(ctx, &data, sizeof(data));

    return 0;
}

该 eBPF 程序使用 BPF_HASH 来存储每个进程的开始时间，使用 BPF_PERF_OUTPUT 将数据发送到用户空间。

uprobe 函数在方法入口处被调用，记录当前时间和进程 ID，并将其存储在 start hash map 中。

uretprobe 函数在方法返回处被调用，从 start hash map 中获取开始时间，计算耗时，并将数据发送到用户空间。

3.4 编写用户态程序

最后，我们需要编写用户态程序来加载 eBPF 程序，并读取和展示数据。以下是一个简单的用户态程序的示例：

from bcc import BPF

# 加载 eBPF 程序
b = BPF(src_file="trace.c")

# 替换地址
func_name = "com.example.MyClass.myMethod"
addr = b.find_function_of(func_name)
if addr == 0:
    print("Cannot find function: %s" % func_name)
    exit()

b.attach_uprobe(name=None, sym_addr=addr, fn_name="uprobe")
b.attach_uretprobe(name=None, sym_addr=addr, fn_name="uretprobe")

# 定义数据结构
class Data(ct.Structure):
    _fields_ = [("ts", ct.c_ulonglong),
                ("pid", ct.c_ulonglong),
                ("duration", ct.c_ulonglong),
                ("comm", ct.c_char * 64)]

# 定义回调函数
def print_event(cpu, data, size):
    event = ct.cast(data, ct.POINTER(Data)).contents
    print("%s\t%d\t%d" % (event.comm.decode('utf-8', 'replace'), event.pid, event.duration))

# 注册回调函数
b["events"].open_perf_buffer(print_event)

# 循环读取数据
while True:
    try:
        b.perf_buffer_poll()
    except KeyboardInterrupt:
        exit()

该用户态程序使用 bcc 库来加载 eBPF 程序，并将 uprobe 和 uretprobe 附加到指定的 Java 方法上。然后，它循环读取 eBPF 程序发送的数据，并将其打印到控制台。

4. 示例代码

以下是一个完整的示例，演示如何使用 eBPF 追踪一个简单的 Java 方法的执行耗时。

4.1 Java 代码

package com.example;

public class MyClass {
    public static void main(String[] args) throws InterruptedException {
        while (true) {
            myMethod();
            Thread.sleep(1000);
        }
    }

    public static void myMethod() throws InterruptedException {
        Thread.sleep(100);
    }
}

4.2 eBPF 代码 (trace.c)

#include <uapi/linux/ptrace.h>

struct data_t {
    u64 ts;
    u64 pid;
    u64 duration;
    char comm[64];
};

BPF_HASH(start, u64, u64);
BPF_PERF_OUTPUT(events);

int uprobe(struct pt_regs *ctx) {
    u64 pid = bpf_get_current_pid_tgid();
    u64 ts = bpf_ktime_get_ns();
    start.update(&pid, &ts);
    return 0;
}

int uretprobe(struct pt_regs *ctx) {
    u64 pid = bpf_get_current_pid_tgid();
    u64 *tsp = start.lookup(&pid);
    if (tsp == NULL) {
        return 0;
    }
    u64 ts = bpf_ktime_get_ns();
    u64 delta = ts - *tsp;
    start.delete(&pid);

    struct data_t data = {};
    data.ts = ts;
    data.pid = pid;
    data.duration = delta;
    bpf_get_current_comm(&data.comm, sizeof(data.comm));
    events.perf_submit(ctx, &data, sizeof(data));

    return 0;
}

4.3 用户态程序 (trace.py)

import time
import sys
import ctypes as ct
from bcc import BPF

# 加载 eBPF 程序
b = BPF(src_file="trace.c")

# 替换地址
func_name = "com.example.MyClass.myMethod"
addr = b.find_function_of(func_name)
if addr == 0:
    print("Cannot find function: %s" % func_name)
    exit()

b.attach_uprobe(name=None, sym_addr=addr, fn_name="uprobe")
b.attach_uretprobe(name=None, sym_addr=addr, fn_name="uretprobe")

# 定义数据结构
class Data(ct.Structure):
    _fields_ = [("ts", ct.c_ulonglong),
                ("pid", ct.c_ulonglong),
                ("duration", ct.c_ulonglong),
                ("comm", ct.c_char * 64)]

# 定义回调函数
def print_event(cpu, data, size):
    event = ct.cast(data, ct.POINTER(Data)).contents
    print("%s\t%d\t%d" % (event.comm.decode('utf-8', 'replace'), event.pid, event.duration))

# 注册回调函数
b["events"].open_perf_buffer(print_event)

# 循环读取数据
while True:
    try:
        b.perf_buffer_poll()
    except KeyboardInterrupt:
        exit()

4.4 运行示例

编译 Java 代码：javac com/example/MyClass.java
运行 Java 代码：java com.example.MyClass
运行 eBPF 程序：sudo python trace.py

在控制台上，您将看到类似以下的输出：

java    1234    100000000
java    1234    101000000
java    1234    99000000
...

其中，java 是进程名称，1234 是进程 ID，100000000 是方法的执行耗时，单位是纳秒。

5. 注意事项

在使用 eBPF 追踪 Java 方法的执行耗时时，需要注意以下几点：

5.1 Java JIT 编译的影响

Java 代码会经过 JIT 编译，因此方法的地址可能会发生变化。为了保证追踪的准确性，我们需要定期更新方法的地址。一种常用的方法是使用 perf map 来获取 JIT 编译后的方法的地址，并在用户态程序中动态更新地址。

5.2 符号解析的挑战

在某些情况下，我们可能无法直接获取 Java 方法的符号信息。例如，如果 Java 代码使用了 native 方法，或者使用了动态代理，那么方法的符号信息可能无法解析。在这种情况下，我们可以尝试使用其他方法来确定方法的地址，例如使用 jdb 调试器。

5.3 安全性和性能开销

eBPF 程序运行在内核中，因此需要保证其安全性和稳定性。在编写 eBPF 程序时，需要遵循一些安全规则，例如避免访问非法内存，避免死循环等。此外，eBPF 程序的性能开销也需要考虑。虽然 eBPF 的开销相对较低，但在高并发场景下，仍然可能会对系统性能产生一定的影响。

6. 总结与展望

eBPF 作为一种强大的内核技术，为我们提供了一种全新的 Java 性能追踪手段。通过使用 eBPF，我们可以以较低的开销，精准地定位 Java 应用的性能瓶颈。然而，eBPF 追踪 Java 方法仍然面临一些挑战，例如 JIT 编译的影响，符号解析的挑战等。未来，随着 eBPF 技术的不断发展，相信这些问题将会得到更好的解决。

希望本文能够帮助您了解如何使用 eBPF 追踪 Java 方法的执行耗时。如果您有任何问题或建议，请随时与我联系。

PerfMa Boy eBPF Java性能追踪性能分析