Linux内核开发者的eBPF实战指南：追踪、诊断与性能优化

2025/4/27 17:23:46 263 0 0 0

作为一名Linux内核开发者，我们肩负着维护内核稳定性和性能的重任。面对日益复杂的系统环境和应用需求，传统的调试和性能分析方法往往显得力不从心。幸运的是，eBPF（扩展的伯克利包过滤器）技术的出现，为我们提供了一种强大而灵活的工具，能够深入内核内部，实时追踪函数调用、执行路径，并诊断性能瓶颈。本文将以实战角度出发，深入探讨eBPF在内核开发中的应用，助你掌握这项关键技能。

一、eBPF：内核观测的瑞士军刀

eBPF允许我们在内核中安全地运行用户自定义的代码，而无需修改内核源代码或重新编译内核。这些代码片段被称为eBPF程序，它们可以被附加到内核中的各种事件点（例如函数入口、函数返回、系统调用等），并在事件发生时被触发执行。eBPF程序通常用于以下目的

性能分析：追踪函数执行时间、CPU使用率、内存分配等，识别性能瓶颈。
安全审计：监控系统调用、网络流量等，检测潜在的安全威胁。
网络监控：捕获和分析网络数据包，进行流量分析和故障排查。
内核调试：追踪内核函数调用、变量值等，辅助内核bug的定位。

二、eBPF的核心组件

要理解eBPF的工作原理，我们需要了解其核心组件

BPF虚拟机：一个安全、受限的虚拟机，用于执行eBPF程序。它的指令集经过精心设计，以确保程序的安全性和性能。
Verifier：一个静态分析器，用于验证eBPF程序的安全性。它会检查程序是否包含非法操作（例如越界访问、无限循环等），以防止程序崩溃或损害内核。
JIT编译器：一个即时编译器，用于将eBPF程序编译成机器码，以提高执行效率。JIT编译器会根据目标CPU架构进行优化，以获得最佳性能。
Maps：用于在eBPF程序和用户空间程序之间共享数据的键值存储。eBPF程序可以将数据写入Map，用户空间程序可以读取Map中的数据，反之亦然。
Hooks：eBPF程序可以附加到的内核事件点。常见的Hook包括kprobes（内核探测点）、uprobes（用户空间探测点）、tracepoints（静态跟踪点）等。

三、eBPF在内核开发中的应用场景

接下来，我们将探讨eBPF在内核开发中的几个典型应用场景，并通过具体的代码示例来演示如何使用eBPF。

1. 追踪内核函数执行时间

在内核开发中，我们经常需要了解某个函数的执行时间，以便识别性能瓶颈。eBPF可以轻松地实现这一目标。下面是一个简单的eBPF程序，用于追踪do_sys_open函数的执行时间

#include <linux/kconfig.h>
#include <linux/ptrace.h>
#include <linux/version.h>

struct data_t {
 u64 pid;
 u64 ts;
 u64 duration;
 char comm[64];
};

BPF_HASH(start, u64, u64);
BPF_PERF_OUTPUT(events);

int kprobe__do_sys_open(struct pt_regs *ctx, int dfd, const char __user *filename, int flags, umode_t mode) {
 u64 pid = bpf_get_current_pid_tgid();
 u64 ts = bpf_ktime_get_ns();

 start.update(&pid, &ts);

 return 0;
}

int kretprobe__do_sys_open(struct pt_regs *ctx) {
 u64 pid = bpf_get_current_pid_tgid();
 u64 *tsp = start.lookup(&pid);
 if (tsp == NULL) {
 return 0;
 }

 u64 ts = bpf_ktime_get_ns();
 u64 delta = ts - *tsp;
 start.delete(&pid);

 struct data_t data = {};
 data.pid = pid;
 data.ts = ts;
 data.duration = delta;
 bpf_get_current_comm(&data.comm, sizeof(data.comm));

 events.perf_submit(ctx, &data, sizeof(data));

 return 0;
}

这个程序使用了kprobes和kretprobes，分别在do_sys_open函数的入口和返回处设置Hook。在入口处，程序记录当前时间戳；在返回处，程序计算函数的执行时间，并将结果通过events Map发送到用户空间。

用户空间程序可以使用perf工具来读取events Map中的数据，并进行分析

perf record -e bpf_program:events -a -g -- sleep 1
perf report

2. 追踪内核函数调用路径

有时候，我们需要了解某个函数是如何被调用的，以便理解其执行上下文。eBPF可以用来追踪函数调用路径，生成调用栈。

#include <linux/kconfig.h>
#include <linux/ptrace.h>
#include <linux/version.h>

struct data_t {
 u64 pid;
 u64 ts;
 u64 ip;
 u64 stack_id;
 char comm[64];
};

BPF_PERF_OUTPUT(events);
BPF_STACK_TRACE(stack_traces, 128);

int kprobe__do_sys_open(struct pt_regs *ctx) {
 u64 pid = bpf_get_current_pid_tgid();
 u64 ts = bpf_ktime_get_ns();
 u64 ip = PT_REGS_IP(ctx);

 struct data_t data = {};
 data.pid = pid;
 data.ts = ts;
 data.ip = ip;
 data.stack_id = stack_traces.get_stackid(ctx, 0);
 bpf_get_current_comm(&data.comm, sizeof(data.comm));

 events.perf_submit(ctx, &data, sizeof(data));

 return 0;
}

这个程序使用了BPF_STACK_TRACE宏来获取调用栈ID，并将ID与事件数据一起发送到用户空间。用户空间程序可以使用perf工具来解析调用栈，并生成调用图

perf record -e bpf_program:events -a -g -- sleep 1
perf script -F comm,pid,time,ip,sym,dso,stackid | ./stackcollapse.pl | ./flamegraph.pl > flamegraph.svg

3. 诊断内核锁竞争

锁竞争是内核中常见的性能问题之一。当多个CPU同时尝试获取同一个锁时，会导致锁竞争，降低系统性能。eBPF可以用来诊断锁竞争，帮助我们找到竞争激烈的锁。

#include <linux/kconfig.h>
#include <linux/ptrace.h>
#include <linux/version.h>

struct data_t {
 u64 pid;
 u64 ts;
 u64 lock_addr;
 char comm[64];
};

BPF_HASH(locks, u64, u64);
BPF_PERF_OUTPUT(events);

int kprobe__mutex_lock(struct pt_regs *ctx, struct mutex *lock) {
 u64 pid = bpf_get_current_pid_tgid();
 u64 ts = bpf_ktime_get_ns();
 u64 lock_addr = (u64)lock;

 u64 *countp = locks.lookup(&lock_addr);
 if (countp) {
 (*countp)++;
 } else {
 u64 init_count = 1;
 locks.update(&lock_addr, &init_count);
 }

 struct data_t data = {};
 data.pid = pid;
 data.ts = ts;
 data.lock_addr = lock_addr;
 bpf_get_current_comm(&data.comm, sizeof(data.comm));

 events.perf_submit(ctx, &data, sizeof(data));

 return 0;
}

这个程序在mutex_lock函数的入口处设置Hook，记录锁的地址和获取锁的次数。用户空间程序可以读取locks Map中的数据，并统计每个锁的竞争次数

from bcc import BPF

# 加载eBPF程序
b = BPF(src_file="lock_contention.c")

# 打印锁竞争信息
locks = b["locks"]
for k, v in sorted(locks.items(), key=lambda x: x[1].value, reverse=True):
 print("Lock address: 0x%x, contention count: %d" % (k.value, v.value))

四、eBPF的挑战与未来

尽管eBPF功能强大，但它也面临着一些挑战

学习曲线：eBPF编程需要一定的内核知识和编程经验。
安全风险：错误的eBPF程序可能会导致内核崩溃或安全漏洞。
性能开销：eBPF程序的执行会带来一定的性能开销，需要谨慎设计。

尽管如此，eBPF的未来仍然充满希望。随着技术的不断发展，eBPF将会在内核开发、性能分析、安全审计等领域发挥越来越重要的作用。

五、eBPF工具推荐

为了方便大家使用eBPF，我推荐以下几个常用的eBPF工具

bcc：一个Python库，提供了一组用于编写和运行eBPF程序的工具。
bpftrace：一种高级的eBPF跟踪语言，可以简化eBPF程序的编写。
perf：Linux内核自带的性能分析工具，可以与eBPF程序配合使用。

六、总结

eBPF是一项强大的技术，可以帮助Linux内核开发者深入了解内核的运行机制，诊断性能问题，并提高系统安全性。希望本文能够帮助你入门eBPF，并在实际工作中应用eBPF解决问题。记住，实践是最好的老师，多写代码，多做实验，你一定能够掌握eBPF这项关键技能。

作为一名内核开发者，我深知追踪内核函数调用和诊断性能瓶颈的重要性。eBPF的出现，无疑为我们提供了一把利器。它不仅能够帮助我们快速定位问题，还能够让我们更加深入地了解内核的运行机制。我相信，随着eBPF技术的不断发展，它将会在内核开发领域发挥越来越重要的作用。

希望这篇文章能够帮助你更好地理解和应用eBPF。如果你有任何问题或建议，欢迎在评论区留言，我们一起交流学习。

内核观测者 eBPF Linux内核性能分析

Linux内核开发者的eBPF实战指南：追踪、诊断与性能优化

评论点评