eBPF Hook 点：kprobe/tracepoint/uprobe

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

1421 字

4 分钟

eBPF Hook 点：kprobe/tracepoint/uprobe

2026-04-25

eBPF

/

底层原理

eBPF 程序本身只是一段逻辑——它需要挂载到内核的某个检查点（Hook 点）才能被触发执行。Hook 点决定了 eBPF 程序何时运行、能看到什么数据、能做什么操作。理解不同的 Hook 机制，是选择正确的 eBPF 程序类型和编写有效追踪程序的基础。

本章将深入三大 Hook 机制：kprobe（动态内核函数追踪）、tracepoint（静态追踪点）、uprobe（用户态函数追踪），以及 USDT（用户态静态追踪点）。

一、Hook 点全景#

1.1 Hook 点分类#

flowchart TB HOOK["eBPF Hook 点"] HOOK --> KERNEL["内核态 Hook"] HOOK --> USER["用户态 Hook"] HOOK --> NET["网络 Hook"] KERNEL --> KP["kprobe / kretprobe 动态内核函数追踪"] KERNEL --> TP["tracepoint 静态追踪点"] KERNEL --> LSM["LSM Hook 安全检查点"] KERNEL --> PERF["perf_event 性能计数器"] USER --> UP["uprobe / uretprobe 用户态函数追踪"] USER --> USDT["USDT 用户态静态追踪点"] NET --> XDP["XDP 驱动层数据包处理"] NET --> TC["TC 流量控制"] NET --> SKB["Socket / Skb Socket 操作"] style HOOK fill:#e8eaf6,stroke:#283593 style KERNEL fill:#e3f2fd,stroke:#1565c0 style USER fill:#e8f5e9,stroke:#2e7d32 style NET fill:#fff3e0,stroke:#e65100

1.2 Hook 点对比#

Hook 类型	稳定性	性能	灵活性	适用场景
kprobe	低（依赖内核函数名）	中	高（任意内核函数）	调试、快速验证
tracepoint	高（稳定 ABI）	高	中（预定义追踪点）	生产可观测性
uprobe	中（依赖函数名）	中	高（任意用户函数）	应用层追踪
USDT	高（稳定标记）	高	中（预定义标记）	应用性能分析
XDP	高	极高	中（网络专用）	网络数据包处理
TC	高	高	中（网络专用）	流量控制
LSM	高	中	中（安全专用）	安全策略

二、kprobe：动态内核函数追踪#

2.1 kprobe 的工作原理#

kprobe 是 Linux 内核的动态追踪机制，允许在几乎任意内核函数的入口和返回点插入探测：

kprobe 的实现机制：

内联替换：将目标函数的第一条指令替换为 INT3（x86 断点指令）
断点处理：CPU 执行到 INT3 时触发异常，进入 kprobe 处理
单步执行：执行原始指令（保存后恢复）
返回探测：在函数返回时触发 kretprobe

2.2 kprobe eBPF 程序#

1
#include <linux/bpf.h>
2
#include <bpf/bpf_helpers.h>
3
#include <bpf/bpf_tracing.h>
4

5
struct event {
6
    u32 pid;
7
    int ret;
8
    char comm[16];
9
};
10

11
struct {
12
    __uint(type, BPF_MAP_TYPE_RINGBUF);
13
    __uint(max_entries, 256 * 1024);
14
} events SEC(".maps");
15

16
// kprobe：在函数入口追踪
17
SEC("kprobe/do_sys_openat2")
18
int BPF_KPROBE(trace_open_entry, int dfd, const char *filename, int flags)
19
{
20
    u32 pid = bpf_get_current_pid_tgid() >> 32;
21

22
    // 过滤：只追踪 PID 为 1234 的进程
23
    if (pid != 1234)
24
        return 0;
25

26
    struct event *e = bpf_ringbuf_reserve(&events, sizeof(*e), 0);
27
    if (!e)
28
        return 0;
29

30
    e->pid = pid;
31
    bpf_get_current_comm(&e->comm, sizeof(e->comm));
32
    bpf_probe_read_kernel_str(&e->filename, sizeof(e->filename), filename);
33

34
    bpf_ringbuf_submit(e, 0);
35
    return 0;
36
}
37

38
// kretprobe：在函数返回追踪
39
SEC("kretprobe/do_sys_openat2")
40
int BPF_KRETPROBE(trace_open_return, int ret)
41
{
42
    u32 pid = bpf_get_current_pid_tgid() >> 32;
43
    if (pid != 1234)
44
        return 0;
45

46
    // ret 是函数返回值
47
    // 正数 = fd，负数 = 错误码
48
    if (ret < 0) {
49
        // 记录打开失败
50
    }
51
    return 0;
52
}
53

54
char LICENSE[] SEC("license") = "GPL";

2.3 kprobe 的优缺点#

优点	缺点
可以追踪任意内核函数	依赖内核函数名，不同版本可能变化
入口和返回都能追踪	函数内联后可能无法追踪
无需修改内核代码	性能开销比 tracepoint 高
使用简单	不属于稳定 ABI，可能随内核版本变化

Warning

kprobe 依赖内核函数名，而内核函数名不属于稳定的 ABI——不同内核版本可能重命名、内联或删除函数。生产环境优先使用 tracepoint。详见第 6 章：CO-RE 了解如何处理内核版本兼容性。

三、tracepoint：静态追踪点#

3.1 tracepoint 的工作原理#

tracepoint 是内核开发者预先定义的静态追踪点，通过 TRACE_EVENT 宏声明：

1
// 内核中定义 tracepoint 示例
2
TRACE_EVENT_FN(sys_enter_openat,
3
    TP_PROTO(struct pt_regs *regs, int dfd,
4
             const char __user *filename, int flags),
5
    TP_ARGS(regs, dfd, filename, flags),
6

7
    TP_STRUCT__entry(
8
        __field(int, __syscall_nr)
9
        __field(int, dfd)
10
        __string(filename, filename)
11
        __field(int, flags)
12
    ),
13

14
    TP_fast_assign(
15
        __entry->__syscall_nr = syscall_get_nr(current, regs);
16
        __entry->dfd = dfd;
17
        __assign_str(filename, filename);
18
        __entry->flags = flags;
19
    ),
20

21
    TP_printk("dfd=%d filename=%s flags=%x",
22
              __entry->dfd, __get_str(filename), __entry->flags)
23
);

3.2 tracepoint vs kprobe#

flowchart TB subgraph tracepoint["tracepoint（静态）"] TP_DEF["内核开发者定义 TRACE_EVENT 宏"] --> TP_STABLE["稳定 ABI 参数格式不变"] TP_STABLE --> TP_FAST["快速路径 静态跳转"] end subgraph kprobe["kprobe（动态）"] KP_DYN["运行时插入 INT3 断点"] --> KP_UNSTABLE["不稳定 函数可能变化"] KP_UNSTABLE --> KP_SLOW["较慢 断点异常处理"] end style tracepoint fill:#c8e6c9,stroke:#2e7d32 style kprobe fill:#fff9c4,stroke:#f9a825

3.3 tracepoint eBPF 程序#

1
#include <linux/bpf.h>
2
#include <bpf/bpf_helpers.h>
3

4
struct event {
5
    u32 pid;
6
    int dfd;
7
    int flags;
8
    char comm[16];
9
    char filename[256];
10
};
11

12
struct {
13
    __uint(type, BPF_MAP_TYPE_RINGBUF);
14
    __uint(max_entries, 256 * 1024);
15
} events SEC(".maps");
16

17
SEC("tracepoint/syscalls/sys_enter_openat")
18
int trace_openat(struct trace_event_raw_sys_enter *ctx)
19
{
20
    struct event *e;
21

22
    e = bpf_ringbuf_reserve(&events, sizeof(*e), 0);
23
    if (!e)
24
        return 0;
25

26
    e->pid = bpf_get_current_pid_tgid() >> 32;
27
    e->dfd = ctx->args[0];           // dfd 参数
28
    e->flags = ctx->args[2];         // flags 参数
29
    bpf_get_current_comm(&e->comm, sizeof(e->comm));
30

31
    // 读取 filename 参数（用户态指针）
32
    const char *filename = (const char *)ctx->args[1];
33
    bpf_probe_read_user_str(&e->filename, sizeof(e->filename), filename);
34

35
    bpf_ringbuf_submit(e, 0);
36
    return 0;
37
}
38

39
char LICENSE[] SEC("license") = "GPL";

3.4 查看系统中的 tracepoint#

1
# 列出所有可用的 tracepoint
2
sudo bpftool perf list
3

4
# 或者查看 tracepoint 文件系统
5
ls /sys/kernel/debug/tracing/events/
6
# bpf/  block/  cgroup/  cpuhp/  exceptions/  ext4/  filemap/
7
# f2fs/  fs_dax/  ftrace/  huge_memory/  i2c/  initcall/
8
# iomap/  irq/  irq_vectors/  jbd2/  kmem/  libata/
9
# mce/  mdio/  migrate/  mmap/  module/  napi/
10
# net/  numa/  oom/  pagemap/  power/  printk/
11
# ras/  raw_syscalls/  rcu/  regmap/  regulator/  rpm/
12
# rseq/  rtc/  sched/  scsi/  signal/  skb/
13
# smbus/  sock/  spi/  sunrpc/  swiotlb/  syscalls/
14
# task/  tcp/  thermal/  timer/  tlb/  udp/  vmscan/
15
# vsyscall/  workqueue/  writeback/  xdp/  xfs/
16

17
# 查看特定 tracepoint 的格式
18
sudo cat /sys/kernel/debug/tracing/events/syscalls/sys_enter_openat/format

3.5 常用 tracepoint 分类#

类别	tracepoint 路径	用途
系统调用	syscalls/sys_enter_*	追踪系统调用
调度	sched/sched_switch	进程切换
调度	sched/sched_process_exec	进程执行
调度	sched/sched_process_fork	进程创建
网络	net/netif_rx	网络收包
网络	tcp/tcp_probe	TCP 状态
文件系统	ext4/ext4_readpage	文件读取
内存	vmscan/mm_vmscan_direct_reclaim	内存回收
块设备	block/block_rq_issue	I/O 请求

四、uprobe：用户态函数追踪#

4.1 uprobe 的工作原理#

uprobe 是用户态程序的动态追踪机制，允许在任意用户态函数的入口和返回点插入探测：

flowchart LR subgraph 用户态进程 MAIN["main()"] -->|"调用"| MYFUNC["my_function()" "0x4005d6: push rbp"] MYFUNC -->|"返回"| MAIN end subgraph uprobe机制 UP["uprobe 在 0x4005d6 插入断点"] URP["uretprobe 在返回点插入探测"] end MYFUNC -->|"1. 触发"| UP MYFUNC -->|"2. 触发"| URP style UP fill:#bbdefb,stroke:#1565c0 style URP fill:#c8e6c9,stroke:#2e7d32

4.2 uprobe eBPF 程序#

1
#include <linux/bpf.h>
2
#include <bpf/bpf_helpers.h>
3
#include <bpf/bpf_tracing.h>
4

5
struct event {
6
    u32 pid;
7
    u64 duration_ns;
8
    char comm[16];
9
};
10

11
struct {
12
    __uint(type, BPF_MAP_TYPE_RINGBUF);
13
    __uint(max_entries, 256 * 1024);
14
} events SEC(".maps");
15

16
// 记录函数进入时间
17
struct {
18
    __uint(type, BPF_MAP_TYPE_HASH);
19
    __uint(max_entries, 10240);
20
    __type(key, u32);      // TID
21
    __type(value, u64);    // 入口时间戳
22
} start_times SEC(".maps");
23

24
// uprobe：在函数入口记录时间
25
SEC("uprobe")
26
int BPF_UPROBE(trace_func_entry)
27
{
28
    u64 pid_tgid = bpf_get_current_pid_tgid();
29
    u32 tid = (u32)pid_tgid;
30
    u64 ts = bpf_ktime_get_ns();
31

32
    bpf_map_update_elem(&start_times, &tid, &ts, BPF_ANY);
33
    return 0;
34
}
35

36
// uretprobe：在函数返回计算耗时
37
SEC("uretprobe")
38
int BPF_URETPROBE(trace_func_return)
39
{
40
    u64 pid_tgid = bpf_get_current_pid_tgid();
41
    u32 tid = (u32)pid_tgid;
42
    u64 *start_ts;
43

44
    start_ts = bpf_map_lookup_elem(&start_times, &tid);
45
    if (!start_ts)
46
        return 0;
47

48
    u64 duration = bpf_ktime_get_ns() - *start_ts;
49
    bpf_map_delete_elem(&start_times, &tid);
50

51
    struct event *e = bpf_ringbuf_reserve(&events, sizeof(*e), 0);
52
    if (!e)
53
        return 0;
54

55
    e->pid = pid_tgid >> 32;
56
    e->duration_ns = duration;
57
    bpf_get_current_comm(&e->comm, sizeof(e->comm));
58

59
    bpf_ringbuf_submit(e, 0);
60
    return 0;
61
}
62

63
char LICENSE[] SEC("license") = "GPL";

4.3 挂载 uprobe#

1
# 使用 bpftool 挂载 uprobe
2
# 格式：binary:offset 或 binary:function_name
3

4
# 方式一：通过函数名（需要符号表）
5
sudo bpftool prog load uprobe.bpf.o /sys/fs/bpf/uprobe \
6
    type uprobe binary /usr/bin/myapp func my_function
7

8
# 方式二：通过偏移量
9
sudo bpftool prog load uprobe.bpf.o /sys/fs/bpf/uprobe \
10
    type uprobe binary /usr/bin/myapp offset 0x5d6
11

12
# 使用 bpftrace 挂载 uprobe（更简单）
13
sudo bpftrace -e 'uprobe:/usr/bin/myapp:my_function {
14
    printf("called by %s\n", comm);
15
}'

4.4 uprobe 的限制#

限制	说明
需要符号表	函数名必须在二进制文件的符号表中
内联函数	无法追踪被内联的函数
偏移计算	不同编译版本的偏移可能不同
性能开销	比 kprobe 更高（需要唤醒目标进程）
多线程	同一函数被多线程调用时需注意并发

五、USDT：用户态静态追踪点#

5.1 USDT 的工作原理#

USDT（User Statically Defined Tracing）是开发者主动埋入的静态追踪点，类似于内核的 tracepoint：

1
// 在 C 程序中定义 USDT 探针
2
#include <sys/sdt.h>  // SystemTap DTrace 头文件
3

4
void handle_request(struct request *req)
5
{
6
    // 标记函数入口
7
    DTRACE_PROBE2(myapp, request_start, req->id, req->type);
8

9
    // 处理请求
10
    process_request(req);
11

12
    // 标记函数完成
13
    DTRACE_PROBE2(myapp, request_done, req->id, req->status);
14
}

5.2 USDT eBPF 程序#

1
#include <linux/bpf.h>
2
#include <bpf/bpf_helpers.h>
3

4
struct event {
5
    u32 pid;
6
    u64 request_id;
7
    int request_type;
8
};
9

10
struct {
11
    __uint(type, BPF_MAP_TYPE_RINGBUF);
12
    __uint(max_entries, 256 * 1024);
13
} events SEC(".maps");
14

15
SEC("usdt/myapp/request_start")
16
int trace_request_start(struct pt_regs *ctx)
17
{
18
    struct event *e;
19

20
    e = bpf_ringbuf_reserve(&events, sizeof(*e), 0);
21
    if (!e)
22
        return 0;
23

24
    e->pid = bpf_get_current_pid_tgid() >> 32;
25
    // USDT 参数通过 bpf_usdt_read_arg 读取
26
    bpf_usdt_read_arg(1, ctx, &e->request_id);   // 第1个参数
27
    bpf_usdt_read_arg(2, ctx, &e->request_type);  // 第2个参数
28

29
    bpf_ringbuf_submit(e, 0);
30
    return 0;
31
}
32

33
char LICENSE[] SEC("license") = "GPL";

5.3 查看 USDT 探针#

1
# 使用 bpftrace 列出二进制中的 USDT 探针
2
sudo bpftrace -l 'usdt:/usr/bin/myapp:*'
3

4
# 使用 readelf 查看 .note.stapsdt 段
5
readelf -n /usr/bin/myapp | grep stapsdt
6

7
# 使用 tplist（BCC 工具）
8
tplist -l /usr/bin/myapp

5.4 常见软件的 USDT 探针#

软件	USDT 探针	用途
MySQL	query__start, query__done	SQL 查询追踪
PostgreSQL	query__start, query__done	SQL 查询追踪
Nginx	http__request__start	HTTP 请求追踪
Python	function__entry, function__return	Python 函数追踪
Node.js	http__server__request	HTTP 请求追踪
Java	method__entry, method__return	Java 方法追踪
Ruby	method__entry, method__return	Ruby 方法追踪

六、Hook 点选择指南#

6.1 决策树#

flowchart TD START["选择 Hook 点"] --> Q1{"追踪内核还是用户态？"} Q1 -->|"内核"| Q2{"目标函数有 tracepoint？"} Q1 -->|"用户态"| Q3{"目标有 USDT 探针？"} Q2 -->|"有"| TP["使用 tracepoint 稳定、高效"] Q2 -->|"没有"| Q4{"需要生产环境稳定性？"} Q4 -->|"是"| TP2["寻找相近的 tracepoint 或添加新 tracepoint"] Q4 -->|"否"| KP[" 使用 kprobe 灵活但不稳定"] Q3 -->|"有"| USDT["使用 USDT 稳定、高效"] Q3 -->|"没有"| Q5{"需要生产环境稳定性？"} Q5 -->|"是"| USDT2["添加 USDT 探针到代码"] Q5 -->|"否"| UP[" 使用 uprobe 灵活但不稳定"] style TP fill:#c8e6c9,stroke:#2e7d32 style USDT fill:#c8e6c9,stroke:#2e7d32 style KP fill:#fff9c4,stroke:#f9a825 style UP fill:#fff9c4,stroke:#f9a825

6.2 性能开销对比#

Hook 类型	每次触发开销	适用频率
tracepoint	~1-2μs	百万级/秒
kprobe	~3-5μs	十万级/秒
uprobe	~5-10μs	万级/秒
USDT	~1-2μs	百万级/秒
XDP	~0.1-0.5μs	千万级/秒

七、动手实践#

7.1 使用 bpftrace 追踪内核函数#

1
# 追踪 do_sys_openat2 的调用（kprobe）
2
sudo bpftrace -e 'kprobe:do_sys_openat2 {
3
    printf("PID=%d COMM=%s\n", pid, comm);
4
}'
5

6
# 追踪 do_sys_openat2 的返回值（kretprobe）
7
sudo bpftrace -e 'kretprobe:do_sys_openat2 {
8
    printf("ret=%d\n", retval);
9
}'
10

11
# 追踪系统调用（tracepoint）
12
sudo bpftrace -e 'tracepoint:syscalls:sys_enter_openat {
13
    printf("%s: %s\n", comm, str(args->filename));
14
}'

7.2 追踪用户态函数#

1
# 追踪 bash 的 readline 函数
2
sudo bpftrace -e 'uprobe:/bin/bash:readline {
3
    printf("%s typed: %s\n", comm, str(retval));
4
}'
5

6
# 追踪 malloc 调用
7
sudo bpftrace -e 'uprobe:/lib/x86_64-linux-gnu/libc.so.6:malloc {
8
    printf("malloc(%d) by %s\n", arg0, comm);
9
}'

7.3 使用 libbpf 挂载 kprobe#

1
// 在用户态程序中挂载 kprobe
2
#include <bpf/libbpf.h>
3

4
int main()
5
{
6
    struct myprog_bpf *skel;
7

8
    skel = myprog_bpf__open_and_load();
9
    if (!skel)
10
        return 1;
11

12
    // 附加 kprobe
13
    skel->links.trace_open_entry =
14
        bpf_program__attach_kprobe(skel->progs.trace_open_entry,
15
                                    false,  // kprobe (not kretprobe)
16
                                    "do_sys_openat2");
17
    if (!skel->links.trace_open_entry) {
18
        fprintf(stderr, "Failed to attach kprobe\n");
19
        return 1;
20
    }
21

22
    // 事件循环...
23
    while (1) {
24
        ring_buffer__poll(rb, 100);
25
    }
26

27
    myprog_bpf__destroy(skel);
28
    return 0;
29
}

Warning

Hook 点的选择直接影响系统性能。kretprobe 比 kprobe 开销更大（需要跟踪返回地址），tracepoint 比 kprobe 更稳定但覆盖范围有限。生产环境优先选择 tracepoint，仅在 tracepoint 不可用时退而使用 kprobe。

八、本章小结#

上一章探讨了eBPF Map 数据结构。本章详解了 eBPF 的三大 Hook 机制：

主题	核心要点	关键词
kprobe	动态追踪任意内核函数，灵活但不稳定，适合调试和快速验证	kprobe
tracepoint	静态追踪点，稳定 ABI，高效，适合生产环境可观测性	tracepoint
uprobe	追踪用户态函数，灵活但开销较高，适合应用层追踪	uprobe
USDT	用户态静态追踪点，稳定高效，需要开发者主动埋点	USDT