eBPF 虚拟机：指令集与寄存器

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

2263 字

7 分钟

eBPF 虚拟机：指令集与寄存器

2026-03-18

eBPF

/

CPU

/

运行时

当你写下一个 eBPF 程序并用 clang 编译后，得到的不是 x86 机器码，而是一串 eBPF 字节码——它运行在一个内核内嵌的虚拟机中。理解这个虚拟机的指令集和寄存器模型，是深入 eBPF 的必经之路：它解释了 eBPF 程序能做什么、不能做什么，以及为什么 JIT 编译后能接近原生速度。

本章将逐条解析 eBPF 指令集，拆解寄存器约定，剖析内存访问模型，并揭示 JIT 编译的内部机制。

一、eBPF 虚拟机概述#

1.1 为什么需要虚拟机#

eBPF 选择虚拟机而非直接解释执行或原生编译，有三个核心原因：

安全隔离：虚拟机提供了指令级的访问控制，验证器可以在加载时检查每条指令的合法性
可移植性：eBPF 字节码与 CPU 架构无关，同一份字节码可以在 x86、ARM、RISC-V 上运行
性能平衡：JIT 编译将热点字节码转化为本机码，在安全与性能之间取得平衡

1.2 eBPF 与经典 BPF 的对比#

特性	经典 BPF (cBPF)	eBPF
指令宽度	32 位	64 位
寄存器	2 个（A、X）	10 个（r0-r9、r10）
寄存器宽度	32 位	64 位
指令数	~20 条	~130 条
寻址模式	间接寻址	绝对寻址 + 变址
跳转偏移	16 位	32 位
立即数	32 位	64 位
栈空间	无	512 字节

二、eBPF 指令编码格式#

2.1 指令结构#

每条 eBPF 指令固定 8 字节，采用小端编码：

1
+--------+--------+--------+--------+--------+--------+--------+--------+
2
|  op    | dst:4  | src:4  |        off (16 bit)       |       imm (32 bit)       |
3
| (8bit) | reg    | reg    |                           |                          |
4
+--------+--------+--------+---------------------------+--------------------------+

各字段含义：

字段	大小	说明
op	8 位	操作码，包含 class、source、opcode
dst_reg	4 位	目标寄存器（r0-r10）
src_reg	4 位	源寄存器（r0-r10）
off	16 位	有符号偏移量（跳转/内存访问）
imm	32 位	有符号立即数

2.2 指令编码可视化#

8 字节指令的内部布局：

graph LR subgraph "8 字节 eBPF 指令" OP["op 8 bit"] --> DST["dst_reg 4 bit"] DST --> SRC["src_reg 4 bit"] SRC --> OFF["off 16 bit"] OFF --> IMM["imm 32 bit"] end OP -.->|"class(3)"| CLASS["指令类别 ALU/JMP/MEM"] OP -.->|"source(1)"| SRC_MODE["操作数来源 K=立即数/X=寄存器"] OP -.->|"opcode(4)"| OPC["具体操作 ADD/SUB/MOV..."] style OP fill:#bbdefb,stroke:#1565c0 style IMM fill:#c8e6c9,stroke:#2e7d32 style OFF fill:#fff9c4,stroke:#f9a825

2.3 操作码解码#

8 位操作码 op 的结构：

1
op = class(3) | source(1) | opcode(4)

Class	值	含义
BPF_LD	0x00	加载操作（从数据包/内存加载）
BPF_LDX	0x01	加载到寄存器（从内存加载到 dst）
BPF_ST	0x02	存储（立即数写入内存）
BPF_STX	0x03	存储寄存器（寄存器值写入内存）
BPF_ALU	0x04	32 位算术逻辑运算
BPF_JMP	0x05	64 位跳转操作
BPF_JMP32	0x06	32 位跳转操作（5.1+）
BPF_ALU64	0x07	64 位算术逻辑运算

Source 字段：

Source	值	含义
BPF_K	0x00	使用立即数（imm）
BPF_X	0x08	使用源寄存器（src_reg）

三、寄存器模型#

3.1 十个寄存器#

eBPF 虚拟机定义了 10 个 64 位寄存器：

graph TB subgraph "eBPF 寄存器调用约定" R0["r0 返回值"] R1["r1 参数1"] R2["r2 参数2"] R3["r3 参数3"] R4["r4 参数4"] R5["r5 参数5"] R6["r6 callee-saved"] R7["r7 callee-saved"] R8["r8 callee-saved"] R9["r9 callee-saved"] R10["r10 帧指针(只读)"] end R1 & R2 & R3 & R4 & R5 -->|"Helper 调用时传入"| HELPER["Helper 函数"] HELPER -->|"返回值写入"| R0 R6 & R7 & R8 & R9 -.->|"调用后保留"| R6 style R0 fill:#c8e6c9,stroke:#2e7d32 style R1 fill:#bbdefb,stroke:#1565c0 style R2 fill:#bbdefb,stroke:#1565c0 style R3 fill:#bbdefb,stroke:#1565c0 style R4 fill:#bbdefb,stroke:#1565c0 style R5 fill:#bbdefb,stroke:#1565c0 style R6 fill:#fff9c4,stroke:#f9a825 style R7 fill:#fff9c4,stroke:#f9a825 style R8 fill:#fff9c4,stroke:#f9a825 style R9 fill:#fff9c4,stroke:#f9a825 style R10 fill:#ffcdd2,stroke:#c62828

寄存器	用途	调用约定
r0	返回值	函数返回值存于此
r1-r5	函数参数	传递参数给 Helper 函数，调用后不保留
r6-r9	通用寄存器	跨 Helper 调用保留
r10	帧指针	只读，指向 eBPF 栈帧起始地址

3.2 寄存器使用规则#

1
// eBPF 程序的寄存器使用示例
2
SEC("kprobe/do_sys_open")
3
int trace_open(struct pt_regs *ctx)
4
{
5
    // r1 = ctx（第一个参数，由内核传入）
6
    // r10 = 栈帧指针（只读）
7

8
    u32 pid;            // 可能使用 r6-r9 保存
9
    struct event *e;
10

11
    pid = bpf_get_current_pid_tgid() >> 32;  // r0 = 返回值
12

13
    // 调用 Helper 函数时：
14
    // r1 = 第1个参数（Map 指针）
15
    // r2 = 第2个参数（key 指针）
16
    // r3 = 第3个参数（value 指针）
17
    // r4 = 第4个参数（flags）
18
    // r1-r5 在调用后被破坏
19
    // r6-r9 在调用后保留
20

21
    e = bpf_ringbuf_reserve(&events, sizeof(*e), 0);
22
    // r0 = 返回值（e 指针）
23

24
    return 0;  // r0 = 返回值
25
}

Note

r10（帧指针）是只读的——你不能修改它。eBPF 栈大小固定为 512 字节，r10 始终指向栈顶。所有栈上变量的访问都通过 r10 + offset 完成。

3.3 寄存器与 x86_64 的映射#

JIT 编译时，eBPF 寄存器映射到 x86_64 物理寄存器：

eBPF 寄存器	x86_64 寄存器	说明
r0	rax	返回值
r1	rdi	第1个参数
r2	rsi	第2个参数
r3	rdx	第3个参数
r4	rcx	第4个参数
r5	r8	第5个参数
r6	rbx	被调用者保存
r7	r13	被调用者保存
r8	r14	被调用者保存
r9	r15	被调用者保存
r10	rbp	帧指针

四、指令集详解#

4.1 ALU 指令（算术逻辑运算）#

64 位 ALU 指令（class = BPF_ALU64 = 0x07）：

指令	操作码	语义	示例
BPF_ADD	0x00	dst += src/imm	r1 += r2
BPF_SUB	0x10	dst -= src/imm	r1 -= 8
BPF_MUL	0x20	dst *= src/imm	r1 *= 3
BPF_DIV	0x30	dst /= src/imm	r1 /= r2
BPF_OR	0x40	dst \|= src/imm	r1 \|= 0xFF
BPF_AND	0x50	dst &= src/imm	r1 &= 0xF
BPF_LSH	0x60	dst <<= src/imm	r1 <<= 4
BPF_RSH	0x70	dst >>= src/imm (无符号)	r1 >>= 8
BPF_NEG	0x80	dst = -dst	r1 = -r1
BPF_MOD	0x90	dst %= src/imm	r1 %= 256
BPF_XOR	0xa0	dst ^= src/imm	r1 ^= r2
BPF_MOV	0xb0	dst = src/imm	r1 = 42
BPF_ARSH	0xc0	dst >>= src/imm (有符号)	r1 >>>= 4

32 位 ALU 指令（class = BPF_ALU = 0x04）执行相同操作，但只操作低 32 位，高位清零。

1
// ALU 指令示例（eBPF C 代码 → 字节码）
2
// r1 = 10
3
// r1 += 20
4
// r1 *= 2
5
// r1 >>= 2
6
// 等价于 C: u64 r1 = (10 + 20) * 2 >> 2 = 15

4.2 JMP 指令（跳转操作）#

指令	操作码	语义
BPF_JA	0x00	无条件跳转：PC += off
BPF_JEQ	0x10	if dst == src/imm goto off
BPF_JGT	0x20	if dst > src/imm goto off (无符号)
BPF_JGE	0x30	if dst >= src/imm goto off (无符号)
BPF_JSET	0x40	if dst & src/imm goto off
BPF_JNE	0x50	if dst != src/imm goto off
BPF_JSGT	0x60	if dst > src/imm goto off (有符号)
BPF_JSGE	0x70	if dst >= src/imm goto off (有符号)
BPF_JLT	0xa0	if dst < src/imm goto off (无符号)
BPF_JLE	0xb0	if dst <= src/imm goto off (无符号)
BPF_JSLT	0xc0	if dst < src/imm goto off (有符号)
BPF_JSLE	0xd0	if dst <= src/imm goto off (有符号)

1
// JMP 指令示例
2
if (pid == 1) {         // BPF_JEQ: if r1 == 1 goto +2
3
    action = "init";    // BPF_MOV: r0 = "init"
4
} else {                // BPF_JA: goto +1
5
    action = "other";   // BPF_MOV: r0 = "other"
6
}

4.3 内存指令#

指令	语义	示例
BPF_LDX_MEM	dst = (size )(src + off)	r1 = (u32 )(r2 + 4)
BPF_ST_MEM	(size )(dst + off) = imm	(u32 )(r1 + 0) = 42
BPF_STX_MEM	(size )(dst + off) = src	(u64 )(r10 - 8) = r1
BPF_STX_XADD	(size )(dst + off) += src	atomic add（原子加）

支持的内存访问大小：

大小	值	说明
BPF_W	0x00	32 位（4 字节）
BPF_H	0x08	16 位（2 字节）
BPF_B	0x10	8 位（1 字节）
BPF_DW	0x18	64 位（8 字节）

1
// 内存访问示例：从上下文读取数据
2
SEC("kprobe/do_sys_open")
3
int trace_open(struct pt_regs *ctx)
4
{
5
    // 从 ctx 读取参数（内存加载）
6
    // 等价于: r1 = *(u64 *)(ctx + 8)
7
    // 即读取 pt_regs->di（第一个参数）
8

9
    // 栈上存储临时变量
10
    u32 key = 1;  // *(u32 *)(r10 - 4) = 1
11

12
    // Map 操作
13
    u64 *val = bpf_map_lookup_elem(&my_map, &key);
14
    // 返回值在 r0 中
15
}

4.4 特殊指令#

指令	语义	说明
BPF_CALL	调用 Helper 函数	imm = Helper 函数号
BPF_EXIT	程序退出	返回 r0 的值
BPF_ENDIAN	字节序转换	32/64 位大小端转换

1
// Helper 调用示例
2
// bpf_map_lookup_elem(&my_map, &key)
3
// 编译为：
4
// r1 = &my_map    (Map fd)
5
// r2 = &key       (key 指针)
6
// BPF_CALL bpf_map_lookup_elem  (imm = 1)
7
// r0 = 返回值（value 指针或 NULL）

五、eBPF 栈#

5.1 栈的特性#

eBPF 程序有一个固定大小的栈空间——512 字节。这个限制是验证器强制执行的：

栈通过 r10（帧指针）访问，地址从 r10 向低地址增长
栈上可以存放局部变量、函数参数
栈空间不可动态扩展

Warning

512 字节的栈空间非常有限！在 eBPF 程序中，你必须谨慎使用栈空间。避免在栈上分配大数组或大结构体。如果需要更大的数据存储，使用 Map。

5.2 栈使用示例#

1
SEC("kprobe/do_sys_open")
2
int trace_open(struct pt_regs *ctx)
3
{
4
    // 栈上变量（通过 r10 + offset 访问）
5
    struct event e;      // 占用栈空间 sizeof(struct event)
6
    u32 pid;             // 占用栈空间 4 字节
7
    char comm[16];       // 占用栈空间 16 字节
8

9
    // 验证器会跟踪栈空间使用
10
    // 如果总使用超过 512 字节，加载会被拒绝
11

12
    pid = bpf_get_current_pid_tgid() >> 32;
13
    bpf_get_current_comm(&comm, sizeof(comm));
14

15
    e.pid = pid;
16
    __builtin_memcpy(&e.comm, comm, sizeof(comm));
17

18
    bpf_ringbuf_output(&events, &e, sizeof(e), 0);
19

20
    return 0;
21
}

六、JIT 编译#

6.1 JIT 的工作原理#

JIT（Just-In-Time）编译器将 eBPF 字节码翻译为目标架构的本机机器码，大幅提升执行效率：

6.2 JIT 编译的性能提升#

执行方式	相对性能	说明
解释执行	1x（基准）	每条指令需要一次分发
JIT 编译	2-5x	直接执行本机码
原生 C 代码	3-8x	无验证器开销

6.3 JIT 编译过程#

1
// 内核 JIT 编译流程（简化）
2
struct bpf_prog *bpf_int_jit_compile(struct bpf_prog *prog)
3
{
4
    // 1. 分配内存（可执行页面）
5
    // 2. 逐条翻译 eBPF 指令为 x86 指令
6
    // 3. 处理跳转目标地址
7
    // 4. 刷新指令缓存
8
    // 5. 设置 prog->bpf_func 指向 JIT 代码
9

10
    // 关键优化：
11
    // - 常量折叠（编译期计算常量表达式）
12
    // - 死代码消除（移除不可达代码）
13
    // - 跳转优化（短跳转替代长跳转）
14
}

6.4 查看 JIT 输出#

1
# 查看 JIT 编译后的机器码
2
sudo bpftool prog dump jited id 123
3

4
# 输出示例（x86_64）：
5
# 0: push   rbp
6
# 1: mov    rbp, rsp
7
# 4: sub    rsp, 0x200
8
# b: mov    rdi, r1          # ctx → r1
9
# e: mov    eax, 0x0
10
# 13: call   0xffffffffe0a0  # bpf_get_current_pid_tgid
11
# 18: shr    rax, 0x20       # pid = tgid >> 32

七、尾调用与程序链接#

7.1 尾调用机制#

尾调用允许一个 eBPF 程序跳转到另一个 eBPF 程序，实现程序组合和逻辑拆分：

1
// 尾调用跳转表
2
struct {
3
    __uint(type, BPF_MAP_TYPE_PROG_ARRAY);
4
    __uint(max_entries, 8);
5
    __type(key, __u32);
6
    __type(value, __u32);
7
} prog_array SEC(".maps");
8

9
// 主程序
10
SEC("xdp")
11
int xdp_main(struct xdp_md *ctx)
12
{
13
    // 根据协议类型跳转到不同处理程序
14
    if (is_tcp(ctx))
15
        bpf_tail_call(ctx, &prog_array, 0);  // 跳转到 TCP 处理
16
    else if (is_udp(ctx))
17
        bpf_tail_call(ctx, &prog_array, 1);  // 跳转到 UDP 处理
18

19
    // 如果尾调用失败，继续执行默认处理
20
    return XDP_PASS;
21
}
22

23
// TCP 处理程序
24
SEC("xdp")
25
int xdp_tcp(struct xdp_md *ctx)
26
{
27
    // TCP 专用处理逻辑
28
    return XDP_PASS;
29
}

7.2 尾调用的限制#

限制	值	说明
最大嵌套深度	8 层	防止无限递归
栈不继承	—	尾调用后原程序栈被替换
调用不返回	—	尾调用后不回到原程序

八、指令集实战：手写 eBPF 字节码#

8.1 使用 Python 构造字节码#

1
#!/usr/bin/env python3
2
"""手写 eBPF 字节码：统计 execve 调用次数"""
3

4
import ctypes
5
import os
6

7
# eBPF 指令编码
8
class BpfInsn(ctypes.LittleEndianStructure):
9
    _fields_ = [
10
        ("code",  ctypes.c_uint8),
11
        ("dst",   ctypes.c_uint8, 4),
12
        ("src",   ctypes.c_uint8, 4),
13
        ("off",   ctypes.c_int16),
14
        ("imm",   ctypes.c_int32),
15
    ]
16

17
# 指令构造辅助
18
def alu64(op, dst, src=0, imm=0, off=0):
19
    return BpfInsn(op | 0x07 | (0x08 if src else 0), dst, src, off, imm)
20

21
def mov64(dst, imm):
22
    return alu64(0xb0, dst, imm=imm)  # BPF_MOV | BPF_ALU64 | BPF_K
23

24
def exit_insn():
25
    return BpfInsn(0x95, 0, 0, 0, 0)  # BPF_EXIT
26

27
def call_insn(helper_id):
28
    return BpfInsn(0x85, 0, 0, 0, helper_id)  # BPF_CALL
29

30
# 构造简单程序：r0 = 42; return r0
31
prog = [
32
    mov64(0, 42),   # r0 = 42
33
    exit_insn(),     # return r0
34
]
35

36
# 编译为字节码
37
buf = b''
38
for insn in prog:
39
    buf += bytes(insn)

8.2 使用 bpftool 反汇编#

1
# 从 .o 文件反汇编 eBPF 字节码
2
llvm-objdump -S -no-show-raw-insn hello.bpf.o
3

4
# 输出示例：
5
# hello.bpf.o:    file format elf64-bpf
6
#
7
# Disassembly of section tracepoint/syscalls/sys_enter_execve:
8
# hello_execve:
9
#        0: r1 = *(u32 *)(r1 + 24)
10
#        1: r6 = r1
11
#        2: r1 = 0 ll
12
#        4: r1 = map_lookup_elem(r1, &r6)
13
#        5: if r1 == 0 goto +3
14
#        6: r0 = *(u64 *)(r1 + 0)
15
#        7: r0 += 1
16
#        8: *(u64 *)(r1 + 0) = r0
17
#        9: r0 = 0
18
#       10: exit

九、eBPF 指令集与 RISC-V 的渊源#

eBPF 指令集的设计深受 RISC 架构影响，特别是 RISC-V：

设计原则	eBPF	RISC-V
固定指令长度	8 字节	4 字节
Load/Store 架构	是	是
寄存器数量	10	32
立即数编码	32 位	12/20 位
分支延迟槽	无	无

eBPF 选择 Load/Store 架构意味着：所有运算都在寄存器之间进行，内存只能通过专门的加载/存储指令访问。这使得验证器可以精确追踪每个寄存器的类型和范围。

十、动手实践#

10.1 查看 eBPF 程序的字节码#

1
# 编译一个简单的 eBPF 程序
2
cat > simple.bpf.c << 'EOF'
3
#include <linux/bpf.h>
4
#include <bpf/bpf_helpers.h>
5

6
SEC("xdp")
7
int simple_xdp(struct xdp_md *ctx)
8
{
9
    void *data = (void *)(long)ctx->data;
10
    void *data_end = (void *)(long)ctx->data_end;
11

12
    if (data + 14 > data_end)  // 以太网头最小 14 字节
13
        return XDP_PASS;
14

15
    return XDP_PASS;
16
}
17

18
char LICENSE[] SEC("license") = "GPL";
19
EOF
20

21
clang -O2 -target bpf -c simple.bpf.c -o simple.bpf.o
22

23
# 查看字节码
24
llvm-objdump -S simple.bpf.o

10.2 对比 JIT 前后的代码#

1
# 加载程序
2
sudo bpftool prog load simple.bpf.o /sys/fs/bpf/simple type xdp
3

4
# 查看程序 ID
5
sudo bpftool prog list | grep xdp
6

7
# 查看 xlated 字节码（JIT 前）
8
sudo bpftool prog dump xlated id <ID>
9

10
# 查看 jited 机器码（JIT 后）
11
sudo bpftool prog dump jited id <ID>

10.3 使用 bpftrace 观察指令执行#

1
# 追踪 eBPF 程序的 Helper 调用
2
sudo bpftrace -e 'kprobe:bpf_helper_* { printf("helper: %s\n", func); }'
3

4
# 追踪 JIT 编译事件
5
sudo bpftrace -e 'kprobe:bpf_int_jit_compile { printf("JIT compile: prog=%p\n", arg0); }'

十一、本章小结#

上一章从全景视角介绍了eBPF 全景与应用场景。

主题	核心要点	关键词
指令编码	每条指令 8 字节，包含操作码、寄存器、偏移和立即数	8 字节, 操作码
寄存器模型	10 个 64 位寄存器，r0 返回值、r1-r5 参数、r6-r9 保留、r10 帧指针	r0-r10, 调用约定
指令分类	ALU（算术逻辑）、JMP（跳转）、内存（加载/存储）、特殊（调用/退出）	ALU, JMP, 内存指令
栈空间	固定 512 字节，通过 r10 帧指针访问	512B, 帧指针
JIT 编译	将字节码编译为本机码，性能提升 2-5 倍	字节码→本机码, 性能
尾调用	程序间跳转机制，最多 8 层嵌套	tail_call, 8 层