x86 汇编语言入门 - souloss Blog

你写了一段 C 代码，编译器优化后性能反而变差了。打开 -S 输出看汇编，满屏的 movl、leaq、callq 完全读不懂。或者你在调试段错误，GDB 停在了一个没有源码的系统调用里，只能看汇编指令。无论做性能优化、安全逆向还是内核调试，x86 汇编都是绕不开的基础。本文从寄存器和内存模型讲起，带你建立对 x86 汇编的系统理解。

一、x86 架构概述#

1.1 x86 演进历史#

年份	架构	位宽	寄存器数量	特性
1978	8086	16 位	14	实模式
1985	386	32 位	16	保护模式、分页
2003	AMD64/x86-64	64 位	18+	长模式、更多寄存器
2011	AVX	256 位	16 XMM	向量运算
2017	AVX-512	512 位	32 ZMM	更宽向量

1.2 两种语法风格#

特性	AT&T	Intel (NASM)
操作数顺序	源, 目的	目的, 源
寄存器前缀	`%eax`	`eax`
立即数前缀	`$42`	`42`
内存操作	`offset(%base,%index,scale)`	`[base + index*scale + offset]`
指令后缀	`movl`, `movq`	`mov dword`, `mov qword`
注释	`#`	`;`

本文统一使用 AT&T 语法（GCC/GDB 默认），关键示例同时给出 Intel 语法对照。

二、寄存器#

2.1 通用寄存器#

64 位模式下，通用寄存器及其子寄存器关系：

1
| 63 ... 32 | 31 ... 16 | 15 ... 8 | 7 ... 0 |
2
|-----------|-----------|----------|---------|
3
|   RAX     |   EAX     |    AX    | AH | AL |
4
|   RBX     |   EBX     |    BX    | BH | BL |
5
|   RCX     |   ECX     |    CX    | CH | CL |
6
|   RDX     |   EDX     |    DX    | DH | DL |
7
|   RSI     |   ESI     |    SI    |    SIL  |
8
|   RDI     |   EDI     |    DI    |    DIL  |
9
|   RBP     |   EBP     |    BP    |    BPL  |
10
|   RSP     |   ESP     |    SP    |    SPL  |
11
|  R8-R15   |  R8D-R15D | R8W-R15W | R8B-R15B|

访问规则：

64 位：%rax, %r8
32 位：%eax, %r8d
16 位：%ax, %r8w
8 位低：%al, %r8b
8 位高：%ah（仅 AX/BX/CX/DX 有）

2.2 特殊用途寄存器#

寄存器	约定用途
`%rax`	函数返回值
`%rsp`	栈指针
`%rbp`	帧指针（调试用）
`%rip`	指令指针（程序计数器）
`%rdi`	第一个参数
`%rsi`	第二个参数
`%rdx`	第三个参数 / 乘除法扩展
`%rcx`	第四个参数 / 循环计数
`%r8`	第五个参数
`%r9`	第六个参数
`%r10`	Caller-saved / syscall 编号
`%r11`	Caller-saved
`%rbx`	Callee-saved（必须保存）
`%r12-r15`	Callee-saved（必须保存）

2.3 标志寄存器 RFLAGS#

常用标志位：

标志	位	含义
CF	0	进位标志
ZF	6	零标志
SF	7	符号标志
OF	11	溢出标志
DF	10	方向标志（字符串操作）

三、内存寻址#

3.1 寻址模式#

AT&T 语法通用格式：offset(%base, %index, scale)

计算地址 = %base + %index * scale + offset

其中 scale 只能是 1、2、4、8。

1
# AT&T
2
movl    $42, %eax              # 立即数
3
movl    %eax, %ebx             # 寄存器
4
movl    (%rsp), %eax           # 直接寻址
5
movl    8(%rsp), %eax          # 基址 + 偏移
6
movl    (%rsi, %rdi, 4), %eax  # 基址 + 索引 * 比例
7
movl    0x10(%rsi, %rdi, 4), %eax  # 完整格式

1
; Intel 等价
2
mov     eax, 42
3
mov     ebx, eax
4
mov     eax, [rsp]
5
mov     eax, [rsp + 8]
6
mov     eax, [rsi + rdi*4]
7
mov     eax, [rsi + rdi*4 + 0x10]

3.2 大端与小端#

x86 采用小端序（Little-Endian）：低字节存放在低地址。

1
# 存储 0x12345678 到内存 0x100
2
地址:  0x100  0x101  0x102  0x103
3
值:    0x78   0x56   0x34   0x12

四、常用指令#

4.1 数据传送#

1
movq    %rax, %rbx       # rbx = rax
2
movq    $42, %rax        # rax = 42
3
movq    (%rsp), %rax     # rax = *rsp
4
movq    %rax, (%rsp)     # *rsp = rax
5
leaq    8(%rsp), %rax    # rax = rsp + 8（取地址，不读内存）
6
xchgq   %rax, %rbx      # 交换 rax 和 rbx

4.2 算术运算#

1
addq    %rbx, %rax       # rax += rbx
2
subq    $1, %rax         # rax -= 1
3
imulq   %rbx, %rax       # rax *= rbx
4
incq    %rax             # rax++
5
decq    %rax             # rax--
6
negq    %rax             # rax = -rax

4.3 逻辑与位运算#

1
andq    $0xFF, %rax      # rax &= 0xFF
2
orq     %rbx, %rax       # rax |= rbx
3
xorq    %rax, %rax       # rax = 0（常用清零）
4
shlq    $4, %rax         # rax <<= 4
5
shrq    $8, %rax         # rax >>= 8（逻辑右移）
6
sarq    $1, %rax         # rax >>= 1（算术右移）
7
notq    %rax             # rax = ~rax

4.4 比较与测试#

1
cmpq    %rbx, %rax       # 计算 rax - rbx，设置标志位
2
testq   %rax, %rax       # 计算 rax & rax，检测是否为 0

4.5 条件跳转#

1
je      label            # 相等 (ZF=1)
2
jne     label            # 不等 (ZF=0)
3
jl      label            # 有符号小于 (SF!=OF)
4
jg      label            # 有符号大于 (ZF=0 且 SF=OF)
5
jb      label            # 无符号低于 (CF=1)
6
ja      label            # 无符号高于 (CF=0 且 ZF=0)
7
jle     label            # 有符号小于等于
8
jge     label            # 有符号大于等于
9
jbe     label            # 无符号低于等于
10
jae     label            # 无符号高于等于
11
js      label            # 负数 (SF=1)
12
jz      label            # 为零 (同 je)
13
jnz     label            # 非零 (同 jne)

4.6 条件传送#

条件传送比条件跳转更高效（避免分支预测失败）：

1
cmovle  %rbx, %rax       # 如果 rax <= rbx，rax = rbx
2
cmovne  %rcx, %rdx       # 如果不等，rdx = rcx

4.7 栈操作#

1
pushq   %rax             # rsp -= 8; *rsp = rax
2
popq    %rax             # rax = *rsp; rsp += 8

五、函数调用约定#

5.1 System V AMD64 ABI#

Linux/macOS 使用的调用约定：

参数传递：

参数序号	整数/指针	浮点数
1	`%rdi`	`%xmm0`
2	`%rsi`	`%xmm1`
3	`%rdx`	`%xmm2`
4	`%rcx`	`%xmm3`
5	`%r8`	`%xmm4`
6	`%r9`	`%xmm5`
7+	栈	栈

寄存器保存规则：

Caller-saved（调用者保存）：%rax, %rcx, %rdx, %rsi, %rdi, %r8, %r9, %r10, %r11
Callee-saved（被调用者保存）：%rbx, %rbp, %r12, %r13, %r14, %r15

5.2 函数栈帧#

1
# 典型函数序言/结语
2
pushq   %rbp              # 保存旧帧指针
3
movq    %rsp, %rbp        # 设置新帧指针
4
subq    $16, %rsp         # 分配局部变量空间
5

6
# ... 函数体 ...
7

8
movq    %rbp, %rsp        # 恢复栈指针
9
popq    %rbp              # 恢复帧指针
10
ret                       # 返回

栈帧布局（从高地址到低地址）：

1
| 返回地址     |  <- call 指令压入
2
| 旧 %rbp     |  <- push %rbp
3
| 局部变量 1  |  <- -8(%rbp)
4
| 局部变量 2  |  <- -16(%rbp)

5.3 函数调用示例#

C 代码：

1
int add(int a, int b) {
2
    return a + b;
3
}
4

5
int main() {
6
    int result = add(3, 4);
7
    return result;
8
}

对应汇编：

1
add:
2
    leal    (%rdi, %rsi), %eax   # eax = edi + esi
3
    ret
4

5
main:
6
    subq    $8, %rsp             # 栈对齐
7
    movl    $3, %edi             # 第一个参数
8
    movl    $4, %esi             # 第二个参数
9
    call    add                  # 调用 add
10
    addq    $8, %rsp             # 恢复栈
11
    ret

六、系统调用#

6.1 syscall 约定#

Linux x86-64 系统调用约定：

项目	约定
指令	`syscall`
编号	`%rax`
参数 1-6	`%rdi`, `%rsi`, `%rdx`, `%r10`, `%r8`, `%r9`
返回值	`%rax`
错误	返回值在 -4095 到 -1 之间

Note

注意：系统调用使用 %r10 而非 %rcx 传递第 4 个参数，因为 syscall 指令会覆盖 %rcx 和 %r11。

6.2 常用系统调用#

编号	名称	用途
0	`read`	读取
1	`write`	写入
2	`open`	打开文件
3	`close`	关闭文件
60	`exit`	退出
39	`getpid`	获取 PID

6.3 Hello World 示例#

1
.data
2
msg:
3
    .ascii "Hello, World!\n"
4
    len = . - msg
5

6
.text
7
.global _start
8
_start:
9
    # write(1, msg, len)
10
    movq    $1, %rax        # syscall: write
11
    movq    $1, %rdi        # fd: stdout
12
    leaq    msg(%rip), %rsi # buf: 字符串地址
13
    movq    $len, %rdx      # count: 长度
14
    syscall
15

16
    # exit(0)
17
    movq    $60, %rax       # syscall: exit
18
    xorq    %rdi, %rdi      # status: 0
19
    syscall

七、浮点运算#

7.1 SSE/AVX 寄存器#

寄存器	宽度	用途
`%xmm0` - `%xmm15`	128 位	SSE 浮点运算
`%ymm0` - `%ymm15`	256 位	AVX 浮点运算
`%zmm0` - `%zmm31`	512 位	AVX-512 运算

7.2 浮点指令#

1
# 标量浮点运算（SSE）
2
addss   %xmm0, %xmm1     # 单精度加法
3
addsd   %xmm0, %xmm1     # 双精度加法
4
mulss   %xmm0, %xmm1     # 单精度乘法
5
divsd   %xmm0, %xmm1     # 双精度除法
6

7
# 浮点比较
8
ucomiss %xmm0, %xmm1     # 单精度比较
9
ucomisd %xmm0, %xmm1     # 双精度比较
10

11
# 数据传送
12
movss   (%rsp), %xmm0    # 加载单精度
13
movsd   (%rsp), %xmm0    # 加载双精度

八、实战技巧#

8.1 使用 GDB 查看汇编#

1
# 反汇编当前函数
2
(gdb) disas
3

4
# 反汇编指定函数
5
(gdb) disas main
6

7
# Intel 语法
8
(gdb) set disassembly-flavor intel
9

10
# 查看寄存器
11
(gdb) info registers
12

13
# 查看标志位
14
(gdb) info registers eflags
15

16
# 单步执行（汇编级）
17
(gdb) si     # step instruction
18
(gdb) ni     # next instruction

8.2 使用 objdump#

1
# 反汇编整个文件
2
objdump -d program
3

4
# Intel 语法
5
objdump -d -M intel program
6

7
# 只看某个函数
8
objdump -d program | grep -A 20 '<main>'

8.3 编译器输出汇编#

1
# 生成汇编文件
2
gcc -S -masm=att program.c    # AT&T 语法
3
gcc -S -masm=intel program.c  # Intel 语法
4

5
# 不优化
6
gcc -O0 -S program.c
7

8
# 优化并查看
9
gcc -O2 -S program.c
10

11
# 包含 C 源码对照
12
gcc -g -S program.c

8.4 常见优化模式#

模式	优化前	优化后	说明
清零	`mov $0, %rax`	`xor %rax, %rax`	更短，更快
乘以 2 的幂	`imul $8, %rax`	`shl $3, %rax`	移位代替乘法
取模 2 的幂	`idiv $16`	`and $15, %rax`	位与代替除法
条件传送	`je/jmp`	`cmov`	避免分支预测失败
循环展开	循环 4 次	4 次顺序操作	减少循环开销

九、内联汇编#

9.1 GCC 内联汇编格式#

1
asm ( "汇编模板"
2
    : 输出操作数   /* 可选 */
3
    : 输入操作数   /* 可选 */
4
    : 修改的寄存器 /* 可选 */
5
);

9.2 基本示例#

1
// 读取时间戳计数器
2
static inline unsigned long rdtsc(void) {
3
    unsigned int lo, hi;
4
    asm volatile (
5
        "rdtsc"
6
        : "=a" (lo), "=d" (hi)
7
    );
8
    return ((unsigned long)hi << 32) | lo;
9
}
10

11
// 原子比较并交换
12
bool cas(long *ptr, long oldval, long newval) {
13
    unsigned char result;
14
    asm volatile (
15
        "lock; cmpxchgq %2, %1"
16
        : "=a" (result), "+m" (*ptr)
17
        : "r" (newval), "0" (oldval)
18
        : "memory"
19
    );
20
    return result;
21
}

9.3 约束字符#

约束	含义
`"r"`	任意通用寄存器
`"a"`	`%rax`/`%eax`/`%al`
`"b"`	`%rbx`/`%ebx`/`%bl`
`"c"`	`%rcx`/`%ecx`/`%cl`
`"d"`	`%rdx`/`%edx`/`%dl`
`"m"`	内存操作数
`"i"`	立即数（编译时常量）
`"0"`	与第 0 个输出操作数相同

参考资料#

Intel 64 and IA-32 Architectures Software Developer’s Manual - Intel CPU 官方指令集手册
System V Application Binary Interface AMD64 - Linux x86-64 ABI 规范
x86 指令参考 - x86 指令快速查询
GCC 内联汇编文档 - GCC 扩展汇编语法