SIMD 与向量化

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

1812 字

5 分钟

SIMD 与向量化

2026-02-08

CPU与计算机体系结构

CPU

/

底层原理

超标量和乱序执行是指令级并行（ILP）——多条指令同时执行。SIMD 是数据级并行（DLP）——一条指令同时处理多个数据。当 ILP 的天花板逼近时，SIMD 提供了另一条性能增长路径。

一条 AVX-512 指令可以同时处理 16 个 32 位浮点数或 8 个 64 位双精度数——理论上 16 倍的加速。但实际加速比取决于数据布局、对齐、依赖链等因素。

一、SIMD 的基本原理#

1.1 标量 vs 向量#

graph LR subgraph 标量["标量处理"] S1["ADD r1, r2, r3 1 对数据"] --> S2["ADD r4, r5, r6 1 对数据"] S2 --> S3["ADD r7, r8, r9 1 对数据"] S3 --> S4["ADD r10,r11,r12 1 对数据"] end subgraph SIMD["SIMD 处理"] V1["VADD zmm0, zmm1, zmm2 16 对数据同时处理！"] end style 标量 fill:#ffcdd2,stroke:#c62828 style SIMD fill:#e8f5e9,stroke:#2e7d32

1.2 SIMD 寄存器演进#

ISA	寄存器	宽度	32 位浮点数/指令	年份
x86 MMX	MM0-MM7	64 位	2	1997
x86 SSE	XMM0-XMM15	128 位	4	1999
x86 AVX	YMM0-YMM15	256 位	8	2011
x86 AVX-512	ZMM0-ZMM31	512 位	16	2017
ARM NEON	V0-V31	128 位	4	2005
ARM SVE	Z0-Z31	128-2048 位	可变	2016
RISC-V V	V0-V31	可变	可变	2021

1.3 SIMD 的性能潜力#

操作	标量吞吐量	AVX2 吞吐量	AVX-512 吞吐量	加速比
32 位浮点加法	2/周期	16/周期	32/周期	8-16x
32 位浮点乘法	2/周期	16/周期	32/周期	8-16x
32 位浮点 FMA	2/周期	16/周期	32/周期	8-16x
32 位整数加法	2/周期	16/周期	32/周期	8-16x

Note

实际加速比通常低于理论值，原因包括：数据未对齐、循环尾部处理、内存带宽瓶颈、AVX-512 降频等。

二、x86 SIMD 指令集#

2.1 SSE（Streaming SIMD Extensions）#

128 位寄存器（XMM），支持 4 个单精度浮点或 2 个双精度浮点：

1
#include <immintrin.h>
2

3
// SSE: 4 个浮点数同时加法
4
__m128 a = _mm_load_ps(src);           // 加载 4 个 float
5
__m128 b = _mm_set1_ps(2.0f);         // 广播 2.0 到 4 个位置
6
__m128 c = _mm_mul_ps(a, b);          // 同时乘法
7
_mm_store_ps(dst, c);                 // 存储 4 个 float

2.2 AVX / AVX2#

256 位寄存器（YMM），支持 8 个单精度浮点或 4 个双精度浮点：

1
// AVX: 8 个浮点数同时加法
2
__m256 a = _mm256_load_ps(src);        // 加载 8 个 float
3
__m256 b = _mm256_set1_ps(2.0f);      // 广播
4
__m256 c = _mm256_mul_ps(a, b);       // 同时乘法
5
_mm256_store_ps(dst, c);              // 存储 8 个 float
6

7
// AVX2: 8 个 32 位整数同时加法
8
__m256i a = _mm256_load_si256((__m256i*)src);
9
__m256i b = _mm256_set1_epi32(1);
10
__m256i c = _mm256_add_epi32(a, b);
11
_mm256_store_si256((__m256i*)dst, c);

2.3 AVX-512#

512 位寄存器（ZMM），32 个寄存器，掩码寄存器（k0-k7）：

1
// AVX-512: 16 个浮点数 + 掩码操作
2
__m512 a = _mm512_load_ps(src);
3
__m512 b = _mm512_set1_ps(2.0f);
4
__m512 c = _mm512_mul_ps(a, b);
5

6
// 掩码操作：只处理满足条件的元素
7
__mmask16 mask = _mm512_cmp_ps_mask(a, _mm512_setzero_ps(), _MM_CMPINT_GT);
8
// mask 的每一位表示对应元素是否 > 0
9
__m512 d = _mm512_mask_mul_ps(c, mask, a, b);  // 只对 mask=1 的元素执行乘法
10
_mm512_store_ps(dst, d);

2.4 AVX-512 的降频问题#

Warning

AVX-512 指令的功耗极高，Intel CPU 在执行 AVX-512 代码时会降低频率（AVX-512 downclocking）。典型降频幅度 100-300 MHz。如果代码中 AVX-512 和标量代码混合，频繁的频率切换可能导致整体性能下降。建议：要么全程使用 AVX-512，要么不使用。

CPU	AVX-512 降频	AVX2 降频	标量频率
Skylake-X	-200~-300 MHz	-100 MHz	基准
Ice Lake	-100~-200 MHz	0	基准
Sapphire Rapids	~0	0	基准

三、ARM NEON#

3.1 NEON 指令#

128 位寄存器，支持 4 个单精度浮点或 2 个双精度浮点：

1
#include <arm_neon.h>
2

3
// NEON: 4 个浮点数同时乘法
4
float32x4_t a = vld1q_f32(src);        // 加载 4 个 float
5
float32x4_t b = vdupq_n_f32(2.0f);    // 广播
6
float32x4_t c = vmulq_f32(a, b);      // 同时乘法
7
vst1q_f32(dst, c);                     // 存储 4 个 float
8

9
// NEON: 条件选择
10
uint32x4_t mask = vcgtq_f32(a, vdupq_n_f32(0.0f));  // a > 0 ?
11
float32x4_t d = vbslq_f32(mask, c, a);  // mask ? c : a

3.2 NEON vs SSE/AVX#

特性	NEON	SSE	AVX2
寄存器宽度	128 位	128 位	256 位
寄存器数量	32	16	16
掩码操作	vbslq	无	无
FMA	vfmaq	无	_mm256_fmadd_ps
对齐要求	无（但推荐对齐）	16 字节	32 字节

四、自动向量化#

4.1 编译器自动向量化的条件#

编译器能自动将循环向量化，但需要满足以下条件：

循环次数已知（或有明确的退出条件）
无循环携带依赖（每次迭代独立）
无函数调用（除非是编译器已知的内联函数）
简单的控制流（无复杂分支）
数据对齐（或编译器能处理非对齐）

4.2 帮助编译器自动向量化#

1
// 阻碍向量化的代码
2
void add_arrays(float *a, float *b, float *c, int n) {
3
    for (int i = 0; i < n; i++) {
4
        c[i] = a[i] + b[i];  // 编译器不知道 a/b/c 是否重叠
5
    }
6
}
7

8
// 使用 restrict 告知编译器指针不重叠
9
void add_arrays(float *restrict a, float *restrict b,
10
                float *restrict c, int n) {
11
    for (int i = 0; i < n; i++) {
12
        c[i] = a[i] + b[i];  // 编译器可以安全向量化
13
    }
14
}
15

16
// 使用编译器提示
17
#pragma GCC ivdep              // 告知编译器无依赖
18
#pragma clang loop vectorize(enable)  // Clang 专用
19
for (int i = 0; i < n; i++) {
20
    c[i] = a[i] + b[i];
21
}

4.3 检查自动向量化结果#

1
# GCC: 查看向量化报告
2
gcc -O3 -ftree-vectorize -fopt-info-vec-optimized your_code.c
3

4
# Clang: 查看向量化报告
5
clang -O3 -Rpass=loop-vectorize your_code.c
6

7
# 查看生成的 SIMD 指令
8
objdump -d your_program | grep -E "vmul|vadd|movaps|vmovaps"

五、SIMD 编程的实践技巧#

5.1 数据对齐#

1
// 对齐分配
2
float *arr = aligned_alloc(32, N * sizeof(float));  // AVX: 32 字节对齐
3
float *arr512 = aligned_alloc(64, N * sizeof(float));  // AVX-512: 64 字节对齐
4

5
// 对齐加载 vs 非对齐加载
6
__m256 a = _mm256_load_ps(aligned_ptr);    // 对齐加载，快
7
__m256 b = _mm256_loadu_ps(unaligned_ptr); // 非对齐加载，稍慢

5.2 SoA 布局配合 SIMD#

1
// AoS 布局：不利于 SIMD
2
struct Particle {
3
    float x, y, z, w;  // 交织存储
4
};
5
Particle particles[N];
6
// 加载所有 x 值需要 gather 指令，效率低
7

8
// SoA 布局：SIMD 友好
9
struct Particles {
10
    float x[N];  // 连续存储
11
    float y[N];
12
    float z[N];
13
    float w[N];
14
};
15
// 加载 8 个 x 值：_mm256_load_ps(x + i)，一次加载！

详见第 14 章：数据导向设计。

5.3 循环尾部处理#

1
void add_arrays_avx(float *a, float *b, float *c, int n) {
2
    int i = 0;
3
    // AVX2: 每次处理 8 个 float
4
    for (; i + 8 <= n; i += 8) {
5
        __m256 va = _mm256_loadu_ps(a + i);
6
        __m256 vb = _mm256_loadu_ps(b + i);
7
        __m256 vc = _mm256_add_ps(va, vb);
8
        _mm256_storeu_ps(c + i, vc);
9
    }
10
    // 处理剩余元素
11
    for (; i < n; i++) {
12
        c[i] = a[i] + b[i];
13
    }
14
}

5.4 Gather/Scatter 操作#

1
// AVX2 Gather: 从非连续地址收集数据
2
// 根据索引数组从源数组中收集 8 个元素
3
__m256i indices = _mm256_loadu_si256((__m256i*)idx_array);
4
__m256 result = _mm256_i32gather_ps(src, indices, 4);  // scale=4 (float 大小)
5

6
// Gather 比连续加载慢 3-5 倍，但比标量逐个加载快

六、SIMD 的性能实测#

6.1 向量加法基准测试#

1
#include <stdio.h>
2
#include <immintrin.h>
3
#include <time.h>
4

5
#define N 100000000
6

7
void add_scalar(float *a, float *b, float *c, int n) {
8
    for (int i = 0; i < n; i++) c[i] = a[i] + b[i];
9
}
10

11
void add_avx(float *a, float *b, float *c, int n) {
12
    int i = 0;
13
    for (; i + 8 <= n; i += 8) {
14
        __m256 va = _mm256_loadu_ps(a + i);
15
        __m256 vb = _mm256_loadu_ps(b + i);
16
        _mm256_storeu_ps(c + i, _mm256_add_ps(va, vb));
17
    }
18
    for (; i < n; i++) c[i] = a[i] + b[i];
19
}
20

21
int main() {
22
    float *a = aligned_alloc(32, N * sizeof(float));
23
    float *b = aligned_alloc(32, N * sizeof(float));
24
    float *c = aligned_alloc(32, N * sizeof(float));
25
    for (int i = 0; i < N; i++) { a[i] = 1.0f; b[i] = 2.0f; }
26

27
    clock_t start = clock();
28
    add_scalar(a, b, c, N);
29
    clock_t end = clock();
30
    printf("标量: %.3f 秒\n", (double)(end - start) / CLOCKS_PER_SEC);
31

32
    start = clock();
33
    add_avx(a, b, c, N);
34
    end = clock();
35
    printf("AVX2: %.3f 秒\n", (double)(end - start) / CLOCKS_PER_SEC);
36

37
    free(a); free(b); free(c);
38
    return 0;
39
}

6.2 典型加速比#

操作	标量	SSE (4x)	AVX2 (8x)	AVX-512 (16x)
浮点加法	1.0x	3.5x	6.5x	10-12x
浮点乘法	1.0x	3.5x	6.5x	10-12x
FMA	1.0x	3.8x	7.0x	12-14x
整数加法	1.0x	3.2x	6.0x	9-11x

实际加速比低于理论值的原因：内存带宽瓶颈、非对齐访问、循环尾部、指令延迟。

七、跨平台 SIMD 编程#

7.1 抽象层库#

库	支持 ISA	特点
Highway	SSE/AVX/NEON/SVE/RVV	Google 开源，C++
xsimd	SSE/AVX/NEON	C++ 表达式模板
Vc	SSE/AVX/NEON	C++ 抽象
Simdjson	SSE/AVX/NEON	JSON 解析专用

7.2 使用 Highway 的示例#

1
#include <hwy/highway.h>
2

3
namespace hw = hwy::HWY_NAMESPACE;
4

5
void add_arrays(const float* a, const float* b, float* c, int n) {
6
    const int lanes = hw::Lanes(hw::FloatTag());
7
    for (int i = 0; i + lanes <= n; i += lanes) {
8
        auto va = hw::Load(hw::FloatTag(), a + i);
9
        auto vb = hw::Load(hw::FloatTag(), b + i);
10
        auto vc = hw::Add(va, vb);
11
        hw::Store(vc, hw::FloatTag(), c + i);
12
    }
13
    // 处理尾部...
14
}

八、动手实验#

8.1 实验 1：编译器自动向量化#

1
# 编译并查看向量化报告
2
gcc -O3 -mavx2 -ftree-vectorize -fopt-info-vec-optimized test.c
3

4
# 查看生成的指令
5
gcc -O3 -mavx2 -S test.c -o test.s
6
grep -c "vmulps\|vaddps\|vmovaps" test.s

8.2 实验 2：SIMD vs 标量性能#

1
# 编译 SIMD 基准测试
2
gcc -O3 -mavx2 -o simd_test simd_test.c
3
perf stat -e cycles,instructions,flops_any ./simd_test

8.3 实验 3：查看 CPU 支持的 SIMD 扩展#

1
# Linux
2
cat /proc/cpuinfo | grep flags | head -1
3
# 查找 sse4_1, avx, avx2, avx512f 等标志
4

5
# 或使用
6
lscpu | grep -i flags

九、AVX-512 深入解析#

9.1 AVX-512 的掩码寄存器#

AVX-512 引入了 8 个专用的掩码寄存器 k0-k7，每个 16 位宽。这是 AVX-512 相比 AVX2 最重要的架构创新：

1
k0 = 0b1111111111111111  ← 全选（16 个元素全部操作）
2
k1 = 0b0000000011111111  ← 只操作低 8 个元素
3
k2 = 0b1010101010101010  ← 只操作偶数位元素

掩码操作的优势：一条指令完成条件操作，不需要分支。

1
// AVX2：条件加法需要分支或 blend
2
__m256 a = _mm256_loadu_ps(src);
3
__m256 b = _mm256_loadu_ps(threshold);
4
__m256 mask = _mm256_cmp_ps(a, b, _CMP_GT_OS);  // 比较结果为全 1 或全 0
5
__m256 result = _mm256_blendv_ps(a, _mm256_add_ps(a, b), mask);  // blend 选择
6

7
// AVX-512：掩码直接嵌入操作
8
__m512 a = _mm512_loadu_ps(src);
9
__m512 b = _mm512_loadu_ps(threshold);
10
__mmask16 k = _mm512_cmp_ps_mask(a, b, _MM_CMPINT_GT);  // 16 位掩码
11
__m512 result = _mm512_mask_add_ps(a, k, a, b);  // k=1 的位置加法，k=0 保留原值

9.2 AVX-512 的子集扩展#

AVX-512 不是单一扩展，而是多个子集的组合：

子集	功能	支持的 CPU
AVX-512F	基础指令（加减乘除、比较、blend）	Skylake-X, Ice Lake
AVX-512BW	字节/字操作（8/16 位整数）	Skylake-X
AVX-512DQ	双字/四字操作（32/64 位整数）	Skylake-X
AVX-512VL	128/256 位向量支持	Skylake-X
AVX-512VNNI	神经网络指令（点积加速）	Cooper Lake, Sapphire Rapids
AVX-512BF16	BFloat16 支持	Sapphire Rapids

Note

检查 AVX-512 支持时，需要检查具体的子集。cat /proc/cpuinfo | grep avx512f 只检查基础支持。

9.3 AVX-512 降频的深入分析#

AVX-512 的功耗极高，因为 512 位运算需要同时激活更多的执行单元和寄存器文件。Intel CPU 使用许可证（License）机制控制频率：

stateDiagram-v2 [*] --> L0: 标量/轻量指令 L0 --> L1: AVX2 指令 L1 --> L2: AVX-512 指令 L2 --> L1: AVX-512 指令结束 L1 --> L0: AVX2 指令结束 note right of L0: 全频率 (如 3.5 GHz) note right of L1: -100 MHz (如 3.4 GHz) note right of L2: -200~300 MHz (如 3.2 GHz)

CPU 代	AVX-512 降频	恢复延迟	建议
Skylake-X	-300 MHz	~2ms	全程 AVX-512 或不用
Ice Lake	-200 MHz	~1ms	可混合使用
Sapphire Rapids	~0	~0	自由使用

十、自动向量化的编译器提示#

10.1 帮助编译器向量化的 pragma#

1
// GCC: 告知编译器无循环依赖
2
#pragma GCC ivdep
3
for (int i = 0; i < n; i++) {
4
    a[i] = b[i] + c[i];
5
}
6

7
// GCC: 指定向量化宽度
8
#pragma GCC vector aligned
9
#pragma GCC unroll 4
10
for (int i = 0; i < n; i++) {
11
    a[i] = b[i] * c[i];
12
}
13

14
// Clang: 显式启用/禁用向量化
15
#pragma clang loop vectorize(enable)
16
#pragma clang loop interleave(enable)
17
for (int i = 0; i < n; i++) {
18
    a[i] = b[i] + c[i];
19
}
20

21
// OpenMP: 便携的向量化提示
22
#pragma omp simd
23
for (int i = 0; i < n; i++) {
24
    a[i] = b[i] + c[i];
25
}
26

27
// OpenMP: 指定 SIMD 宽度
28
#pragma omp simd simdlen(8)
29
for (int i = 0; i < n; i++) {
30
    a[i] = b[i] + c[i];
31
}

10.2 阻碍向量化的常见原因#

1
// 原因 1：指针别名（编译器不确定 a/b/c 是否重叠）
2
void add(float *a, float *b, float *c, int n) {
3
    for (int i = 0; i < n; i++)
4
        a[i] = b[i] + c[i];  // 编译器可能不向量化
5
}
6

7
// 使用 restrict 消除别名
8
void add(float *restrict a, float *restrict b,
9
         float *restrict c, int n) {
10
    for (int i = 0; i < n; i++)
11
        a[i] = b[i] + c[i];  // 编译器可以安全向量化
12
}
13

14
// 原因 2：循环携带依赖
15
for (int i = 1; i < n; i++) {
16
    a[i] = a[i-1] + b[i];  // a[i] 依赖 a[i-1]，无法向量化
17
}
18

19
// 原因 3：复杂控制流
20
for (int i = 0; i < n; i++) {
21
    if (complex_condition(a[i])) {  // 不可预测的分支
22
        a[i] = b[i] + c[i];
23
    } else {
24
        a[i] = b[i] - c[i];
25
    }
26
}
27

28
// 用数学运算替代分支
29
for (int i = 0; i < n; i++) {
30
    int mask = (a[i] > 0);  // 0 或 1
31
    a[i] = b[i] + (2 * mask - 1) * c[i];  // 无分支
32
}

10.3 查看向量化报告#

1
# GCC: 优化信息
2
gcc -O3 -mavx2 -ftree-vectorize -fopt-info-vec-optimized test.c
3
# 输出: test.c:8:3: note: loop vectorized
4

5
# GCC: 查看未向量化的原因
6
gcc -O3 -mavx2 -ftree-vectorize -fopt-info-vec-missed test.c
7
# 输出: test.c:15:3: missed: not vectorized: loop carried dependency
8

9
# Clang: 向量化报告
10
clang -O3 -mavx2 -Rpass=loop-vectorize test.c
11
# 输出: test.c:8:3: remark: vectorized loop (vectorization width: 8)
12

13
# Clang: 查看失败原因
14
clang -O3 -mavx2 -Rpass-missed=loop-vectorize test.c

十一、SIMD 优化的常见陷阱#

11.1 陷阱汇总#

陷阱	原因	解决方案
非对齐访问	性能损失 2-3x	`aligned_alloc` + `_mm256_load_ps`
混合域转换	整数↔浮点转换代价高	避免频繁转换，统一数据类型
部分寄存器停顿	只使用 YMM 低 128 位	避免混用 SSE 和 AVX 指令
Gather/Scatter	非连续访问，3-5x 慢于连续加载	SoA 布局避免 Gather
AVX-512 降频	高功耗导致频率降低	全程 AVX-512 或不用
循环尾部	剩余元素标量处理	掩码操作处理尾部

11.2 SSE/AVX 混合使用的惩罚#

1
// 混合使用 SSE 和 AVX 指令导致部分寄存器停顿
2
__m128 a = _mm_load_ps(src);       // 只写 XMM 低 128 位
3
__m256 b = _mm256_load_ps(src2);  // 使用完整 YMM 256 位
4
// CPU 需要插入 vzeroupper 指令清除 YMM 高位
5
// 如果不插入，后续 AVX 指令会有 2-3 周期停顿
6

7
// 统一使用 AVX 指令
8
__m256 a = _mm256_load_ps(src);    // 统一 256 位
9
__m256 b = _mm256_load_ps(src2);

1
# 检查是否有 vzeroupper 插入
2
objdump -d your_program | grep vzeroupper
3
# 如果大量出现，说明有 SSE/AVX 混合

Warning

现代 CPU（Zen 2+ / Ice Lake+）已经消除了 SSE/AVX 转换惩罚，但在旧 CPU 上这仍然是一个重要问题。如果你的代码需要在 Skylake 或 Zen 1 上运行，务必避免混合使用。

graph LR SCALAR["标量处理 1次1个元素"] --> SIMD2["SIMD 处理 1次N个元素"] SIMD2 --> REG["SIMD 寄存器 128/256/512 bit"] REG --> OP["SIMD 指令 addps/vaddps"] style SCALAR fill:#ffcdd2,stroke:#c62828 style SIMD2 fill:#c8e6c9,stroke:#2e7d32

flowchart LR LOOP["标量循环 for i in 0..N"] --> VEC["向量化循环 for i in 0..N;step=4"] VEC --> LOAD["vload 4元素"] --> VOP["SIMD 运算"] --> STORE["vstore 4元素"] LOAD --> VOP --> STORE style VEC fill:#bbdefb,stroke:#1565c0 style VOP fill:#c8e6c9,stroke:#2e7d32

十二、小结#

上一章深入解读了内存排序与内存屏障的内部机制。

概念	要点	对软件的影响
SSE/AVX/AVX-512	x86 SIMD 扩展	128/256/512 位向量处理
NEON	ARM SIMD 扩展	128 位向量处理
掩码操作	AVX-512 的 k 寄存器	条件 SIMD 操作
自动向量化	编译器自动生成 SIMD	restrict + 简单循环
数据对齐	16/32/64 字节对齐	对齐加载更快
SoA 布局	SIMD 友好的数据布局	与 Ch14 配合
AVX-512 降频	高功耗导致频率降低	混合代码需谨慎