内存排序与内存屏障

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

2412 字

7 分钟

内存排序与内存屏障

2026-03-26

CPU与计算机体系结构

CPU

/

体系结构

你写了一段多线程代码：线程 A 先写 data 再写 flag，线程 B 等待 flag 后读 data。逻辑上，flag=1 时 data 一定已经就绪。但在某些 CPU 上，线程 B 可能看到 flag=1 却读到 data 的旧值——这不是 bug，而是 CPU 的内存排序（Memory Ordering）行为。

内存排序是并发编程中最微妙的话题之一。理解它，才能写出正确的多线程代码；不理解它，你的程序在 x86 上正确但在 ARM 上可能出错。

一、为什么会有内存排序？#

1.1 编译器重排#

编译器在优化时可能重排指令：

1
// 源代码
2
data = 42;
3
flag = 1;
4

5
// 编译器可能重排为（如果 data 和 flag 没有依赖关系）
6
flag = 1;
7
data = 42;

编译器只保证单线程语义不变——在单线程视角下，两种顺序结果相同。但多线程视角下，另一个线程可能看到 flag=1 但 data 还是 0。

1.2 CPU 重排#

CPU 的 Store Buffer（见第 7 章）也会导致内存重排：

sequenceDiagram participant CoreA as 核心 A participant SB_A as Store Buffer A participant Cache as 缓存/主存 participant SB_B as Store Buffer B participant CoreB as 核心 B CoreA->>SB_A: data = 42（写入 Store Buffer） CoreA->>SB_A: flag = 1（写入 Store Buffer） Note over SB_A: 两个写入都在 Store Buffer 中 SB_A->>Cache: flag = 1（先刷到缓存） Note over CoreB: 看到 flag = 1 CoreB->>Cache: 读取 data Cache-->>CoreB: data = 0 （data 还没刷到缓存） SB_A->>Cache: data = 42（后刷到缓存）

1.3 四种内存重排#

重排类型	含义	示例
Store-Store	两个写操作重排	`data=42; flag=1` → `flag=1; data=42`
Load-Load	两个读操作重排	读 flag 后读 data → 先读 data 后读 flag
Store-Load	写后读重排	`flag=1; return data` → 先读 data 后写 flag
Load-Store	读后写重排	读 data 后写 flag → 先写 flag 后读 data

二、内存模型：从最强到最弱#

2.1 内存模型谱系#

graph LR SC["顺序一致性 Sequential Consistency 最强"] --> TSO["TSO Total Store Order x86"] TSO --> PSO["PSO Partial Store Order SPARC"] PSO --> RELAXED["弱序模型 Relaxed ARM / RISC-V"] style SC fill:#e8f5e9,stroke:#2e7d32 style TSO fill:#fff9c4,stroke:#f9a825 style RELAXED fill:#ffcdd2,stroke:#c62828

2.2 顺序一致性（SC）#

最严格的模型：所有核心看到所有操作的全局顺序，且顺序与程序顺序一致。

在 SC 模型下，不存在任何内存重排。但 SC 严重限制硬件优化，现代 CPU 都不实现 SC。

2.3 x86 TSO（Total Store Order）#

x86 的内存模型是 TSO，允许的唯一重排是 Store-Load：

重排类型	x86 TSO	原因
Store-Store	不允许	写入按 FIFO 顺序从 Store Buffer 刷出
Load-Load	不允许	读取按程序顺序
Store-Load	允许	Store Buffer 导致写后读可能重排
Load-Store	不允许	读取不会延迟后续写入

Note

x86 的 TSO 是”较强”的内存模型——只允许 Store-Load 重排。这意味着在 x86 上，很多并发代码”碰巧”能正确运行，但移植到 ARM 上可能出错。

2.4 ARM/RISC-V 弱序模型#

ARM 和 RISC-V 的内存模型允许所有四种重排：

重排类型	ARM/RISC-V	原因
Store-Store	允许	Store Buffer 不保证 FIFO
Load-Load	允许	Invalidate Queue 导致读重排
Store-Load	允许	Store Buffer
Load-Store	允许	读写可重叠

2.5 三种模型的对比#

属性	SC	x86 TSO	ARM 弱序
Store-Store	保证	保证	不保证
Load-Load	保证	保证	不保证
Store-Load	保证	不保证	不保证
Load-Store	保证	保证	不保证
需要屏障	无	SFENCE/LFENCE/MFENCE	DMB/DSB/ISB

三、内存屏障#

3.1 内存屏障的类型#

屏障类型	作用	防止的重排
LoadLoad	之前的读在之后的读之前完成	Load-Load
StoreStore	之前的写在之后的写之前完成	Store-Store
LoadStore	之前的读在之后的写之前完成	Load-Store
StoreLoad	之前的写在之后的读之前完成	Store-Load
全屏障（Full）	以上全部	全部

3.2 x86 的内存屏障指令#

指令	作用	对应屏障
`SFENCE`	Store 屏障	StoreStore
`LFENCE`	Load 屏障	LoadLoad + LoadStore
`MFENCE`	全屏障	全部四种

在 x86 TSO 下，大多数场景不需要屏障——因为只有 Store-Load 可能重排。只有需要防止 Store-Load 重排时才需要 MFENCE。

3.3 ARM 的内存屏障指令#

指令	作用	对应屏障
`DMB`（Data Memory Barrier）	数据内存屏障	全屏障
`DSB`（Data Synchronization Barrier）	数据同步屏障	全屏障 + 等待完成
`ISB`（Instruction Synchronization Barrier）	指令同步屏障	刷新流水线

ARM 的 DMB 比 x86 的 MFENCE 更频繁使用——因为 ARM 允许更多重排。

3.4 屏障的代价#

CPU	MFENCE/DMB 延迟	说明
x86 (Intel)	~20-40 周期	排空 Store Buffer
ARM (Cortex-A76)	~20-50 周期	排空 Store Buffer + Invalidate Queue
ARM (Cortex-A53)	~30-80 周期	顺序核心，屏障开销更大

四、C++ memory_order#

4.1 六种内存序#

C++11 的原子操作支持六种内存序：

memory_order	保证	对应硬件
`relaxed`	无排序保证	无屏障
`consume`	数据依赖排序	很少硬件支持，通常等同于 acquire
`acquire`	之后的读/写不能重排到此之前	LoadLoad + LoadStore 屏障
`release`	之前的读/写不能重排到此之后	LoadStore + StoreStore 屏障
`acq_rel`	acquire + release	全屏障
`seq_cst`	全局顺序一致	全屏障 + 全局顺序协议

4.2 Release-Acquire 语义#

最常用的模式：Release 写入 + Acquire 读取构成同步关系。

1
#include <atomic>
2

3
int data = 0;
4
std::atomic<int> flag{0};
5

6
// 线程 A（生产者）
7
void producer() {
8
    data = 42;                        // 普通写入
9
    flag.store(1, std::memory_order_release);  // Release 写入
10
    // 保证 data=42 在 flag=1 之前对其他线程可见
11
}
12

13
// 线程 B（消费者）
14
void consumer() {
15
    while (flag.load(std::memory_order_acquire) != 1)  // Acquire 读取
16
        ;
17
    // flag=1 的 Acquire 保证之后读到 data 的最新值
18
    assert(data == 42);  // 一定成功！
19
}

sequenceDiagram participant A as 线程 A participant Flag as flag participant B as 线程 B A->>A: data = 42 A->>Flag: store(1, release) Note over A: Release 保证之前的写入可见 B->>Flag: load(acquire) == 1 Note over B: Acquire 保证之后的读取看到 Release 之前的写入 B->>B: assert(data == 42)

4.3 memory_order 的硬件映射#

C++ memory_order	x86 实现	ARM 实现
`relaxed`	普通 mov	普通 ldr/str
`acquire`	普通 mov（x86 读有 acquire 语义）	ldr + DMB ISH
`release`	普通 mov（x86 写有 release 语义）	DMB ISH + str
`acq_rel`	普通 mov	DMB ISH + str + DMB ISH
`seq_cst`	mov + MFENCE（store）/ lock 前缀	DMB ISH + str + DMB ISH

Note

x86 的 TSO 模型使得 acquire/release 几乎免费——普通读写就具有 acquire/release 语义。ARM 的弱序模型则需要显式屏障，这就是为什么同一份并发代码在 ARM 上比 x86 慢。

4.4 双重检查锁定模式#

1
class Singleton {
2
    static std::atomic<Singleton*> instance;
3
    static std::mutex mtx;
4

5
public:
6
    static Singleton* getInstance() {
7
        Singleton* tmp = instance.load(std::memory_order_acquire);
8
        if (tmp == nullptr) {
9
            std::lock_guard<std::mutex> lock(mtx);
10
            tmp = instance.load(std::memory_order_relaxed);
11
            if (tmp == nullptr) {
12
                tmp = new Singleton();
13
                instance.store(tmp, std::memory_order_release);
14
            }
15
        }
16
        return tmp;
17
    }
18
};

五、Linux 内核的内存屏障#

5.1 内核屏障 API#

API	作用	对应硬件
`barrier()`	编译器屏障	无硬件指令
`smp_rmb()`	读屏障	LFENCE / DMB
`smp_wmb()`	写屏障	SFENCE / DMB
`smp_mb()`	全屏障	MFENCE / DMB
`smp_load_acquire()`	Acquire 读取	取决于架构
`smp_store_release()`	Release 写入	取决于架构

5.2 编译器屏障 vs 硬件屏障#

1
// 编译器屏障：阻止编译器重排，但不阻止 CPU 重排
2
barrier();  // Linux 内核
3
__asm__ __volatile__("" ::: "memory");  // GCC
4

5
// 硬件屏障：同时阻止编译器和 CPU 重排
6
smp_mb();  // Linux 内核

Warning

编译器屏障和硬件屏障的区别经常被忽视。在单线程代码中，编译器屏障足够；但在多线程代码中，必须使用硬件屏障。

六、常见的内存排序陷阱#

6.1 陷阱 1：Dekker 算法在 ARM 上失败#

1
// Dekker 互斥算法（在 x86 上正确，在 ARM 上可能失败）
2
std::atomic<int> flag0{0}, flag1{0}, turn{0};
3

4
// 线程 0
5
flag0.store(1, std::memory_order_relaxed);
6
while (flag1.load(std::memory_order_relaxed)) {
7
    if (turn.load(std::memory_order_relaxed) != 0) {
8
        flag0.store(0, std::memory_order_relaxed);
9
        while (turn.load(std::memory_order_relaxed) != 0);
10
        flag0.store(1, std::memory_order_relaxed);
11
    }
12
}
13
// 临界区...

在 ARM 的弱序模型下，relaxed 操作可能被重排，导致两个线程同时进入临界区。修复：使用 memory_order_acq_rel 或 seq_cst。

6.2 陷阱 2：自旋锁的实现#

1
// 错误的自旋锁（在 ARM 上可能失败）
2
void lock(std::atomic<int> &mutex) {
3
    while (mutex.exchange(1, std::memory_order_relaxed)) {
4
        // relaxed 不保证临界区内的写入对其他线程可见
5
    }
6
}
7

8
// 正确的自旋锁
9
void lock(std::atomic<int> &mutex) {
10
    while (mutex.exchange(1, std::memory_order_acquire)) {
11
        // acquire 保证临界区内的读取看到最新的值
12
    }
13
}
14

15
void unlock(std::atomic<int> &mutex) {
16
    mutex.store(0, std::memory_order_release);
17
    // release 保证临界区内的写入对其他线程可见
18
}

七、动手实验#

7.1 实验 1：Store-Load 重排（x86）#

1
#include <stdio.h>
2
#include <pthread.h>
3
#include <stdatomic.h>
4

5
int x = 0, y = 0;
6
int r1 = 0, r2 = 0;
7

8
void *thread_a(void *arg) {
9
    x = 1;        // Store
10
    r1 = y;       // Load
11
    return NULL;
12
}
13

14
void *thread_b(void *arg) {
15
    y = 1;        // Store
16
    r2 = x;       // Load
17
    return NULL;
18
}
19

20
int main() {
21
    int count = 0;
22
    for (int i = 0; i < 1000000; i++) {
23
        x = y = 0;
24
        pthread_t t1, t2;
25
        pthread_create(&t1, NULL, thread_a, NULL);
26
        pthread_create(&t2, NULL, thread_b, NULL);
27
        pthread_join(t1, NULL);
28
        pthread_join(t2, NULL);
29
        if (r1 == 0 && r2 == 0) {
30
            count++;  // Store-Load 重排！
31
        }
32
    }
33
    printf("Store-Load 重排次数: %d / 1000000\n", count);
34
    // x86: 可能出现少量重排（Store Buffer 导致）
35
    // ARM: 可能出现更多重排
36
}

7.2 实验 2：内存屏障的效果#

1
#include <stdio.h>
2
#include <pthread.h>
3
#include <stdatomic.h>
4

5
int data = 0;
6
atomic_int flag = 0;
7

8
// 无屏障版本
9
void *producer_no_barrier(void *arg) {
10
    data = 42;
11
    atomic_store(&flag, 1, memory_order_relaxed);
12
    return NULL;
13
}
14

15
// Release-Acquire 版本
16
void *producer_release(void *arg) {
17
    data = 42;
18
    atomic_store(&flag, 1, memory_order_release);
19
    return NULL;
20
}
21

22
void *consumer_acquire(void *arg) {
23
    while (atomic_load(&flag, memory_order_acquire) != 1);
24
    printf("data = %d\n", data);  // Release-Acquire: 一定是 42
25
    return NULL;
26
}

八、x86 / ARM / RISC-V 内存模型对比#

8.1 三种架构的允许重排#

重排类型	x86-64 (TSO)	ARMv8	RISC-V
Store-Store	不允许	允许	允许
Load-Load	不允许	允许	允许
Store-Load	允许	允许	允许
Load-Store	不允许	允许	允许

x86 的 TSO 是”强序”模型——只有 Store-Load 一种重排。ARM 和 RISC-V 都是弱序模型，允许所有四种重排，但两者的具体语义有细微差异。

8.2 ARMv8 vs RISC-V 的差异#

维度	ARMv8	RISC-V
模型名称	”Weakly Ordered” + “Multi-copy Atomicity"	"Weak Memory Ordering” (RVWMO)
多副本原子性	有（Store 对所有核心同时可见）	有（Same-address 原子性）
数据依赖	保证（地址/控制/数据依赖不被重排）	保证（addr/ctrl/data dependency）
屏障指令	DMB / DSB / ISB	FENCE (rw, rw)
Acquire/Release	LDAR / STLR 指令	FENCE.RW, RW / FENCE.R, RW 等

Note

ARMv8 引入了 LDAR（Load-Acquire）和 STLR（Store-Release）指令，比 ARMv7 的 DMB 屏障更轻量。RISC-V 的 FENCE 指令可以细粒度控制读写方向（如 FENCE.RW,RW = 全屏障，FENCE.R,R = LoadLoad 屏障）。

8.3 同一代码在不同架构上的行为#

1
// 经典的 Message Passing 测试
2
int data = 0;
3
int flag = 0;
4

5
// 线程 A
6
void writer() {
7
    data = 42;        // Store 1
8
    flag = 1;         // Store 2
9
}
10

11
// 线程 B
12
void reader() {
13
    if (flag == 1) {  // Load 1
14
        assert(data == 42);  // Load 2
15
    }
16
}

架构	assert 可能失败？	原因
x86-64	不会	Store-Store 不重排，flag=1 一定在 data=42 之后可见
ARMv8 (无屏障)	可能	Store-Store 可重排，flag=1 可能先于 data=42 可见
ARMv8 (用 STLR)	不会	STLR 保证 Store-Store 不重排
RISC-V (无 FENCE)	可能	Store-Store 可重排
RISC-V (FENCE.W,W)	不会	FENCE.W,W 保证 Store-Store 不重排

九、Acquire-Release 语义详解#

9.1 Acquire 语义#

Acquire 操作保证：之后的读写不能被重排到 Acquire 之前。

1
        ┌──────────────────────────────┐
2
Acquire │ 之后的读/写不能越过此线向上  │
3
        └──────────────────────────────┘
4
              ↑ 之前的操作可以自由重排

对应屏障：LoadLoad + LoadStore
典型用途：读取标志位后，保证后续的数据读取看到最新值

9.2 Release 语义#

Release 操作保证：之前的读写不能被重排到 Release 之后。

1
              ↓ 之后的操作可以自由重排
2
        ┌──────────────────────────────┐
3
Release │ 之前的读/写不能越过此线向下  │
4
        └──────────────────────────────┘

对应屏障：LoadStore + StoreStore
典型用途：写入数据后，保证标志位的写入在数据写入之后可见

9.3 Release-Acquire 同步对#

当 Release 写入和 Acquire 读取配对时，它们构成一个同步关系（synchronizes-with）：

sequenceDiagram participant A as 线程 A participant M as 共享变量 participant B as 线程 B A->>A: data = 42 (普通写) A->>M: flag.store(1, release) Note over A: Release 保证 data=42 在 flag=1 之前 B->>M: flag.load(acquire) == 1 Note over B: Acquire 保证之后看到 Release 之前的所有写入 B->>B: assert(data == 42)

关键点：Release-Acquire 不是双向屏障。Release 只保证”之前的操作不泄漏”，Acquire 只保证”之后的操作不提前”。它们配对才能建立完整的同步。

9.4 常见的 Acquire-Release 使用模式#

1
// 模式 1：自旋锁
2
void lock(std::atomic<int> &mutex) {
3
    while (mutex.exchange(1, std::memory_order_acquire)) {
4
        // acquire: 临界区内的读取不会提前到锁获取之前
5
    }
6
}
7
void unlock(std::atomic<int> &mutex) {
8
    mutex.store(0, std::memory_order_release);
9
    // release: 临界区内的写入不会延迟到锁释放之后
10
}
11

12
// 模式 2：一次性初始化
13
std::atomic<int> initialized{0};
14
int data;
15

16
void init() {
17
    data = compute();  // 普通写
18
    initialized.store(1, std::memory_order_release);  // Release
19
}
20

21
void use() {
22
    if (initialized.load(std::memory_order_acquire)) {  // Acquire
23
        use_data(data);  // 一定看到 compute() 的结果
24
    }
25
}
26

27
// 模式 3：生产者-消费者队列（单生产者单消费者）
28
std::atomic<int> tail{0}, head{0};
29
int buffer[SIZE];
30

31
void produce(int val) {
32
    int t = tail.load(std::memory_order_relaxed);
33
    buffer[t % SIZE] = val;
34
    tail.store(t + 1, std::memory_order_release);  // Release: buffer 写入在 tail 更新之前
35
}
36

37
int consume() {
38
    int h = head.load(std::memory_order_relaxed);
39
    while (tail.load(std::memory_order_acquire) <= h);  // Acquire: 读取 buffer 在 tail 读取之后
40
    int val = buffer[h % SIZE];
41
    head.store(h + 1, std::memory_order_release);
42
    return val;
43
}

十、无锁编程模式#

10.1 SeqLock（顺序锁）#

SeqLock 是一种读多写少的无锁模式，Linux 内核广泛使用：

1
// SeqLock：读端无需获取锁
2
std::atomic<int> seq{0};
3
int data_a, data_b;
4

5
// 写端（需要互斥）
6
void write(int a, int b) {
7
    seq.fetch_add(1, std::memory_order_release);  // 序号变为奇数 → 写入中
8
    data_a = a;
9
    data_b = b;
10
    seq.fetch_add(1, std::memory_order_release);  // 序号变为偶数 → 写入完成
11
}
12

13
// 读端（无锁）
14
bool read(int *a, int *b) {
15
    int s1, s2;
16
    do {
17
        s1 = seq.load(std::memory_order_acquire);
18
        *a = data_a;  // 读取数据（可能正在被写入）
19
        *b = data_b;
20
        s2 = seq.load(std::memory_order_acquire);
21
    } while (s1 != s2 || s1 & 1);  // 序号变化或写入中 → 重试
22
    return true;
23
}

10.2 RCU（Read-Copy-Update）思想#

RCU 允许读者无锁访问，写者创建副本后原子替换指针：

1
// 简化的 RCU 模式
2
struct Data {
3
    int values[100];
4
};
5

6
std::atomic<Data*> current{nullptr};
7

8
// 读者：无锁
9
void reader() {
10
    Data* ptr = current.load(std::memory_order_acquire);
11
    use(ptr->values);  // 使用期间 ptr 不会被释放
12
    // 通过 grace period 保证 ptr 在所有读者退出后才释放
13
}
14

15
// 写者：创建副本
16
void writer() {
17
    Data* old = current.load(std::memory_order_acquire);
18
    Data* new_data = malloc(sizeof(Data));
19
    *new_data = *old;           // 复制
20
    new_data->values[0] = 42;  // 修改副本
21
    current.store(new_data, std::memory_order_release);  // 原子替换
22
    // 等待 grace period 后释放 old
23
    synchronize_rcu();
24
    free(old);
25
}

Warning

无锁编程的正确性极难保证。以上代码是简化版本，生产环境需要处理 ABA 问题、内存回收、grace period 等复杂问题。详见第 15 章：无锁编程。

十一、小结#

上一章了解了缓存一致性与 MESI 协议。

概念	要点	对软件的影响
四种重排	Store-Store, Load-Load, Store-Load, Load-Store	不同 ISA 允许的重排不同
x86 TSO	只允许 Store-Load 重排	并发代码在 x86 上更容易正确
ARM 弱序	允许所有四种重排	需要更多显式屏障
Release-Acquire	最常用的同步模式	C++ `memory_order_release/acquire`
内存屏障代价	20-80 周期	频繁使用屏障会降低性能
编译器屏障	只阻止编译器重排	多线程需要硬件屏障