无锁编程与原子操作

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

2237 字

6 分钟

无锁编程与原子操作

2026-03-22

CPU与计算机体系结构

CPU

/

并发

8 个线程争一把锁，99% 的时间在等锁、1% 的时间在干活——这不是夸张，这是高并发场景的真实写照。锁的开销不只是线程阻塞：每次加锁/解锁都触发内核态切换，锁的缓存行在核心间弹跳（缓存一致性），等待队列的维护本身也需要锁。无锁编程用原子指令（CAS、FAA）替代锁，把并发控制从”排队等”变成”抢到了就干、抢不到就重试”——但这条路有自己的陷阱。

一、为什么需要无锁编程#

1.1 锁的问题#

graph TB subgraph "互斥锁的问题" A["线程 A 获取锁"] --> B["线程 B 等待 上下文切换"] B --> C["线程 A 释放锁"] C --> D["内核唤醒线程 B 系统调用"] E["优先级反转 低优先级线程持锁 高优先级线程等待"] F["死锁风险 锁获取顺序不一致"] end style B fill:#ffcdd2,stroke:#c62828 style D fill:#ffcdd2,stroke:#c62828 style E fill:#ffcdd2,stroke:#c62828 style F fill:#ffcdd2,stroke:#c62828

锁的开销	典型值	说明
互斥锁（无竞争）	~25 ns	原子 CAS + 分支预测
互斥锁（有竞争）	~1-10 μs	上下文切换 + 内核调度
自旋锁（无竞争）	~10 ns	原子 CAS
自旋锁（有竞争）	~100 ns-1 μs	忙等待，不切换上下文
原子操作	~5-10 ns	硬件 CAS/FAA

Note

无竞争的互斥锁很快（~25 ns），但一旦发生竞争，上下文切换的开销就飙升到微秒级。对于高频更新的共享计数器（如 QPS 统计），锁的开销可能比实际工作还大。

二、硬件原子原语#

2.1 CAS（Compare-And-Swap）#

1
// CAS 语义：原子地比较并交换
2
// 如果 *addr == expected，则 *addr = desired，返回 true
3
// 否则返回 false，*addr 不变
4
bool cas(int* addr, int expected, int desired);
5

6
// x86 实现：LOCK CMPXCHG 指令
7
inline bool cas(volatile int* addr, int expected, int desired) {
8
    int result;
9
    __asm__ __volatile__ (
10
        "lock cmpxchgl %3, %1\n\t"
11
        "sete %0"
12
        : "=r" (result), "+m" (*addr)
13
        : "a" (expected), "r" (desired)
14
        : "cc", "memory"
15
    );
16
    return result;
17
}

2.2 FAA（Fetch-And-Add）#

1
// FAA 语义：原子地增加并返回旧值
2
// old = *addr; *addr += value; return old;
3
int faa(int* addr, int value);
4

5
// x86 实现：LOCK XADD 指令
6
inline int faa(volatile int* addr, int value) {
7
    __asm__ __volatile__ (
8
        "lock xaddl %0, %1"
9
        : "+r" (value), "+m" (*addr)
10
        :
11
        : "cc", "memory"
12
    );
13
    return value;  // 返回旧值
14
}

2.3 原子操作对比#

操作	x86 指令	开销	用途
CAS	LOCK CMPXCHG	~5-10 ns	条件更新、无锁算法基础
FAA	LOCK XADD	~5-10 ns	计数器、序列号
Exchange	LOCK XCHG	~5-10 ns	无条件交换
Load	MOV	~1 ns	原子读取（x86 天然原子）
Store	MOV	~1 ns	原子写入（需配合内存屏障）

2.4 ARM LL/SC 原子指令#

与 x86 的 LOCK 前缀不同，ARM 采用 Load-Linked/Store-Conditional（LL/SC）模式实现原子操作。LDXR 将内存值加载到寄存器并标记该地址，STXR 只有在标记仍有效时才写入成功：

1
// ARM64: 原子 CAS 的 LL/SC 实现
2
// LDXR: 独占加载，标记地址
3
// STXR: 独占存储，返回 0 表示成功
4
cas:
5
    ldxr    w0, [x1]           // 独占加载 *addr → w0
6
    cmp     w0, w2             // 比较 w0 == expected?
7
    b.ne    fail
8
    stxr    w3, w4, [x1]       // 独占存储 desired → *addr
9
    cbnz    w3, cas            // 如果失败（被其他核心修改），重试
10
fail:
11
    ret

维度	x86 LOCK 前缀	ARM LL/SC
语义	总线锁定/缓存行锁定	乐观并发，失败重试
粒度	一次操作完成	加载和存储分开
竞争时	硬件串行化	软件重试循环
代表指令	LOCK CMPXCHG	LDXR/STXR

LL/SC 的优势在于不需要总线锁——它通过地址标记实现”检测-提交”的乐观并发，在低竞争场景下更高效。但在高竞争时，STXR 频繁失败会导致重试风暴。ARMv8.1 引入了 LSE（Large System Extensions）原子指令（如 CASAL），在多核系统上性能更好。

三、C++ 原子操作#

3.1 std::atomic 基础#

1
#include <atomic>
2

3
std::atomic<int> counter{0};
4

5
// 原子递增
6
counter.fetch_add(1, std::memory_order_relaxed);
7

8
// 原子读取
9
int val = counter.load(std::memory_order_acquire);
10

11
// 原子写入
12
counter.store(42, std::memory_order_release);
13

14
// CAS 操作
15
int expected = 42;
16
bool success = counter.compare_exchange_strong(
17
    expected, 100,
18
    std::memory_order_acq_rel,
19
    std::memory_order_acquire
20
);

3.2 内存序详解#

graph TB RELAXED["relaxed 无顺序保证 最快"] --> ACQ_REL["acq_rel 获取+释放 中等"] ACQUIRE["acquire 获取语义 读操作"] --> ACQ_REL RELEASE["release 释放语义 写操作"] --> ACQ_REL ACQ_REL --> SEQ_CST["seq_cst 顺序一致 最慢"] style RELAXED fill:#c8e6c9,stroke:#2e7d32 style SEQ_CST fill:#ffcdd2,stroke:#c62828

内存序	含义	开销	使用场景
`relaxed`	无顺序保证	最快	计数器、统计
`acquire`	后续读不能重排到此之前	中	读取同步变量
`release`	前面写不能重排到此之后	中	写入同步变量
`acq_rel`	acquire + release	中	读写同步变量
`seq_cst`	全局顺序一致	最慢	默认，最安全

1
// 经典的 acquire-release 模式
2
std::atomic<bool> ready{false};
3
int data = 0;
4

5
// 生产者线程
6
void producer() {
7
    data = 42;  // 写数据
8
    ready.store(true, std::memory_order_release);  // 释放：保证上面的写可见
9
}
10

11
// 消费者线程
12
void consumer() {
13
    while (!ready.load(std::memory_order_acquire)) {}  // 获取：保证看到 release 之前的写
14
    assert(data == 42);  // 一定成立！
15
}

四、缓存行弹跳#

4.1 伪共享#

1
// 伪共享：两个计数器在同一缓存行
2
struct BadCounters {
3
    std::atomic<int> a;  // 线程 1 频繁更新
4
    std::atomic<int> b;  // 线程 2 频繁更新
5
    // a 和 b 可能在同一 64 字节缓存行
6
    // 线程 1 更新 a → 使线程 2 的缓存行失效
7
    // 线程 2 更新 b → 使线程 1 的缓存行失效
8
    // 反复弹跳，性能下降 10-50x
9
};
10

11
// 缓存行对齐：消除伪共享
12
struct GoodCounters {
13
    alignas(64) std::atomic<int> a;  // 独占缓存行
14
    alignas(64) std::atomic<int> b;  // 独占缓存行
15
};

4.2 检测伪共享#

1
# 使用 perf 检测缓存行弹跳
2
perf stat -e cache-misses,cycles,L1-dcache-load-misses \
3
    ./counter_benchmark
4

5
# 使用 perf c2c 检测伪共享
6
perf c2c record ./counter_benchmark
7
perf c2c report
8
# 输出会显示哪些缓存行被多个线程修改

五、退避策略#

5.1 指数退避#

1
// CAS 失败时的指数退避
2
void atomic_add(std::atomic<int>& counter, int value) {
3
    int backoff = 1;
4
    int old = counter.load(std::memory_order_relaxed);
5
    while (!counter.compare_exchange_weak(
6
        old, old + value,
7
        std::memory_order_relaxed)) {
8
        // 退避：减少缓存行争用
9
        for (int i = 0; i < backoff; i++) {
10
            _mm_pause();  // x86 PAUSE 指令，约 40 ns
11
        }
12
        backoff = std::min(backoff * 2, 64);  // 上限 64
13
    }
14
}

5.2 退避策略对比#

策略	低竞争	高竞争	说明
无退避	快	慢（活锁风险）	CAS 失败立即重试
固定退避	中	中	固定次数 PAUSE
指数退避	快	较好	逐步增加等待时间
自适应	最优	最优	根据竞争程度动态调整

六、无锁数据结构#

6.1 无锁计数器#

1
// Go: 无锁计数器
2
type AtomicCounter struct {
3
    value int64
4
}
5

6
func (c *AtomicCounter) Increment() {
7
    atomic.AddInt64(&c.value, 1)
8
}
9

10
func (c *AtomicCounter) Get() int64 {
11
    return atomic.LoadInt64(&c.value)
12
}
13

14
// Per-CPU 计数器：消除缓存行争用
15
type PerCPUCounter struct {
16
    counters []int64  // 每个 CPU 一个计数器，缓存行对齐
17
    padding  [64]byte // 防止伪共享
18
}
19

20
func (c *PerCPUCounter) Increment() {
21
    cpu := runtime.GetCPU()  // 获取当前 CPU ID
22
    atomic.AddInt64(&c.counters[cpu], 1)
23
}
24

25
func (c *PerCPUCounter) Get() int64 {
26
    var total int64
27
    for i := range c.counters {
28
        total += atomic.LoadInt64(&c.counters[i])
29
    }
30
    return total
31
}

6.2 Michael-Scott 无锁队列#

1
// Michael-Scott 无锁队列（简化版）
2
template<typename T>
3
class LockFreeQueue {
4
    struct Node {
5
        T data;
6
        std::atomic<Node*> next{nullptr};
7
    };
8

9
    std::atomic<Node*> head;
10
    std::atomic<Node*> tail;
11

12
public:
13
    LockFreeQueue() {
14
        Node* sentinel = new Node{};
15
        head.store(sentinel);
16
        tail.store(sentinel);
17
    }
18

19
    void enqueue(T value) {
20
        Node* node = new Node{value};
21
        Node* old_tail = tail.load(std::memory_order_acquire);
22

23
        while (true) {
24
            Node* next = old_tail->next.load(std::memory_order_acquire);
25
            if (next == nullptr) {
26
                // 尝试链接新节点
27
                Node* null = nullptr;
28
                if (old_tail->next.compare_exchange_strong(
29
                    null, node,
30
                    std::memory_order_release,
31
                    std::memory_order_relaxed)) {
32
                    // 成功，尝试推进 tail
33
                    tail.compare_exchange_strong(
34
                        old_tail, node,
35
                        std::memory_order_release,
36
                        std::memory_order_relaxed);
37
                    return;
38
                }
39
            } else {
40
                // tail 落后了，帮助推进
41
                tail.compare_exchange_strong(
42
                    old_tail, next,
43
                    std::memory_order_release,
44
                    std::memory_order_relaxed);
45
            }
46
            old_tail = tail.load(std::memory_order_acquire);
47
        }
48
    }
49
};

6.3 Treiber 无锁栈#

Treiber 栈是最经典的无锁数据结构之一，push 和 pop 都通过 CAS 操作完成：

1
// Treiber 无锁栈（简化版）
2
template<typename T>
3
class LockFreeStack {
4
    struct Node {
5
        T data;
6
        Node* next;
7
    };
8

9
    std::atomic<Node*> head{nullptr};
10

11
public:
12
    void push(T value) {
13
        Node* node = new Node{value, head.load()};
14
        while (!head.compare_exchange_strong(node->next, node,
15
            std::memory_order_release, std::memory_order_relaxed)) {
16
            // CAS 失败：head 已被其他线程修改，重试
17
        }
18
    }
19

20
    bool pop(T& result) {
21
        Node* old_head = head.load(std::memory_order_acquire);
22
        while (old_head && !head.compare_exchange_strong(
23
            old_head, old_head->next,
24
            std::memory_order_acquire, std::memory_order_relaxed)) {
25
            // CAS 失败：head 已被其他线程修改
26
        }
27
        if (!old_head) return false;  // 栈空
28
        result = old_head->data;
29
        //  这里存在 ABA 问题：old_head 可能已被其他线程 pop 后又 push 回来
30
        delete old_head;  // 需要 Hazard Pointer 或版本号保护
31
        return true;
32
    }
33
};

Treiber 栈的 pop 操作天然面临 ABA 问题——一个节点被 pop 后可能立即被 push 回来，导致另一个线程的 CAS 误判。实际实现中需要配合 Hazard Pointer 或带版本号的 TaggedPointer 来安全释放节点。

6.4 ABA 问题#

1
// ABA 问题：CAS 无法区分值的变化历史
2
// 1. 线程 1 读取 *addr = A
3
// 2. 线程 2 将 *addr 从 A 改为 B
4
// 3. 线程 2 将 *addr 从 B 改回 A
5
// 4. 线程 1 执行 CAS(A, C) → 成功！但数据已被修改过
6

7
// 解决方案 1：版本号
8
struct TaggedPointer {
9
    void* ptr;
10
    uint64_t tag;  // 每次修改递增
11
};
12

13
// 解决方案 2：Hazard Pointer
14
// 在访问共享节点前，先注册 hazard pointer
15
// 其他线程在释放节点前检查是否有 hazard pointer 指向它
16

17
// 解决方案 3：RCU（Read-Copy-Update）
18
// 读者无锁访问旧版本
19
// 写者创建新版本，通过 RCU 机制等待所有读者切换

Warning

ABA 问题是无锁算法的经典陷阱。在 64 位系统上，可以将指针和版本号打包到一个 64 位原子变量中（低 48 位指针 + 高 16 位版本号），利用版本号检测 ABA。

七、RCU（Read-Copy-Update）#

7.1 RCU 原理#

sequenceDiagram participant R as 读者 participant W as 写者 participant D as 数据 R->>D: 读取旧版本（无锁） W->>D: 创建新版本（copy） W->>D: 原子替换指针（update） Note over R: 读者继续读旧版本 W->>W: 等待宽限期（grace period） Note over R: 所有读者退出临界区 W->>D: 释放旧版本

1
// Linux 内核 RCU 使用
2
// 读者：无锁访问
3
rcu_read_lock();
4
struct data* d = rcu_dereference(global_ptr);
5
// 使用 d...
6
rcu_read_unlock();
7

8
// 写者：创建新版本并替换
9
struct data* new_data = kmalloc(sizeof(*new_data), GFP_KERNEL);
10
*new_data = *old_data;
11
new_data->field = new_value;
12
rcu_assign_pointer(global_ptr, new_data);
13
synchronize_rcu();  // 等待宽限期
14
kfree(old_data);

7.2 硬件内存屏障详解#

Store Buffer 和 Invalidate Queue 的交互是理解内存屏障的关键。在第 8 章中讨论了 x86 TSO 模型，这里从硬件角度深入看屏障的实际效果：

graph TB subgraph CoreA["核心 A"] A_SB["Store Buffer data=42, flag=1"] A_CACHE["L1 缓存"] end subgraph CoreB["核心 B"] B_IQ["Invalidate Queue 待处理的 Invalidate"] B_CACHE["L1 缓存"] end A_SB -->|"smp_wmb() 排空 Store Buffer"| A_CACHE A_CACHE -->|"Invalidate 消息"| B_IQ B_IQ -->|"smp_rmb() 处理 Invalidate Queue"| B_CACHE style A_SB fill:#fff9c4,stroke:#f9a825 style B_IQ fill:#fff9c4,stroke:#f9a825

屏障类型	x86 指令	ARM 指令	作用
写屏障（smp_wmb）	sfence	DMB ST	排空 Store Buffer
读屏障（smp_rmb）	lfence	DMB LD	处理 Invalidate Queue
全屏障（smp_mb）	mfence	DMB SY	排空 SB + 处理 IQ

x86 的 TSO 模型只允许 Store-Load 重排，因此 smp_wmb 和 smp_rmb 在 x86 上是空操作（no-op），只有 smp_mb 编译为 mfence。ARM 的弱序模型允许所有四种重排，每种屏障都必须编译为对应的 DMB 指令。

Note

ARM 的内存模型比 x86 弱得多——ARM 允许 Store-Store、Load-Load、Store-Load、Load-Store 四种重排，而 x86 TSO 只允许 Store-Load 重排。在 ARM 上编写无锁代码时，必须显式添加内存屏障；同样的代码在 x86 上可能碰巧正确，但在 ARM 上会出 bug。跨平台无锁代码必须使用 C++ std::atomic 的内存序参数而非裸屏障指令。

7.3 Hazard Pointer#

Hazard Pointer 是解决无锁数据结构中节点安全释放的机制。每个线程维护一组”危险指针”，在访问共享节点前先注册：

1
// Hazard Pointer 示意（简化版）
2
// 每个线程拥有 MAX_HAZARD 个危险指针槽位
3
constexpr int MAX_HAZARD = 2;
4
std::atomic<void*> hazard_ptrs[MAX_THREADS][MAX_HAZARD];
5

6
// 读者：注册 hazard pointer
7
void* node = head.load();
8
hazard_ptrs[my_thread][0].store(node);  // 声明"我正在用 node"
9
// ... 使用 node ...
10
hazard_ptrs[my_thread][0].store(nullptr);  // 用完了，释放声明
11

12
// 写者：删除节点前检查
13
void retire_node(void* node) {
14
    retired_list.push(node);
15
    if (retired_list.size() > threshold) {
16
        scan_retired();  // 遍历所有线程的 hazard pointer
17
        // 只释放没有任何 hazard pointer 指向的节点
18
    }
19
}

维度	Hazard Pointer	RCU
读者开销	1-2 次原子 store	仅禁用/启用抢占
写者开销	扫描所有线程的 HP	等待宽限期
延迟	立即回收（无宽限期）	宽限期后才回收
适用场景	无锁栈/队列	读多写极少的链表

7.4 Linux Per-CPU 变量#

Linux 内核大量使用 Per-CPU 变量来消除缓存行弹跳——每个 CPU 拥有变量的独立副本，更新时无需跨核 Invalidate：

1
// 定义 Per-CPU 变量
2
DEFINE_PER_CPU(int, my_counter);  // 每个 CPU 一个 int 副本
3

4
// 更新：只访问本 CPU 的副本，无需原子操作
5
this_cpu_inc(my_counter);  // 等价于 my_counter[cpu]++，无缓存行弹跳
6

7
// 读取全局值：需要遍历所有 CPU 的副本
8
int total = 0;
9
for_each_possible_cpu(cpu) {
10
    total += per_cpu(my_counter, cpu);
11
}

Per-CPU 变量之所以能避免缓存行弹跳，是因为每个 CPU 的副本位于不同的缓存行——更新操作只涉及本地缓存行（M 状态），不需要发送 Invalidate 消息。代价是读取全局值需要遍历所有 CPU 的副本，但统计场景下读远少于写，这是可接受的权衡。

7.5 Userspace RCU（liburcu）#

Linux 内核的 RCU 机制无法直接在用户态使用。liburcu（Userspace RCU）提供了等效的用户态实现，被 dpdk、glusterfs 等项目采用：

1
#include <urcu.h>
2
#include <urcu-pointer.h>
3

4
struct data* global_ptr;
5

6
// 读者
7
void reader() {
8
    rcu_read_lock();
9
    struct data* d = rcu_dereference(global_ptr);
10
    // 使用 d... 无锁，零开销
11
    rcu_read_unlock();
12
}
13

14
// 写者
15
void writer(struct data* new_data) {
16
    struct data* old = rcu_xchg_pointer(&global_ptr, new_data);
17
    synchronize_rcu();  // 等待所有读者退出
18
    free(old);
19
}

liburcu 提供多种变体：QSBR（最轻量，需读者显式汇报静止状态）、MB（基于内存屏障，通用但较慢）、Signal（基于信号强制静止状态）。高性能场景推荐 QSBR 变体。

7.6 无锁哈希表#

无锁哈希表的实现比队列和栈复杂得多。主流方案包括：

方案	核心思路	复杂度
分片锁哈希表	每个桶独立加锁	低，但非严格无锁
Lock-coupon（Herlihy）	CAS 逐桶推进	高，理论意义
Folklore 无锁哈希	开放寻址 + CAS 插入	中，实践中常用

生产环境通常选择分片锁方案——将哈希表分为 N 个桶组，每组独立加锁，在并发度和实现复杂度之间取得平衡。严格的无锁哈希表实现复杂且 ABA 问题严重，目前仅在学术研究中使用。

八、何时使用无锁#

场景	推荐	原因
共享计数器	原子操作	FAA 最快，无竞争风险
单生产者单消费者队列	无锁队列	避免锁开销
高频更新的统计	Per-CPU	消除缓存行争用
低竞争的共享数据	自旋锁	简单，开销小
复杂的数据结构修改	互斥锁	无锁实现复杂，ABA 风险
需要等待的操作	互斥锁	自旋浪费 CPU
代码可读性优先	互斥锁	锁更易理解和维护

九、总结#

上一章深入探讨了数据导向设计。

技术	开销	复杂度	适用场景
互斥锁	25 ns - 10 μs	低	通用并发
自旋锁	10 ns - 1 μs	低	短临界区
原子操作	5-10 ns	中	计数器、标志
无锁队列	10-50 ns	高	SPSC/MPSC 队列
RCU	读: 0 ns, 写: ms	高	读多写极少