系列导读 - souloss

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

4043 字

12 分钟

系列导读

2026-03-01

CPU与计算机体系结构

CPU

/

体系结构

系列简介#

你写的每一行代码，最终都要在 CPU 上执行。但大多数工程师对 CPU 的理解停留在”它很快”这个模糊认知上——为什么同样的算法，换一种数据布局就能快 10 倍？为什么多线程加锁后性能反而下降？为什么 CPU 频率不再增长？为什么 perf stat 里的 L1-dcache-load-misses 那么高？

本系列从后端工程师的日常痛点出发，自底向上剖析现代 CPU 的核心机制。不是教科书式的体系结构课程，而是”你写的代码在 CPU 上到底发生了什么”的深度解读。每一章都配有可在你的 x86 或 ARM 机器上运行的代码实验，让你从「写代码」进阶到「理解代码如何在 CPU 上跑」。

为什么后端工程师需要理解 CPU？#

后端工程师的日常工作中，以下场景都与 CPU 体系结构密切相关：

性能调优：数据库查询慢，不一定是 SQL 的问题——可能是缓存未命中
并发编程：多线程加锁后性能下降——可能是缓存行弹跳（false sharing）
系统设计：为什么 Redis 单线程也能那么快？为什么 Go 的调度器要关心 NUMA？
故障排查：perf top 显示高 IPC 但吞吐量低——可能是分支预测失败
架构决策：该选 x86 还是 ARM？SIMD 能给业务带来多少收益？

场景驱动阅读路线#

不想按部就班地从第 1 章读到第 17 章？没问题。以下 5 条路线从你日常遇到的真实问题出发，按”你需要什么→CPU 怎么处理”的顺序串联章节。每条路线可独立阅读，前置依赖已在路线内标注。

路线总览#

flowchart TB subgraph 路线A[" 路线A：我的代码为什么跑不快"] A1[Ch1 CPU全景] --> A2[Ch3 流水线] A2 --> A3[Ch4 分支预测] A3 --> A4[Ch6 缓存层次] A4 --> A5[Ch14 数据导向设计] A5 --> A6[Ch17 综合实战] end subgraph 路线B[" 路线B：多线程性能为什么上不去"] B1[Ch1 CPU全景] --> B2[Ch7 缓存一致性] B2 --> B3[Ch8 内存排序] B3 --> B4[Ch15 无锁编程] B4 --> B5[Ch11 NUMA架构] B5 --> B6[Ch17 综合实战] end subgraph 路线C[" 路线C：如何用 perf 诊断 CPU 瓶颈"] C1[Ch1 CPU全景] --> C2[Ch6 缓存层次] C2 --> C3[Ch13 性能计数器] C3 --> C4[Ch4 分支预测] C4 --> C5[Ch10 TLB与页表] C5 --> C6[Ch17 综合实战] end subgraph 路线D[" 路线D：计算密集型任务怎么加速"] D1[Ch1 CPU全景] --> D2[Ch9 SIMD向量化] D2 --> D3[Ch14 数据导向设计] D3 --> D4[Ch12 预取] D4 --> D5[Ch16 GPU架构] D5 --> D6[Ch17 综合实战] end subgraph 路线E[" 路线E：从硬件到软件的完整认知"] E1[Ch2 指令集架构] --> E2[Ch3 流水线] E2 --> E3[Ch5 乱序执行] E3 --> E4[Ch7 缓存一致性] E4 --> E5[Ch8 内存排序] E5 --> E6[Ch11 NUMA架构] end style 路线A fill:#e3f2fd,stroke:#1565c0 style 路线B fill:#e8f5e9,stroke:#2e7d32 style 路线C fill:#fff3e0,stroke:#e65100 style 路线D fill:#fce4ec,stroke:#c62828 style 路线E fill:#f3e5f5,stroke:#6a1b9a

路线A：我的代码为什么跑不快#

场景：你写了一个数据处理服务，QPS 远低于预期。CPU 利用率很高，但吞吐量上不去。你怀疑是缓存问题，但不知道从何下手。

顺序	章节	为什么读这章
1	Ch1 CPU 全景	建立”内存墙”的认知——CPU 和内存之间的速度差距是性能问题的根源
2	Ch3 流水线	理解指令如何被 CPU 执行——流水线停顿是性能损失的直接原因
3	Ch4 分支预测	if-else 分支预测失败的代价——一个误判可能冲掉整个流水线
4	Ch6 缓存层次	核心：L1/L2/L3 缓存的工作原理——缓存命中率是性能的第一指标
5	Ch14 数据导向设计	实战：如何组织数据让缓存更友好——SoA vs AoS、缓存行对齐
6	Ch17 综合实战	端到端优化案例：从慢代码到快代码的完整旅程

路线逻辑：从”CPU 和内存的速度差距”出发，理解指令执行（Ch3）和分支预测（Ch4）的瓶颈，再深入缓存这一核心机制（Ch6），然后学习数据布局优化（Ch14），最后通过实战综合运用（Ch17）。

路线B：多线程性能为什么上不去#

场景：你把单线程服务改成多线程，加了锁，结果性能反而下降了。8 核机器上 8 个线程的吞吐量还不如 2 个线程。为什么？

顺序	章节	为什么读这章
1	Ch1 CPU 全景	理解多核架构——每个核心有自己的缓存，缓存一致性是关键
2	Ch7 缓存一致性	核心：MESI 协议——多核如何保证缓存数据一致，伪共享如何毁掉性能
3	Ch8 内存排序	内存屏障与可见性——为什么你写的顺序不一定是 CPU 执行的顺序
4	Ch15 无锁编程	CAS、原子操作、缓存行弹跳——无锁编程的原理与陷阱
5	Ch11 NUMA 架构	跨插槽访问的延迟惩罚——多线程在 NUMA 上的额外开销
6	Ch17 综合实战	多线程优化实战：消除伪共享、NUMA 感知分配、无锁队列

路线逻辑：先理解多核缓存一致性的硬件机制（Ch7），再理解内存排序对并发正确性的影响（Ch8），然后学习无锁编程技术（Ch15），最后考虑 NUMA 拓扑（Ch11）并通过实战综合运用（Ch17）。

路线C：如何用 perf 诊断 CPU 瓶颈#

场景：生产环境性能下降，你需要用 perf 等工具定位瓶颈。但 perf stat 输出的一堆事件是什么意思？Top-Down 分析法怎么用？

顺序	章节	为什么读这章
1	Ch1 CPU 全景	理解 PMU（性能监控单元）——perf 背后的硬件基础
2	Ch6 缓存层次	缓存未命中事件——perf 中最常关注的性能指标
3	Ch13 性能计数器	核心：PMU 事件、perf 工具链、Top-Down 分析法——系统化的性能分析框架
4	Ch4 分支预测	分支预测失败事件——如何用 perf 发现分支预测问题
5	Ch10 TLB 与页表	TLB 未命中——容易被忽视的性能杀手
6	Ch17 综合实战	使用 Top-Down 方法分析真实性能问题的完整案例

路线逻辑：先理解硬件计数器（Ch1→Ch6），再掌握 Top-Down 分析框架（Ch13），然后学习各类事件的解读（Ch4、Ch10），最后通过实战综合运用（Ch17）。

路线D：计算密集型任务怎么加速#

场景：图像处理、向量搜索、加密解密——这些计算密集型任务如何利用 CPU 的 SIMD 指令加速？什么时候该上 GPU？

顺序	章节	为什么读这章
1	Ch1 CPU 全景	理解 CPU 的并行计算能力——SIMD 是 CPU 级并行的基础
2	Ch9 SIMD 向量化	核心：SSE/AVX/NEON 指令——如何用 SIMD 指令加速数据处理
3	Ch14 数据导向设计	数据布局对 SIMD 友好性的影响——SoA 布局是 SIMD 的最佳搭档
4	Ch12 预取	硬件预取与软件预取——计算密集型场景下隐藏内存延迟
5	Ch16 GPU 架构	当 CPU 不够快时——GPU 的 SIMT 模型与 CUDA 编程基础
6	Ch17 综合实战	SIMD + 预取 + 数据布局优化的综合案例

路线逻辑：从 CPU 的 SIMD 能力出发（Ch9），优化数据布局以配合 SIMD（Ch14），用预取隐藏延迟（Ch12），评估是否需要 GPU（Ch16），最后实战综合运用（Ch17）。

路线E：从硬件到软件的完整认知#

场景：你想建立从硬件到软件的完整认知链路——从指令集到微架构，从缓存一致性到内存模型，从 NUMA 到并发编程。

顺序	章节	为什么读这章
1	Ch2 指令集架构	软硬件契约——x86/ARM/RISC-V 的设计哲学差异
2	Ch3 流水线	指令如何被硬件执行——流水线是微架构的核心
3	Ch5 乱序执行	CPU 如何突破指令顺序限制——寄存器重命名、ROB、推测执行
4	Ch7 缓存一致性	多核一致性的硬件实现——MESI 协议的精妙设计
5	Ch8 内存排序	硬件内存模型与软件内存模型的映射——x86 TSO vs ARM 弱序
6	Ch11 NUMA 架构	多插槽系统的内存拓扑——跨 NUMA 节点访问的延迟与带宽

路线逻辑：从 ISA（软硬件接口）出发，逐层深入微架构（流水线→乱序执行），再理解多核一致性（缓存一致性→内存排序），最后扩展到多插槽系统（NUMA）。

路线交叉参考#

同一章节在不同路线中的关注点不同：

章节	路线A 关注点	路线B 关注点	路线C 关注点	路线D 关注点	路线E 关注点
Ch1	内存墙认知	多核架构	PMU 基础	SIMD 能力	—
Ch3	流水线停顿	—	—	—	微架构核心
Ch4	分支预测失败	—	分支事件解读	—	—
Ch6	缓存命中率	—	缓存事件	—	—
Ch7	—	MESI 协议	—	—	一致性实现
Ch8	—	内存屏障	—	—	内存模型
Ch9	—	—	—	SIMD 核心	—
Ch11	—	NUMA 延迟	—	—	多插槽拓扑
Ch13	—	—	Top-Down 核心	—	—
Ch14	数据布局	—	—	SIMD 友好	—
Ch15	—	无锁编程	—	—	—
Ch16	—	—	—	GPU 加速	—

知识导图#

以下导图展示 17 章知识之间的网络关系。与线性目录不同，这里强调跨层级的连接——一个缓存未命中同时牵动缓存层次、缓存一致性、TLB、预取四个机制；一个并发 bug 同时涉及内存排序、缓存一致性、原子操作三个领域。

概念关系图#

graph TB subgraph 软件层[" 软件层 — 你写的代码"] CODE["代码与算法"] DATA["数据布局 AoS / SoA"] LOCK["并发控制 锁 / 原子操作"] SIMD_SW["SIMD 内联 intrinsics"] PERF_SW["性能分析 perf / VTune"] end subgraph 微架构层[" 微架构层 — CPU 如何执行指令"] PIPE["流水线 Ch3"] BRANCH["分支预测 Ch4"] OOO["乱序执行 Ch5"] PREFETCH_HW["硬件预取 Ch12"] PMU["性能计数器 Ch13"] end subgraph 内存层次层[" 内存层次层 — 数据如何在存储间移动"] CACHE["缓存 L1/L2/L3 Ch6"] COHERENCE["缓存一致性 Ch7"] MEMORD["内存排序 Ch8"] TLB["TLB 与页表 Ch10"] NUMA["NUMA 拓扑 Ch11"] end subgraph 接口层[" 接口层 — 软硬件契约"] ISA["指令集架构 Ch2"] SIMD_HW["SIMD 单元 Ch9"] GPU["GPU 架构 Ch16"] end CODE --> PIPE CODE --> BRANCH DATA --> CACHE LOCK --> COHERENCE LOCK --> MEMORD SIMD_SW --> SIMD_HW PERF_SW --> PMU PIPE --> CACHE BRANCH --> PIPE OOO --> PIPE CACHE --> COHERENCE COHERENCE --> MEMORD CACHE --> TLB CACHE --> NUMA CACHE --> PREFETCH_HW ISA --> PIPE ISA --> SIMD_HW SIMD_HW --> CACHE style 软件层 fill:#e8eaf6,stroke:#283593 style 微架构层 fill:#e0f2f1,stroke:#00695c style 内存层次层 fill:#fce4ec,stroke:#880e4f style 接口层 fill:#fff3e0,stroke:#e65100

章节网络关系图#

graph LR Ch0["Ch0 导读"] --> Ch1["Ch1 CPU全景"] Ch1 --> Ch2["Ch2 ISA"] Ch1 --> Ch6["Ch6 缓存"] Ch2 --> Ch3["Ch3 流水线"] Ch3 --> Ch4["Ch4 分支预测"] Ch3 --> Ch5["Ch5 乱序执行"] Ch6 --> Ch7["Ch7 缓存一致性"] Ch6 --> Ch10["Ch10 TLB"] Ch6 --> Ch12["Ch12 预取"] Ch7 --> Ch8["Ch8 内存排序"] Ch7 --> Ch15["Ch15 无锁编程"] Ch2 --> Ch9["Ch9 SIMD"] Ch9 --> Ch14["Ch14 数据导向设计"] Ch6 --> Ch14 Ch6 --> Ch11["Ch11 NUMA"] Ch10 --> Ch11 Ch1 --> Ch13["Ch13 性能计数器"] Ch6 --> Ch13 Ch4 --> Ch13 Ch9 --> Ch16["Ch16 GPU"] Ch15 --> Ch17["Ch17 综合实战"] Ch14 --> Ch17 Ch13 --> Ch17 Ch11 --> Ch17 style Ch0 fill:#bbdefb,stroke:#1565c0 style Ch6 fill:#fff9c4,stroke:#f9a825 style Ch7 fill:#ffe0b2,stroke:#e65100 style Ch13 fill:#c8e6c9,stroke:#2e7d32 style Ch17 fill:#e1bee7,stroke:#6a1b9a

知识关联参考表#

软件概念	对应章节	微架构机制	对应章节	内存层次	对应章节
if-else 分支	Ch4	分支预测（BTB/RAS）	Ch4	预测失败→流水线冲刷	Ch3
顺序代码	Ch5	乱序执行 + ROB	Ch5	Store Buffer → 可见性延迟	Ch8
数组遍历	Ch6	缓存行填充	Ch6	L1/L2/L3 命中/未命中	Ch6
多线程共享变量	Ch7	MESI 协议	Ch7	伪共享 → 缓存行弹跳	Ch7, Ch15
volatile / 内存屏障	Ch8	Store Buffer 排空	Ch8	x86 TSO vs ARM 弱序	Ch8
向量循环	Ch9	SIMD 执行单元	Ch9	对齐加载 vs 非对齐加载	Ch9
大内存页	Ch10	TLB 命中/未命中	Ch10	Huge Pages 减少页表层级	Ch10
多线程分配器	Ch11	NUMA 节点拓扑	Ch11	本地内存 vs 远端内存	Ch11
顺序访问模式	Ch12	Stream/Stride 预取器	Ch12	预取到 L2 还是 L3	Ch12
perf stat	Ch13	PMU 硬件计数器	Ch13	Top-Down 分析层次	Ch13
SoA 数据布局	Ch14	连续内存访问	Ch14	缓存行利用率提升	Ch6, Ch14
CAS 原子操作	Ch15	缓存行锁定	Ch15	缓存行弹跳开销	Ch7, Ch15
CUDA kernel	Ch16	SIMT 执行模型	Ch16	GPU 显存带宽	Ch16

系列大纲#

以下是按章节编号排列的完整目录。建议结合上方的场景驱动阅读路线和知识导图选择适合你的阅读顺序。

章节	标题	核心内容
0	系列导读	系列定位、场景路线、知识导图、参考资料
1	CPU 全景	内存墙、摩尔定律终结、CPU 微架构概览、多核趋势、性能度量
2	指令集架构	x86/ARM/RISC-V 设计哲学、CISC vs RISC、指令编码、扩展指令
3	指令流水线	5 级流水线、数据/控制/结构冒险、转发、停顿、超标量
4	分支预测	静态/动态预测、BTB、RAS、条件预测、预测失败的代价
5	乱序执行	寄存器重命名、ROB、保留站、推测执行、Spectre/Meltdown
6	缓存层次	L1/L2/L3 结构、缓存行、映射方式、替换策略、缓存友好的代码
7	缓存一致性	MESI 协议、MOESI/MESIF、伪共享、缓存行对齐、__cacheline_aligned
8	内存排序	内存模型、Store Buffer、内存屏障、x86 TSO、ARM 弱序、C++ memory_order
9	SIMD 向量化	SSE/AVX/AVX-512/NEON、intrinsics、自动向量化、掩码操作
10	TLB 与页表	多级页表、TLB 结构、Huge Pages、TLB 刷新、地址翻译过程
11	NUMA 架构	NUMA 拓扑、本地/远端内存、numactl、跨插槽延迟、NUMA 感知分配
12	预取	Stream/Stride 预取器、软件预取、__builtin_prefetch、预取对缓存的压力
13	性能计数器	PMU 事件、perf stat/record、Top-Down 分析、VTune、微架构自省
14	数据导向设计	AoS/SoA/AoS-oA、缓存行对齐、结构体布局、热/冷数据分离
15	无锁编程	CAS/LL-SC、原子操作、ABA 问题、缓存行弹跳、RCU 思想
16	GPU 架构	SIMT 模型、CUDA 编程基础、GPU 内存层次、CPU vs GPU 适用场景
17	综合实战	从慢代码到快代码的完整优化旅程，综合运用前 16 章知识

开发环境搭建#

Warning

以下环境搭建步骤基于 Ubuntu 22.04 LTS。CPU 架构实验需要真实的 x86_64 硬件，部分实验（如 SIMD、缓存测量）在 ARM 或虚拟机上的结果可能不同。

性能分析工具架构#

graph TB subgraph 采样工具["采样工具"] PERF["perf 硬件计数器采样"] VTUNE["VTune Intel 性能分析"] end subgraph 微基准["微基准测试"] LMBENCH["lmbench 系统调用/内存延迟"] GOOGLE_BENCH["Google Benchmark C++ 基准"] end subgraph 缓存分析["缓存分析"] CACHESIM["Cache Simulator Valgrind --tool=cachegrind"] PCM["Intel PCM 缓存命中/未命中"] end subgraph 汇编工具["汇编与调试"] OBJDUMP["objdump -d 反汇编"] GDB_ASM["GDB 汇编级调试"] end PERF --> LMBENCH VTUNE --> GOOGLE_BENCH CACHESIM --> PERF PCM --> VTUNE OBJDUMP --> GDB_ASM style 采样工具 fill:#e8eaf6,stroke:#283593 style 微基准 fill:#e0f2f1,stroke:#00695c style 缓存分析 fill:#fff3e0,stroke:#e65100 style 汇编工具 fill:#fce4ec,stroke:#880e4f

perf 性能计数器环境#

1
# 安装 perf 和 Linux 工具
2
sudo apt install linux-tools-common linux-tools-$(uname -r)
3

4
# 验证 perf 可用
5
perf stat echo hello
6

7
# 常用 perf 命令
8
# 1. 统计缓存命中/未命中
9
perf stat -e cache-references,cache-misses,L1-dcache-loads,L1-dcache-load-misses ./my_program
10

11
# 2. 统计分支预测
12
perf stat -e branches,branch-misses ./my_program
13

14
# 3. 统计指令执行
15
perf stat -e instructions,cycles,cpu-clock ./my_program
16

17
# 4. 记录并分析热点函数
18
perf record -g ./my_program
19
perf report

Intel PCM（性能计数器监控）#

1
# 安装 Intel PCM
2
git clone https://github.com/opcm/pcm.git
3
cd pcm && mkdir build && cd build
4
cmake .. && make -j$(nproc)
5

6
# 运行 PCM 监控
7
sudo ./pcm 1
8

9
# 输出示例：
10
# CORE | IPC | L2 Hit | L3 Hit | L2 Miss | L3 Miss |
11
#   0  | 1.2 |  95.3% |  89.1% |   4.7%  |  10.9% |

Note

perf 需要内核支持 perf_event_paranoid 设置。开发环境可以设为 0：sudo sysctl -w kernel.perf_event_paranoid=0。生产环境建议保持默认值 2，仅允许用户态性能计数器。

微基准测试工具#

1
# 安装 lmbench
2
sudo apt install lmbench
3

4
# 测量内存延迟
5
lat_mem_rd 128M  # 测量 128MB 数据的读取延迟
6

7
# 测量系统调用开销
8
lat_syscall null  # 测量空系统调用延迟
9
lat_syscall write # 测量 write 系统调用延迟
10

11
# 安装 Google Benchmark
12
git clone https://github.com/google/benchmark.git
13
cd benchmark && mkdir build && cd build
14
cmake .. -DCMAKE_BUILD_TYPE=Release && make -j$(nproc)
15
sudo make install

本系列的实践方法论#

本系列遵循 观察 → 原理 → 优化 → 验证 的学习方法：

观察：用 perf stat、PCM、lmbench 观察硬件的实际行为，建立直觉
原理：深入 CPU 微架构文档（Intel SDM），理解硬件为什么这样设计
优化：根据原理调整代码（缓存友好、分支友好、SIMD 友好），用基准测试验证
验证：用性能计数器验证优化效果，确认理论预期与实际一致

每章的「动手实践」部分都遵循这一方法论。先观察现象，再理解原理，然后动手优化，最后验证效果。

1
# 快速验证你的 CPU 微架构信息
2
cat /proc/cpuinfo | grep "model name" | head -1
3
# 示例输出：Intel(R) Core(TM) i7-10700K CPU @ 3.80GHz
4

5
# 查看缓存大小
6
lscpu | grep "L1d cache\|L1i cache\|L2 cache\|L3 cache"
7
# 示例输出：
8
# L1d cache: 32K
9
# L1i cache: 32K
10
# L2 cache: 256K
11
# L3 cache: 12288K
12

13
# 查看支持的 SIMD 指令集
14
lscpu | grep "Flags" | tr ' ' '
15
' | grep -E "sse|avx|neon"

Tip

CPU 架构优化的黄金法则：Measure, don’t guess。性能优化的第一步永远是测量——用 perf 和 PCM 获取数据，而不是凭直觉猜测瓶颈。很多”显然”的优化（如循环展开）在现代 CPU 上可能适得其反，因为编译器已经做了，手动展开反而干扰编译器的判断。

书籍	作者	特点
《Computer Architecture: A Quantitative Approach》	Hennessy & Patterson	计算机体系结构的圣经，量化分析方法论
《What Every Programmer Should Know About Memory》	Ulrich Drepper	从程序员视角解读内存层次，免费论文
《Intel® 64 and IA-32 Architectures Optimization Reference Manual》	Intel	x86 微架构优化的权威指南
《Computer Organization and Design》	Patterson & Hennessy	入门级体系结构教材，RISC-V 版
《A Primer on Memory Consistency and Cache Coherence》	Sorin et al.	内存一致性与缓存一致性的系统化教材
《Systems Performance》	Brendan Gregg	性能分析的百科全书，perf/BCC 实战

参考#

支持与分享

如果这篇文章对你有帮助，欢迎支持作者或分享给更多人

赞助

系列导读

https://blog.souloss.com/posts/cpu-architecture/cpu-architecture-series-guide/

作者

Souloss

发布于

2026-03-01

许可协议

CC BY-NC-SA 4.0

部分信息可能已经过时

Rust 编译器与借用检查器

eBPF Map：数据结构详解

系列简介#

为什么后端工程师需要理解 CPU？#

场景驱动阅读路线#

路线总览#

路线A：我的代码为什么跑不快#

路线B：多线程性能为什么上不去#

路线C：如何用 perf 诊断 CPU 瓶颈#

路线D：计算密集型任务怎么加速#

路线E：从硬件到软件的完整认知#

路线交叉参考#

知识导图#

概念关系图#

章节网络关系图#

知识关联参考表#

系列大纲#

开发环境搭建#

性能分析工具架构#

perf 性能计数器环境#

Intel PCM（性能计数器监控）#

微基准测试工具#

本系列的实践方法论#

推荐参考资料#

经典教材#

在线资源#

实验工具#

参考#

支持与分享