2848 字
9 分钟
LLM 论文发展史
系列简介
大语言模型(Large Language Model)的发展历程,是一部波澜壮阔的技术创新史。从 2017 年 Google 发表《Attention Is All You Need》Transformer 论文,到 2026 年 Kimi 发布 Attention Residuals 架构创新,LLM 领域发生了翻天覆地的变化。
本系列按照时间线,系统梳理 LLM 发展的关键论文,帮助读者理解每项技术的起源、演进和影响。
学习路径
第一阶段:架构基础├── 01 Transformer 架构革命├── 02 GPT 系列├── 03 BERT 与双向预训练├── 04 PaLM 与 Scaling Law├── 19 RoPE 旋转位置编码├── 20 Chinchilla 与训练法则├── 21 LLaMA 2 与开源突破├── 27 PaLM 2 技术报告└── 35 Transformer-XL 超长上下文
第二阶段:能力增强├── 05 Chain of Thought 推理增强├── 06 RLHF 人类反馈强化学习├── 07 Claude 与对齐技术├── 16 DPO 直接偏好优化├── 23 Claude 系列发展史├── 41 Verify Step by Step 过程监督└── 44 RLAIF 人工智能反馈
第三阶段:开源生态├── 08 LLaMA 与开源生态├── 09 Mixtral 与 MoE 架构├── 21 LLaMA 2 与开源突破├── 26 Qwen 与 InternLM 开源模型├── 28 AlphaCode 编程竞赛├── 29 Mistral 7B 小而美└── 38 Codex 编程能力
第四阶段:效率优化├── 14 Flash Attention 高效注意力├── 15 LoRA 与 PEFT 高效微调├── 17 LLM 量化技术├── 18 MQA 与 GQA 注意力├── 24 Speculative Decoding 推理加速├── 30 Grok 与 LLaMA 3 新星└── 39 GLaM 混合专家
第五阶段:Agent 与推理├── 10 ReAct 与 Agent 架构├── 11 OpenAI o 系列推理模型├── 12 DeepSeek R1 与 GRPO├── 13 Kimi AttnRes 与架构创新├── 25 T5 与 FLAN 指令微调├── 32 o1/o3 推理时代├── 40 WebGPT 网页搜索└── 42 Toolformer 工具调用
第六阶段:多模态与展望├── 22 Gemini 多模态模型├── 31 RAG 与 Long Context├── 34 Prompt Engineering 与最佳实践├── 36 ERNIE 知识图谱增强├── 37 AutoPrompt 自动提示├── 43 Phi-1 高质量数据├── 45 Superalignment 弱到强泛化└── 46 GraphRAG 知识图谱检索
第七阶段:新架构与基础技术├── 47 Mamba 与 SSM 状态空间模型├── 48 InstructGPT 与 ChatGPT 前身├── 49 PagedAttention 与 vLLM 推理├── 50 CLIP 视觉语言对比学习├── 51 Tree of Thoughts 树状搜索推理└── 52 LLaVA 开源多模态对话
第八阶段:前沿技术与基础设施├── 53 DeepSeek-V2/V3 与 MLA 创新├── 54 Sentence-BERT 语义表示├── 55 GPT-4 技术报告解读├── 56 BPE 与 SentencePiece 分词器├── 57 RWKV 线性注意力├── 58 DistilBERT 知识蒸馏├── 59 Megatron-LM 张量并行└── 60 ChatBot Arena 模型评估系列文章
0.1 架构基础(01-04)
| 文章 | 状态 | 简介 |
|---|---|---|
| Transformer 架构革命 | 已发布 | Attention Is All You Need、自注意力机制、多头注意力、位置编码 |
| GPT 系列论文解读 | 已发布 | GPT-1/2/3/4 演进、Few-Shot Learning、InstructGPT |
| BERT 与双向预训练 | 已发布 | MLN、NSP、预训练+微调范式、GPT vs BERT |
| PaLM 与 Scaling Law | 已发布 | 540B 参数、Pathways 系统、涌现能力 |
0.2 能力增强(05-07)
| 文章 | 状态 | 简介 |
|---|---|---|
| Chain of Thought 推理增强 | 已发布 | CoT Prompting、中间推理步骤、涌现特性 |
| RLHF 与人类反馈强化学习 | 已发布 | 奖励模型、PPO 算法、InstructGPT |
| Claude 与对齐技术 | 已发布 | Constitutional AI、AI Feedback、3H 原则 |
0.3 开源生态(08-09)
| 文章 | 状态 | 简介 |
|---|---|---|
| LLaMA 与开源生态 | 已发布 | LLaMA 7B-65B、Chinchilla Law、开源协议 |
| Mixtral 与 MoE 架构 | 已发布 | 稀疏专家混合、Expert FFN、Sliding Window Attention |
0.4 Agent 与推理(10-13)
| 文章 | 状态 | 简介 |
|---|---|---|
| ReAct 与 Agent 架构 | 已发布 | Thought/Action/Observation 循环、Tool Use |
| OpenAI o 系列推理模型 | 已发布 | o1/o3、RLVR、Test-Time Compute Scaling |
| DeepSeek R1 与开源推理 | 已发布 | GRPO、纯 RL 训练、蒸馏模型 |
| Kimi AttnRes 与架构创新 | 已发布 | 注意力残差、Block AttnRes、1.25x 效率提升 |
0.5 效率优化(14-18)
| 文章 | 状态 | 简介 |
|---|---|---|
| Flash Attention 高效注意力 | 已发布 | IO 感知、内存优化、计算加速 |
| LoRA 与 PEFT 高效微调 | 已发布 | 低秩适配、参数高效微调、QLoRA |
| DPO 直接偏好优化 | 已发布 | 无需奖励模型、偏好学习、IPO/KTO |
| LLM 量化技术 | 已发布 | GPTQ、AWQ、GGUF、KV Cache 量化 |
| MQA 与 GQA 注意力 | 已发布 | 多查询注意力、分组查询注意力 |
0.6 架构优化(19-21)
| 文章 | 状态 | 简介 |
|---|---|---|
| RoPE 旋转位置编码 | 已发布 | 相对位置编码、旋转矩阵、长文本扩展 |
| Chinchilla 与训练法则 | 已发布 | 计算最优、数据-参数配比、Chinchilla Law |
| LLaMA 2 与开源突破 | 已发布 | 对话优化、安全微调、商用许可 |
0.7 多模态与微调(22-25)
| 文章 | 状态 | 简介 |
|---|---|---|
| Gemini 多模态模型 | 已发布 | 原生多模态、Long Context、思维链 |
| Claude 系列发展史 | 已发布 | Claude 1-4 演进、对齐技术、MCP 协议 |
| Speculative Decoding 推理加速 | 已发布 | 草稿模型、推测解码、延迟优化 |
| T5 与 FLAN 指令微调 | 已发布 | Text-to-Text、指令微调、FLAN |
0.8 开源新星(26-30)
| 文章 | 状态 | 简介 |
|---|---|---|
| Qwen 与 InternLM 开源模型 | 已发布 | 国产开源、多模态、长文本 |
| PaLM 2 技术报告 | 已发布 | 改进架构、多语言、推理能力 |
| AlphaCode 编程竞赛 | 已发布 | 代码生成、竞赛级编程、采样策略 |
| Mistral 7B 小而美 | 已发布 | 高效架构、滑动窗口、性能对标 |
| Grok 与 LLaMA 3 新星 | 已发布 | xAI Grok、LLaMA 3、开源新势力 |
0.9 前沿进展(31-33)
| 文章 | 状态 | 简介 |
|---|---|---|
| RAG 与 Long Context | 已发布 | 检索增强、长上下文、知识注入 |
| o1/o3 推理时代 | 已发布 | 推理模型演进、Test-Time Compute |
| Prompt Engineering 最佳实践 | 已发布 | 提示技巧、结构化提示、最佳实践 |
0.10 经典论文补充(34-46)
| 文章 | 状态 | 简介 |
|---|---|---|
| Transformer-XL 长文本模型 | 已发布 | 段级递归、相对位置编码、超长上下文 |
| Transformer-XL 超长上下文 | 已发布 | 段级递归、相对位置编码、长依赖捕获 |
| ERNIE 知识图谱增强 | 已发布 | 异构信息融合、知识编码器、实体级别表示 |
| AutoPrompt 自动提示 | 已发布 | 梯度引导提示搜索、自动化标签选择 |
| Codex 编程能力 | 已发布 | HumanEval、代码微调、功能正确性验证 |
| GLaM 混合专家 | 已发布 | 稀疏 MoE、Top-2 激活、训练效率提升 |
| WebGPT 网页搜索 | 已发布 | 浏览器控制、模仿学习、引用收集 |
| Verify Step by Step 过程监督 | 已发布 | ORM vs PRM、主动学习、MATH 数据集 |
| Toolformer 工具调用 | 已发布 | 自监督 API 调用、零样本泛化、工具学习 |
| Phi-1 高质量数据 | 已发布 | 数据工程、教科书级数据、合成数据 |
| RLAIF 人工智能反馈 | 已发布 | AI 偏好标注、蒸馏 RLAIF、位置偏差处理 |
| Superalignment 弱到强泛化 | 已发布 | 弱到强泛化、辅助置信损失、超级对齐 |
| GraphRAG 知识图谱检索 | 已发布 | 图谱索引、社区检测、全局问题回答 |
0.11 新架构与基础技术(47-52)
| 文章 | 状态 | 简介 |
|---|---|---|
| Mamba 与 SSM 状态空间模型 | 已发布 | 选择性状态空间、硬件感知算法、线性复杂度序列建模 |
| InstructGPT 与 ChatGPT 前身 | 已发布 | SFT → RM → PPO 三阶段训练、奖励模型、对齐方法 |
| PagedAttention 与 vLLM 推理 | 已发布 | KV Cache 分页管理、连续批处理、高效推理框架 |
| CLIP 视觉语言对比学习 | 已发布 | 图像-文本对比学习、零样本分类、视觉语言预训练 |
| Tree of Thoughts 树状搜索推理 | 已发布 | 树状搜索、多路径探索、推理能力增强 |
| LLaVA 开源多模态对话 | 已发布 | 视觉指令微调、CLIP+LLaMA 组合、GPT-4 生成数据 |
0.12 前沿技术与基础设施(53-60)
| 文章 | 状态 | 简介 |
|---|---|---|
| DeepSeek-V2/V3 与 MLA 创新 | 已发布 | MLA 注意力压缩、DeepSeekMoE、FP8 训练、极致效率 |
| Sentence-BERT 语义表示 | 已发布 | 孪生网络、对比学习、语义搜索、向量检索 |
| GPT-4 技术报告解读 | 已发布 | 多模态理解、可预测扩展性、红队测试、安全对齐 |
| BPE 与 SentencePiece 分词器 | 已发布 | 子词分词、BPE 算法、WordPiece、压缩率分析 |
| RWKV 线性注意力 | 已发布 | 线性注意力 RNN、时间衰减、Token Shift、Transformer 替代 |
| DistilBERT 知识蒸馏 | 已发布 | Teacher-Student 蒸馏、模型压缩、三重损失函数 |
| Megatron-LM 张量并行 | 已发布 | 张量并行、流水线并行、ZeRO、3D 并行策略 |
| ChatBot Arena 模型评估 | 已发布 | 匿名对战、ELO 评分、人类偏好评估、LLM 评估新范式 |
前置知识
- Python 基础
- 深度学习基础概念(神经网络、梯度下降、反向传播)
- 线性代数基础(矩阵运算、向量空间)
相关系列
本系列是机器学习学习路线的核心理论部分,推荐结合以下系列阅读:
| 系列 | 定位 | 关联内容 |
|---|---|---|
| AI Agent 实战指南 | 实战导向 | ReAct(10)、o 系列(11)、DeepSeek R1(12)、Kimi AttnRes(13)应用实践 |
| LLM 安全漏洞发展史 | 安全专题 | RLHF 对齐原理、模型安全机制、攻击与防御 |
| 从零理解大语言模型 | 入门教程 | LLM 基础概念、Prompt 工程、RAG、Function Calling |
阅读建议:
- 先学 从零理解大语言模型 建立 LLM 基础认知
- 本系列按时间线深入论文细节,适合想深入理解原理的读者
- 论文中的 Agent 相关内容(ReAct、o 系列、R1)可结合 AI Agent 实战指南 实践
发展时间线
timeline
title LLM 发展时间线
2017 : Transformer 论文
: Google 发表《Attention Is All You Need》
2018 : GPT-1 / BERT
: OpenAI GPT-1 / Google BERT
2019 : GPT-2 / Transformer-XL
: OpenAI 发布 GPT-2 / Google 发布 Transformer-XL
2020 : GPT-3 / ERNIE
: 175B 参数 / 知识图谱增强
2021 : InstructGPT / GLaM / Codex
: RLHF / MoE 稀疏激活 / AI 编程
2022 : GPT-4 / PaLM / CoT / Claude
: 推理能力大幅提升
2023 : LLaMA / Claude 2 / Mixtral / Toolformer
: 开源生态爆发 / 工具调用
2024 : o1 / Claude 3.5 / GraphRAG
: 推理模型商用 / 知识图谱 RAG
2025 : o3 / R1 / Gemini 2.5
: DeepSeek R1 开源
2025-2026 : 新架构与基础
: Mamba/SSM, DeepSeek MLA, RWKV<br/>Megatron-LM, ChatBot Arena
2026 : AttnRes
: Kimi 发布注意力残差
核心技术点
0.13 架构演进
| 年份 | 架构 | 关键创新 |
|---|---|---|
| 2017 | Transformer | 自注意力机制、位置编码 |
| 2018 | GPT、BERT | 生成式预训练、双向编码 |
| 2019 | Transformer-XL | 段级递归、相对位置编码 |
| 2020 | GPT-3 | 175B 参数、Few-Shot Learning |
| 2021 | GLaM | 稀疏 MoE、Top-K 激活 |
| 2022 | PaLM | 540B、Scaling Law |
| 2023 | LLaMA / Mixtral | 开源、稀疏 MoE |
| 2024-2025 | o1 / R1 | Test-Time Compute、GRPO |
| 2024 | Mamba/SSM | 选择性状态空间、线性复杂度 |
| 2024 | DeepSeek-V2/V3 | MLA 注意力压缩、MoE、FP8 |
| 2024 | RWKV-6 | 线性注意力 RNN、时间衰减 |
| 2026 | AttnRes | 注意力动态选择 |
0.14 训练方法演进
| 方法 | 论文 | 核心贡献 |
|---|---|---|
| Pre-training | GPT/BERT | 下一个 Token 预测 |
| SFT | InstructGPT | 监督微调 |
| RLHF | InstructGPT | 人类反馈强化学习 |
| RLAIF | RLAIF | AI 反馈替代人类 |
| CoT | Chain of Thought | 中间推理步骤 |
| GRPO | DeepSeek R1 | 纯 RL 训练 |
| Process Sup | Verify Step by Step | 过程监督 |
| Self-Supervised | Toolformer | 自监督工具学习 |
| Weak-to-Strong | Superalignment | 弱监督强模型 |
参考资源
必读论文
- Attention Is All You Need (Vaswani et al., 2017)
- GPT-1 (Radford et al., 2018)
- BERT (Devlin et al., 2018)
- GPT-2 (Radford et al., 2019)
- Transformer-XL (Dai et al., 2019)
- ERNIE (Zhang et al., 2019)
- GPT-3 (Brown et al., 2020)
- AutoPrompt (Shin et al., 2020)
- InstructGPT (Ouyang et al., 2022)
- Chain of Thought (Wei et al., 2022)
- PaLM (Chowdhery et al., 2022)
- Codex (Chen et al., 2021)
- WebGPT (Nakano et al., 2021)
- GLaM (Du et al., 2021)
- Verify Step by Step (Lightman et al., 2023)
- Toolformer (Schick et al., 2023)
- LLaMA (Touvron et al., 2023)
- Phi-1 (Li et al., 2023)
- GPT-4 (OpenAI, 2023)
- RLAIF (Lee et al., 2023)
- Mixtral (Jiang et al., 2024)
- Superalignment (Burns et al., 2023)
- GraphRAG (Edge et al., 2024)
- DeepSeek R1 (DeepSeek Team, 2025)
- Attention Residuals (Kimi Team, 2026)
- Mamba (Gu & Dao, 2023)
- DeepSeek-V2 (DeepSeek-AI, 2024)
- DeepSeek-V3 (DeepSeek-AI, 2024)
- Sentence-BERT (Reimers & Gurevych, 2019)
- GPT-4 Technical Report (OpenAI, 2023)
- BPE (Sennrich et al., 2016)
- SentencePiece (Kudo & Richardson, 2018)
- RWKV (Peng et al., 2023)
- DistilBERT (Sanh et al., 2019)
- Megatron-LM (Shoeybi et al., 2019)
- ChatBot Arena (Chiang et al., 2024)
- CLIP (Radford et al., 2021)
- PagedAttention/vLLM (Kwon et al., 2023)
- Tree of Thoughts (Yao et al., 2023)
- LLaVA (Liu et al., 2023)
可视化资源
- Jay Alammar: The Illustrated Transformer
- Jay Alammar: The Illustrated GPT-2
- Lil’Log: Attention? Attention!
学习路径推荐
- 入门:从 Transformer 论文开始,理解注意力机制
- 理解 GPT/BERT:掌握预训练+微调范式
- 理解 RLHF/CoT:掌握能力增强方法
- 理解 Agent:掌握 ReAct 等架构
- 理解工具使用:掌握 Toolformer、WebGPT 等工具调用
- 理解最新进展:阅读 o1/R1/AttnRes 论文
补充说明
0.15 第一批补充(34-46)
本系列新增了 13 篇经典论文解读(34-46),包括:
- 架构类:Transformer-XL、GLaM
- 知识增强类:ERNIE、GraphRAG
- 提示工程类:AutoPrompt
- 代码生成类:Codex、Phi-1
- 工具使用类:WebGPT、Toolformer
- 对齐类:Verify Step by Step、RLAIF、Superalignment
0.16 第二批补充(47-60)
本系列新增了 14 篇前沿技术与基础设施工论文解读(47-60),包括:
- 新架构类:Mamba/SSM(47)、RWKV(57)
- 注意力优化类:DeepSeek-V2/V3 MLA(53)、PagedAttention/vLLM(49)
- 多模态类:CLIP(50)、LLaVA(52)、GPT-4(55)
- 训练方法类:InstructGPT(48)、DistilBERT(58)、Megatron-LM(59)
- 基础技术类:Sentence-BERT(54)、BPE/SentencePiece(56)
- 评估方法类:ChatBot Arena(60)、Tree of Thoughts(51)
这些论文覆盖了 LLM 发展的完整技术栈,从底层分词器到顶层评估方法,从模型架构到训练基础设施。
支持与分享
如果这篇文章对你有帮助,欢迎支持作者或分享给更多人
部分信息可能已经过时
相关文章 智能推荐
1
AutoPrompt 论文解读:自动化提示词生成的探索
AI 深度解读 AutoPrompt 论文——如何通过梯度引导搜索自动生成提示词,让语言模型更好地发挥知识提取能力。
2
Transformer-XL 论文解读:超越固定长度的注意力机制
AI 深度解读 Transformer-XL 论文——如何通过段级递归机制和相对位置编码,让 Transformer 突破固定长度限制,捕获更长的依赖关系。
3
从Chatbot到Agent:打造能自主干活的AI
AI 从Chatbot到Agent——打造能自主干活的AI
4
从零理解大语言模型的"思考"方式
AI 从零理解大语言模型的思考方式
5
Speculative Decoding:LLM 推理加速
AI 深度解读 Speculative Decoding 论文(2023)——自回归生成的并行加速、small draft model






