mobile wallpaper 1mobile wallpaper 2mobile wallpaper 3mobile wallpaper 4
2848 字
9 分钟
LLM 论文发展史
2025-07-11

系列简介#

大语言模型(Large Language Model)的发展历程,是一部波澜壮阔的技术创新史。从 2017 年 Google 发表《Attention Is All You Need》Transformer 论文,到 2026 年 Kimi 发布 Attention Residuals 架构创新,LLM 领域发生了翻天覆地的变化。

本系列按照时间线,系统梳理 LLM 发展的关键论文,帮助读者理解每项技术的起源、演进和影响。

学习路径#

第一阶段:架构基础
├── 01 Transformer 架构革命
├── 02 GPT 系列
├── 03 BERT 与双向预训练
├── 04 PaLM 与 Scaling Law
├── 19 RoPE 旋转位置编码
├── 20 Chinchilla 与训练法则
├── 21 LLaMA 2 与开源突破
├── 27 PaLM 2 技术报告
└── 35 Transformer-XL 超长上下文
第二阶段:能力增强
├── 05 Chain of Thought 推理增强
├── 06 RLHF 人类反馈强化学习
├── 07 Claude 与对齐技术
├── 16 DPO 直接偏好优化
├── 23 Claude 系列发展史
├── 41 Verify Step by Step 过程监督
└── 44 RLAIF 人工智能反馈
第三阶段:开源生态
├── 08 LLaMA 与开源生态
├── 09 Mixtral 与 MoE 架构
├── 21 LLaMA 2 与开源突破
├── 26 Qwen 与 InternLM 开源模型
├── 28 AlphaCode 编程竞赛
├── 29 Mistral 7B 小而美
└── 38 Codex 编程能力
第四阶段:效率优化
├── 14 Flash Attention 高效注意力
├── 15 LoRA 与 PEFT 高效微调
├── 17 LLM 量化技术
├── 18 MQA 与 GQA 注意力
├── 24 Speculative Decoding 推理加速
├── 30 Grok 与 LLaMA 3 新星
└── 39 GLaM 混合专家
第五阶段:Agent 与推理
├── 10 ReAct 与 Agent 架构
├── 11 OpenAI o 系列推理模型
├── 12 DeepSeek R1 与 GRPO
├── 13 Kimi AttnRes 与架构创新
├── 25 T5 与 FLAN 指令微调
├── 32 o1/o3 推理时代
├── 40 WebGPT 网页搜索
└── 42 Toolformer 工具调用
第六阶段:多模态与展望
├── 22 Gemini 多模态模型
├── 31 RAG 与 Long Context
├── 34 Prompt Engineering 与最佳实践
├── 36 ERNIE 知识图谱增强
├── 37 AutoPrompt 自动提示
├── 43 Phi-1 高质量数据
├── 45 Superalignment 弱到强泛化
└── 46 GraphRAG 知识图谱检索
第七阶段:新架构与基础技术
├── 47 Mamba 与 SSM 状态空间模型
├── 48 InstructGPT 与 ChatGPT 前身
├── 49 PagedAttention 与 vLLM 推理
├── 50 CLIP 视觉语言对比学习
├── 51 Tree of Thoughts 树状搜索推理
└── 52 LLaVA 开源多模态对话
第八阶段:前沿技术与基础设施
├── 53 DeepSeek-V2/V3 与 MLA 创新
├── 54 Sentence-BERT 语义表示
├── 55 GPT-4 技术报告解读
├── 56 BPE 与 SentencePiece 分词器
├── 57 RWKV 线性注意力
├── 58 DistilBERT 知识蒸馏
├── 59 Megatron-LM 张量并行
└── 60 ChatBot Arena 模型评估

系列文章#

0.1 架构基础(01-04)#

文章状态简介
Transformer 架构革命已发布Attention Is All You Need、自注意力机制、多头注意力、位置编码
GPT 系列论文解读已发布GPT-1/2/3/4 演进、Few-Shot Learning、InstructGPT
BERT 与双向预训练已发布MLN、NSP、预训练+微调范式、GPT vs BERT
PaLM 与 Scaling Law已发布540B 参数、Pathways 系统、涌现能力

0.2 能力增强(05-07)#

文章状态简介
Chain of Thought 推理增强已发布CoT Prompting、中间推理步骤、涌现特性
RLHF 与人类反馈强化学习已发布奖励模型、PPO 算法、InstructGPT
Claude 与对齐技术已发布Constitutional AI、AI Feedback、3H 原则

0.3 开源生态(08-09)#

文章状态简介
LLaMA 与开源生态已发布LLaMA 7B-65B、Chinchilla Law、开源协议
Mixtral 与 MoE 架构已发布稀疏专家混合、Expert FFN、Sliding Window Attention

0.4 Agent 与推理(10-13)#

文章状态简介
ReAct 与 Agent 架构已发布Thought/Action/Observation 循环、Tool Use
OpenAI o 系列推理模型已发布o1/o3、RLVR、Test-Time Compute Scaling
DeepSeek R1 与开源推理已发布GRPO、纯 RL 训练、蒸馏模型
Kimi AttnRes 与架构创新已发布注意力残差、Block AttnRes、1.25x 效率提升

0.5 效率优化(14-18)#

文章状态简介
Flash Attention 高效注意力已发布IO 感知、内存优化、计算加速
LoRA 与 PEFT 高效微调已发布低秩适配、参数高效微调、QLoRA
DPO 直接偏好优化已发布无需奖励模型、偏好学习、IPO/KTO
LLM 量化技术已发布GPTQ、AWQ、GGUF、KV Cache 量化
MQA 与 GQA 注意力已发布多查询注意力、分组查询注意力

0.6 架构优化(19-21)#

文章状态简介
RoPE 旋转位置编码已发布相对位置编码、旋转矩阵、长文本扩展
Chinchilla 与训练法则已发布计算最优、数据-参数配比、Chinchilla Law
LLaMA 2 与开源突破已发布对话优化、安全微调、商用许可

0.7 多模态与微调(22-25)#

文章状态简介
Gemini 多模态模型已发布原生多模态、Long Context、思维链
Claude 系列发展史已发布Claude 1-4 演进、对齐技术、MCP 协议
Speculative Decoding 推理加速已发布草稿模型、推测解码、延迟优化
T5 与 FLAN 指令微调已发布Text-to-Text、指令微调、FLAN

0.8 开源新星(26-30)#

文章状态简介
Qwen 与 InternLM 开源模型已发布国产开源、多模态、长文本
PaLM 2 技术报告已发布改进架构、多语言、推理能力
AlphaCode 编程竞赛已发布代码生成、竞赛级编程、采样策略
Mistral 7B 小而美已发布高效架构、滑动窗口、性能对标
Grok 与 LLaMA 3 新星已发布xAI Grok、LLaMA 3、开源新势力

0.9 前沿进展(31-33)#

文章状态简介
RAG 与 Long Context已发布检索增强、长上下文、知识注入
o1/o3 推理时代已发布推理模型演进、Test-Time Compute
Prompt Engineering 最佳实践已发布提示技巧、结构化提示、最佳实践

0.10 经典论文补充(34-46)#

文章状态简介
Transformer-XL 长文本模型已发布段级递归、相对位置编码、超长上下文
Transformer-XL 超长上下文已发布段级递归、相对位置编码、长依赖捕获
ERNIE 知识图谱增强已发布异构信息融合、知识编码器、实体级别表示
AutoPrompt 自动提示已发布梯度引导提示搜索、自动化标签选择
Codex 编程能力已发布HumanEval、代码微调、功能正确性验证
GLaM 混合专家已发布稀疏 MoE、Top-2 激活、训练效率提升
WebGPT 网页搜索已发布浏览器控制、模仿学习、引用收集
Verify Step by Step 过程监督已发布ORM vs PRM、主动学习、MATH 数据集
Toolformer 工具调用已发布自监督 API 调用、零样本泛化、工具学习
Phi-1 高质量数据已发布数据工程、教科书级数据、合成数据
RLAIF 人工智能反馈已发布AI 偏好标注、蒸馏 RLAIF、位置偏差处理
Superalignment 弱到强泛化已发布弱到强泛化、辅助置信损失、超级对齐
GraphRAG 知识图谱检索已发布图谱索引、社区检测、全局问题回答

0.11 新架构与基础技术(47-52)#

文章状态简介
Mamba 与 SSM 状态空间模型已发布选择性状态空间、硬件感知算法、线性复杂度序列建模
InstructGPT 与 ChatGPT 前身已发布SFT → RM → PPO 三阶段训练、奖励模型、对齐方法
PagedAttention 与 vLLM 推理已发布KV Cache 分页管理、连续批处理、高效推理框架
CLIP 视觉语言对比学习已发布图像-文本对比学习、零样本分类、视觉语言预训练
Tree of Thoughts 树状搜索推理已发布树状搜索、多路径探索、推理能力增强
LLaVA 开源多模态对话已发布视觉指令微调、CLIP+LLaMA 组合、GPT-4 生成数据

0.12 前沿技术与基础设施(53-60)#

文章状态简介
DeepSeek-V2/V3 与 MLA 创新已发布MLA 注意力压缩、DeepSeekMoE、FP8 训练、极致效率
Sentence-BERT 语义表示已发布孪生网络、对比学习、语义搜索、向量检索
GPT-4 技术报告解读已发布多模态理解、可预测扩展性、红队测试、安全对齐
BPE 与 SentencePiece 分词器已发布子词分词、BPE 算法、WordPiece、压缩率分析
RWKV 线性注意力已发布线性注意力 RNN、时间衰减、Token Shift、Transformer 替代
DistilBERT 知识蒸馏已发布Teacher-Student 蒸馏、模型压缩、三重损失函数
Megatron-LM 张量并行已发布张量并行、流水线并行、ZeRO、3D 并行策略
ChatBot Arena 模型评估已发布匿名对战、ELO 评分、人类偏好评估、LLM 评估新范式

前置知识#

  • Python 基础
  • 深度学习基础概念(神经网络、梯度下降、反向传播)
  • 线性代数基础(矩阵运算、向量空间)

相关系列#

本系列是机器学习学习路线的核心理论部分,推荐结合以下系列阅读:

系列定位关联内容
AI Agent 实战指南实战导向ReAct(10)、o 系列(11)、DeepSeek R1(12)、Kimi AttnRes(13)应用实践
LLM 安全漏洞发展史安全专题RLHF 对齐原理、模型安全机制、攻击与防御
从零理解大语言模型入门教程LLM 基础概念、Prompt 工程、RAG、Function Calling

阅读建议

发展时间线#

timeline title LLM 发展时间线 2017 : Transformer 论文 : Google 发表《Attention Is All You Need》 2018 : GPT-1 / BERT : OpenAI GPT-1 / Google BERT 2019 : GPT-2 / Transformer-XL : OpenAI 发布 GPT-2 / Google 发布 Transformer-XL 2020 : GPT-3 / ERNIE : 175B 参数 / 知识图谱增强 2021 : InstructGPT / GLaM / Codex : RLHF / MoE 稀疏激活 / AI 编程 2022 : GPT-4 / PaLM / CoT / Claude : 推理能力大幅提升 2023 : LLaMA / Claude 2 / Mixtral / Toolformer : 开源生态爆发 / 工具调用 2024 : o1 / Claude 3.5 / GraphRAG : 推理模型商用 / 知识图谱 RAG 2025 : o3 / R1 / Gemini 2.5 : DeepSeek R1 开源 2025-2026 : 新架构与基础 : Mamba/SSM, DeepSeek MLA, RWKV<br/>Megatron-LM, ChatBot Arena 2026 : AttnRes : Kimi 发布注意力残差

核心技术点#

0.13 架构演进#

年份架构关键创新
2017Transformer自注意力机制、位置编码
2018GPT、BERT生成式预训练、双向编码
2019Transformer-XL段级递归、相对位置编码
2020GPT-3175B 参数、Few-Shot Learning
2021GLaM稀疏 MoE、Top-K 激活
2022PaLM540B、Scaling Law
2023LLaMA / Mixtral开源、稀疏 MoE
2024-2025o1 / R1Test-Time Compute、GRPO
2024Mamba/SSM选择性状态空间、线性复杂度
2024DeepSeek-V2/V3MLA 注意力压缩、MoE、FP8
2024RWKV-6线性注意力 RNN、时间衰减
2026AttnRes注意力动态选择

0.14 训练方法演进#

方法论文核心贡献
Pre-trainingGPT/BERT下一个 Token 预测
SFTInstructGPT监督微调
RLHFInstructGPT人类反馈强化学习
RLAIFRLAIFAI 反馈替代人类
CoTChain of Thought中间推理步骤
GRPODeepSeek R1纯 RL 训练
Process SupVerify Step by Step过程监督
Self-SupervisedToolformer自监督工具学习
Weak-to-StrongSuperalignment弱监督强模型

参考资源#

必读论文

可视化资源

学习路径推荐

  1. 入门:从 Transformer 论文开始,理解注意力机制
  2. 理解 GPT/BERT:掌握预训练+微调范式
  3. 理解 RLHF/CoT:掌握能力增强方法
  4. 理解 Agent:掌握 ReAct 等架构
  5. 理解工具使用:掌握 Toolformer、WebGPT 等工具调用
  6. 理解最新进展:阅读 o1/R1/AttnRes 论文

补充说明#

0.15 第一批补充(34-46)#

本系列新增了 13 篇经典论文解读(34-46),包括:

  • 架构类:Transformer-XL、GLaM
  • 知识增强类:ERNIE、GraphRAG
  • 提示工程类:AutoPrompt
  • 代码生成类:Codex、Phi-1
  • 工具使用类:WebGPT、Toolformer
  • 对齐类:Verify Step by Step、RLAIF、Superalignment

0.16 第二批补充(47-60)#

本系列新增了 14 篇前沿技术与基础设施工论文解读(47-60),包括:

  • 新架构类:Mamba/SSM(47)、RWKV(57)
  • 注意力优化类:DeepSeek-V2/V3 MLA(53)、PagedAttention/vLLM(49)
  • 多模态类:CLIP(50)、LLaVA(52)、GPT-4(55)
  • 训练方法类:InstructGPT(48)、DistilBERT(58)、Megatron-LM(59)
  • 基础技术类:Sentence-BERT(54)、BPE/SentencePiece(56)
  • 评估方法类:ChatBot Arena(60)、Tree of Thoughts(51)

这些论文覆盖了 LLM 发展的完整技术栈,从底层分词器到顶层评估方法,从模型架构到训练基础设施。

支持与分享

如果这篇文章对你有帮助,欢迎支持作者或分享给更多人

部分信息可能已经过时