mobile wallpaper 1mobile wallpaper 2mobile wallpaper 3mobile wallpaper 4
637 字
2 分钟
OpenAI o1/o3 与推理模型的崛起
2025-09-02

2024 年 9 月,OpenAI 发布了 o1-preview。

这是一个会「思考」的模型——在给出答案之前,它会先在内部进行推理、验证、纠错。这让模型在数学、编程、科学问题上的表现大幅提升。

2025 年,o3 在 ARC-AGI 基准上达到 87.5%,接近人类水平。

推理模型标志着大语言模型的新阶段:从快速直觉到深思熟虑。

本文要点#

  • 推理模型 vs 普通模型的本质区别
  • o1/o3 系统设计
  • RLVR 训练方法
  • Test-Time Compute Scaling
  • ARC-AGI 突破性成果
  • 对 AI 应用的深远影响

一、推理模型的本质#

1.1 系统 1 vs 系统 2#

flowchart TB subgraph 系统1: 快思考 A1[直觉反应] --> B1[毫秒级] B1 --> C1[ChatGPT/GPT-4] end subgraph 系统2: 慢思考 A2[深思熟虑] --> B2[秒到分钟级] B2 --> C2[o1/o3] end D["人类认知理论<br/>(Kahneman, 2011)"] --> A1 D --> A2
| 维度 | 普通模型 | 推理模型 |
|---------------|------------------|---------------------------|
| 输出方式 | 直接生成 | 先思考后输出 |
| 响应时间 | 毫秒级 | 秒到分钟级 |
| 推理深度 | 1-2 步 | 可达数十步 |
| 错误纠正 | 无法自纠 | 可内部验证纠错 |
| 复杂任务 | 容易出错 | 显著提升 |
| 可解释性 | 黑盒 | 思考过程可见 |
| 计算成本 | 固定 | 随思考时间增长 |

1.2 推理模型的定义#

flowchart TB subgraph 推理模型特征 A[核心能力] A --> A1[在输出最终答案前进行内部推理] A --> A2[生成多条推理路径并选择最优] A --> A3[自我验证和纠正错误] B[技术实现] B --> B1[隐式思维链:推理过程不对外暴露] B --> B2[Test-Time Compute:推理时增加计算量] B --> B3[RLVR:用强化学习训练推理能力] C[与 CoT Prompting 的区别] C --> C1[CoT:通过提示词引导模型展示推理] C --> C2[推理模型:推理能力内化,无需提示] end

二、o1/o3 系统设计#

2.1 系统架构#

flowchart TB A[用户问题] --> B[o1/o3 模型] B --> C[内部推理阶段] C --> D[生成思维链] D --> E[验证与纠正] E --> F{满意?} F -->|否| D F -->|是| G[输出最终答案]
flowchart TB subgraph o1/o3系统特点 A[o1-preview (2024.9)] A --> A1[首款商用推理模型] A --> A2["AIME 数学竞赛:56%(GPT-4o: 13%)"] A --> A3[Codeforces:1807 分] B[o1 (2024.12)] B --> B1[正式版,性能提升] B --> B2[AIME:83%] B --> B3[PhD 级别科学问题] C[o3 (2025)] C --> C1[效率大幅提升] C --> C2[ARC-AGI:87.5%] C --> C3[自适应推理深度] D[o4 (2025)] D --> D1[多模态推理] D --> D2[Agent 原生集成] end

2.2 性能对比#

xychart-beta title "AIME 数学竞赛准确率" x-axis ["GPT-4o", "Claude 3.5", "o1-preview", "o1", "o3"] y-axis "准确率 %" 0 --> 100 bar [13, 20, 56, 83, 92]
| 基准测试 | GPT-4o | o1 | o3 |
|---------------|-------------|-------------|------------------|
| AIME 2024 | 13% | 83% | 92% |
| Codeforces | 1280 | 1890 | 2200 |
| GPQA Diamond | 49% | 72% | 78% |
| MMLU | 88% | 92% | 94% |
| ARC-AGI | 5% | 25% | 87.5% |

三、RLVR 训练方法#

3.1 什么是 RLVR?#

flowchart TB subgraph RLVR定义 A["RLVR = Reinforcement Learning from Verifiable Rewards"] B[核心思想] B --> B1[不依赖人类偏好标注] B --> B2[使用可验证的结果作为奖励信号] B --> B3[自动化大规模训练] C[与 RLHF 的区别] C --> C1[RLHF:人类偏好 → 奖励模型 → PPO] C --> C2[RLVR:验证器 → 直接奖励 → PPO] D[可验证的任务] D --> D1[数学问题:答案可验证] D --> D2[代码问题:测试用例] D --> D3[逻辑问题:形式验证] end

3.2 RLVR 训练流程#

flowchart TB A[问题] --> B[模型生成推理链] B --> C[执行推理步骤] C --> D[验证器检查结果] D --> E{正确?} E -->|是| F[正奖励] E -->|否| G[负奖励/部分奖励] F --> H[强化学习更新] G --> H H --> A
class RLVRTrainer:
"""RLVR 训练器"""
def __init__(self, model, verifier):
self.model = model
self.verifier = verifier # 结果验证器
def train_step(self, problem):
"""单步训练"""
# 1. 模型生成推理链
reasoning_chain = self.model.generate_reasoning(problem)
# 2. 执行并验证
result = self.execute(reasoning_chain)
is_correct, feedback = self.verifier.verify(problem, result)
# 3. 计算奖励
reward = 1.0 if is_correct else 0.0
# 4. 强化学习更新
self.model.update_with_ppo(reasoning_chain, reward)
return {
"problem": problem,
"reasoning": reasoning_chain,
"result": result,
"correct": is_correct,
"reward": reward
}
class MathVerifier:
"""数学问题验证器"""
def verify(self, problem, answer):
"""验证数学答案"""
expected = problem.answer
# 符号化验证或数值比较
is_correct = self._compare_answers(answer, expected)
return is_correct, None
class CodeVerifier:
"""代码验证器"""
def verify(self, problem, code):
"""运行测试用例验证代码"""
test_cases = problem.test_cases
passed = 0
for test in test_cases:
try:
output = self._run_code(code, test.input)
if output == test.expected:
passed += 1
except:
pass
return passed == len(test_cases), f"Passed {passed}/{len(test_cases)}"

3.3 RLVR vs RLHF#

| 维度 | RLHF | RLVR |
|---------------|------------------|---------------------------|
| 奖励来源 | 人类偏好 | 自动验证 |
| 可扩展性 | 受限于人力 | 几乎无限 |
| 客观性 | 主观 | 客观 |
| 噪声 | 高 | 低 |
| 成本 | 高 | 低 |
| 适用任务 | 开放性任务 | 可验证任务 |
| 训练数据量 | 有限 | 大规模 |

四、Test-Time Compute Scaling#

4.1 核心概念#

flowchart LR A[问题] --> B[推理时间增加] B --> C[更多计算] C --> D[更深推理] D --> E[更好结果] F["Test-Time Compute Scaling:<br/>推理时计算量与性能正相关"] --> B
flowchart TB subgraph Test-Time Compute Scaling A[传统范式] A --> A1[训练时大量计算] A --> A2[推理时固定计算] A --> A3[性能由模型大小决定] B[推理模型范式] B --> B1[训练时学习推理能力] B --> B2[推理时可变计算量] B --> B3[性能随推理时间提升] C[实际效果] C --> C1[更多推理时间 = 更高质量答案] C --> C2["类似人类「思考越久,答案越好」"] D[成本权衡] D --> D1[简单问题:短推理,低成本] D --> D2[复杂问题:长推理,高成本] end

4.2 Scaling 曲线#

xychart-beta title "推理时间与准确率关系(AIME)" x-axis ["1s", "10s", "60s", "5min", "30min"] y-axis "准确率 %" 0 --> 100 line [40, 60, 75, 85, 92]

五、ARC-AGI 突破性成果#

5.1 什么是 ARC-AGI?#

flowchart TB subgraph ARC-AGI基准 A["全称:Abstraction and Reasoning Corpus for AGI"] A --> A1[提出者:François Chollet (Keras 作者)] B[设计目标] B --> B1["测试「智能」而非「知识」"] B --> B2[评估抽象推理和泛化能力] B --> B3[从少量示例学习规律] C[任务形式] C --> C1[观察输入输出模式] C --> C2[推断隐含规律] C --> C3[应用到新输入] D[特点] D --> D1[人类平均:85-95%] D --> D2[对 AI 极具挑战] D --> D3[需要真正的推理能力] end

5.2 o3 的突破#

xychart-beta title "ARC-AGI 历史表现" x-axis ["GPT-4", "Claude 3.5", "o1", "o3", "人类平均"] y-axis "得分 %" 0 --> 100 bar [5, 5, 25, 87.5, 95]
flowchart TB subgraph o3 ARC-AGI成果 A[得分] A --> A1[87.5%] B[意义] B --> B1[首次接近人类水平] B --> B2[证明推理模型的潜力] B --> B3[AGI 路径更清晰] C[关键技术] C --> C1[长推理时间(每题可达数千 tokens)] C --> C2[搜索多种解法] C --> C3[自我验证选择最优] D[计算成本] D --> D1[高昂的计算成本] D --> D2["证明「思考时间」的价值"] end

六、对 AI 应用的影响#

6.1 应用场景#

flowchart TB subgraph 推理模型适用场景 A[适合推理模型] A --> A1[复杂数学问题] A --> A2[多步骤逻辑推理] A --> A3[代码生成与调试] A --> A4[科学研究辅助] A --> A5[竞赛级问题] B[不适合推理模型] B --> B1[简单问答] B --> B2[文本翻译] B --> B3[内容摘要] B --> B4[低延迟要求的场景] B --> B5[成本敏感的大批量任务] C[使用建议] C --> C1[根据任务复杂度选择模型] C --> C2[平衡质量与成本] C --> C3[混合使用普通模型和推理模型] end

6.2 对 Agent 的影响#

flowchart TB subgraph 推理模型与Agent A[Agent 需要推理能力] A --> A1[任务规划需要深入理解] A --> A2[工具选择需要判断] A --> A3[错误处理需要分析] B[推理模型的优势] B --> B1[更好的任务分解] B --> B2[更准确的工具选择] B --> B3[更强的错误恢复能力] C[挑战] C --> C1[成本控制] C --> C2[延迟优化] C --> C3[与普通模型的混合使用] end

常见问题 FAQ#

Q1:推理模型能完全替代普通模型吗?

A:不能。推理模型成本高、延迟大,对于简单任务不划算。未来更可能是混合使用。

Q2:o1 的推理过程能看到吗?

A:默认不显示完整推理链,但可以请求推理摘要。OpenAI 出于商业保护不公开完整过程。

Q3:推理模型的「推理」和人类一样吗?

A:不完全一样。模型基于模式匹配,不是真正的理解。但在很多任务上效果接近人类。

Q4:如何控制推理模型的思考时间?

A:通过 API 参数控制。可以设置推理预算,在质量和成本之间权衡。

Q5:推理模型会改变 AI 行业格局吗?

A:已经在改变。推理能力成为新的竞争维度,各家都在布局。


小结#

推理模型让 AI 具备了「慢思考」的能力,这是通向 AGI 的重要一步。

核心贡献:

flowchart TB subgraph 推理模型核心总结 A[范式转变] --> A1[从快速直觉到深思熟虑] B[核心技术] --> B1[RLVR + Test-Time Compute] C[突破性成果] --> C1[ARC-AGI 87.5%] D[能力跃升] --> D1[AIME 从 13% 到 92%] E[行业影响] --> E1[重新定义 AI 能力边界] end

推理能力是 AI 从「工具」进化为「助手」的关键。


参考资料#

支持与分享

如果这篇文章对你有帮助,欢迎支持作者或分享给更多人

OpenAI o1/o3 与推理模型的崛起
https://blog.souloss.com/posts/machine-learning/llm-paper-history/openai-o-series-reasoning-models/
作者
Souloss
发布于
2025-09-02
许可协议
CC BY-NC-SA 4.0

部分信息可能已经过时