2023 年 3 月,OpenAI 发布了 GPT-4 技术报告。这份报告虽然没有透露架构细节(被讽刺为”Nothing to see here”),但它展示了 LLM 发展史上多个划时代的能力:多模态理解、接近人类水平的考试表现、可预测的扩展性(Predictable Scaling),以及大幅改进的安全对齐。GPT-4 的发布标志着 AI 从”工具”向”通用助手”的关键跨越。
GPT-4 是第一个在专业考试中达到人类顶尖水平的 AI 模型,也是第一个真正具备多模态理解能力的大语言模型。
本文要点
- GPT-4 在专业考试中的表现:律师资格考 90 百分位、生物奥赛等
- 多模态视觉理解能力:图像理解、文档分析、图表解读
- 可预测的扩展性:从小模型预测大模型性能
- RLHF 对齐训练的关键改进
- 幻觉减少 40%:事实性大幅提升
- 红队测试与安全评估方法论
- 已知限制与失败模式
- GPT-4 Turbo 和 GPT-4o 的演进
- 对 AI 行业和研究的深远影响
一、考试成绩:接近人类顶尖水平
GPT-4 技术报告最引人注目的部分是其在各类专业考试中的表现。这些考试不是 NLP 基准测试,而是真实的人类标准化考试。
1.1 核心考试成绩
| 考试 | GPT-4 表现 | 百分位排名 | 说明 |
|---|---|---|---|
| 律师资格考试(Bar Exam) | 298/400 | 90th | 超过 90% 人类考生 |
| SAT 数学 | 710/800 | 89th | 接近满分 |
| SAT 阅读写作 | 730/800 | 93rd | 超过 93% 考生 |
| GRE 数学 | 168/170 | 94th | 接近满分 |
| GRE 阅读写作 | 169/170 | 99th | 几乎满分 |
| USMLE(美国医学执照考试) | 85% 正确 | 87th | 超过大部分医学生 |
| 生物奥赛(Biology Olympiad) | 31/50 | 80th | 竞赛级水平 |
| AP 生物 | 5/5 | 85th | 最高分 |
| AP 微积分 BC | 5/5 | 90th | 最高分 |
| Sommelier(侍酒师考试) | 77% 正确 | 75th | 专业知识测试 |
| LeetCode(编程面试) | 通过大部分中等难度 | — | 代码生成能力 |
1.2 与 GPT-3.5 的对比
从 GPT-3.5 到 GPT-4 的提升不是渐进式的,而是跨越式的。律师资格考试从 10 百分位飙升到 90 百分位,这是 AI 能力的质变。
二、多模态视觉理解
GPT-4 是第一个具备视觉理解能力的大语言模型(虽然视觉功能在初始发布时并未完全开放)。
2.1 视觉理解能力
GPT-4 可以理解和分析:
- 自然图像:识别物体、场景、人物动作
- 文档和文本:读取图片中的文字(OCR 能力)
- 图表和图形:解读数据可视化
- 梗图和幽默:理解图片中的梗和笑点
- 手写内容:识别手写数学公式和文字
- 复杂场景推理:分析多元素组成的复杂图像
用户:[上传一张冰箱照片]问:我能用这些食材做什么晚餐?
GPT-4:我看到你的冰箱里有鸡蛋、牛奶、黄油、芹菜、胡萝卜、一些奶酪和剩饭。你可以做:1. 蛋炒饭 — 用剩饭、鸡蛋、胡萝卜2. 芹菜炒蛋 — 用芹菜和鸡蛋3. 胡萝卜浓汤 — 用胡萝卜、黄油、牛奶2.2 视觉推理的示例
GPT-4 在视觉推理上展示了令人印象深刻的能力:
- 理解不寻常的组合:能够解释为什么”把熨斗当烤架用”的图片很搞笑
- 图表分析:读取并解释复杂的数据图表
- 多步骤推理:从图像中提取信息并进行逻辑推理
- 代码生成:看到手绘的网页设计稿,生成对应的 HTML/CSS 代码
三、可预测的扩展性
GPT-4 报告中最具科学价值的发现之一是 Predictable Scaling(可预测的扩展性)。
3.1 核心发现
OpenAI 发现了一个惊人的规律:在计算量小 1000 倍的模型上观察到的性能趋势,可以准确预测大模型的最终性能。
3.2 意义
这一发现的意义极其重大:
- 训练效率:不需要完成完整训练就能预测最终性能,节省大量成本
- 架构搜索:可以在小规模上快速验证架构改进
- 资源规划:提前知道某个规模模型的预期表现
- 科学价值:揭示了语言模型扩展的基本规律
# 可预测扩展性的数学表达# 损失 L 与计算量 C 的关系(近似)# L(C) = a * C^(-b) + L_infinity# 其中 a, b 是拟合参数,L_infinity 是不可约损失
# 关键:从小模型拟合 a, b 后,可以外推到任何规模# 在实际中,OpenAI 用 1/1000 计算量的模型预测 GPT-4 性能# 预测 HumanEval pass@1: 67.5%,实际: 67.0%3.3 对行业的影响
可预测的扩展性意味着:
- 不需要”赌”一个大模型能否成功——可以提前预测
- 架构改进可以在小规模验证后再放大
- 资源分配可以更科学地规划
四、RLHF 对齐训练
GPT-4 的对齐训练在 GPT-3.5/InstructGPT 的基础上做了显著改进。
4.1 训练流程
4.2 关键改进
虽然报告没有透露具体细节,但从结果可以推断:
- 更高质量的偏好数据:标注员质量更高、数据量更大
- 多轮对话对齐:不仅对齐单轮回复,还对齐多轮对话行为
- 规则-based 奖励模型(Rule-Based Reward Model, RBRM):在 PPO 过程中加入基于规则的奖励信号,引导模型遵循特定行为准则
- 安全专门的 RLHF:额外的安全对齐阶段,专门处理有害内容拒绝
五、幻觉减少 40%
GPT-4 在事实性方面相比 GPT-3.5 有了显著改进。
5.1 内部评测结果
在 9 个内部对抗性事实性测试中:
| 指标 | GPT-3.5 | GPT-4 | 改进 |
|---|---|---|---|
| 幻觉率(内部基准) | 基线 | 降低 40% | 显著提升 |
| TruthfulQA | 48% | 59% | +11% |
| 闭书 QA 准确率 | 基线 | 提升 19% | 大幅提升 |
| 事实一致性 | 基线 | 提升 29% | 大幅提升 |
5.2 仍然存在的问题
尽管幻觉减少了 40%,GPT-4 仍然存在幻觉问题:
- 对不存在的科学论文会编造看似合理的引用
- 在数学推理中偶尔出现逻辑错误
- 对训练数据截止日期之后的事件可能产生幻觉
- 在高度专业化的领域仍会犯事实性错误
六、红队测试与安全评估
OpenAI 为 GPT-4 进行了长达 6 个月的红队测试(Red Teaming),这是 AI 安全领域的标杆实践。
6.1 红队测试方法论
6.2 覆盖的风险领域
| 风险领域 | 测试内容 | 缓解措施 |
|---|---|---|
| 有害内容 | 暴力、歧视、非法建议 | 内容过滤 + RLHF 拒绝 |
| 隐私泄露 | 个人信息提取 | 训练数据清洗 + 输出过滤 |
| 虚假信息 | 选举干预、医疗误导 | 事实性增强 + 安全 RLHF |
| 网络安全 | 恶意代码生成、钓鱼攻击 | 代码安全审核 + 用途限制 |
| 化学/生物风险 | 危险物质合成指南 | 知识边界限制 |
| 逃逸攻击 | 越狱、提示注入 | 多层防御机制 |
6.3 安全指标改进
| 安全指标 | GPT-3.5 | GPT-4 |
|---|---|---|
| 对不允许内容请求的遵从率 | 较高 | 降低 82% |
| 对敏感话题的事实性回应 | 基线 | 提升 29% |
| 越狱成功率 | 较高 | 大幅降低 |
七、已知限制
GPT-4 仍然存在多个重要的限制:
7.1 幻觉问题
GPT-4 仍然会”自信地犯错”,生成看似合理但不正确的内容。
7.2 上下文窗口限制
初始版本的上下文窗口为 8K Token(后来扩展到 32K 和 128K),对于超长文档仍有局限。
7.3 知识截止日期
GPT-4 的训练数据有截止日期,对截止日期之后的事件不了解。
7.4 推理能力限制
在复杂的数学证明、精确的逻辑推理方面仍然会出错。
7.5 视觉理解局限
- 无法识别图片中的具体人物(出于隐私考虑)
- 对精细的空间推理仍有困难
- 无法处理视频内容
7.6 过度谨慎
经过安全对齐后,GPT-4 有时会过度拒绝合理的请求(过度对齐问题)。
八、GPT-4 的演进
GPT-4 发布后,OpenAI 持续推出了多个改进版本:
8.1 GPT-4o:原生多模态
GPT-4o(“o”代表 omni,全能)是 GPT-4 的重大升级:
- 原生多模态:文本、视觉、语音统一处理,不再需要独立的语音模型
- 实时语音对话:延迟降至约 232ms,接近人类对话速度
- 成本降低:API 价格降低 50%,速度提升 2 倍
- 多语言改进:非英语语言的性能显著提升
8.2 性能对比
| 模型 | MMLU | HumanEval | MATH | 视觉理解 |
|---|---|---|---|---|
| GPT-3.5 Turbo | 70.0 | 48.1 | — | 无 |
| GPT-4 | 86.4 | 67.0 | 42.5 | 有 |
| GPT-4 Turbo | 86.4 | 73.2 | 45.2 | 有 |
| GPT-4o | 88.7 | 86.6 | 76.6 | 增强 |
九、对行业的影响
GPT-4 的发布对 AI 行业产生了深远影响:
- 多模态成为标配:GPT-4 的视觉能力推动了 Gemini、Claude 等模型跟进
- 安全对齐受到重视:红队测试成为行业标准实践
- 考试评测流行:用人类标准化考试评估 AI 成为新的评测趋势
- 可预测扩展被认可:小模型预测大模型性能的方法被广泛采用
- 闭源 vs 开源争论:GPT-4 不公开架构引发了开源社区的不满和竞争
常见问题 FAQ
9.1 Q1: GPT-4 的架构到底是什么?
OpenAI 没有公开 GPT-4 的架构细节。从技术报告和后续泄露的信息来看,GPT-4 是一个约 1.8T 参数的 MoE 模型,使用 16 个专家,每次激活 2 个(约 280B 活跃参数)。它使用了多模态融合训练,视觉编码器可能与文本解码器联合训练。
9.2 Q2: 可预测的扩展性适用于所有模型吗?
目前可预测的扩展性主要在对数线性尺度上观察到,适用于 Transformer 架构的 next-token prediction loss。但对于涌现能力(如推理、编程)的预测仍然不够精确。此外,不同的架构变体(如 MoE vs Dense)可能有不同的扩展曲线。
9.3 Q3: GPT-4 的 40% 幻觉减少是如何实现的?
主要通过三个途径:(1) 更大规模和更高质量的训练数据;(2) 改进的 RLHF 对齐,使模型更倾向于承认不确定性;(3) 内部的事实性奖励信号,鼓励模型生成准确信息。
9.4 Q4: GPT-4o 和 GPT-4 有什么区别?
GPT-4o 是原生多模态模型,所有模态共享同一个模型权重,而不是像 GPT-4 那样通过独立的编码器处理图像。GPT-4o 的推理速度更快、成本更低,在大多数基准测试上性能也更好。
9.5 Q5: GPT-4 的红队测试为什么重要?
GPT-4 的红队测试是首次在 AI 模型发布前进行的大规模、系统性的安全评估。它建立了 AI 安全评估的标准流程,包括招募多领域专家、设计攻击场景、迭代修复等环节。这一方法论后来被 Google、Anthropic 等公司采纳。
9.6 Q6: GPT-4 在中文方面表现如何?
GPT-4 在中文理解方面显著优于 GPT-3.5,但在中文生成方面仍有提升空间。主要的不足包括:偶尔使用不自然的中文表达、对中文文化特有概念的理解不够深入、在需要精确中文措辞的场景(如法律文书)中仍有局限。
小结
GPT-4 技术报告虽然因为不公开架构细节而备受争议,但它展示的能力和发现对 AI 领域产生了深远影响:
- 接近人类的专业能力:律师资格考 90 百分位、SAT/接近满分
- 多模态理解:第一个具备视觉理解能力的 LLM
- 可预测的扩展性:从小模型预测大模型性能的科学发现
- 安全的重视:6 个月红队测试,建立了 AI 安全评估标准
- 幻觉大幅减少:事实性提升 40%,但仍未完全解决
GPT-4 标志着 AI 从”有趣的工具”向”可信赖的助手”的过渡。尽管存在幻觉、过度谨慎等问题,但它在专业考试中的表现证明了 LLM 已经可以在许多领域替代人类的专业知识。
对于想深入了解的读者,建议阅读顺序:
- 本文(GPT-4 技术报告)→ 理解多模态和安全对齐
- 第 2 篇(GPT 系列论文)→ 理解 GPT 的演进脉络
- 第 6 篇(RLHF)→ 理解对齐训练方法
- 第 55 篇(本文)→ 结合 InstructGPT 理解 RLHF 实践
参考资料
- GPT-4 Technical Report — OpenAI, 2023
- GPT-4 System Card — OpenAI, 2023
- InstructGPT: Training language models to follow instructions with human feedback — Ouyang et al., 2022
- Scaling Laws for Neural Language Models — Kaplan et al., 2020
- Sparks of Artificial General Intelligence: Early experiments with GPT-4 — Bubeck et al., 2023
- GPT-4o 官方博客 — OpenAI, 2024
- OpenAI Safety 官方页面
支持与分享
如果这篇文章对你有帮助,欢迎支持作者或分享给更多人
部分信息可能已经过时






