2023 年 5 月,Google 在 I/O 大会上发布 PaLM 2,同时宣布 Bard(后来的 Gemini)升级到 PaLM 2。和前代 PaLM 相比,PaLM 2 用更少的参数实现了更强的性能,证明了训练数据质量和模型架构优化比单纯堆参数更有效。
本文要点
- PaLM 2 的架构改进与训练策略
- 多语言能力突破
- 推理能力(数学、代码、逻辑)
- 与 PaLM 1 的全面对比
- Med-PaLM 医疗领域应用
- Gemma 开源模型的关系
一、PaLM 2 核心改进
1.1 从「更大」到「更好」
PaLM 1(540B 参数)走的是 Scaling Law 的路线:参数越多,能力越强。PaLM 2 的思路不同:用更高质量的训练数据和改进的架构,在更小的参数量下实现更好的效果。
这个策略的背景是 DeepMind 的 Chinchilla 论文(Hoffmann et al., 2022)。Chinchilla 证明:在固定计算预算下,更小的模型配合更多的训练数据,可以超越大参数量的模型。PaLM 2 是这一理论在工业界的验证。
1.2 训练数据
PaLM 2 在训练数据上做了大量改进:
# PaLM 2 训练数据混合(推测)palm2_data_mix = { "英语网页文本": "约 60%", "多语言文本": "约 15%(覆盖 100+ 语言)", "代码": "约 20%(大量 GitHub 代码)", "科学论文": "约 5%(arXiv 等)",}
# 关键改进improvements = { "数据质量": "更强的去重和清洗管道", "数据多样性": "更多非英语数据和高质量科学文本", "代码比例": "显著增加代码训练数据", "训练 tokens": "3.6T+ tokens(远超 PaLM 1)",}数据质量的提升包括:更精细的去重(避免模型记忆重复内容)、更好的有害内容过滤、以及科学文献和数学公式的大量引入。
1.3 架构改进
PaLM 2 的架构细节没有完全公开,但技术报告透露了几个关键改进:
注意力机制优化:PaLM 2 可能采用了更高效的注意力变体(如 GQA),以降低推理时的 KV 缓存开销。
训练目标改进:除了标准的下一个 token 预测,PaLM 2 可能引入了多任务训练目标,同时优化语言建模、翻译和推理能力。
并行策略:Google 使用了 Pathways 系统进行分布式训练,能高效地在数千个 TPU 上训练超大规模模型。
二、多语言能力
2.1 训练方法
PaLM 2 在多语言能力上实现了重大突破。关键在于训练数据的质和量:
| 语言类别 | 数据量 | 来源 |
|---|---|---|
| 高资源语言(英、中、日等) | 大量 | 网页、书籍、新闻 |
| 中等资源语言(韩、泰、阿拉伯等) | 中等 | 维基百科、新闻、政府文档 |
| 低资源语言(部分非洲语言等) | 少量但质量高 | 翻译数据、平行语料 |
PaLM 2 的多语言训练不仅仅是增加非英语数据的比例,更重要的是:
- 构建高质量的多语言评估基准
- 使用跨语言迁移学习,让高资源语言的能力迁移到低资源语言
- 引入更多的翻译对齐数据
2.2 多语言基准
PaLM 2 在多语言基准上的表现大幅超越 PaLM 1:
| 基准 | 任务 | PaLM 540B | PaLM 2 |
|---|---|---|---|
| MMLU(英语) | 知识问答 | 69.4% | 79.2% |
| MMLU(多语言) | 多语言问答 | - | 75.1% |
| XCOPA | 跨语言推理 | 58.5% | 71.4% |
| WMT 翻译 | 机器翻译 | 中等 | 显著提升 |
| TyDiQA | 多语言问答 | 中等 | 大幅提升 |
2.3 翻译能力
PaLM 2 的翻译能力特别值得关注。在 100+ 语言的翻译对上,PaLM 2 在多个语言对上超越了专门的翻译模型。
这种翻译能力的提升,得益于 PaLM 2 对多语言语义表示的更好学习。模型不只是记住了词汇对应关系,而是真正理解了不同语言之间的语义映射。
三、推理能力
3.1 数学推理
PaLM 2 在数学推理上取得了显著进步:
| 基准 | 任务 | PaLM 540B | PaLM 2 | GPT-4 |
|---|---|---|---|---|
| GSM8K | 小学数学 | 56.9% | 80.7% | 92.0% |
| MATH | 竞赛数学 | 8.8% | 34.3% | 42.5% |
| Minerva Math | 大学数学 | 33.6% | 53.4% | 63.0%+ |
推理能力的提升来自两方面:
- 训练数据中包含大量数学公式和推导过程(arXiv 论文、数学教材)
- 使用 Minerva 方法在推理数据上进行微调
3.2 代码生成
代码能力是 PaLM 2 的另一大亮点:
| 模型 | HumanEval | MBPP |
|---|---|---|
| PaLM 1 | 27.6% | - |
| PaLM 2 | 62.6% | 52.4% |
| GPT-4 | 67.0% | - |
| Codex 12B | 28.8% | - |
PaLM 2 的 HumanEval 从 27.6% 跃升到 62.6%,接近 GPT-4 的水平。这个提升主要归功于训练数据中代码比例的大幅增加。
3.3 逻辑推理
在逻辑推理基准上,PaLM 2 也有明显提升:
- BIG-Bench Hard:从 PaLM 1 的 42.3% 提升到 65.1%
- StrategyQA:从 74.2% 提升到 85.3%
- LogiQA:逻辑推理正确率显著提高
四、模型家族
4.1 四个规模版本
PaLM 2 提供了四个不同规模的版本,适配不同场景:
| 版本 | 参数量(推测) | 特点 | 典型场景 |
|---|---|---|---|
| Gecko | ~1.8B | 可在手机端运行 | 设备端 AI、低延迟 |
| Base | ~20B | 平衡性能和效率 | 通用 NLP 任务 |
| Bison | ~60B | 生产级性能 | Bard、API 服务 |
| Unicorn | ~340B | 最强推理和知识 | 研究和复杂任务 |
Gecko 的存在特别有意义。它证明了经过高质量训练,即使是 1.8B 的模型也能在对话和问答任务上表现出色。这为移动端 AI 部署铺平了道路。
4.2 与 Gemini 的关系
PaLM 2 是 Google 在 LLM 竞赛中的,但不是终点。2023 年底,Google 发布了 Gemini 系列,作为 PaLM 的后继者:
PaLM 2 的多语言训练经验和推理增强技术,直接延续到了 Gemini 系列中。
4.3 Gemma 开源模型
2024 年,Google 基于 PaLM 2 的技术发布了 Gemma 开源模型:
- Gemma 2B / 7B:基于 PaLM 2 架构训练的开源模型
- 采用和 PaLM 2 相同的训练基础设施和数据管道
- 开源可商用,促进社区研究和应用
Gemma 是 PaLM 2 技术向开源社区的延伸,与 Meta 的 LLaMA 系列形成竞争。
五、行业应用
5.1 Med-PaLM:医疗领域
PaLM 2 最具影响力的应用是 Med-PaLM,专门针对医疗领域微调的版本:
USMLE(美国医师执照考试)表现:
| 模型 | USMLE 得分 |
|---|---|
| 之前最佳 AI | ~50% |
| Med-PaLM | 67.6% |
| Med-PaLM 2 | 86.5% |
| 及格线 | ~60% |
Med-PaLM 2 以 86.5% 的成绩通过 USMLE,达到「专家级」水平。但它仍然有局限性:在复杂病例的推理中,偶尔会给出不准确的建议。Google 强调 Med-PaLM 是辅助工具,不能替代医生诊断。
5.2 Sec-PaLM:网络安全
PaLM 2 还被用于网络安全领域(Sec-PaLM),帮助安全分析师:
- 分析恶意代码行为
- 生成威胁检测规则
- 解释安全漏洞原理
- 辅助事件响应
5.3 Bard / Google Workspace 集成
PaLM 2 是 Bard(后来的 Gemini)和 Google Workspace AI 功能的底层模型:
- Gmail 中的智能撰写
- Google Docs 中的写作辅助
- Google Sheets 中的公式生成
- Google Slides 中的内容生成
六、与 PaLM 1 的全面对比
6.1 核心指标对比
| 维度 | PaLM 1 | PaLM 2 | 变化 |
|---|---|---|---|
| 最大参数量 | 540B | ~340B(推测) | 减少 |
| 训练 tokens | ~780B | ~3.6T+ | 大幅增加 |
| 语言数量 | 100+ | 100+(质量更高) | 质量提升 |
| MMLU | 69.4% | 79.2% | +9.8% |
| HumanEval | 27.6% | 62.6% | +35.0% |
| GSM8K | 56.9% | 80.7% | +23.8% |
| 推理效率 | 慢(540B 太大) | 快(模型更小更高效) | 显著提升 |
6.2 设计哲学的转变
PaLM 2 代表了 LLM 训练范式的转变:从盲目追求参数规模,到优化数据质量和训练效率。这个趋势后来被 LLaMA 2、Mistral 7B 等模型进一步验证。
常见问题 FAQ
Q1:PaLM 2 的具体参数量是多少?
Google 没有公开 PaLM 2 的精确参数量。技术报告只透露了「比 PaLM 1 更小但更强」。根据外部推测,最大版本约 340B 参数,但这个数字有争议。
Q2:PaLM 2 和 GPT-4 谁更强?
在大部分基准上 GPT-4 仍然领先,但差距不大。PaLM 2 在多语言和翻译任务上可能更强。两者各有优势。
Q3:Med-PaLM 能替代医生吗?
不能。Med-PaLM 通过了 USMLE 考试,但医疗实践远比考试复杂。Google 明确表示 Med-PaLM 是辅助工具,最终诊断决策仍由医生做出。
Q4:Gemma 和 PaLM 2 有什么关系?
Gemma 基于 PaLM 2 相同的架构和训练技术,但规模更小(2B/7B)且开源。可以理解为 PaLM 2 技术的开源版本。
小结
PaLM 2 是 Google 在 LLM 竞赛中的。
核心认识:PaLM 2 证明了训练数据的质量和多样性,比单纯的模型规模更重要。这个发现对整个 LLM 领域产生了深远影响,推动行业从「参数竞赛」转向「数据和架构优化」。
参考资料
- PaLM 2 Technical Report — PaLM 2 官方技术报告(Google, 2023)
- PaLM: Scaling Language Modeling with Pathways — PaLM 1 论文(Chowdhery et al., 2022)
- Training Compute-Optimal Large Language Models — Chinchilla 论文(Hoffmann et al., 2022)
- Med-PaLM: Towards Expert-Level Medical AI — Med-PaLM 2 论文(Singhal et al., 2023)
- Gemma: Open Models Based on Gemini Research — Gemma 开源模型
- Google AI Blog: PaLM 2 — Google 官方博客
支持与分享
如果这篇文章对你有帮助,欢迎支持作者或分享给更多人
部分信息可能已经过时






