mobile wallpaper 1mobile wallpaper 2mobile wallpaper 3mobile wallpaper 4
2413 字
7 分钟
PaLM 2:Google 多语言与推理能力的跃迁
2025-09-02

2023 年 5 月,Google 在 I/O 大会上发布 PaLM 2,同时宣布 Bard(后来的 Gemini)升级到 PaLM 2。和前代 PaLM 相比,PaLM 2 用更少的参数实现了更强的性能,证明了训练数据质量和模型架构优化比单纯堆参数更有效。

本文要点#

  • PaLM 2 的架构改进与训练策略
  • 多语言能力突破
  • 推理能力(数学、代码、逻辑)
  • 与 PaLM 1 的全面对比
  • Med-PaLM 医疗领域应用
  • Gemma 开源模型的关系

一、PaLM 2 核心改进#

1.1 从「更大」到「更好」#

PaLM 1(540B 参数)走的是 Scaling Law 的路线:参数越多,能力越强。PaLM 2 的思路不同:用更高质量的训练数据和改进的架构,在更小的参数量下实现更好的效果。

flowchart TB subgraph PaLM 1 的策略 A1["540B 参数"] --> B1["大规模 = 高性能"] B1 --> C1["训练成本高昂<br>推理延迟大"] end subgraph PaLM 2 的策略 A2["更少参数<br>更高质量数据"] --> B2["效率优化 = 更强性能"] B2 --> C2["训练更高效<br>推理更快"] end C1 -->|"升级"| B2

这个策略的背景是 DeepMind 的 Chinchilla 论文(Hoffmann et al., 2022)。Chinchilla 证明:在固定计算预算下,更小的模型配合更多的训练数据,可以超越大参数量的模型。PaLM 2 是这一理论在工业界的验证。

1.2 训练数据#

PaLM 2 在训练数据上做了大量改进:

# PaLM 2 训练数据混合(推测)
palm2_data_mix = {
"英语网页文本": "约 60%",
"多语言文本": "约 15%(覆盖 100+ 语言)",
"代码": "约 20%(大量 GitHub 代码)",
"科学论文": "约 5%(arXiv 等)",
}
# 关键改进
improvements = {
"数据质量": "更强的去重和清洗管道",
"数据多样性": "更多非英语数据和高质量科学文本",
"代码比例": "显著增加代码训练数据",
"训练 tokens": "3.6T+ tokens(远超 PaLM 1)",
}

数据质量的提升包括:更精细的去重(避免模型记忆重复内容)、更好的有害内容过滤、以及科学文献和数学公式的大量引入。

1.3 架构改进#

PaLM 2 的架构细节没有完全公开,但技术报告透露了几个关键改进:

flowchart TB subgraph PaLM 2 架构改进 A[改进的 Transformer] --> A1[优化的注意力机制] A --> A2[改进的位置编码] A --> A3[更好的激活函数] B[训练策略] --> B1[混合精度训练] B --> B2[数据并行 + 模型并行] B --> B3[路径分配优化] end

注意力机制优化:PaLM 2 可能采用了更高效的注意力变体(如 GQA),以降低推理时的 KV 缓存开销。

训练目标改进:除了标准的下一个 token 预测,PaLM 2 可能引入了多任务训练目标,同时优化语言建模、翻译和推理能力。

并行策略:Google 使用了 Pathways 系统进行分布式训练,能高效地在数千个 TPU 上训练超大规模模型。

二、多语言能力#

2.1 训练方法#

PaLM 2 在多语言能力上实现了重大突破。关键在于训练数据的质和量:

语言类别数据量来源
高资源语言(英、中、日等)大量网页、书籍、新闻
中等资源语言(韩、泰、阿拉伯等)中等维基百科、新闻、政府文档
低资源语言(部分非洲语言等)少量但质量高翻译数据、平行语料

PaLM 2 的多语言训练不仅仅是增加非英语数据的比例,更重要的是:

  • 构建高质量的多语言评估基准
  • 使用跨语言迁移学习,让高资源语言的能力迁移到低资源语言
  • 引入更多的翻译对齐数据

2.2 多语言基准#

PaLM 2 在多语言基准上的表现大幅超越 PaLM 1:

基准任务PaLM 540BPaLM 2
MMLU(英语)知识问答69.4%79.2%
MMLU(多语言)多语言问答-75.1%
XCOPA跨语言推理58.5%71.4%
WMT 翻译机器翻译中等显著提升
TyDiQA多语言问答中等大幅提升

2.3 翻译能力#

PaLM 2 的翻译能力特别值得关注。在 100+ 语言的翻译对上,PaLM 2 在多个语言对上超越了专门的翻译模型。

flowchart LR subgraph PaLM 2 翻译能力 A[高资源语言对<br>英→中、英→法等] --> A1["接近或超越<br>专业翻译系统"] B[中等资源语言对<br>英→泰、英→阿拉伯] --> B1["显著超越<br>前代模型"] C[低资源语言对<br>部分非洲语言] --> C1["明显改善<br>但仍有限"] end

这种翻译能力的提升,得益于 PaLM 2 对多语言语义表示的更好学习。模型不只是记住了词汇对应关系,而是真正理解了不同语言之间的语义映射。

三、推理能力#

3.1 数学推理#

PaLM 2 在数学推理上取得了显著进步:

基准任务PaLM 540BPaLM 2GPT-4
GSM8K小学数学56.9%80.7%92.0%
MATH竞赛数学8.8%34.3%42.5%
Minerva Math大学数学33.6%53.4%63.0%+

推理能力的提升来自两方面:

  • 训练数据中包含大量数学公式和推导过程(arXiv 论文、数学教材)
  • 使用 Minerva 方法在推理数据上进行微调

3.2 代码生成#

代码能力是 PaLM 2 的另一大亮点:

模型HumanEvalMBPP
PaLM 127.6%-
PaLM 262.6%52.4%
GPT-467.0%-
Codex 12B28.8%-

PaLM 2 的 HumanEval 从 27.6% 跃升到 62.6%,接近 GPT-4 的水平。这个提升主要归功于训练数据中代码比例的大幅增加。

3.3 逻辑推理#

在逻辑推理基准上,PaLM 2 也有明显提升:

  • BIG-Bench Hard:从 PaLM 1 的 42.3% 提升到 65.1%
  • StrategyQA:从 74.2% 提升到 85.3%
  • LogiQA:逻辑推理正确率显著提高

四、模型家族#

4.1 四个规模版本#

PaLM 2 提供了四个不同规模的版本,适配不同场景:

flowchart TB subgraph PaLM 2 模型家族 A[Gecko<br>~1.8B 参数] --> A1["设备端部署<br>移动手机运行"] B[Otter / Base<br>中等规模] --> B1["通用任务<br>平衡性能与成本"] C[Bison<br>大规模] --> C1["生产级 API<br>Bard / Vertex AI"] D[Unicorn<br>最大规模] --> D1["最强能力<br>研究用途"] end
版本参数量(推测)特点典型场景
Gecko~1.8B可在手机端运行设备端 AI、低延迟
Base~20B平衡性能和效率通用 NLP 任务
Bison~60B生产级性能Bard、API 服务
Unicorn~340B最强推理和知识研究和复杂任务

Gecko 的存在特别有意义。它证明了经过高质量训练,即使是 1.8B 的模型也能在对话和问答任务上表现出色。这为移动端 AI 部署铺平了道路。

4.2 与 Gemini 的关系#

PaLM 2 是 Google 在 LLM 竞赛中的,但不是终点。2023 年底,Google 发布了 Gemini 系列,作为 PaLM 的后继者:

flowchart LR A[PaLM 1<br>2022] --> B[PaLM 2<br>2023.5] B --> C[Gemini 1<br>2023.12] C --> D[Gemini 1.5<br>2024] D --> E[Gemini 2<br>2025] style B fill:#4caf50,color:#fff

PaLM 2 的多语言训练经验和推理增强技术,直接延续到了 Gemini 系列中。

4.3 Gemma 开源模型#

2024 年,Google 基于 PaLM 2 的技术发布了 Gemma 开源模型:

  • Gemma 2B / 7B:基于 PaLM 2 架构训练的开源模型
  • 采用和 PaLM 2 相同的训练基础设施和数据管道
  • 开源可商用,促进社区研究和应用

Gemma 是 PaLM 2 技术向开源社区的延伸,与 Meta 的 LLaMA 系列形成竞争。

五、行业应用#

5.1 Med-PaLM:医疗领域#

PaLM 2 最具影响力的应用是 Med-PaLM,专门针对医疗领域微调的版本:

flowchart TB subgraph Med-PaLM 训练 A[PaLM 2 基础模型] --> B[医学知识微调] B --> C[医学问答对齐] C --> D[临床推理优化] end subgraph Med-PaLM 能力 E[医学知识问答] F[临床推理] G[诊断建议] H[患者沟通] end

USMLE(美国医师执照考试)表现

模型USMLE 得分
之前最佳 AI~50%
Med-PaLM67.6%
Med-PaLM 286.5%
及格线~60%

Med-PaLM 2 以 86.5% 的成绩通过 USMLE,达到「专家级」水平。但它仍然有局限性:在复杂病例的推理中,偶尔会给出不准确的建议。Google 强调 Med-PaLM 是辅助工具,不能替代医生诊断。

5.2 Sec-PaLM:网络安全#

PaLM 2 还被用于网络安全领域(Sec-PaLM),帮助安全分析师:

  • 分析恶意代码行为
  • 生成威胁检测规则
  • 解释安全漏洞原理
  • 辅助事件响应

5.3 Bard / Google Workspace 集成#

PaLM 2 是 Bard(后来的 Gemini)和 Google Workspace AI 功能的底层模型:

  • Gmail 中的智能撰写
  • Google Docs 中的写作辅助
  • Google Sheets 中的公式生成
  • Google Slides 中的内容生成

六、与 PaLM 1 的全面对比#

6.1 核心指标对比#

维度PaLM 1PaLM 2变化
最大参数量540B~340B(推测)减少
训练 tokens~780B~3.6T+大幅增加
语言数量100+100+(质量更高)质量提升
MMLU69.4%79.2%+9.8%
HumanEval27.6%62.6%+35.0%
GSM8K56.9%80.7%+23.8%
推理效率慢(540B 太大)快(模型更小更高效)显著提升

6.2 设计哲学的转变#

flowchart TB subgraph PaLM 1 哲学 A1["更大 = 更好"] --> B1["540B 参数<br>追求规模"] end subgraph PaLM 2 哲学 A2["更聪明 = 更好"] --> B2["优化数据 + 架构<br>追求效率"] end B1 -->|"Chinchilla 启发"| A2

PaLM 2 代表了 LLM 训练范式的转变:从盲目追求参数规模,到优化数据质量和训练效率。这个趋势后来被 LLaMA 2、Mistral 7B 等模型进一步验证。

常见问题 FAQ#

Q1:PaLM 2 的具体参数量是多少?

Google 没有公开 PaLM 2 的精确参数量。技术报告只透露了「比 PaLM 1 更小但更强」。根据外部推测,最大版本约 340B 参数,但这个数字有争议。

Q2:PaLM 2 和 GPT-4 谁更强?

在大部分基准上 GPT-4 仍然领先,但差距不大。PaLM 2 在多语言和翻译任务上可能更强。两者各有优势。

Q3:Med-PaLM 能替代医生吗?

不能。Med-PaLM 通过了 USMLE 考试,但医疗实践远比考试复杂。Google 明确表示 Med-PaLM 是辅助工具,最终诊断决策仍由医生做出。

Q4:Gemma 和 PaLM 2 有什么关系?

Gemma 基于 PaLM 2 相同的架构和训练技术,但规模更小(2B/7B)且开源。可以理解为 PaLM 2 技术的开源版本。


小结#

PaLM 2 是 Google 在 LLM 竞赛中的。

flowchart TB subgraph PaLM 2 的核心贡献 A[效率优化] --> A1["更少参数,更强性能<br>验证 Chinchilla Law"] B[多语言突破] --> B1["100+ 语言<br>翻译能力大幅提升"] C[推理增强] --> C1["数学和代码<br>接近 GPT-4 水平"] D[行业落地] --> D1["Med-PaLM / Sec-PaLM<br>行业专用模型"] end

核心认识:PaLM 2 证明了训练数据的质量和多样性,比单纯的模型规模更重要。这个发现对整个 LLM 领域产生了深远影响,推动行业从「参数竞赛」转向「数据和架构优化」。


参考资料#

支持与分享

如果这篇文章对你有帮助,欢迎支持作者或分享给更多人

PaLM 2:Google 多语言与推理能力的跃迁
https://blog.souloss.com/posts/machine-learning/llm-paper-history/palm2-technical-report/
作者
Souloss
发布于
2025-09-02
许可协议
CC BY-NC-SA 4.0

部分信息可能已经过时