mobile wallpaper 1mobile wallpaper 2mobile wallpaper 3mobile wallpaper 4
5548 字
16 分钟
Chinchilla 与训练token数量的秘密
2025-08-04

本文要点#

2022 年 4 月,DeepMind 发表了一篇划时代的论文《Training Compute-Optimal Large Language Models》,提出一个反直觉的发现:当前的 LLM 普遍训练不足!

这篇论文通过系统的实验,证明了 Chinchilla 定律:在相同算力预算下,模型大小和训练 tokens 应该等比例缩放。

本文核心要点

  1. Kaplan Scaling Law 的局限:OpenAI 的早期缩放定律认为”模型越大越好”,但低估了数据量的重要性
  2. Chinchilla 的三大实验方法:IsoFLOP 分析、参数拟合、综合结论
  3. 20x 规则:训练 tokens 数量应约为模型参数量的 20 倍
  4. Chinchilla 70B 击败 Gopher 280B:小模型 + 更多数据的范式转变
  5. 后 Chinchilla 时代:数据质量、Llama 3 的偏离以及未来的缩放方向

一、背景:Kaplan Scaling Law#

1.1 Kaplan 的核心公式#

在 Chinchilla 之前,OpenAI 的 Kaplan 等人(2020)提出了著名的 Kaplan Scaling Law。这篇论文通过大量实验拟合出了一套幂律关系,核心公式如下:

损失与参数量的关系

L(N)ANα+BL(N) \approx \frac{A}{N^{\alpha}} + B

其中 LL 是交叉熵损失(cross-entropy loss),NN 是模型参数量(不含 embedding),AABB 是与数据分布有关的常数。Kaplan 团队通过实验测得 α0.076\alpha \approx 0.076

损失与数据量的关系

L(D)CDβ+BL(D) \approx \frac{C}{D^{\beta}} + B

其中 DD 是训练 tokens 数量,β0.095\beta \approx 0.095

综合损失函数

L(N,D)ANαN+CDβD+BL(N, D) \approx \frac{A}{N^{\alpha_N}} + \frac{C}{D^{\beta_D}} + B

Kaplan 团队拟合得到 αN0.076\alpha_N \approx 0.076βD0.095\beta_D \approx 0.095

计算预算与最优参数量的关系

C=cNαCC = c \cdot N^{\alpha_C}

其中 CC 是总计算量(以 FLOPs 计),αC0.73\alpha_C \approx 0.73。这个指数 大于 0.5,意味着 Kaplan 定律认为应该把大部分算力预算投入到增大模型上。

1.2 Kaplan 定律的预测#

Kaplan 定律预测:模型越大,样本效率越高,因此应该优先增大模型参数量。按照这个定律,推荐的训练 tokens 如下:

参数量建议训练 tokenstokens/参数比
1B20B20x
10B200B20x
100B2T20x
1T20T20x

但 DeepMind 团队注意到一个关键矛盾:**GPT-3 175B 只训练了 300B tokens,远低于 Kaplan 定律的预测!**如果 Kaplan 定律是正确的,GPT-3 的训练量只有建议值的约 1.5%(300B vs 20T)。

1.3 Kaplan 定律的实验缺陷#

Kaplan 团队的实验存在以下问题:

  1. 学习率调度不一致:不同大小的模型使用了不同的学习率调度策略
  2. 训练不充分:部分模型没有训练到收敛
  3. 参数范围有限:实验主要在较小模型上进行外推
  4. 忽略了 N 和 D 的耦合关系:将 L(N)L(N)L(D)L(D) 独立拟合

这些缺陷导致了缩放指数的偏差,使得结论偏向”优先增大模型”。

二、Compute-Optimal 训练#

2.1 核心问题#

Chinchilla 论文重新定义问题:

在固定算力预算 CC 下,如何选择模型参数量 NN 和训练 tokens 数量 DD,使得损失 LL 最小?

这与 Kaplan 的方法本质不同:

维度KaplanChinchilla
优化目标固定 D,增大 N固定 C,同时优化 N 和 D
核心假设模型越大,样本效率越高N 和 D 应该等比例缩放
实验方法独立拟合 L(N) 和 L(D)联合拟合 L(N, D)
训练策略每个模型训练到固定 tokens每个模型训练到收敛

2.2 三大实验方法#

DeepMind 设计了三种互补的实验方法来验证 compute-optimal 缩放定律。

方法一:IsoFLOP 分析#

IsoFLOP(等计算量)分析的核心思想是:固定计算预算 CC,在所有可能的 (N,D)(N, D) 组合中找到使损失最小的配置。

具体步骤:

  1. 选择 9 个不同的计算预算,从 6×10186 \times 10^{18}3×10213 \times 10^{21} FLOPs
  2. 对于每个预算 CC,训练多个不同大小的模型(参数量 NN 不同)
  3. 每个模型的训练 tokens 由 D=C/(6N)D = C / (6N) 近似确定(Transformer 的前向+反向计算量约为 6N6N FLOPs/token)
  4. 绘制损失曲线,找到每个预算下的最优 (Nopt,Dopt)(N_{opt}, D_{opt})
graph LR subgraph "IsoFLOP 分析" A["固定 C₁ = 10¹⁹"] --> A1["训练 N=100M, 300M, 1B, 3B..."] A1 --> A2["每个 N 对应 D = C/6N"] A2 --> A3["找到 L 最小的 N_opt"] B["固定 C₂ = 10²⁰"] --> B1["训练 N=100M, 300M, 1B, 3B..."] B1 --> B2["每个 N 对应 D = C/6N"] B2 --> B3["找到 L 最小的 N_opt"] A3 --> R["汇总 (C, N_opt) 数据点"] B3 --> R R --> F["拟合 N_opt ∝ C^b"] end

IsoFLOP 分析的关键发现:最优参数量 NoptN_{opt} 和最优 tokens 数 DoptD_{opt} 与计算预算 CC 的关系为:

NoptCa,DoptCbN_{opt} \propto C^a, \quad D_{opt} \propto C^b

其中 a0.50a \approx 0.50b0.50b \approx 0.50

方法二:参数模型拟合#

第二种方法直接拟合损失函数 L(N,D)L(N, D)。DeepMind 训练了 400+ 个模型,涵盖 70M 到 16B 参数,训练 tokens 从 5M 到 500B 不等。

通过非线性最小二乘法拟合,得到:

L(N,D)=ENα+ADβ+LL(N, D) = \frac{E}{N^{\alpha}} + \frac{A}{D^{\beta}} + L_*

其中:

  • E1.69E \approx 1.69(参数瓶颈项系数)
  • A406.4A \approx 406.4(数据瓶颈项系数)
  • α0.34\alpha \approx 0.34(参数缩放指数)
  • β0.28\beta \approx 0.28(数据缩放指数)
  • L1.58L_* \approx 1.58(不可约损失,代表数据的内在熵)

拟合质量:该参数模型与实验数据的拟合 R2>0.99R^2 > 0.99,说明这个函数形式能很好地描述损失 landscape。

方法三:综合验证#

第三种方法结合前两者的结论,验证预测的一致性。通过对 L(N,D)L(N, D) 在约束 C=6NDC = 6ND 下求极值:

LN=0    NoptCa,a=βα+β\frac{\partial L}{\partial N} = 0 \implies N_{opt} \propto C^{a}, \quad a = \frac{\beta}{\alpha + \beta}

LD=0    DoptCb,b=αα+β\frac{\partial L}{\partial D} = 0 \implies D_{opt} \propto C^{b}, \quad b = \frac{\alpha}{\alpha + \beta}

代入 α=0.34\alpha = 0.34β=0.28\beta = 0.28

a=0.280.34+0.280.45,b=0.340.34+0.280.55a = \frac{0.28}{0.34 + 0.28} \approx 0.45, \quad b = \frac{0.34}{0.34 + 0.28} \approx 0.55

三种方法给出的指数均在 0.5 附近,高度一致。

graph TB subgraph "三大实验方法" M1["方法一:IsoFLOP 分析<br/>固定 C,找最优 N"] M2["方法二:参数拟合<br/>拟合 L(N, D)"] M3["方法三:解析推导<br/>对 L 求极值"] end M1 --> R1["N_opt ∝ C^0.50"] M2 --> R2["α=0.34, β=0.28"] M3 --> R3["N_opt ∝ C^0.45"] R1 --> CON["一致结论:<br/>N 和 D 应等比例缩放"] R2 --> CON R3 --> CON

2.3 关键发现#

综合三种方法,DeepMind 得出核心结论:

L(N,D)=ENα+ADβ+LL(N, D) = \frac{E}{N^{\alpha}} + \frac{A}{D^{\beta}} + L_*

其中 α0.34\alpha \approx 0.34β0.28\beta \approx 0.28。这意味着:

变量关系含义
NoptC0.50N_{opt} \propto C^{0.50}参数量与算力的平方根成正比算力翻倍,模型大小应增约 41%
DoptC0.50D_{opt} \propto C^{0.50}tokens 与算力的平方根成正比算力翻倍,训练数据也应增约 41%
Dopt/Nopt20D_{opt} / N_{opt} \approx 20tokens 应该是参数的 20 倍这是 Chinchilla 定律最著名的实践指南

2.4 与 Kaplan 定律的定量对比#

指标Kaplan (2020)Chinchilla (2022)
参数缩放指数NoptC0.73N_{opt} \propto C^{0.73}NoptC0.50N_{opt} \propto C^{0.50}
数据缩放指数未显式给出DoptC0.50D_{opt} \propto C^{0.50}
损失中的 α\alpha0.0760.34
损失中的 β\beta0.0950.28
核心推论优先增大模型N 和 D 等比例缩放

差异的根源:Kaplan 团队在拟合时使用了未充分训练的模型,导致 α\alphaβ\beta 被严重低估。当模型训练到收敛后,真正的缩放指数远大于 Kaplan 报告的值。

三、Chinchilla 模型#

3.1 训练配置#

基于新的 scaling law,DeepMind 训练了 Chinchilla 模型。Chinchilla 使用与 Gopher 完全相同的数据和 tokenizer,唯一区别是模型大小和训练 tokens 数量:

模型参数量训练 tokens总计算量(FLOPs)模型架构
Chinchilla70B1.4T≈ 5.76 × 10²³Transformer
Gopher280B300B≈ 5.04 × 10²³Transformer

两者的计算预算基本相同(Chinchilla 略多 14%),但参数分配策略完全不同。按照 Chinchilla 定律,70B 参数的最优训练 tokens 为 20×70B=1.4T20 \times 70B = 1.4T,这正是 Chinchilla 使用的数量。

3.2 详细实验结果#

在相同算力下,Chinchilla 70B 全面超越 Gopher 280B:

语言建模与知识评估

BenchmarkGopher 280BChinchilla 70B提升幅度
MMLU(5-shot)60.5%67.5%+7.0%
MMLU(0-shot)46.5%54.4%+7.9%

阅读理解

BenchmarkGopher 280BChinchilla 70B提升幅度
RACE-h66.2%70.0%+3.8%
LAMBADA74.5%77.4%+2.9%
Reading Comprehension65.7%69.4%+3.7%

常识推理

BenchmarkGopher 280BChinchilla 70B提升幅度
HellaSwag79.2%80.8%+1.6%
PIQA80.8%82.3%+1.5%
WinoGrande72.3%74.1%+1.8%
ARC-Easy81.8%84.2%+2.4%
ARC-Challenge53.2%58.0%+4.8%

数学与推理

BenchmarkGopher 280BChinchilla 70B提升幅度
MATH5.8%7.9%+2.1%
GSM8K16.2%22.1%+5.9%
Hungarian Math21.4%28.7%+7.3%

关键发现:Chinchilla 在几乎所有任务上都取得了 SOTA 结果。尤其在 MMLU 上 7% 的提升、GSM8K 上近 6% 的提升,对于”更小”的模型来说令人震惊。这直接证明了 更多的数据 > 更大的模型

3.3 更广泛的影响#

Chinchilla 的结果带来几个重要启示:

  1. 推理成本大幅降低:Chinchilla 70B 的推理成本仅为 Gopher 280B 的 1/4
  2. 存储和部署更友好:70B 模型可以部署在更少的 GPU 上
  3. 训练策略的范式转变:从此”小模型 + 大数据”成为新范式

四、为什么之前的模型训练不足?#

4.1 GPT-3 的例子#

GPT-3 175B 训练了约 300B tokens。按照 Chinchilla 定律,175B 参数的模型应该训练:

Dopt=20×175B=3.5T tokensD_{opt} = 20 \times 175B = 3.5T \text{ tokens}

GPT-3 训练 tokens 不足建议值的 8.6%

4.2 算力浪费分析#

下面量化这种浪费:

GPT-3 实际: 175B 参数 × 300B tokens = 52.5 × 10²² FLOPs
Chinchilla 最优(相同算力): 87B 参数 × 1.7T tokens ≈ 52.5 × 10²² FLOPs

在相同的 52.5 × 10²² FLOPs 下,按照 Chinchilla 定律,应该训练一个约 87B 参数的模型,训练 1.7T tokens。OpenAI 把本该用于数据的算力全部堆到了模型大小上。

4.3 其他训练不足的模型#

模型参数量实际训练 tokensChinchilla 建议 tokens覆盖率
GPT-3175B300B3.5T8.6%
Gopher280B300B5.6T5.4%
MT-NLG530B270B10.6T2.5%
Jurassic-1 Jumbo178B300B3.56T8.4%

这些模型无一例外都严重训练不足。

五、对 LLM 训练的影响#

5.1 Chinchilla 之后#

Chinchilla 论文改变了整个领域的实践。此后发布的模型纷纷增加了训练数据量:

模型参数量训练 tokenstokens/参数比备注
LLaMA 165B1.4T22x直接采用 20x 规则
LLaMA 270B2T29x超出 Chinchilla 规则
Falcon180B3.5T19x基本遵循
Mistral7B7T1000x远超 20x 规则

5.2 LLaMA 的设计#

LLaMA 明确采用了 Chinchilla 规则,并进一步超越了它:

LLaMA 变体参数量训练 tokenstokens/参数比是否 Chinchilla 最优
LLaMA 7B7B1T143x远超最优(过训练)
LLaMA 13B13B1T77x远超最优
LLaMA 33B33B1.4T42x超出最优
LLaMA 65B65B1.4T22x接近 Chinchilla 最优

这解释了为什么 LLaMA 7B 在较小参数下能达到强大的性能——它实际上是一个”过训练”的模型,用远超最优的数据量来弥补参数量的不足。Meta 团队有意这样做,目的是让小模型在推理时更具性价比。

六、临界 tokens 的概念#

6.1 定义#

临界 tokens(Critical Tokens)是指模型在某个任务上达到”顿悟”时刻所需的最小训练 tokens 数量。虽然 Chinchilla 给出了宏观的 20x 规则,但不同任务、不同模型大小达到性能拐点所需的 tokens 差异巨大。

def critical_tokens_analysis(model_sizes, task_performance):
"""
分析不同任务达到性能阈值所需的 tokens
"""
results = {}
for size in model_sizes:
for task in tasks:
tokens_needed = find_turning_point(
size, task, task_performance[size][task]
)
results[size][task] = tokens_needed
return results

6.2 实际指导:不同模型大小需要多少 tokens?#

按照 Chinchilla 定律的 D20ND \approx 20N 规则,以下是常见模型大小的推荐训练量:

模型大小Chinchilla 最优 tokens实践推荐 tokens理由
1B20B50B-100B小模型过训练性价比高
7B140B1T-2T参考 Mistral/Llama 的实践
13B260B1T-2T同上
30B600B1.4T-2T参考 LLaMA 33B
70B1.4T2T-4T参考 Llama 2/3 的实践
120B2.4T3T-5T参考 Falcon 180B
175B3.5T5T+参考现代大模型实践
400B+8T+10T-15T+前沿模型的训练规模

注意:实践中推荐的 tokens 往往高于 Chinchilla 最优值。这是因为过训练(over-training)虽从纯算力效率角度非最优,但能显著降低推理成本——一个训练更多数据的小模型,在推理时比大模型更经济。

6.3 任务差异#

任务类型达到性能阈值所需的 tokens说明
基础语言建模较少perplexity 改善对数据量相对不敏感
常识推理中等HellaSwag、PIQA 等需要足够的多样化数据
复杂推理非常多GSM8K、MATH 等需要大量推理链数据
代码生成中等偏多代码的逻辑结构需要大量样本
专业知识取决于领域数据医学、法律等领域数据稀缺,质量更重要
多语言极多不同语言的数据量和质量差异大

6.4 数据重复与退化#

当训练 tokens 超过可用唯一数据时,会出现数据退化(data degeneration)。研究表明:

  • 1 epoch 到 4 epoch:性能基本线性提升
  • 4 epoch 之后:收益递减,出现边际效用下降
  • 10+ epoch:可能出现过拟合,某些任务性能下降

这意味着 Chinchilla 的 20x 规则有一个隐含前提:需要足够的高质量唯一数据

七、Compute-Optimal vs Flops-Optimal#

7.1 两种范式#

graph LR A["固定算力预算 C"] --> B["Compute-Optimal<br/>(Chinchilla 路线)"] A --> C["Flops-Optimal<br/>(Kaplan 路线)"] B --> D["等比例缩放 N 和 D<br/>D/N ≈ 20"] C --> E["优先增大 N<br/>减少 D"] D --> F["结果:小模型+多数据<br/>推理成本低"] E --> G["结果:大模型+少数据<br/>可能涌现更强能力"]

7.2 实际选择#

在实践中,两种选择都有道理,取决于具体约束:

场景推荐原因
推理成本敏感Compute-Optimal小模型 + 更多 tokens,推理时更快更省
推理成本不敏感Flops-Optimal大模型可能涌现更强能力(但证据不确定)
边缘部署Compute-Optimal必须使用小模型,通过过训练弥补
API 服务过训练策略小模型过训练后在推理成本上具有极大优势
微调场景可能不同取决于下游任务和部署约束

7.3 过训练策略的兴起#

LLaMA 开创了一个重要的实践模式——过训练(Over-training):故意用远超 Chinchilla 最优的数据量来训练小模型。

过训练的经济学分析:

假设:训练成本 = 6ND FLOPs,推理成本 = 2N FLOPs/token
Chinchilla 最优 70B 模型:训练 1.4T tokens
→ 推理成本:2 × 70B = 140B FLOPs/token
过训练的 7B 模型:训练 7T tokens(1000x 比率)
→ 训练成本:6 × 7B × 7T = 294 × 10²¹ FLOPs
→ Chinchilla 最优 7B 的训练成本:6 × 7B × 140B = 5.88 × 10²¹ FLOPs
→ 额外训练成本:约 50x
→ 但推理成本:2 × 7B = 14B FLOPs/token(仅为 70B 的 1/10)
如果推理 10T tokens,过训练 7B 节省的推理成本远超额外的训练成本!

八、超越 Chinchilla#

8.1 后 Chinchilla 时代的探索#

Chinchilla 之后,研究者开始探索更细粒度的训练策略:

  1. 更高数据质量:Tokens 质量 > 数量。Phi-1 用”教科书级”数据以远少于 Chinchilla 推荐的 tokens 达到 SOTA
  2. 课程学习:按难度顺序学习 tokens,从简单文本到复杂推理
  3. 数据混合:不同来源 tokens 的最优配比(网页、书籍、代码、学术论文等)
  4. 多轮训练与数据回收:对已有数据进行精细化筛选后重新训练

8.2 数据质量对 Scaling Law 的修正#

2024 年的研究(Fineweb、Phi 系列等)表明:

高质量数据集可以用更少的 tokens 达到同等甚至更好的性能!

这意味着 Chinchilla 定律可能需要修正为:

Dopt=f(数据质量)×20×ND_{opt} = f(\text{数据质量}) \times 20 \times N

其中 f(数据质量)f(\text{数据质量}) 是一个小于 1 的系数,高质量数据可以降低所需的 tokens 总量。Phi-3 的实践表明,ff 可能低至 0.3-0.5。

8.3 Llama 3 的偏离:15T tokens 训练 70B 模型#

2024 年 Meta 发布的 Llama 3 做出了一个引人注目的决策:用 15T tokens 训练 70B 模型,tokens/参数比达到 214x,远超 Chinchilla 的 20x 建议。

模型参数量训练 tokenstokens/参数比Chinchilla 最优比
Llama 3 8B8B15T1875x93.75x 过训练
Llama 3 70B70B15T214x10.7x 过训练

Meta 为什么这样做?几个关键论据:

  1. 推理成本主导:Llama 3 模型被全球数百万开发者使用,推理成本远超训练成本。过训练使得 70B 模型的性能逼近甚至超过更大的模型
  2. 数据质量的提升:Llama 3 使用了更严格的数据清洗管道,使得更多 tokens 能带来有效提升
  3. 经验验证:Meta 的消融实验表明,在 15T 数据规模上,损失仍在稳步下降,没有出现明显的饱和
  4. “数据墙”的考量:Meta 可能认为高质量数据总量有限,与其训练更大的模型碰壁,不如充分利用现有数据

Llama 3 的启示:Chinchilla 定律给出的是 训练效率最优,但不是 综合成本最优。当推理成本占主导时,过训练是理性的选择。

8.4 Chinchilla 定律的适用边界#

Chinchilla 定律并非万能,以下情况可能偏离其预测:

场景Chinchilla 是否适用说明
标准预训练适用这是 Chinchilla 的核心实验场景
高质量筛选数据需修正数据质量因子 f<1f < 1
多模态训练不确定不同模态的缩放行为可能不同
蒸馏训练不适用从大模型蒸馏,缩放行为完全不同
推理成本优先部署需调整过训练是更经济的选择
数据受限(数据墙)需调整无法获取足够唯一数据时,需要其他策略

九、Scaling Law 可视化#

9.1 模型大小与数据的缩放关系#

以下图表展示了 Kaplan 和 Chinchilla 两种缩放定律在固定算力下的不同预测:

固定算力 C = 10²⁴ FLOPs 下的最优分配:
Kaplan 预测:
N_opt ≈ C^0.73 ≈ 88B 参数
D_opt ≈ C/(6 × 88B) ≈ 1.9T tokens
D/N ≈ 21.6 (巧合地接近 20x,但 N 偏大)
Chinchilla 预测:
N_opt ≈ C^0.50 ≈ 12B 参数 ← 注意!远小于 Kaplan
D_opt ≈ C^0.50 ≈ 250B tokens
D/N ≈ 20.0
实际 Gopher 的选择:
N = 280B, D = 300B
→ 模型严重过大,数据严重不足

9.2 损失 Landscape 等高线#

损失函数 L(N, D) 的等高线示意(数值为相对损失):
D (tokens)
5T | 1.70 1.65 1.62 1.61 1.60
|
2T | 1.75 1.68 1.63 1.60 1.59
|
1T | 1.82 1.73 1.66 1.62 1.60
|
500B | 1.92 1.80 1.71 1.65 1.62
|
200B | 2.05 1.90 1.79 1.72 1.67
|
+----------------------------------→ N (参数)
10B 30B 70B 175B 500B
星号位置为 Chinchilla 最优点 (70B, 1.4T)
Gopher 位置 (280B, 300B) — 损失更高!

十、总结#

观点Kaplan (2020)Chinchilla (2022)
核心假设模型越大越好N 和 D 应等比例缩放
最优关系N ∝ C^0.73N ∝ C^0.50, D ∝ C^0.50
D/N 比值不固定≈ 20
GPT-3 评估训练充足严重训练不足
推荐策略堆参数平衡参数和数据

Chinchilla 的核心贡献:

  1. 系统化了 scaling law,用三种独立方法交叉验证
  2. 证明了”训练 tokens 20x 规则”
  3. 启发了 LLaMA 等高效训练实践
  4. 证明了小模型 + 大数据可以击败大模型
  5. 假设数据质量均匀,忽略了数据质量的重要性
  6. 给出的是训练效率最优,不是综合部署成本最优

小结#

Chinchilla 论文是 LLM 发展史上的一个关键转折点。在此之前,“大力出奇迹”意味着堆参数;在此之后,整个行业转向了”数据与参数平衡缩放”的范式。

一句话总结:在固定算力下,模型参数和训练数据应该等比例增长,最优 tokens 数约为参数量的 20 倍。

实践启示

  1. 训练新模型时:首先确定可用算力 CC,然后按 NC0.5N \propto C^{0.5}DC0.5D \propto C^{0.5} 分配资源
  2. 部署模型时:过训练(远超 20x)的小模型通常比 Chinchilla 最优的大模型更具性价比
  3. 数据受限时:优先保证数据质量,而不是盲目堆量
  4. 选型参考:7B 过训练模型 ≈ 13B Chinchilla 最优模型 ≈ 30B 欠训练模型(粗略等价)

Chinchilla 的遗产:它不仅是 LLaMA 系列设计的理论基础,也催生了数据质量研究(Phi 系列)、过训练实践(Mistral)、以及数据工程(FineWeb)等一系列后续工作。即使到 2026 年,Chinchilla 定律仍然是任何 LLM 训练项目的起点。

常见问题 FAQ#

10.1 Q1: Chinchilla 的 20x 规则是否意味着所有模型都应该严格遵循?#

不是。20x 规则是 训练算力效率最优 的结论。在实践中,推理成本往往远超训练成本,因此”过训练”(用远超 20x 的数据训练小模型)是更经济的选择。LLaMA、Mistral 等模型都采用了过训练策略。

10.2 Q2: 如果我只有有限的高质量数据怎么办?#

如果你的唯一数据量少于 Chinchilla 建议的 tokens 数,有几个选择:1)降低模型大小,使 20N 匹配你的数据量;2)通过数据增强、合成数据等方式扩充数据;3)多轮训练(但要警惕过拟合)。记住,Chinchilla 的前提是”在足够数据的情况下”。

10.3 Q3: Chinchilla 定律适用于微调吗?#

不直接适用。Chinchilla 研究的是预训练阶段的缩放行为。微调通常只使用少量数据(几千到几万条),且微调的目标与预训练不同(对齐特定任务 vs 学习通用表示)。微调阶段的数据策略更多取决于任务特性和数据质量。

10.4 Q4: 为什么 Kaplan 的指数和 Chinchilla 差异这么大?#

主要原因是 Kaplan 团队在实验中没有让所有模型训练到充分收敛。在早期停止的情况下,大模型的损失下降曲线看起来比实际更陡,导致拟合出的 α\alpha 偏小。Chinchilla 通过确保所有模型训练到收敛,得到了更准确的缩放指数。

10.5 Q5: Llama 3 用 15T tokens 训练 70B 模型,是否意味着 Chinchilla 定律已经过时?#

不是。Chinchilla 定律回答的是”在固定算力下如何分配 N 和 D 最有效”。Llama 3 的做法是在 固定模型大小(70B)和 充足数据(15T)的前提下最大化性能。Meta 的目标是部署一个推理成本可控的模型,而不是追求训练效率最优。Chinchilla 的核心洞察——N 和 D 应等比例缩放——仍然是正确的。

10.6 Q6: 如何理解 Chinchilla 公式中的不可约损失 LL_*#

LL_* 代表数据的内在熵(irreducible loss),即无论模型多大、数据多少,损失都不可能低于这个值。它反映了自然语言的固有不确定性。Chinchilla 拟合得到 L1.58L_* \approx 1.58 nats,这意味着即使拥有无限参数和无限数据,语言模型的 perplexity 也不会低于 e1.584.86e^{1.58} \approx 4.86

10.7 Q7: Chinchilla 实验用的是 Transformer 架构,结论是否适用于其他架构?#

Chinchilla 的缩放指数是在标准 Transformer 上拟合的。对于 MoE(如 Mixtral)、SSM(如 Mamba)等架构,缩放行为可能不同。但核心直觉——算力应平衡地分配给参数和数据——在大多数架构中应该成立,只是具体的指数和 20x 这个比例可能需要调整。

10.8 Q8: 数据质量到底能多大程度上替代数据数量?#

目前的经验表明,数据质量可以显著减少所需的 tokens 数量。Phi-3 用约 3.3T tokens 训练 3.8B 模型(869x 比率),但性能媲美用更多数据训练的更大模型。然而,高质量数据本身是稀缺资源,且”质量”的定义因任务而异。数据质量和数量不是简单的替代关系,而是互补的。

参考资料#

支持与分享

如果这篇文章对你有帮助,欢迎支持作者或分享给更多人

Chinchilla 与训练token数量的秘密
https://blog.souloss.com/posts/machine-learning/llm-paper-history/chinchilla-and-training-laws/
作者
Souloss
发布于
2025-08-04
许可协议
CC BY-NC-SA 4.0

部分信息可能已经过时