本文要点
2022 年 4 月,DeepMind 发表了一篇划时代的论文《Training Compute-Optimal Large Language Models》,提出一个反直觉的发现:当前的 LLM 普遍训练不足!
这篇论文通过系统的实验,证明了 Chinchilla 定律:在相同算力预算下,模型大小和训练 tokens 应该等比例缩放。
本文核心要点:
- Kaplan Scaling Law 的局限:OpenAI 的早期缩放定律认为”模型越大越好”,但低估了数据量的重要性
- Chinchilla 的三大实验方法:IsoFLOP 分析、参数拟合、综合结论
- 20x 规则:训练 tokens 数量应约为模型参数量的 20 倍
- Chinchilla 70B 击败 Gopher 280B:小模型 + 更多数据的范式转变
- 后 Chinchilla 时代:数据质量、Llama 3 的偏离以及未来的缩放方向
一、背景:Kaplan Scaling Law
1.1 Kaplan 的核心公式
在 Chinchilla 之前,OpenAI 的 Kaplan 等人(2020)提出了著名的 Kaplan Scaling Law。这篇论文通过大量实验拟合出了一套幂律关系,核心公式如下:
损失与参数量的关系:
其中 是交叉熵损失(cross-entropy loss), 是模型参数量(不含 embedding), 和 是与数据分布有关的常数。Kaplan 团队通过实验测得 。
损失与数据量的关系:
其中 是训练 tokens 数量,。
综合损失函数:
Kaplan 团队拟合得到 ,。
计算预算与最优参数量的关系:
其中 是总计算量(以 FLOPs 计),。这个指数 大于 0.5,意味着 Kaplan 定律认为应该把大部分算力预算投入到增大模型上。
1.2 Kaplan 定律的预测
Kaplan 定律预测:模型越大,样本效率越高,因此应该优先增大模型参数量。按照这个定律,推荐的训练 tokens 如下:
| 参数量 | 建议训练 tokens | tokens/参数比 |
|---|---|---|
| 1B | 20B | 20x |
| 10B | 200B | 20x |
| 100B | 2T | 20x |
| 1T | 20T | 20x |
但 DeepMind 团队注意到一个关键矛盾:**GPT-3 175B 只训练了 300B tokens,远低于 Kaplan 定律的预测!**如果 Kaplan 定律是正确的,GPT-3 的训练量只有建议值的约 1.5%(300B vs 20T)。
1.3 Kaplan 定律的实验缺陷
Kaplan 团队的实验存在以下问题:
- 学习率调度不一致:不同大小的模型使用了不同的学习率调度策略
- 训练不充分:部分模型没有训练到收敛
- 参数范围有限:实验主要在较小模型上进行外推
- 忽略了 N 和 D 的耦合关系:将 和 独立拟合
这些缺陷导致了缩放指数的偏差,使得结论偏向”优先增大模型”。
二、Compute-Optimal 训练
2.1 核心问题
Chinchilla 论文重新定义问题:
在固定算力预算 下,如何选择模型参数量 和训练 tokens 数量 ,使得损失 最小?
这与 Kaplan 的方法本质不同:
| 维度 | Kaplan | Chinchilla |
|---|---|---|
| 优化目标 | 固定 D,增大 N | 固定 C,同时优化 N 和 D |
| 核心假设 | 模型越大,样本效率越高 | N 和 D 应该等比例缩放 |
| 实验方法 | 独立拟合 L(N) 和 L(D) | 联合拟合 L(N, D) |
| 训练策略 | 每个模型训练到固定 tokens | 每个模型训练到收敛 |
2.2 三大实验方法
DeepMind 设计了三种互补的实验方法来验证 compute-optimal 缩放定律。
方法一:IsoFLOP 分析
IsoFLOP(等计算量)分析的核心思想是:固定计算预算 ,在所有可能的 组合中找到使损失最小的配置。
具体步骤:
- 选择 9 个不同的计算预算,从 到 FLOPs
- 对于每个预算 ,训练多个不同大小的模型(参数量 不同)
- 每个模型的训练 tokens 由 近似确定(Transformer 的前向+反向计算量约为 FLOPs/token)
- 绘制损失曲线,找到每个预算下的最优
IsoFLOP 分析的关键发现:最优参数量 和最优 tokens 数 与计算预算 的关系为:
其中 ,。
方法二:参数模型拟合
第二种方法直接拟合损失函数 。DeepMind 训练了 400+ 个模型,涵盖 70M 到 16B 参数,训练 tokens 从 5M 到 500B 不等。
通过非线性最小二乘法拟合,得到:
其中:
- (参数瓶颈项系数)
- (数据瓶颈项系数)
- (参数缩放指数)
- (数据缩放指数)
- (不可约损失,代表数据的内在熵)
拟合质量:该参数模型与实验数据的拟合 ,说明这个函数形式能很好地描述损失 landscape。
方法三:综合验证
第三种方法结合前两者的结论,验证预测的一致性。通过对 在约束 下求极值:
代入 ,:
三种方法给出的指数均在 0.5 附近,高度一致。
2.3 关键发现
综合三种方法,DeepMind 得出核心结论:
其中 ,。这意味着:
| 变量 | 关系 | 含义 |
|---|---|---|
| 参数量与算力的平方根成正比 | 算力翻倍,模型大小应增约 41% | |
| tokens 与算力的平方根成正比 | 算力翻倍,训练数据也应增约 41% | |
| tokens 应该是参数的 20 倍 | 这是 Chinchilla 定律最著名的实践指南 |
2.4 与 Kaplan 定律的定量对比
| 指标 | Kaplan (2020) | Chinchilla (2022) |
|---|---|---|
| 参数缩放指数 | ||
| 数据缩放指数 | 未显式给出 | |
| 损失中的 | 0.076 | 0.34 |
| 损失中的 | 0.095 | 0.28 |
| 核心推论 | 优先增大模型 | N 和 D 等比例缩放 |
差异的根源:Kaplan 团队在拟合时使用了未充分训练的模型,导致 和 被严重低估。当模型训练到收敛后,真正的缩放指数远大于 Kaplan 报告的值。
三、Chinchilla 模型
3.1 训练配置
基于新的 scaling law,DeepMind 训练了 Chinchilla 模型。Chinchilla 使用与 Gopher 完全相同的数据和 tokenizer,唯一区别是模型大小和训练 tokens 数量:
| 模型 | 参数量 | 训练 tokens | 总计算量(FLOPs) | 模型架构 |
|---|---|---|---|---|
| Chinchilla | 70B | 1.4T | ≈ 5.76 × 10²³ | Transformer |
| Gopher | 280B | 300B | ≈ 5.04 × 10²³ | Transformer |
两者的计算预算基本相同(Chinchilla 略多 14%),但参数分配策略完全不同。按照 Chinchilla 定律,70B 参数的最优训练 tokens 为 ,这正是 Chinchilla 使用的数量。
3.2 详细实验结果
在相同算力下,Chinchilla 70B 全面超越 Gopher 280B:
语言建模与知识评估:
| Benchmark | Gopher 280B | Chinchilla 70B | 提升幅度 |
|---|---|---|---|
| MMLU(5-shot) | 60.5% | 67.5% | +7.0% |
| MMLU(0-shot) | 46.5% | 54.4% | +7.9% |
阅读理解:
| Benchmark | Gopher 280B | Chinchilla 70B | 提升幅度 |
|---|---|---|---|
| RACE-h | 66.2% | 70.0% | +3.8% |
| LAMBADA | 74.5% | 77.4% | +2.9% |
| Reading Comprehension | 65.7% | 69.4% | +3.7% |
常识推理:
| Benchmark | Gopher 280B | Chinchilla 70B | 提升幅度 |
|---|---|---|---|
| HellaSwag | 79.2% | 80.8% | +1.6% |
| PIQA | 80.8% | 82.3% | +1.5% |
| WinoGrande | 72.3% | 74.1% | +1.8% |
| ARC-Easy | 81.8% | 84.2% | +2.4% |
| ARC-Challenge | 53.2% | 58.0% | +4.8% |
数学与推理:
| Benchmark | Gopher 280B | Chinchilla 70B | 提升幅度 |
|---|---|---|---|
| MATH | 5.8% | 7.9% | +2.1% |
| GSM8K | 16.2% | 22.1% | +5.9% |
| Hungarian Math | 21.4% | 28.7% | +7.3% |
关键发现:Chinchilla 在几乎所有任务上都取得了 SOTA 结果。尤其在 MMLU 上 7% 的提升、GSM8K 上近 6% 的提升,对于”更小”的模型来说令人震惊。这直接证明了 更多的数据 > 更大的模型。
3.3 更广泛的影响
Chinchilla 的结果带来几个重要启示:
- 推理成本大幅降低:Chinchilla 70B 的推理成本仅为 Gopher 280B 的 1/4
- 存储和部署更友好:70B 模型可以部署在更少的 GPU 上
- 训练策略的范式转变:从此”小模型 + 大数据”成为新范式
四、为什么之前的模型训练不足?
4.1 GPT-3 的例子
GPT-3 175B 训练了约 300B tokens。按照 Chinchilla 定律,175B 参数的模型应该训练:
GPT-3 训练 tokens 不足建议值的 8.6%!
4.2 算力浪费分析
下面量化这种浪费:
GPT-3 实际: 175B 参数 × 300B tokens = 52.5 × 10²² FLOPsChinchilla 最优(相同算力): 87B 参数 × 1.7T tokens ≈ 52.5 × 10²² FLOPs在相同的 52.5 × 10²² FLOPs 下,按照 Chinchilla 定律,应该训练一个约 87B 参数的模型,训练 1.7T tokens。OpenAI 把本该用于数据的算力全部堆到了模型大小上。
4.3 其他训练不足的模型
| 模型 | 参数量 | 实际训练 tokens | Chinchilla 建议 tokens | 覆盖率 |
|---|---|---|---|---|
| GPT-3 | 175B | 300B | 3.5T | 8.6% |
| Gopher | 280B | 300B | 5.6T | 5.4% |
| MT-NLG | 530B | 270B | 10.6T | 2.5% |
| Jurassic-1 Jumbo | 178B | 300B | 3.56T | 8.4% |
这些模型无一例外都严重训练不足。
五、对 LLM 训练的影响
5.1 Chinchilla 之后
Chinchilla 论文改变了整个领域的实践。此后发布的模型纷纷增加了训练数据量:
| 模型 | 参数量 | 训练 tokens | tokens/参数比 | 备注 |
|---|---|---|---|---|
| LLaMA 1 | 65B | 1.4T | 22x | 直接采用 20x 规则 |
| LLaMA 2 | 70B | 2T | 29x | 超出 Chinchilla 规则 |
| Falcon | 180B | 3.5T | 19x | 基本遵循 |
| Mistral | 7B | 7T | 1000x | 远超 20x 规则 |
5.2 LLaMA 的设计
LLaMA 明确采用了 Chinchilla 规则,并进一步超越了它:
| LLaMA 变体 | 参数量 | 训练 tokens | tokens/参数比 | 是否 Chinchilla 最优 |
|---|---|---|---|---|
| LLaMA 7B | 7B | 1T | 143x | 远超最优(过训练) |
| LLaMA 13B | 13B | 1T | 77x | 远超最优 |
| LLaMA 33B | 33B | 1.4T | 42x | 超出最优 |
| LLaMA 65B | 65B | 1.4T | 22x | 接近 Chinchilla 最优 |
这解释了为什么 LLaMA 7B 在较小参数下能达到强大的性能——它实际上是一个”过训练”的模型,用远超最优的数据量来弥补参数量的不足。Meta 团队有意这样做,目的是让小模型在推理时更具性价比。
六、临界 tokens 的概念
6.1 定义
临界 tokens(Critical Tokens)是指模型在某个任务上达到”顿悟”时刻所需的最小训练 tokens 数量。虽然 Chinchilla 给出了宏观的 20x 规则,但不同任务、不同模型大小达到性能拐点所需的 tokens 差异巨大。
def critical_tokens_analysis(model_sizes, task_performance): """ 分析不同任务达到性能阈值所需的 tokens """ results = {} for size in model_sizes: for task in tasks: tokens_needed = find_turning_point( size, task, task_performance[size][task] ) results[size][task] = tokens_needed return results6.2 实际指导:不同模型大小需要多少 tokens?
按照 Chinchilla 定律的 规则,以下是常见模型大小的推荐训练量:
| 模型大小 | Chinchilla 最优 tokens | 实践推荐 tokens | 理由 |
|---|---|---|---|
| 1B | 20B | 50B-100B | 小模型过训练性价比高 |
| 7B | 140B | 1T-2T | 参考 Mistral/Llama 的实践 |
| 13B | 260B | 1T-2T | 同上 |
| 30B | 600B | 1.4T-2T | 参考 LLaMA 33B |
| 70B | 1.4T | 2T-4T | 参考 Llama 2/3 的实践 |
| 120B | 2.4T | 3T-5T | 参考 Falcon 180B |
| 175B | 3.5T | 5T+ | 参考现代大模型实践 |
| 400B+ | 8T+ | 10T-15T+ | 前沿模型的训练规模 |
注意:实践中推荐的 tokens 往往高于 Chinchilla 最优值。这是因为过训练(over-training)虽从纯算力效率角度非最优,但能显著降低推理成本——一个训练更多数据的小模型,在推理时比大模型更经济。
6.3 任务差异
| 任务类型 | 达到性能阈值所需的 tokens | 说明 |
|---|---|---|
| 基础语言建模 | 较少 | perplexity 改善对数据量相对不敏感 |
| 常识推理 | 中等 | HellaSwag、PIQA 等需要足够的多样化数据 |
| 复杂推理 | 非常多 | GSM8K、MATH 等需要大量推理链数据 |
| 代码生成 | 中等偏多 | 代码的逻辑结构需要大量样本 |
| 专业知识 | 取决于领域数据 | 医学、法律等领域数据稀缺,质量更重要 |
| 多语言 | 极多 | 不同语言的数据量和质量差异大 |
6.4 数据重复与退化
当训练 tokens 超过可用唯一数据时,会出现数据退化(data degeneration)。研究表明:
- 1 epoch 到 4 epoch:性能基本线性提升
- 4 epoch 之后:收益递减,出现边际效用下降
- 10+ epoch:可能出现过拟合,某些任务性能下降
这意味着 Chinchilla 的 20x 规则有一个隐含前提:需要足够的高质量唯一数据。
七、Compute-Optimal vs Flops-Optimal
7.1 两种范式
7.2 实际选择
在实践中,两种选择都有道理,取决于具体约束:
| 场景 | 推荐 | 原因 |
|---|---|---|
| 推理成本敏感 | Compute-Optimal | 小模型 + 更多 tokens,推理时更快更省 |
| 推理成本不敏感 | Flops-Optimal | 大模型可能涌现更强能力(但证据不确定) |
| 边缘部署 | Compute-Optimal | 必须使用小模型,通过过训练弥补 |
| API 服务 | 过训练策略 | 小模型过训练后在推理成本上具有极大优势 |
| 微调场景 | 可能不同 | 取决于下游任务和部署约束 |
7.3 过训练策略的兴起
LLaMA 开创了一个重要的实践模式——过训练(Over-training):故意用远超 Chinchilla 最优的数据量来训练小模型。
过训练的经济学分析:
假设:训练成本 = 6ND FLOPs,推理成本 = 2N FLOPs/token
Chinchilla 最优 70B 模型:训练 1.4T tokens → 推理成本:2 × 70B = 140B FLOPs/token
过训练的 7B 模型:训练 7T tokens(1000x 比率) → 训练成本:6 × 7B × 7T = 294 × 10²¹ FLOPs → Chinchilla 最优 7B 的训练成本:6 × 7B × 140B = 5.88 × 10²¹ FLOPs → 额外训练成本:约 50x → 但推理成本:2 × 7B = 14B FLOPs/token(仅为 70B 的 1/10)
如果推理 10T tokens,过训练 7B 节省的推理成本远超额外的训练成本!八、超越 Chinchilla
8.1 后 Chinchilla 时代的探索
Chinchilla 之后,研究者开始探索更细粒度的训练策略:
- 更高数据质量:Tokens 质量 > 数量。Phi-1 用”教科书级”数据以远少于 Chinchilla 推荐的 tokens 达到 SOTA
- 课程学习:按难度顺序学习 tokens,从简单文本到复杂推理
- 数据混合:不同来源 tokens 的最优配比(网页、书籍、代码、学术论文等)
- 多轮训练与数据回收:对已有数据进行精细化筛选后重新训练
8.2 数据质量对 Scaling Law 的修正
2024 年的研究(Fineweb、Phi 系列等)表明:
高质量数据集可以用更少的 tokens 达到同等甚至更好的性能!
这意味着 Chinchilla 定律可能需要修正为:
其中 是一个小于 1 的系数,高质量数据可以降低所需的 tokens 总量。Phi-3 的实践表明, 可能低至 0.3-0.5。
8.3 Llama 3 的偏离:15T tokens 训练 70B 模型
2024 年 Meta 发布的 Llama 3 做出了一个引人注目的决策:用 15T tokens 训练 70B 模型,tokens/参数比达到 214x,远超 Chinchilla 的 20x 建议。
| 模型 | 参数量 | 训练 tokens | tokens/参数比 | Chinchilla 最优比 |
|---|---|---|---|---|
| Llama 3 8B | 8B | 15T | 1875x | 93.75x 过训练 |
| Llama 3 70B | 70B | 15T | 214x | 10.7x 过训练 |
Meta 为什么这样做?几个关键论据:
- 推理成本主导:Llama 3 模型被全球数百万开发者使用,推理成本远超训练成本。过训练使得 70B 模型的性能逼近甚至超过更大的模型
- 数据质量的提升:Llama 3 使用了更严格的数据清洗管道,使得更多 tokens 能带来有效提升
- 经验验证:Meta 的消融实验表明,在 15T 数据规模上,损失仍在稳步下降,没有出现明显的饱和
- “数据墙”的考量:Meta 可能认为高质量数据总量有限,与其训练更大的模型碰壁,不如充分利用现有数据
Llama 3 的启示:Chinchilla 定律给出的是 训练效率最优,但不是 综合成本最优。当推理成本占主导时,过训练是理性的选择。
8.4 Chinchilla 定律的适用边界
Chinchilla 定律并非万能,以下情况可能偏离其预测:
| 场景 | Chinchilla 是否适用 | 说明 |
|---|---|---|
| 标准预训练 | 适用 | 这是 Chinchilla 的核心实验场景 |
| 高质量筛选数据 | 需修正 | 数据质量因子 |
| 多模态训练 | 不确定 | 不同模态的缩放行为可能不同 |
| 蒸馏训练 | 不适用 | 从大模型蒸馏,缩放行为完全不同 |
| 推理成本优先部署 | 需调整 | 过训练是更经济的选择 |
| 数据受限(数据墙) | 需调整 | 无法获取足够唯一数据时,需要其他策略 |
九、Scaling Law 可视化
9.1 模型大小与数据的缩放关系
以下图表展示了 Kaplan 和 Chinchilla 两种缩放定律在固定算力下的不同预测:
固定算力 C = 10²⁴ FLOPs 下的最优分配:
Kaplan 预测: N_opt ≈ C^0.73 ≈ 88B 参数 D_opt ≈ C/(6 × 88B) ≈ 1.9T tokens D/N ≈ 21.6 (巧合地接近 20x,但 N 偏大)
Chinchilla 预测: N_opt ≈ C^0.50 ≈ 12B 参数 ← 注意!远小于 Kaplan D_opt ≈ C^0.50 ≈ 250B tokens D/N ≈ 20.0
实际 Gopher 的选择: N = 280B, D = 300B → 模型严重过大,数据严重不足9.2 损失 Landscape 等高线
损失函数 L(N, D) 的等高线示意(数值为相对损失):
D (tokens) ↑ 5T | 1.70 1.65 1.62 1.61 1.60 | 2T | 1.75 1.68 1.63 1.60 1.59 | 1T | 1.82 1.73 1.66 1.62 1.60 | 500B | 1.92 1.80 1.71 1.65 1.62 | 200B | 2.05 1.90 1.79 1.72 1.67 | +----------------------------------→ N (参数) 10B 30B 70B 175B 500B
星号位置为 Chinchilla 最优点 (70B, 1.4T) Gopher 位置 (280B, 300B) — 损失更高!十、总结
| 观点 | Kaplan (2020) | Chinchilla (2022) |
|---|---|---|
| 核心假设 | 模型越大越好 | N 和 D 应等比例缩放 |
| 最优关系 | N ∝ C^0.73 | N ∝ C^0.50, D ∝ C^0.50 |
| D/N 比值 | 不固定 | ≈ 20 |
| GPT-3 评估 | 训练充足 | 严重训练不足 |
| 推荐策略 | 堆参数 | 平衡参数和数据 |
Chinchilla 的核心贡献:
- 系统化了 scaling law,用三种独立方法交叉验证
- 证明了”训练 tokens 20x 规则”
- 启发了 LLaMA 等高效训练实践
- 证明了小模型 + 大数据可以击败大模型
- 假设数据质量均匀,忽略了数据质量的重要性
- 给出的是训练效率最优,不是综合部署成本最优
小结
Chinchilla 论文是 LLM 发展史上的一个关键转折点。在此之前,“大力出奇迹”意味着堆参数;在此之后,整个行业转向了”数据与参数平衡缩放”的范式。
一句话总结:在固定算力下,模型参数和训练数据应该等比例增长,最优 tokens 数约为参数量的 20 倍。
实践启示:
- 训练新模型时:首先确定可用算力 ,然后按 、 分配资源
- 部署模型时:过训练(远超 20x)的小模型通常比 Chinchilla 最优的大模型更具性价比
- 数据受限时:优先保证数据质量,而不是盲目堆量
- 选型参考:7B 过训练模型 ≈ 13B Chinchilla 最优模型 ≈ 30B 欠训练模型(粗略等价)
Chinchilla 的遗产:它不仅是 LLaMA 系列设计的理论基础,也催生了数据质量研究(Phi 系列)、过训练实践(Mistral)、以及数据工程(FineWeb)等一系列后续工作。即使到 2026 年,Chinchilla 定律仍然是任何 LLM 训练项目的起点。
常见问题 FAQ
10.1 Q1: Chinchilla 的 20x 规则是否意味着所有模型都应该严格遵循?
不是。20x 规则是 训练算力效率最优 的结论。在实践中,推理成本往往远超训练成本,因此”过训练”(用远超 20x 的数据训练小模型)是更经济的选择。LLaMA、Mistral 等模型都采用了过训练策略。
10.2 Q2: 如果我只有有限的高质量数据怎么办?
如果你的唯一数据量少于 Chinchilla 建议的 tokens 数,有几个选择:1)降低模型大小,使 20N 匹配你的数据量;2)通过数据增强、合成数据等方式扩充数据;3)多轮训练(但要警惕过拟合)。记住,Chinchilla 的前提是”在足够数据的情况下”。
10.3 Q3: Chinchilla 定律适用于微调吗?
不直接适用。Chinchilla 研究的是预训练阶段的缩放行为。微调通常只使用少量数据(几千到几万条),且微调的目标与预训练不同(对齐特定任务 vs 学习通用表示)。微调阶段的数据策略更多取决于任务特性和数据质量。
10.4 Q4: 为什么 Kaplan 的指数和 Chinchilla 差异这么大?
主要原因是 Kaplan 团队在实验中没有让所有模型训练到充分收敛。在早期停止的情况下,大模型的损失下降曲线看起来比实际更陡,导致拟合出的 偏小。Chinchilla 通过确保所有模型训练到收敛,得到了更准确的缩放指数。
10.5 Q5: Llama 3 用 15T tokens 训练 70B 模型,是否意味着 Chinchilla 定律已经过时?
不是。Chinchilla 定律回答的是”在固定算力下如何分配 N 和 D 最有效”。Llama 3 的做法是在 固定模型大小(70B)和 充足数据(15T)的前提下最大化性能。Meta 的目标是部署一个推理成本可控的模型,而不是追求训练效率最优。Chinchilla 的核心洞察——N 和 D 应等比例缩放——仍然是正确的。
10.6 Q6: 如何理解 Chinchilla 公式中的不可约损失 ?
代表数据的内在熵(irreducible loss),即无论模型多大、数据多少,损失都不可能低于这个值。它反映了自然语言的固有不确定性。Chinchilla 拟合得到 nats,这意味着即使拥有无限参数和无限数据,语言模型的 perplexity 也不会低于 。
10.7 Q7: Chinchilla 实验用的是 Transformer 架构,结论是否适用于其他架构?
Chinchilla 的缩放指数是在标准 Transformer 上拟合的。对于 MoE(如 Mixtral)、SSM(如 Mamba)等架构,缩放行为可能不同。但核心直觉——算力应平衡地分配给参数和数据——在大多数架构中应该成立,只是具体的指数和 20x 这个比例可能需要调整。
10.8 Q8: 数据质量到底能多大程度上替代数据数量?
目前的经验表明,数据质量可以显著减少所需的 tokens 数量。Phi-3 用约 3.3T tokens 训练 3.8B 模型(869x 比率),但性能媲美用更多数据训练的更大模型。然而,高质量数据本身是稀缺资源,且”质量”的定义因任务而异。数据质量和数量不是简单的替代关系,而是互补的。
参考资料
- Training Compute-Optimal Large Language Models (Hoffmann et al., 2022)
- Scaling Laws for Neural Language Models (Kaplan et al., 2020)
- LLaMA: Open and Efficient Foundation Language Models (Touvron et al., 2023)
- Llama 3 Model Card (Meta, 2024)
- Phi-3 Technical Report (Abdin et al., 2024)
支持与分享
如果这篇文章对你有帮助,欢迎支持作者或分享给更多人
部分信息可能已经过时






