666 字
2 分钟
LLaMA 与开源大模型革命:Meta 的开放之路
2023 年 2 月,Meta 发布了 LLaMA。
这不是最大的模型,也不是最强的模型,但它做了一件改变行业格局的事:开源。
LLaMA 的发布,让任何人都能够在自己的硬件上运行一个高质量的大语言模型。这引发了开源大模型的热潮,催生了 Alpaca、Vicuna、Llama 2 等无数衍生项目。
LLaMA 开启了开源大模型时代。
本文要点
- LLaMA 论文核心贡献
- 模型规格与训练数据
- Chinchilla Scaling Law 验证
- 性能与效率分析
- LLaMA 2 开源协议
- 开源生态的影响
一、LLaMA 论文核心
1.1 论文信息
论文:LLaMA: Open and Efficient Foundation Language Models作者:Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, ... (Meta AI)机构:Meta AI发表:2023 年 2 月引用:10000+ 次1.2 核心主张
flowchart TB
subgraph LLaMA核心观点
A[主张]
A --> A1[更小的模型,更多的数据,可以达到更好的效果]
B[依据]
B --> B1[Chinchilla Scaling Law 建议训练更多 token]
B --> B2[在给定算力预算下,小模型 + 多数据更高效]
C[结果]
C --> C1[LLaMA-13B 在多数任务上超越 GPT-3 (175B)]
C --> C2[LLaMA-65B 接近 PaLM-540B 的水平]
C --> C3[证明「小模型 + 多数据」的可行性]
D[开源意义]
D --> D1[打破了大模型的垄断]
D --> D2[让研究者和开发者可以本地部署]
D --> D3[催生了整个开源 LLM 生态]
end
二、模型规格与训练数据
2.1 模型系列
| 模型 | 参数量 | 层数 | 隐藏维度 ||-----------|-------------|-------------|-----------------|| LLaMA-7B | 7B | 32 | 4096 || LLaMA-13B | 13B | 40 | 5120 || LLaMA-33B | 33B | 60 | 6656 || LLaMA-65B | 65B | 80 | 8192 |2.2 训练数据
pie title LLaMA 训练数据来源
"CommonCrawl" : 67
"C4" : 15
"GitHub" : 5
"Wikipedia" : 4.5
"Books" : 4.5
"ArXiv" : 2.5
"StackExchange" : 2
flowchart TB
subgraph LLaMA训练数据详情
A[总训练数据]
A --> A1[1.4T tokens(1.4 万亿)]
B[数据来源]
B --> B1[CommonCrawl(67%):网页数据,过滤后使用]
B --> B2[C4(15%):清洗过的网页数据]
B --> B3[GitHub(5%):开源代码]
B --> B4[Wikipedia(4.5%):百科全书]
B --> B5[Books(4.5%):古登堡计划、Books3]
B --> B6[ArXiv(2.5%):学术论文]
B --> B7[StackExchange(2%):问答社区]
C[关键特点]
C --> C1[全部使用公开数据]
C --> C2[可复现、可验证]
C --> C3[数据质量是重点]
end
2.3 架构特点
flowchart TB
subgraph LLaMA架构设计
A[Pre-normalization]
A --> A1[RMSNorm 而非 LayerNorm]
A --> A2[在每个子层之前归一化]
B[SwiGLU 激活函数]
B --> B1[替代 ReLU]
B --> B2[性能提升]
C[Rotary Embeddings (RoPE)]
C --> C1[旋转位置编码]
C --> C2[更好的长度外推能力]
D[高效实现]
D --> D1[xformers 库]
D --> D2[causal multi-head attention 优化]
E[训练效率]
E --> E1[LLaMA-65B:2048 A100 GPU × 21 天]
E --> E2[总算力:约 630,000 GPU 小时]
end
三、Chinchilla Scaling Law 验证
3.1 Scaling Law 回顾
Chinchilla 论文(Hoffmann et al., 2022)的核心发现:
对于给定算力预算 C,最优的模型大小 N 和训练数据 D:
N_opt ∝ C^0.5D_opt ∝ C^0.5
即:模型大小和训练数据应该等比例增长
关键结论:• 大多数模型「欠训练」• 应该用更多数据训练更小的模型3.2 LLaMA 的验证
xychart-beta
title "不同模型在 MMLU 上的表现"
x-axis ["LLaMA-7B", "GPT-3", "LLaMA-13B", "LLaMA-65B", "PaLM-540B"]
y-axis "准确率 %" 0 --> 70
bar [35, 44, 47, 64, 69]
flowchart TB
subgraph LLaMA验证Scaling Law
A[训练数据量对比]
A --> A1[GPT-3 (175B):300B tokens]
A --> A2[Chinchilla (70B):1.4T tokens]
A --> A3[LLaMA-65B:1.4T tokens]
B[性能对比]
B --> B1[LLaMA-13B > GPT-3 (175B) 在多数任务]
B --> B2[LLaMA-65B ≈ PaLM-540B]
C[验证结论]
C --> C1[Chinchilla Scaling Law 有效]
C --> C2[更多数据训练小模型更高效]
C --> C3[推理成本显著降低]
D[推理效率]
D --> D1[LLaMA-13B:单张消费级 GPU 可运行]
D --> D2[GPT-3 175B:需要多卡推理]
end
四、性能与效率分析
4.1 基准测试结果
| 任务 | LLaMA-13B | GPT-3 175B | LLaMA-65B ||---------------|-------------|-------------|------------------|| MMLU | 46.9% | 43.9% | 63.4% || HellaSwag | 79.2% | 78.9% | 86.2% || PIQA | 79.8% | 81.0% | 82.8% || WinoGrande | 70.1% | 70.2% | 77.0% || ARC-C | 51.9% | 51.4% | 60.3% || TruthfulQA | 34.0% | 33.2% | 38.8% |4.2 推理效率对比
flowchart TB
subgraph 大模型方案
A1["GPT-3 175B"] --> B1["推理成本高"]
B1 --> C1["需要多卡"]
C1 --> D1["部署门槛高"]
end
subgraph LLaMA 方案
A2["LLaMA-13B"] --> B2["推理成本低"]
B2 --> C2["单卡可运行"]
C2 --> D2["广泛可用"]
end
style D2 fill:#4caf50,color:#fff
| 模型 | 参数量 | GPU 需求 | 推理延迟 ||---------------|-------------|-------------|------------------|| GPT-3 | 175B | 8+ A100 | 高 || LLaMA-7B | 7B | 1 A100/消费级| 低 || LLaMA-13B | 13B | 1 A100 | 中 || LLaMA-65B | 65B | 4 A100 | 较高 |
关键洞察:• LLaMA-7B 可在消费级 GPU 上运行• LLaMA-13B 单张 A100 即可• 推理成本降低 10-100 倍五、LLaMA 2 开源协议
5.1 LLaMA vs LLaMA 2
| 维度 | LLaMA | LLaMA 2 ||---------------|------------------|--------------------------|| 发布时间 | 2023.2 | 2023.7 || 模型规格 | 7B-65B | 7B-70B || 训练数据 | 1.4T tokens | 2T tokens || 上下文长度 | 2048 | 4096 || 对齐训练 | 无 | RLHF + 拒绝采样 || 开源协议 | 研究许可 | 商业可用许可 || 商业使用 | 需申请 | 允许(有限制) |5.2 LLaMA 2 许可证
flowchart TB
subgraph LLaMA 2社区许可
A[允许]
A --> A1[商业使用]
A --> A2[修改和分发]
A --> A3[创建衍生作品]
B[限制]
B --> B1[月活用户超过 7 亿需单独授权]
B --> B2[使用 LLaMA 2 训练其他大模型需标注来源]
C[意义]
C --> C1[首个真正商业可用的开源大模型]
C --> C2[企业可以在产品中使用]
C --> C3[推动了开源生态的商业化]
end
5.3 LLaMA 2 训练改进
# LLaMA 2 的训练改进
# 1. 更多的训练数据# LLaMA: 1.4T tokens# LLaMA 2: 2T tokens (增加 40%)
# 2. RLHF 对齐def llava2_training(): # 阶段 1: 监督微调 sft_model = supervised_finetuning(base_model, sft_data)
# 阶段 2: 拒绝采样 rejected_samples = rejection_sampling(sft_model, reward_model)
# 阶段 3: RLHF final_model = rlhf_training(sft_model, reward_model)
return final_model
# 3. Grouped-Query Attention (GQA)# 提高推理效率,减少内存占用六、开源生态的影响
6.1 衍生项目
flowchart TB
A[LLaMA] --> B[Alpaca]
A --> C[Vicuna]
A --> D[LLaMA-Adapter]
A --> E[Koala]
A --> F[OpenAssistant]
B --> G[Stanford]
C --> H[LMSYS]
D --> I[上海AI Lab]
E --> J[UC Berkeley]
F --> K[LAION]
L[LLaMA 2] --> M[Code Llama]
L --> N[Llama 2 Chat]
L --> O[各种微调版本]
flowchart TB
subgraph 主要衍生项目
A[Alpaca(Stanford)]
A --> A1[使用 52K 自指令数据微调 LLaMA-7B]
A --> A2[成本约 $600]
A --> A3[证明了低成本微调的可行性]
B[Vicuna(LMSYS)]
B --> B1[使用 ShareGPT 对话数据微调]
B --> B2[达到 ChatGPT 90% 质量]
B --> B3[开放训练代码和数据]
C[Code Llama(Meta)]
C --> C1[代码专用的 LLaMA 变体]
C --> C2[支持长达 16K 上下文]
C --> C3[在代码任务上超越 GPT-3.5]
D[其他重要项目]
D --> D1[LLaMA-Adapter:高效微调方法]
D --> D2[OpenAssistant:开源助手数据集]
D --> D3[FastChat:LLM 训练和推理平台]
end
6.2 对行业的影响
flowchart TB
subgraph LLaMA对行业的影响
A[研究层面]
A --> A1[任何研究者都可以本地实验]
A --> A2[加速了 LLM 研究进展]
A --> A3[降低研究门槛]
B[开发层面]
B --> B1[企业可以本地部署 LLM]
B --> B2[数据隐私得到保障]
B --> B3[降低 API 依赖]
C[商业层面]
C --> C1[催生了 LLM 应用生态]
C --> C2[本地化部署服务兴起]
C --> C3[垂直领域微调成为趋势]
D[社区层面]
D --> D1[Hugging Face 模型库爆发]
D --> D2[开源协作成为常态]
D --> D3[知识共享加速创新]
end
七、LLaMA 3 与未来
7.1 LLaMA 3 改进
flowchart TB
subgraph LLaMA 3特点
A[模型规格]
A --> A1[LLaMA 3 8B]
A --> A2[LLaMA 3 70B]
A --> A3[LLaMA 3 405B(最大规模)]
B[改进点]
B --> B1[训练数据:15T+ tokens]
B --> B2[上下文长度:8K(可扩展)]
B --> B3[词汇表:128K tokens]
B --> B4[Grouped Query Attention]
C[性能]
C --> C1[LLaMA 3 70B 接近 GPT-4 级别]
C --> C2[代码能力大幅提升]
C --> C3[多语言能力增强]
end
7.2 开源大模型趋势
flowchart LR
A[LLaMA] --> B[更多开源模型]
B --> C[Mistral]
B --> D[Qwen]
B --> E[DeepSeek]
B --> F[Yi]
G[趋势] --> H[性能持续提升]
G --> I[许可证更开放]
G --> J[社区生态繁荣]
常见问题 FAQ
Q1:LLaMA 可以商用吗?
A:LLaMA 1 是研究许可,需申请。LLaMA 2 提供商业许可,但有月活用户限制(7亿)。大多数企业可以使用。
Q2:LLaMA-7B 需要什么硬件?
A:推理:约 14GB 显存(FP16)或 5GB(INT4 量化)。消费级显卡如 RTX 3060 (12GB) 配合量化可以运行。
Q3:LLaMA 和 GPT-4 差距有多大?
A:LLaMA-65B 在大多数任务上接近 GPT-3.5,但与 GPT-4 仍有差距。LLaMA 3 70B 已接近 GPT-4 水平。
Q4:为什么 LLaMA 没有使用 RLHF?
A:LLaMA 1 是预训练模型,没有对齐训练。LLaMA 2 加入了 RLHF 和拒绝采样,有了聊天版本。
Q5:如何开始使用 LLaMA?
A:从 Hugging Face 下载模型,使用 transformers 库或 llama.cpp 等推理框架。建议从 LLaMA-7B 开始实验。
小结
LLaMA 证明了开源大模型的可行性,改变了 AI 行业的格局。
核心贡献:
flowchart TB
subgraph LLaMA核心总结
A[Scaling Law] --> A1[更多数据训练小模型更高效]
B[高效推理] --> B1[LLaMA-13B 单卡可运行]
C[开源贡献] --> C1[打破大模型垄断]
D[生态效应] --> D1[催生无数衍生项目]
E[商业可用] --> E1[LLaMA 2 提供商业许可]
end
LLaMA 让大模型从「云端服务」变成「本地能力」。
参考资料
- LLaMA: Open and Efficient Foundation Language Models - Touvron et al. 2023
- LLaMA 2: Open Foundation and Fine-Tuned Chat Models - Touvron et al. 2023
- Training Compute-Optimal Large Language Models - Hoffmann et al. 2022
- Alpaca: A Strong, Replicable Instruction-Following Model - Stanford CRFM
- Vicuna: An Open-Source Chatbot Impressing GPT-4 - LMSYS
支持与分享
如果这篇文章对你有帮助,欢迎支持作者或分享给更多人
LLaMA 与开源大模型革命:Meta 的开放之路
https://blog.souloss.com/posts/machine-learning/llm-paper-history/llama-and-open-source-ecosystem/ 部分信息可能已经过时
相关文章 智能推荐
1
LLaMA 2:Meta 开源模型的里程碑
AI 深度解读 Meta LLaMA 2 论文(2023)——开源大模型、RLHF、ChatGPT 竞争对手
2
PaLM 与 Scaling Law:大模型时代的开启
AI 深度解读 Google PaLM 论文(2022)——540B 参数、Pathways 系统、Scaling Law 验证、涌现能力发现,以及大模型时代的开启。
3
Mistral 7B:小而美的开源模型
AI 深度解读 Mistral 7B 论文(2023)——滑动窗口注意力、GQA、Rolling Buffer Cache 等架构创新,Mixtral 8x7B MoE 架构,以及 Mistral 从开源到商业的发展路径。
4
Qwen/InternLM:中国开源大模型
AI 深度解读 Qwen 和 InternLM 系列——中国大模型厂商的重要开源贡献
5
Mixtral 与稀疏专家混合:Mistral AI 的开源之路
AI 深度解读 Mixtral 8x7B 论文(2023)——稀疏专家混合架构、Sliding Window Attention、每 token 仅激活部分参数,开源模型超越 GPT-3.5。






