Chinchilla
/tʃɪnˈtʃɪlə/
Also known as: Chinchilla scaling laws, compute-optimal training, Chinchilla optimal
什么是 Chinchilla?
Chinchilla 既指一个特定的语言模型,更重要的是指 DeepMind 于 2022 年 3 月发表的有影响力的缩放法则论文。论文”训练计算最优的大型语言模型”从根本上改变了 AI 行业对训练大型语言模型的思考方式。
关键发现
DeepMind 提出了一个问题:在固定的计算预算下,应该如何平衡模型大小与训练数据?
通过训练 400 多个模型(70M 到 16B 参数,5B 到 500B 标记),他们发现:
对于计算最优训练,模型大小和训练标记数量应该同等缩放。每次模型大小翻倍,训练标记的数量也应该翻倍。
令人震惊的含义:大多数现有的大语言模型都明显训练不足。行业一直在使模型更大,而保持训练数据相对恒定——这是一种次优的方法。
Chinchilla 与 Gopher
DeepMind 通过训练 Chinchilla 测试了他们的假设:
| 模型 | 参数 | 训练标记 | 计算 |
|---|---|---|---|
| Gopher | 280B | 300B | 相同 |
| Chinchilla | 70B | 1.3T | 相同 |
尽管 小 4 倍,Chinchilla 在几乎每个基准测试上都 优于 Gopher,因为它在 4 倍多的数据上进行了训练。
性能结果
Chinchilla 一致优于更大的模型:
- Gopher(280B 参数)
- GPT-3(175B 参数)
- Jurassic-1(178B 参数)
- Megatron-Turing NLG(530B 参数)
在 MMLU 上,Chinchilla 达到了 67.5% 的准确率——比 Gopher 提高了 7%。
为什么重要
对于训练:实验室意识到他们需要比 GPT-3 时代模型使用的数据多 11 倍。
对于推理:更小、训练更好的模型运行成本更低。Chinchilla 的 4 倍更小意味着推理成本降低 4 倍。
对于行业:将重点从”使模型更大”转向”在更多数据上训练模型更长时间。“
Chinchilla 税
在 Chinchilla 之后,不是计算最优的模型被称为支付”Chinchilla 税”——在额外参数上浪费计算,而不是额外的训练。
限制和更新
Chinchilla 缩放法则假设:
- 固定计算预算
- 单轮训练(每个标记看一次)
- 模型大小和数据之间的最佳平衡
后来的研究完善了这些发现:
- 推理最优模型可能受益于稍大一些(因为推理成本随部署而扩展)
- 多轮训练高质量数据可以优于低质量数据的单轮训练
- 数据质量与数量一样重要
遗产
Chinchilla 从根本上改变了大语言模型训练实践。像 LLaMA 这样的模型明确遵循 Chinchilla 最优比率。该论文仍然是现代 AI 研究中被引用和最有影响力的作品之一。