Chinchilla

/tʃɪnˈtʃɪlə/

Also known as: Chinchilla scaling laws, compute-optimal training, Chinchilla optimal

research intermediate

什么是 Chinchilla?

Chinchilla 既指一个特定的语言模型,更重要的是指 DeepMind 于 2022 年 3 月发表的有影响力的缩放法则论文。论文”训练计算最优的大型语言模型”从根本上改变了 AI 行业对训练大型语言模型的思考方式。

关键发现

DeepMind 提出了一个问题:在固定的计算预算下,应该如何平衡模型大小与训练数据?

通过训练 400 多个模型(70M 到 16B 参数,5B 到 500B 标记),他们发现:

对于计算最优训练,模型大小和训练标记数量应该同等缩放。每次模型大小翻倍,训练标记的数量也应该翻倍。

令人震惊的含义:大多数现有的大语言模型都明显训练不足。行业一直在使模型更大,而保持训练数据相对恒定——这是一种次优的方法。

Chinchilla 与 Gopher

DeepMind 通过训练 Chinchilla 测试了他们的假设:

模型参数训练标记计算
Gopher280B300B相同
Chinchilla70B1.3T相同

尽管 小 4 倍,Chinchilla 在几乎每个基准测试上都 优于 Gopher,因为它在 4 倍多的数据上进行了训练。

性能结果

Chinchilla 一致优于更大的模型:

  • Gopher(280B 参数)
  • GPT-3(175B 参数)
  • Jurassic-1(178B 参数)
  • Megatron-Turing NLG(530B 参数)

在 MMLU 上,Chinchilla 达到了 67.5% 的准确率——比 Gopher 提高了 7%。

为什么重要

对于训练:实验室意识到他们需要比 GPT-3 时代模型使用的数据多 11 倍。

对于推理:更小、训练更好的模型运行成本更低。Chinchilla 的 4 倍更小意味着推理成本降低 4 倍。

对于行业:将重点从”使模型更大”转向”在更多数据上训练模型更长时间。“

Chinchilla 税

在 Chinchilla 之后,不是计算最优的模型被称为支付”Chinchilla 税”——在额外参数上浪费计算,而不是额外的训练。

限制和更新

Chinchilla 缩放法则假设:

  • 固定计算预算
  • 单轮训练(每个标记看一次)
  • 模型大小和数据之间的最佳平衡

后来的研究完善了这些发现:

  • 推理最优模型可能受益于稍大一些(因为推理成本随部署而扩展)
  • 多轮训练高质量数据可以优于低质量数据的单轮训练
  • 数据质量与数量一样重要

遗产

Chinchilla 从根本上改变了大语言模型训练实践。像 LLaMA 这样的模型明确遵循 Chinchilla 最优比率。该论文仍然是现代 AI 研究中被引用和最有影响力的作品之一。

相关阅读