Chinchilla

/tʃɪnˈtʃɪlə/

Also known as: Chinchilla scaling laws, compute-optimal training, Chinchilla optimal

research intermediate

什么是 Chinchilla？

Chinchilla 既指一个特定的语言模型，更重要的是指 DeepMind 于 2022 年 3 月发表的有影响力的缩放法则论文。论文”训练计算最优的大型语言模型”从根本上改变了 AI 行业对训练大型语言模型的思考方式。

DeepMind 提出了一个问题：在固定的计算预算下，应该如何平衡模型大小与训练数据？

通过训练 400 多个模型（70M 到 16B 参数，5B 到 500B 标记），他们发现：

对于计算最优训练，模型大小和训练标记数量应该同等缩放。每次模型大小翻倍，训练标记的数量也应该翻倍。

令人震惊的含义：大多数现有的大语言模型都明显训练不足。行业一直在使模型更大，而保持训练数据相对恒定——这是一种次优的方法。

DeepMind 通过训练 Chinchilla 测试了他们的假设：

模型	参数	训练标记	计算
Gopher	280B	300B	相同
Chinchilla	70B	1.3T	相同

尽管 小 4 倍，Chinchilla 在几乎每个基准测试上都 优于 Gopher，因为它在 4 倍多的数据上进行了训练。

Chinchilla 一致优于更大的模型：

在 MMLU 上，Chinchilla 达到了 67.5% 的准确率——比 Gopher 提高了 7%。

对于训练：实验室意识到他们需要比 GPT-3 时代模型使用的数据多 11 倍。

对于推理：更小、训练更好的模型运行成本更低。Chinchilla 的 4 倍更小意味着推理成本降低 4 倍。

对于行业：将重点从”使模型更大”转向”在更多数据上训练模型更长时间。“

在 Chinchilla 之后，不是计算最优的模型被称为支付”Chinchilla 税”——在额外参数上浪费计算，而不是额外的训练。

Chinchilla 缩放法则假设：

后来的研究完善了这些发现：

Chinchilla 从根本上改变了大语言模型训练实践。像 LLaMA 这样的模型明确遵循 Chinchilla 最优比率。该论文仍然是现代 AI 研究中被引用和最有影响力的作品之一。