缩放法则
SKAY-ling lawz
research intermediate
定义
缩放法则(Scaling Laws) 描述了模型性能与三个关键变量之间的经验关系:模型大小(参数)、数据集大小和计算预算。著名的洞察:性能随着这些因素的扩展而可预测地改进。
缩放时代(2020-2025)
从 GPT-3 到 GPT-4,主导策略很简单:让一切变得更大。
- 更多参数
- 更多训练数据
- 更多计算
这非常有效,导致每一代都有戏剧性的能力提升。
收益递减的迹象
关键人物现在质疑缩放本身是否可以继续:
“Is the belief really that if you just 100x the scale everything would be transformed? I don’t think that’s true.” “真的相信只要将规模扩大 100 倍,一切都会被改变吗?我不这么认为。” — Ilya Sutskever
“There’s a lot of room between exponential and asymptotic.” “在指数和渐近之间有很大的空间。” — Demis Hassabis
新公式
Demis Hassabis 描述了 DeepMind 的方法:
“We operate on 50% scaling, 50% innovation. Both are required for AGI.” “我们以 50% 的缩放、50% 的创新运作。两者都是 AGI 所必需的。“
正在改变的事情
- 预训练数据是有限的 - 我们正在耗尽高质量的文本
- 回报不是指数级的 - 改进是渐进的,而不是革命性的
- 研究再次重要 - 突破需要创新,而不仅仅是资源
AI 的时代
Ilya Sutskever 的框架:
- 2012-2020:研究时代(深度学习突破)
- 2020-2025:缩放时代(越大越好)
- 2025+:回归研究(需要新范式)
相关术语
- 预训练 - 缩放最重要的阶段
- Chinchilla - 优化缩放比率的论文