缩放法则

SKAY-ling lawz

research intermediate

定义

缩放法则(Scaling Laws) 描述了模型性能与三个关键变量之间的经验关系:模型大小(参数)、数据集大小和计算预算。著名的洞察:性能随着这些因素的扩展而可预测地改进。

缩放时代(2020-2025)

从 GPT-3 到 GPT-4,主导策略很简单:让一切变得更大。

  • 更多参数
  • 更多训练数据
  • 更多计算

这非常有效,导致每一代都有戏剧性的能力提升。

收益递减的迹象

关键人物现在质疑缩放本身是否可以继续:

“Is the belief really that if you just 100x the scale everything would be transformed? I don’t think that’s true.” “真的相信只要将规模扩大 100 倍,一切都会被改变吗?我不这么认为。” — Ilya Sutskever

“There’s a lot of room between exponential and asymptotic.” “在指数和渐近之间有很大的空间。” — Demis Hassabis

新公式

Demis Hassabis 描述了 DeepMind 的方法:

“We operate on 50% scaling, 50% innovation. Both are required for AGI.” “我们以 50% 的缩放、50% 的创新运作。两者都是 AGI 所必需的。“

正在改变的事情

  1. 预训练数据是有限的 - 我们正在耗尽高质量的文本
  2. 回报不是指数级的 - 改进是渐进的,而不是革命性的
  3. 研究再次重要 - 突破需要创新,而不仅仅是资源

AI 的时代

Ilya Sutskever 的框架:

  • 2012-2020:研究时代(深度学习突破)
  • 2020-2025:缩放时代(越大越好)
  • 2025+:回归研究(需要新范式)

相关术语

Mentioned In

Video thumbnail

Ilya Sutskever

Is the belief really that if you just 100x the scale everything would be transformed? I don't think that's true.

Video thumbnail

Demis Hassabis

There's a lot of room between exponential and asymptotic. We operate on 50% scaling, 50% innovation.