スケーリング法則

SKAY-ling lawz

research intermediate

定義

スケーリング法則は、モデルのパフォーマンスと3つの主要変数:モデルサイズ(パラメータ)、データセットサイズ、計算予算の間の経験的関係を記述します。有名な洞察:これらの要素をスケールすると、パフォーマンスは予測可能に向上します。

スケーリングの時代(2020-2025)

GPT-3からGPT-4まで、支配的な戦略はシンプルでした:すべてをより大きくする。

  • より多くのパラメータ
  • より多くのトレーニングデータ
  • より多くの計算量

これは非常にうまく機能し、各世代で劇的な能力向上をもたらしました。

収穫逓減の兆候

主要人物は現在、スケーリングだけで継続できるかどうかを疑問視しています:

“Is the belief really that if you just 100x the scale everything would be transformed? I don’t think that’s true.” — Ilya Sutskever

「スケールを100倍にすればすべてが変わるという信念は本当ですか?私はそうは思いません。」 — Ilya Sutskever

“There’s a lot of room between exponential and asymptotic.” — Demis Hassabis

「指数関数的と漸近的の間には多くの余地があります。」 — Demis Hassabis

新しい公式

Demis HassabisはDeepMindのアプローチを説明します:

“We operate on 50% scaling, 50% innovation. Both are required for AGI.”

「私たちは50%のスケーリング、50%のイノベーションで運営しています。両方がAGIに必要です。」

何が変わっているか

  1. 事前トレーニングデータは有限 - 高品質のテキストが不足しつつあります
  2. リターンは指数関数的ではない - 改善は革命的ではなく段階的です
  3. 研究が再び重要 - ブレークスルーにはリソースだけでなくイノベーションが必要です

AIの時代

Ilya Sutskeverのフレーミング:

  • 2012-2020: 研究の時代(深層学習のブレークスルー)
  • 2020-2025: スケーリングの時代(より大きいほど良い)
  • 2025+: 研究への回帰(新しいパラダイムが必要)

関連用語

Mentioned In

Video thumbnail

Ilya Sutskever

Is the belief really that if you just 100x the scale everything would be transformed? I don't think that's true.

Video thumbnail

Demis Hassabis

There's a lot of room between exponential and asymptotic. We operate on 50% scaling, 50% innovation.