スケーリング法則
SKAY-ling lawz
定義
スケーリング法則は、モデルのパフォーマンスと3つの主要変数:モデルサイズ(パラメータ)、データセットサイズ、計算予算の間の経験的関係を記述します。有名な洞察:これらの要素をスケールすると、パフォーマンスは予測可能に向上します。
スケーリングの時代(2020-2025)
GPT-3からGPT-4まで、支配的な戦略はシンプルでした:すべてをより大きくする。
- より多くのパラメータ
- より多くのトレーニングデータ
- より多くの計算量
これは非常にうまく機能し、各世代で劇的な能力向上をもたらしました。
収穫逓減の兆候
主要人物は現在、スケーリングだけで継続できるかどうかを疑問視しています:
“Is the belief really that if you just 100x the scale everything would be transformed? I don’t think that’s true.” — Ilya Sutskever
「スケールを100倍にすればすべてが変わるという信念は本当ですか?私はそうは思いません。」 — Ilya Sutskever
“There’s a lot of room between exponential and asymptotic.” — Demis Hassabis
「指数関数的と漸近的の間には多くの余地があります。」 — Demis Hassabis
新しい公式
Demis HassabisはDeepMindのアプローチを説明します:
“We operate on 50% scaling, 50% innovation. Both are required for AGI.”
「私たちは50%のスケーリング、50%のイノベーションで運営しています。両方がAGIに必要です。」
何が変わっているか
- 事前トレーニングデータは有限 - 高品質のテキストが不足しつつあります
- リターンは指数関数的ではない - 改善は革命的ではなく段階的です
- 研究が再び重要 - ブレークスルーにはリソースだけでなくイノベーションが必要です
AIの時代
Ilya Sutskeverのフレーミング:
- 2012-2020: 研究の時代(深層学習のブレークスルー)
- 2020-2025: スケーリングの時代(より大きいほど良い)
- 2025+: 研究への回帰(新しいパラダイムが必要)
関連用語
- 事前トレーニング - スケーリングが最も重要なフェーズ
- Chinchilla - スケーリング比率を最適化した論文