Škálovací zákony

SKAY-ling lawz

research intermediate

Definice

Škálovací zákony popisují empirický vztah mezi výkonem modelu a třemi klíčovými proměnnými: velikostí modelu (parametry), velikostí datasetu a výpočetním rozpočtem. Slavný poznatek: výkon se zlepšuje předvídatelně, jak škálujete tyto faktory.

Škálovací éra (2020-2025)

Od GPT-3 po GPT-4 byla dominantní strategie jednoduchá: dělat vše větší.

  • Více parametrů
  • Více trénovacích dat
  • Více výpočtů

To fungovalo pozoruhodně dobře, vedlo k dramatickým vylepšením schopností s každou generací.

Známky klesajících výnosů

Klíčové postavy nyní zpochybňují, zda samotné škálování může pokračovat:

“Is the belief really that if you just 100x the scale everything would be transformed? I don’t think that’s true.”

“Je skutečně víra, že pokud jen 100x škálujete, všechno by se transformovalo? Nemyslím si, že je to pravda.” — Ilya Sutskever

“There’s a lot of room between exponential and asymptotic.”

“Je hodně prostoru mezi exponenciálním a asymptotickým.” — Demis Hassabis

Nová formule

Demis Hassabis popisuje přístup DeepMind:

“We operate on 50% scaling, 50% innovation. Both are required for AGI.”

“Fungujeme na 50 % škálování, 50 % inovace. Obojí je potřeba pro AGI.”

Co se mění

  1. Předtrénovací data jsou konečná - docházejí nám vysoce kvalitní text
  2. Výnosy nejsou exponenciální - vylepšení jsou inkrementální, ne revoluční
  3. Výzkum znovu záleží - průlomy vyžadují inovaci, ne jen zdroje

Éry AI

Rámování Ilji Sutskever:

  • 2012-2020: Výzkumná éra (průlomy v hlubokém učení)
  • 2020-2025: Škálovací éra (větší je lepší)
  • 2025+: Návrat k výzkumu (potřeba nových paradigmat)

Související termíny

  • Pre-training - Fáze, kde škálování záleží nejvíce
  • Chinchilla - Paper, který optimalizoval škálovací poměry

Mentioned In

Video thumbnail

Ilya Sutskever

Is the belief really that if you just 100x the scale everything would be transformed? I don't think that's true.

Video thumbnail

Demis Hassabis

There's a lot of room between exponential and asymptotic. We operate on 50% scaling, 50% innovation.