Škálovací zákony
SKAY-ling lawz
Definice
Škálovací zákony popisují empirický vztah mezi výkonem modelu a třemi klíčovými proměnnými: velikostí modelu (parametry), velikostí datasetu a výpočetním rozpočtem. Slavný poznatek: výkon se zlepšuje předvídatelně, jak škálujete tyto faktory.
Škálovací éra (2020-2025)
Od GPT-3 po GPT-4 byla dominantní strategie jednoduchá: dělat vše větší.
- Více parametrů
- Více trénovacích dat
- Více výpočtů
To fungovalo pozoruhodně dobře, vedlo k dramatickým vylepšením schopností s každou generací.
Známky klesajících výnosů
Klíčové postavy nyní zpochybňují, zda samotné škálování může pokračovat:
“Is the belief really that if you just 100x the scale everything would be transformed? I don’t think that’s true.”
“Je skutečně víra, že pokud jen 100x škálujete, všechno by se transformovalo? Nemyslím si, že je to pravda.” — Ilya Sutskever
“There’s a lot of room between exponential and asymptotic.”
“Je hodně prostoru mezi exponenciálním a asymptotickým.” — Demis Hassabis
Nová formule
Demis Hassabis popisuje přístup DeepMind:
“We operate on 50% scaling, 50% innovation. Both are required for AGI.”
“Fungujeme na 50 % škálování, 50 % inovace. Obojí je potřeba pro AGI.”
Co se mění
- Předtrénovací data jsou konečná - docházejí nám vysoce kvalitní text
- Výnosy nejsou exponenciální - vylepšení jsou inkrementální, ne revoluční
- Výzkum znovu záleží - průlomy vyžadují inovaci, ne jen zdroje
Éry AI
Rámování Ilji Sutskever:
- 2012-2020: Výzkumná éra (průlomy v hlubokém učení)
- 2020-2025: Škálovací éra (větší je lepší)
- 2025+: Návrat k výzkumu (potřeba nových paradigmat)
Související termíny
- Pre-training - Fáze, kde škálování záleží nejvíce
- Chinchilla - Paper, který optimalizoval škálovací poměry