Scaling Laws
SKAY-ling lawz
Définition
Les lois d’échelle (scaling laws) décrivent la relation empirique entre la performance du modèle et trois variables clés : la taille du modèle (paramètres), la taille du jeu de données et le budget de calcul. L’intuition célèbre : la performance s’améliore de manière prévisible lorsque vous augmentez ces facteurs.
L’ère de la mise à l’échelle (2020-2025)
De GPT-3 à GPT-4, la stratégie dominante était simple : rendre tout plus grand.
- Plus de paramètres
- Plus de données d’entraînement
- Plus de calcul
Cela a remarquablement bien fonctionné, conduisant à des améliorations spectaculaires des capacités à chaque génération.
Signes de rendements décroissants
Des figures clés remettent maintenant en question si la mise à l’échelle seule peut continuer :
“Is the belief really that if you just 100x the scale everything would be transformed? I don’t think that’s true.” — Ilya Sutskever
“La croyance est-elle vraiment que si vous multipliez simplement l’échelle par 100, tout serait transformé ? Je ne pense pas que ce soit vrai.”
“There’s a lot of room between exponential and asymptotic.” — Demis Hassabis
“Il y a beaucoup de place entre exponentiel et asymptotique.”
La nouvelle formule
Demis Hassabis décrit l’approche de DeepMind :
“We operate on 50% scaling, 50% innovation. Both are required for AGI.”
“Nous fonctionnons avec 50% de mise à l’échelle, 50% d’innovation. Les deux sont nécessaires pour l’AGI.”
Ce qui change
- Les données de pré-entraînement sont finies - nous manquons de texte de haute qualité
- Les retours ne sont pas exponentiels - les améliorations sont incrémentales, pas révolutionnaires
- La recherche compte à nouveau - les percées nécessitent de l’innovation, pas seulement des ressources
Les ères de l’IA
Le cadrage d’Ilya Sutskever :
- 2012-2020 : Ère de la recherche (percées en apprentissage profond)
- 2020-2025 : Ère de la mise à l’échelle (plus grand c’est mieux)
- 2025+ : Retour à la recherche (nouveaux paradigmes nécessaires)
Termes connexes
- Pre-training - La phase où la mise à l’échelle compte le plus
- Chinchilla - L’article qui a optimisé les ratios de mise à l’échelle