Chinchilla

/tʃɪnˈtʃɪlə/

Also known as: Chinchilla scaling laws, compute-optimal training, Chinchilla optimal

research intermediate

Qu’est-ce que Chinchilla ?

Chinchilla fait référence à la fois à un modèle de langage spécifique et, plus important encore, à l’article influent sur les lois d’échelle de DeepMind publié en mars 2022. L’article “Training Compute-Optimal Large Language Models” a fondamentalement changé la façon dont l’industrie de l’IA pense à l’entraînement des grands modèles de langage.

La découverte clé

DeepMind a posé la question : Avec un budget de calcul fixe, comment devriez-vous équilibrer la taille du modèle par rapport aux données d’entraînement ?

En entraînant plus de 400 modèles (70M à 16B paramètres, sur 5B à 500B tokens), ils ont découvert :

Pour un entraînement optimal en calcul, la taille du modèle et le nombre de tokens d’entraînement devraient évoluer de manière égale. Pour chaque doublement de la taille du modèle, le nombre de tokens d’entraînement devrait également doubler.

L’implication choquante : La plupart des LLM existants étaient significativement sous-entraînés. L’industrie avait fait des modèles plus grands tout en gardant les données d’entraînement relativement constantes—une approche sous-optimale.

Chinchilla vs. Gopher

DeepMind a testé leur hypothèse en entraînant Chinchilla :

ModèleParamètresTokens d’entraînementCalcul
Gopher280B300BIdentique
Chinchilla70B1,3TIdentique

Malgré être 4x plus petit, Chinchilla a surpassé Gopher sur presque tous les benchmarks car il a été entraîné sur 4x plus de données.

Résultats de performance

Chinchilla a uniformément surpassé des modèles beaucoup plus grands :

  • Gopher (280B paramètres)
  • GPT-3 (175B paramètres)
  • Jurassic-1 (178B paramètres)
  • Megatron-Turing NLG (530B paramètres)

Sur MMLU, Chinchilla a atteint 67,5% de précision—une amélioration de 7% par rapport à Gopher.

Pourquoi c’était important

Pour l’entraînement : Les laboratoires ont réalisé qu’ils avaient besoin de 11x plus de données que les modèles de l’ère GPT-3 utilisaient.

Pour l’inférence : Des modèles plus petits et mieux entraînés sont moins chers à exécuter. La taille 4x plus petite de Chinchilla signifie des coûts d’inférence 4x plus bas.

Pour l’industrie : A déplacé l’accent de “rendre les modèles plus grands” vers “entraîner les modèles plus longtemps sur plus de données.”

La taxe Chinchilla

Post-Chinchilla, les modèles qui ne sont pas optimaux en calcul sont dits payer la “taxe Chinchilla”—gaspillant du calcul sur des paramètres supplémentaires au lieu d’entraînement additionnel.

Limitations et mises à jour

Les lois d’échelle Chinchilla supposent :

  • Budget de calcul fixe
  • Entraînement en une seule époque (chaque token vu une fois)
  • Équilibre optimal entre taille du modèle et données

Des recherches ultérieures ont affiné ces résultats :

  • Les modèles optimaux pour l’inférence peuvent bénéficier d’être légèrement plus grands (puisque les coûts d’inférence évoluent avec le déploiement)
  • L’entraînement multi-époques sur des données de haute qualité peut surpasser l’époque unique sur des données de qualité inférieure
  • La qualité des données compte autant que la quantité

Héritage

Chinchilla a fondamentalement changé les pratiques d’entraînement des LLM. Des modèles comme LLaMA ont explicitement suivi les ratios optimaux de Chinchilla. L’article reste l’un des travaux les plus cités et influents dans la recherche moderne en IA.

Lectures connexes