Chinchilla

/tʃɪnˈtʃɪlə/

Also known as: Chinchilla scaling laws, compute-optimal training, Chinchilla optimal

research intermediate

¿Qué es Chinchilla?

Chinchilla se refiere tanto a un modelo de lenguaje específico como, más importante, al influyente artículo sobre leyes de escalado de DeepMind publicado en marzo de 2022. El artículo “Training Compute-Optimal Large Language Models” cambió fundamentalmente cómo la industria de IA piensa sobre el entrenamiento de modelos de lenguaje grandes.

El Descubrimiento Clave

DeepMind preguntó: Dado un presupuesto de cómputo fijo, ¿cómo deberías equilibrar el tamaño del modelo versus los datos de entrenamiento?

Al entrenar más de 400 modelos (de 70M a 16B de parámetros, en 5B a 500B de tokens), descubrieron:

“For compute-optimal training, model size and number of training tokens should be scaled equally. For every doubling of model size, the number of training tokens should also double.” “Para entrenamiento óptimo de cómputo, el tamaño del modelo y el número de tokens de entrenamiento deberían escalarse igualmente. Por cada duplicación del tamaño del modelo, el número de tokens de entrenamiento también debería duplicarse.”

La implicación impactante: La mayoría de los LLMs existentes estaban significativamente subentrenados. La industria había estado haciendo modelos más grandes mientras mantenía los datos de entrenamiento relativamente constantes—un enfoque subóptimo.

Chinchilla vs. Gopher

DeepMind probó su hipótesis entrenando Chinchilla:

ModeloParámetrosTokens de EntrenamientoCómputo
Gopher280B300BMismo
Chinchilla70B1.3TMismo

A pesar de ser 4x más pequeño, Chinchilla superó a Gopher en casi todos los benchmarks porque fue entrenado en 4x más datos.

Resultados de Rendimiento

Chinchilla superó uniformemente a modelos mucho más grandes:

  • Gopher (280B parámetros)
  • GPT-3 (175B parámetros)
  • Jurassic-1 (178B parámetros)
  • Megatron-Turing NLG (530B parámetros)

En MMLU, Chinchilla alcanzó 67.5% de precisión—una mejora del 7% sobre Gopher.

Por Qué Importó

Para entrenamiento: Los laboratorios se dieron cuenta de que necesitaban 11x más datos que los modelos de la era GPT-3 usaban.

Para inferencia: Modelos más pequeños y mejor entrenados son más baratos de ejecutar. El tamaño 4x más pequeño de Chinchilla significa costos de inferencia 4x menores.

Para la industria: Cambió el enfoque de “hacer modelos más grandes” a “entrenar modelos más tiempo en más datos.”

El Impuesto Chinchilla

Post-Chinchilla, se dice que los modelos que no son óptimos de cómputo están pagando el “impuesto Chinchilla”—desperdiciando cómputo en parámetros extra en lugar de entrenamiento adicional.

Limitaciones y Actualizaciones

Las leyes de escalado Chinchilla asumen:

  • Presupuesto de cómputo fijo
  • Entrenamiento de época única (cada token visto una vez)
  • Equilibrio óptimo entre tamaño de modelo y datos

Investigaciones posteriores han refinado estos hallazgos:

  • Los modelos óptimos para inferencia pueden beneficiarse de ser ligeramente más grandes (ya que los costos de inferencia escalan con el despliegue)
  • El entrenamiento multi-época en datos de alta calidad puede superar la época única en datos de menor calidad
  • La calidad de los datos importa tanto como la cantidad

Legado

Chinchilla cambió fundamentalmente las prácticas de entrenamiento de LLM. Modelos como LLaMA siguieron explícitamente las proporciones óptimas de Chinchilla. El artículo permanece como uno de los trabajos más citados e influyentes en la investigación moderna de IA.

Lecturas Relacionadas