Leyes de Escalado

SKAY-ling lawz

research intermediate

Definición

Las leyes de escalado describen la relación empírica entre el rendimiento del modelo y tres variables clave: tamaño del modelo (parámetros), tamaño del conjunto de datos y presupuesto de cómputo. La intuición famosa: el rendimiento mejora predeciblemente al escalar estos factores.

La Era del Escalado (2020-2025)

De GPT-3 a GPT-4, la estrategia dominante fue simple: hacer todo más grande.

  • Más parámetros
  • Más datos de entrenamiento
  • Más cómputo

Esto funcionó notablemente bien, llevando a mejoras dramáticas de capacidad con cada generación.

Señales de Retornos Decrecientes

Figuras clave ahora cuestionan si el escalado solo puede continuar:

“Is the belief really that if you just 100x the scale everything would be transformed? I don’t think that’s true.” “¿Es realmente la creencia que si simplemente escalas 100x todo se transformaría? No creo que eso sea cierto.” — Ilya Sutskever

“There’s a lot of room between exponential and asymptotic.” “Hay mucho espacio entre exponencial y asintótico.” — Demis Hassabis

La Nueva Fórmula

Demis Hassabis describe el enfoque de DeepMind:

“We operate on 50% scaling, 50% innovation. Both are required for AGI.” “Operamos en 50% escalado, 50% innovación. Ambos son requeridos para AGI.”

Lo Que Está Cambiando

  1. Los datos de pre-entrenamiento son finitos - nos estamos quedando sin texto de alta calidad
  2. Los retornos no son exponenciales - las mejoras son incrementales, no revolucionarias
  3. La investigación importa de nuevo - los avances requieren innovación, no solo recursos

Las Eras de IA

El marco de Ilya Sutskever:

  • 2012-2020: Era de investigación (avances en aprendizaje profundo)
  • 2020-2025: Era de escalado (más grande es mejor)
  • 2025+: Regreso a la investigación (se necesitan nuevos paradigmas)

Términos Relacionados

Mentioned In

Video thumbnail

Ilya Sutskever

Is the belief really that if you just 100x the scale everything would be transformed? I don't think that's true.

Video thumbnail

Demis Hassabis

There's a lot of room between exponential and asymptotic. We operate on 50% scaling, 50% innovation.