Leyes de Escalado
SKAY-ling lawz
Definición
Las leyes de escalado describen la relación empírica entre el rendimiento del modelo y tres variables clave: tamaño del modelo (parámetros), tamaño del conjunto de datos y presupuesto de cómputo. La intuición famosa: el rendimiento mejora predeciblemente al escalar estos factores.
La Era del Escalado (2020-2025)
De GPT-3 a GPT-4, la estrategia dominante fue simple: hacer todo más grande.
- Más parámetros
- Más datos de entrenamiento
- Más cómputo
Esto funcionó notablemente bien, llevando a mejoras dramáticas de capacidad con cada generación.
Señales de Retornos Decrecientes
Figuras clave ahora cuestionan si el escalado solo puede continuar:
“Is the belief really that if you just 100x the scale everything would be transformed? I don’t think that’s true.” “¿Es realmente la creencia que si simplemente escalas 100x todo se transformaría? No creo que eso sea cierto.” — Ilya Sutskever
“There’s a lot of room between exponential and asymptotic.” “Hay mucho espacio entre exponencial y asintótico.” — Demis Hassabis
La Nueva Fórmula
Demis Hassabis describe el enfoque de DeepMind:
“We operate on 50% scaling, 50% innovation. Both are required for AGI.” “Operamos en 50% escalado, 50% innovación. Ambos son requeridos para AGI.”
Lo Que Está Cambiando
- Los datos de pre-entrenamiento son finitos - nos estamos quedando sin texto de alta calidad
- Los retornos no son exponenciales - las mejoras son incrementales, no revolucionarias
- La investigación importa de nuevo - los avances requieren innovación, no solo recursos
Las Eras de IA
El marco de Ilya Sutskever:
- 2012-2020: Era de investigación (avances en aprendizaje profundo)
- 2020-2025: Era de escalado (más grande es mejor)
- 2025+: Regreso a la investigación (se necesitan nuevos paradigmas)
Términos Relacionados
- Pre-entrenamiento - La fase donde el escalado importa más
- Chinchilla - El artículo que optimizó las proporciones de escalado