Andrej Karpathy: Introducción a LLMs para Gente Ocupada (La Explicación Viral de 30 Minutos)
Perspectiva
Esta es la introducción definitiva a los modelos de lenguaje grandes - Karpathy regrabó su charla viral de 30 minutos para YouTube después de que la original no fuera capturada. Si entiendes esta charla, entiendes los fundamentos.
“Un modelo de lenguaje grande es solo dos archivos.” El archivo de parámetros (140GB para Llama 2 70B - 70 mil millones de parámetros × 2 bytes cada uno como float16) y un archivo de ejecución (~500 líneas de C sin dependencias). Toma estos dos archivos, compila, y puedes hablar con el modelo sin conexión en una MacBook. Ese es el paquete completo.
El entrenamiento es compresión. Toma 10TB de texto de internet, 6,000 GPUs por 12 días (~$2M), y comprímelo en 140GB de parámetros. Eso es aproximadamente 100x de compresión - pero es compresión con pérdida. El modelo tiene una “gestalt” de los datos de entrenamiento, no una copia idéntica. “Esto es como un archivo zip de internet.”
La maldición de la reversión muestra cuán extraño es este conocimiento. GPT-4 sabe que la madre de Tom Cruise es Mary Lee Pfeiffer. Pero pregunta “¿Quién es el hijo de Mary Lee Pfeiffer?” y no lo sabe. “Este conocimiento es raro y algo unidimensional. Tienes que preguntar desde cierta dirección.”
“Los LLMs son en su mayoría artefactos inescrutables.” Conocemos la arquitectura exacta, cada operación matemática. Pero no sabemos qué están haciendo los 100 mil millones de parámetros. “Podemos medir que está mejorando en la predicción de la siguiente palabra, pero no sabemos cómo estos parámetros colaboran para realizar eso.” A diferencia de un auto donde entendemos todas las partes.
Pre-entrenamiento vs ajuste fino. Pre-entrenamiento: cantidad masiva, datos de internet de calidad menor, construye conocimiento. Ajuste fino: cantidad menor (~100K ejemplos), pares de preguntas y respuestas de muy alta calidad, le da al modelo su “formato” de asistente. El pre-entrenamiento es costoso (meses, millones de dólares, una vez al año). El ajuste fino es barato (iteraciones diarias posibles).
RLHF usa comparaciones porque comparar es más fácil que generar. Escribir un haiku es difícil. Elegir el mejor haiku de varias opciones es más fácil. El ajuste fino de etapa 3 explota esto con aprendizaje por refuerzo a partir de retroalimentación humana.
Las leyes de escalado son la perspectiva clave. El rendimiento es una “función notablemente suave, bien comportada y predecible de solo dos variables: N (parámetros) y D (datos de entrenamiento).” Sin señales de tope. “El progreso algorítmico no es necesario - podemos obtener modelos más poderosos gratis al entrenar modelos más grandes por más tiempo.”
Conclusiones Clave
- Dos archivos - Parámetros (140GB para modelo 70B) + run.c (~500 líneas)
- Compresión con pérdida 100x - 10TB internet → 140GB parámetros
- Predicción de siguiente palabra - Tarea fundamental; fuerza el aprendizaje sobre el mundo
- Maldición de la reversión - El conocimiento es unidimensional; la dirección importa
- “Mayormente inescrutables” - Conocemos la arquitectura pero no qué hacen los parámetros
- Pre-entrenamiento = conocimiento - Costoso, meses, datos a escala de internet
- Ajuste fino = alineación - Barato, posible diariamente, 100K ejemplos de calidad
- RLHF - Comparar es más fácil que generar; optimización de etapa 3
- Leyes de escalado - Rendimiento predecible por parámetros × datos; sin meseta
- Abierto vs cerrado - Cerrados (GPT-4, Claude) funcionan mejor; abiertos (Llama) alcanzables
- “Alucinación” - El modelo no sabe qué memorizó vs qué generó
Panorama General
Un LLM es una versión comprimida 100x del conocimiento humano que cabe en una laptop. Lo construimos, podemos ejecutarlo, pero realmente no entendemos cómo 100 mil millones de parámetros colaboran para producir inteligencia. Estamos en la extraña posición de haber creado algo poderoso antes de entenderlo completamente.