Andrej Karpathy: Estamos Construyendo Fantasmas, No Animales
Perspectiva
Este es Andrej Karpathy en su versión más filosófica - no enseñando redes neuronales, sino lidiando con lo que realmente estamos construyendo. El marco de “fantasmas, no animales” es provocativo e importante.
La idea central: los LLMs surgieron de un proceso de optimización fundamentalmente diferente a la inteligencia biológica. Los animales han evolucionado - vienen con enormes cantidades de hardware precodificado. Una cebra corre minutos después de nacer. Eso no es aprendizaje por refuerzo, eso son millones de años de evolución codificando pesos en el ADN a través de algún mecanismo que no entendemos. Los LLMs, por el contrario, se entrenan imitando documentos de internet. Son “entidades espirituales etéreas” - completamente digitales, imitando humanos, comenzando desde un punto completamente diferente en el espacio de las inteligencias posibles.
“Década de agentes, no año de agentes” es Karpathy respondiendo al bombo publicitario de los laboratorios. Ha estado en IA durante 15 años, ha visto predicciones fallar repetidamente, y ha calibrado sus intuiciones. Los problemas son tratables pero difíciles. ¿Cuándo realmente contratarías a Claude como pasante? Hoy no lo harías porque simplemente no funciona de manera lo suficientemente confiable. Cerrar esa brecha tomará una década.
El pre-entrenamiento como “evolución chapucera” es un modelo mental útil. La evolución da a los animales un punto de partida con algoritmos y representaciones incorporados. El pre-entrenamiento hace algo análogo pero a través de un proceso prácticamente alcanzable - completar patrones en documentos de internet. El matiz interesante: el pre-entrenamiento hace dos cosas simultáneamente: (1) adquiere conocimiento, y (2) activa circuitos de inteligencia a través de observar patrones algorítmicos. Karpathy piensa que la parte de conocimiento podría estar frenando a los modelos - haciéndolos depender demasiado de la memorización en lugar del razonamiento.
La diferencia de compresión explica mucho. Llama 3 almacena aproximadamente 0.7 bits por token de su conjunto de entrenamiento de 15 billones de tokens. El caché KV durante la inferencia almacena 320 kilobytes por token - una diferencia de 35 millones de veces. Cualquier cosa en los pesos es un “recuerdo difuso.” Cualquier cosa en contexto es memoria de trabajo, directamente accesible. Esto explica por qué el aprendizaje en contexto se siente más inteligente que lo que está incorporado en los pesos.
Puntos Clave
- “Fantasmas, no animales” - Los LLMs son entidades digitales que imitan a los humanos, no inteligencias evolucionadas con hardware precodificado
- Década de agentes, no año - Los agentes actuales son impresionantes pero cognitivamente limitados; “empleados de IA” confiables están a 10 años de distancia
- El pre-entrenamiento es evolución chapucera - Una forma prácticamente alcanzable de obtener representaciones iniciales, pero muy diferente de la optimización biológica
- El conocimiento podría perjudicar - Los modelos que dependen menos del conocimiento memorizado y más del razonamiento podrían ser mejores en problemas novedosos
- Memoria de trabajo vs recuerdo difuso - El caché KV (contexto) es 35 millones de veces más denso en información que los pesos por token
- El aprendizaje en contexto puede ejecutar descenso de gradiente interno - Algunos papers sugieren que las capas de atención implementan algo como optimización
- Partes del cerebro faltantes - Transformer ≈ tejido cortical, trazas de razonamiento ≈ corteza prefrontal, pero muchas estructuras permanecen inexploradas
- Los primeros intentos de agentes fueron prematuros - El proyecto Universe (2016) falló porque los modelos carecían de poder representacional; primero fue necesario conseguir LLMs
Panorama General
No estamos construyendo humanos artificiales - estamos construyendo algo completamente nuevo. Los LLMs son “fantasmas” que surgieron de imitar texto, no “animales” moldeados por la evolución. Entender esta diferencia es esencial para construir sistemas que complementen en lugar de imitar pobremente la inteligencia humana.