Yann LeCun sobre AMI, Modelos del Mundo y Por Qué los LLMs No Son Suficientes
Uno de los padrinos del aprendizaje profundo apuesta su próxima década por un camino diferente al del resto de la industria.
Perspectiva
Esta conversación con Yann LeCun es una clase magistral en pensamiento contrario respaldado por décadas de intuición técnica. Mientras la industria invierte miles de millones en escalar LLMs, LeCun está lanzando AMI (Advanced Machine Intelligence) con una tesis radicalmente diferente: no se puede llegar a la IA a nivel humano solo con texto.
Las matemáticas son claras. Entrenar un LLM competitivo requiere 30 billones de tokens - aproximadamente 10^14 bytes de datos de texto. Eso es efectivamente todo el texto disponible libremente en internet. Compáralo con video: esos mismos 10^14 bytes representan solo 15,000 horas de video a 2MB/s. Eso son 30 minutos de uploads de YouTube. Eso es lo que un niño de 4 años ha visto en toda su vida despierto.
El argumento de LeCun no es solo sobre eficiencia de datos - es sobre densidad de información y redundancia. Los LLMs necesitan conteos masivos de parámetros porque están esencialmente memorizando hechos aislados del texto. Los modelos del mundo entrenados en video aprenden representaciones abstractas de física, causalidad y dinámicas. La redundancia en datos visuales no es un defecto - es lo que permite el aprendizaje.
Lo que hace esta conversación particularmente valiosa es el arco histórico. LeCun recorre su viaje de 20 años desde autoencoders dispersos hasta redes Siamesas, pasando por aprendizaje contrastivo hasta JEPA. Cada iteración fue resolviendo un problema específico: ¿cómo entrenas un sistema para aprender representaciones abstractas útiles sin colapsar en soluciones triviales?
La respuesta en la que ha convergido: Arquitecturas Predictivas de Embedding Conjunto (JEPA). En lugar de predecir cada píxel (lo cual es imposible para futuros no deterministas), predices en un espacio de representación abstracta. Eliminas todos los detalles impredecibles - ruido, texturas irrelevantes, incertidumbre cuántica - y te enfocas en lo que importa para la planificación.
El timing de AMI es deliberado. Mientras Meta, Google y otros grandes laboratorios “se cierran” y se vuelven más secretos, LeCun está redoblando apuestas en investigación abierta. Su argumento es práctico: no puedes llamarlo investigación si no publicas, porque solo te engañarás a ti mismo con entusiasmo interno. Los científicos necesitan validación externa, y los avances requieren la libertad de publicar.
La estrategia de producto es ambiciosa pero pragmática. AMI publicará investigación upstream mientras construye productos reales alrededor de modelos del mundo y sistemas de planificación. La apuesta es que sistemas agentes basados en LLMs “realmente no funcionan muy bien” porque carecen de la capacidad de predecir consecuencias y planificar en espacios de representación abstracta.
Un detalle técnico enterrado en la conversación es particularmente sorprendente: los métodos contrastivos actuales (como los que LeCun pioneered en 2005-2006) llegan hasta alrededor de 200 dimensiones en sus representaciones aprendidas, incluso en ImageNet. Ese es el límite. Avances recientes como Barlow Twins, VICReg y SigReg (parte del sistema LJEPA) están superando ese límite maximizando contenido de información en lugar de solo usar pérdida contrastiva.
La analogía de CFD es perfecta: no simulamos el flujo de aire alrededor de un avión modelando moléculas individuales, menos aún campos cuánticos. Usamos representaciones abstractas en el nivel correcto de granularidad. Eso es lo que los modelos del mundo necesitan hacer - no simular cada detalle, sino aprender las abstracciones correctas para planificación.
Conclusiones Clave
- Tesis de AMI: La IA a nivel humano requiere modelos del mundo entrenados en datos continuos de alta dimensión (video), no solo texto
- Brecha de eficiencia de datos: 10^14 bytes entrena un LLM en todo el texto de internet O un modelo de visión en 15,000 horas de video (30 min de YouTube)
- Arquitectura JEPA: Predice en espacio de representación abstracta, no espacio de píxeles - elimina detalles impredecibles mientras preserva estructura
- Estrategia de investigación: AMI publicará abiertamente porque “no puedes llamarlo investigación a menos que publiques” - el entusiasmo interno crea ilusión
- Evolución técnica: Del aprendizaje contrastivo (2005) a VICReg/SigReg (2024) - más allá del límite de 200 dimensiones
- Requisito de planificación: La inteligencia necesita predicción de consecuencias + optimización, no solo coincidencia de patrones
- Crítica de la industria: Los grandes laboratorios (Google, Meta, OpenAI) volviéndose más cerrados a pesar de beneficios históricos de investigación abierta
- Visión de producto: Modelos del mundo para sistemas de planificación que superan agentes basados en LLM en confiabilidad y eficiencia de muestra
Panorama General
Un ganador del Premio Turing apuesta su próxima década por la tesis de que la IA solo de texto no puede alcanzar inteligencia a nivel humano. Si tiene razón, las inversiones de billones de dólares de la industria en LLMs están construyendo herramientas, no mentes - y el camino real hacia AGI pasa por video, modelos del mundo y física aprendida.