¿Entienden los LLMs? Yann LeCun vs. Adam Brown de DeepMind

llmdebatemetadeepmindunderstandingworld-models

Dos de los investigadores de IA más destacados del mundo se sientan para un debate franco sobre la pregunta más controvertida en la IA hoy: ¿estos sistemas realmente entienden algo?

Perspectiva

Este debate cristaliza la división filosófica y técnica central que recorre la investigación en IA en este momento. Por un lado, Adam Brown de DeepMind argumenta que los LLMs sí entienden - no perfectamente, pero genuinamente. Por el otro, Yann LeCun sostiene que su entendimiento es “superficial” porque no está fundamentado en la realidad física. La sutileza entre sus posiciones revela mucho más que cualquiera de los extremos.

El momento más revelador llega temprano cuando el moderador hace una pregunta binaria: “¿Entienden los LLMs?” Brown dice sí. LeCun dice “más o menos.” Ese gradiente entre posiciones binarias es donde vive la verdad.

El argumento central de LeCun se basa en teoría de la información y eficiencia de muestras. Señala que entrenar un LLM competitivo requiere 30 billones de tokens - aproximadamente 10^14 bytes de datos de texto. Eso es efectivamente todo el texto libremente disponible en internet, representando medio millón de años de tiempo de lectura humana. Compáralo con datos visuales: esos mismos 10^14 bytes representan solo 16,000 horas de video - exactamente lo que ha visto un niño de cuatro años en toda su vida despierto (asumiendo 2MB/s a través del nervio óptico).

No se trata solo de volumen de datos. Se trata de densidad de información y fundamentación. Un niño aprendiendo física no necesita leer millones de descripciones de objetos cayendo. Ve cosas caer, deja caer cosas, construye modelos intuitivos de gravedad, inercia y causalidad a través de experiencia sensorial continua y de alta dimensionalidad. Los LLMs solo tienen lenguaje - una compresión simbólica de la realidad, no la realidad en sí.

Brown contraataca con una idea crucial: la eficiencia de muestras no lo es todo. Un gato aprende a caminar en una semana; un humano tarda un año. Eso no hace al gato más inteligente que un humano o un LLM. Lo que importa es la capacidad final, no la velocidad de aprendizaje. Y en casi todas las métricas que cuentan - conocimiento acumulado, rango de resolución de problemas, sofisticación lingüística - los LLMs ya han superado la inteligencia felina y están avanzando bien más allá del rendimiento humano en tareas específicas.

Su evidencia es convincente. En la Olimpiada Internacional de Matemáticas 2025, el sistema de Google anotó mejor que todos excepto la docena de humanos más destacados del planeta. Estos son problemas completamente novedosos, no coincidencia de patrones contra datos de entrenamiento. El sistema combinó diferentes ideas matemáticas de formas que nunca había visto antes. Eso no es memorización - es razonamiento genuino a un nivel elevado de abstracción.

El argumento de interpretabilidad es particularmente interesante. Brown señala que en realidad tenemos mejor acceso a las neuronas de LLM que a las neuronas humanas. Podemos congelarlas, reproducirlas, investigarlas, y rastrear exactamente qué está sucediendo. Cuando alimentas un problema de matemáticas a un LLM, la investigación de interpretabilidad mecanicista revela circuitos computacionales reales formándose para resolverlo - circuitos que el modelo aprendió a construir por su cuenta mientras estaba siendo entrenado para predecir el siguiente token. No memorizó respuestas de matemáticas; aprendió cómo hacer matemáticas.

LeCun no disputa esto. Su crítica es más sutil. Está diciendo que sí, los LLMs pueden acumular conocimiento y realizar hazañas sobrehumanas en tareas lingüísticas. Pero fundamentalmente carecen del entendimiento fundamentado y físico que proviene del aprendizaje encarnado. No tienen sentido común en la forma en que los humanos lo entienden - la física intuitiva de cómo interactúan los objetos, cómo las acciones tienen consecuencias, cómo funciona realmente el mundo más allá de su descripción lingüística.

La analogía del ajedrez corta en ambas direcciones. Brown tiene razón en que AlphaZero necesitó jugar muchos más juegos que cualquier gran maestro humano para alcanzar rendimiento sobrehumano, pero la eficiencia de muestras no importó - ganó. LeCun tiene razón en que esto prueba que las computadoras “son malas en ajedrez” de una manera fundamental comparado con la eficiencia de aprendizaje humano, y esa diferencia importa cuando hablamos de inteligencia general.

El desacuerdo real no es sobre las capacidades actuales de LLM. Es sobre qué se requiere para alcanzar inteligencia general a nivel humano o animal. Posición de LeCun: no puedes llegar allí solo con texto. Necesitas modelos del mundo entrenados en datos continuos de alta dimensionalidad como video. Necesitas sistemas que puedan predecir consecuencias en espacios de representación abstracta, no solo predecir el siguiente token.

Su evidencia es contundente: tenemos LLMs que aprueban el examen de abogado y resuelven cálculo de nivel universitario, pero aún no tenemos robots domésticos que aprendan a limpiar una cocina o autos autónomos que aprendan a conducir en 20 horas como un adolescente. Los métodos que funcionan para texto no se escalan a la inteligencia encarnada.

La posición de Brown es más optimista sobre la trayectoria actual. Los LLMs ya están demostrando capacidades emergentes que no fueron programadas explícitamente - razonamiento matemático, resolución creativa de problemas, sofisticada comprensión conversacional. A medida que escalamos computación, datos e innovaciones arquitectónicas, estas capacidades continuarán expandiéndose.

La pregunta sobre consciencia es reveladora. Ambos dicen no (o “probablemente no”). LeCun es absoluto: “definitivamente no.” Brown se muestra cauteloso: “probablemente no, con definiciones apropiadas de consciencia.” Ninguno cree que estemos en el precipicio del apocalipsis - ambos dicen que “renacimiento” es más probable que amos robots.

Lo que hace este debate tan valioso es que ambos investigadores son profundamente técnicos, profundamente informados, y fundamentalmente en desacuerdo sobre qué requiere el entendimiento. El trasfondo de LeCun en visión por computadora, redes convolucionales, y ahora modelos del mundo forma su convicción de que la inteligencia requiere aprendizaje fundamentado y encarnado. El trabajo de Brown en DeepMind en sistemas como AlphaGo y ahora Gemini demuestra qué es posible cuando escalas coincidencia de patrones a niveles sin precedentes.

El hilo conductor en el argumento de LeCun - desde su famosa diapositiva “machine learning sucks” hasta su nueva startup AMI enfocada en modelos del mundo - es que el aprendizaje profundo y la retropropagación son fantásticos, pero necesitamos combinarlos con paradigmas de entrenamiento fundamentalmente diferentes. No predicción de siguiente token en texto, sino arquitecturas predictivas de incrustación conjunta (JEPA) entrenadas en video y otros datos sensoriales de alto ancho de banda.

La pregunta no es binaria. Los LLMs sí entienden - extraen patrones, construyen representaciones internas, realizan razonamiento. Pero su entendimiento está constreñido por la pobreza de su señal de entrenamiento. El lenguaje es la representación comprimida y simbólica de la realidad de la humanidad. Es compresión con pérdida. Puedes recuperar mucho de él - más de lo que la mayoría de la gente esperaba - pero no puedes recuperar todo.

Puntos Clave

  • La división central: Brown argumenta que los LLMs genuinamente entienden a través de coincidencia de patrones en abstracción elevada; LeCun argumenta que su entendimiento es superficial sin fundamentación física
  • Brecha de densidad de información: 10^14 bytes entrena un LLM en todo el texto de internet O un modelo de visión en lo que ha visto un niño de 4 años (16,000 horas de datos visuales a 2MB/s)
  • Eficiencia de muestras vs. capacidad final: Los gatos aprenden a caminar más rápido que los humanos, pero eso no los hace más inteligentes - lo que importa es el rendimiento final
  • Razonamiento matemático: Los resultados de IMO 2025 muestran LLMs resolviendo problemas novedosos a nivel de docena superior de humanos combinando conceptos, no solo coincidencia de patrones
  • Ventaja de interpretabilidad: Tenemos mejor acceso a neuronas de LLM que a neuronas humanas - podemos congelar, reproducir y rastrear circuitos computacionales formándose durante resolución de problemas
  • Problema de fundamentación: Los LLMs aprueban exámenes de abogado pero aún no tenemos robots que aprendan tareas del hogar o autos autónomos que aprendan a conducir en 20 horas como adolescentes
  • Analogía del ajedrez: AlphaZero necesitó más juegos que grandes maestres humanos para alcanzar rendimiento sobrehumano - prueba tanto “ineficiencia de muestras” como “superioridad final”
  • Consenso sobre consciencia: Ambos investigadores están de acuerdo en que los LLMs no son conscientes (o “probablemente no”) a pesar del debate sobre entendimiento
  • Perspectiva futura: Ambos predicen “renacimiento” sobre “apocalipsis” - ninguno teme amos robots, ambos ven potencial positivo transformador
  • Camino de LeCun hacia adelante: Modelos del mundo entrenados en datos continuos de alta dimensionalidad (video) usando arquitecturas JEPA, no solo predicción de siguiente token basada en texto
  • Interpretabilidad mecanicista: Los LLMs espontáneamente desarrollan circuitos computacionales internos para resolver problemas de matemáticas mientras están siendo entrenados solo para predecir siguiente tokens
  • La trampa binaria: La pregunta “¿entienden?” demanda una respuesta de gradiente - el “más o menos” de LeCun es más preciso que sí o no

Panorama General

¿Entienden los LLMs? “Más o menos” es la respuesta honesta. Extraen patrones y realizan razonamiento en abstracción elevada, pero su entendimiento está constreñido por entrenamiento en lenguaje - la compresión con pérdida de la realidad de la humanidad. Puedes recuperar mucho del texto, pero no intuición física. Por eso tenemos modelos que aprueban exámenes de abogado pero no robots que limpien cocinas.