Les LLM comprennent-ils vraiment ? Yann LeCun vs. Adam Brown de DeepMind

llmdebatemetadeepmindunderstandingworld-models

Deux des chercheurs en IA les plus influents au monde se rencontrent pour un débat franc sur la question la plus controversée de l’IA aujourd’hui : ces systèmes comprennent-ils réellement quelque chose ?

Perspective

Ce débat cristallise la fracture philosophique et technique fondamentale qui traverse actuellement la recherche en IA. D’un côté, Adam Brown de DeepMind soutient que les LLM comprennent - pas parfaitement, mais véritablement. De l’autre, Yann LeCun affirme que leur compréhension est “superficielle” car elle n’est pas ancrée dans la réalité physique. La nuance entre leurs positions révèle bien plus que l’un ou l’autre extrême.

Le moment le plus révélateur arrive tôt lorsque le modérateur pose une question binaire : “Les LLM comprennent-ils ?” Brown dit oui. LeCun dit “en quelque sorte”. Ce gradient entre les positions binaires est là où se trouve la vérité.

L’argument central de LeCun est fondé sur la théorie de l’information et l’efficacité d’échantillonnage. Il souligne que l’entraînement d’un LLM compétitif nécessite 30 billions de tokens - environ 10^14 octets de données textuelles. C’est effectivement tout le texte librement disponible sur Internet, représentant un demi-million d’années de temps de lecture humain. Comparez cela aux données visuelles : ces mêmes 10^14 octets représentent seulement 16 000 heures de vidéo - exactement ce qu’un enfant de quatre ans a vu dans toute sa vie éveillée (en supposant 2 Mo/s à travers le nerf optique).

Il ne s’agit pas seulement de volume de données. Il s’agit de densité d’information et d’ancrage. Un enfant qui apprend la physique n’a pas besoin de lire des millions de descriptions d’objets qui tombent. Il voit des choses tomber, il laisse tomber des choses, il construit des modèles intuitifs de la gravité, de l’inertie et de la causalité à travers une expérience sensorielle continue et multidimensionnelle. Les LLM n’ont que le langage - une compression symbolique de la réalité, pas la réalité elle-même.

Brown répond avec une idée cruciale : l’efficacité d’échantillonnage n’est pas tout. Un chat apprend à marcher en une semaine ; un humain met un an. Cela ne rend pas le chat plus intelligent qu’un humain ou qu’un LLM. Ce qui compte, c’est la capacité ultime, pas la vitesse d’apprentissage. Et sur presque toutes les métriques qui comptent - connaissances accumulées, portée de résolution de problèmes, sophistication linguistique - les LLM ont déjà dépassé l’intelligence féline et poussent bien au-delà de la performance humaine sur des tâches spécifiques.

Ses preuves sont convaincantes. Aux Olympiades internationales de mathématiques 2025, le système de Google a obtenu un meilleur score que tous sauf la douzaine de meilleurs humains de la planète. Ce sont des problèmes complètement nouveaux, pas de la reconnaissance de motifs contre des données d’entraînement. Le système a combiné différentes idées mathématiques de manières qu’il n’avait jamais vues auparavant. Ce n’est pas de la mémorisation - c’est un raisonnement authentique à un niveau d’abstraction élevé.

L’argument de l’interprétabilité est particulièrement intéressant. Brown souligne que nous avons en fait un meilleur accès aux neurones des LLM qu’aux neurones humains. Nous pouvons les figer, les rejouer, les sonder et tracer exactement ce qui se passe. Lorsque vous donnez un problème mathématique à un LLM, la recherche en interprétabilité mécaniste révèle des circuits computationnels réels qui se forment pour le résoudre - des circuits que le modèle a appris à construire par lui-même en étant entraîné à prédire le prochain token. Il n’a pas mémorisé les réponses mathématiques ; il a appris comment faire des mathématiques.

LeCun ne conteste pas cela. Sa critique est plus subtile. Il dit oui, les LLM peuvent accumuler des connaissances et réaliser des exploits surhumains sur des tâches linguistiques. Mais ils manquent fondamentalement de la compréhension ancrée et physique qui vient de l’apprentissage incarné. Ils n’ont pas le bon sens comme les humains le comprennent - la physique intuitive de la façon dont les objets interagissent, comment les actions ont des conséquences, comment le monde fonctionne réellement au-delà de sa description linguistique.

L’analogie des échecs coupe dans les deux sens. Brown a raison qu’AlphaZero a eu besoin de jouer beaucoup plus de parties qu’un grand maître humain pour atteindre une performance surhumaine, mais l’efficacité d’échantillonnage n’a pas d’importance - il a gagné. LeCun a raison que cela prouve que les ordinateurs “sont nuls aux échecs” d’une manière fondamentale par rapport à l’efficacité d’apprentissage humaine, et ce delta compte quand on parle d’intelligence générale.

Le vrai désaccord ne porte pas sur les capacités actuelles des LLM. Il porte sur ce qui est nécessaire pour atteindre une intelligence générale au niveau humain ou animal. La position de LeCun : vous ne pouvez pas y arriver par le texte seul. Vous avez besoin de world models entraînés sur des données continues et multidimensionnelles comme la vidéo. Vous avez besoin de systèmes qui peuvent prédire les conséquences dans des espaces de représentation abstraits, pas seulement prédire le prochain token.

Ses preuves sont frappantes : nous avons des LLM qui réussissent l’examen du barreau et résolvent du calcul au niveau universitaire, mais nous n’avons toujours pas de robots domestiques qui peuvent apprendre à nettoyer une cuisine ou de voitures autonomes qui apprennent à conduire en 20 heures comme un adolescent. Les méthodes qui fonctionnent pour le texte ne s’adaptent pas à l’intelligence incarnée.

La position de Brown est plus optimiste quant à la trajectoire actuelle. Les LLM démontrent déjà des capacités émergentes qui n’ont pas été explicitement programmées - raisonnement mathématique, résolution créative de problèmes, compréhension conversationnelle sophistiquée. À mesure que nous développons le calcul, les données et les innovations architecturales, ces capacités continueront de s’étendre.

La question de la conscience est révélatrice. Les deux disent non (ou “probablement pas”). LeCun est absolu : “absolument pas”. Brown nuance : “probablement pas, pour des définitions appropriées de la conscience”. Ni l’un ni l’autre ne croit que nous sommes au bord du jour du jugement dernier - les deux disent que “renaissance” est plus probable que des seigneurs robots.

Ce qui rend ce débat si précieux, c’est que les deux chercheurs sont profondément techniques, profondément informés et fondamentalement en désaccord sur ce que la compréhension nécessite. Le parcours de LeCun en vision par ordinateur, réseaux convolutifs et maintenant world models façonne sa conviction que l’intelligence nécessite un apprentissage ancré et incarné. Le travail de Brown chez DeepMind sur des systèmes comme AlphaGo et maintenant Gemini démontre ce qui est possible lorsque vous augmentez la reconnaissance de motifs à des niveaux sans précédent.

Le fil conducteur dans l’argument de LeCun - de sa fameuse diapositive “le machine learning est nul” à sa nouvelle startup AMI axée sur les world models - est que le deep learning et la rétropropagation sont fantastiques, mais nous devons les combiner avec des paradigmes d’entraînement fondamentalement différents. Pas la prédiction du prochain token sur du texte, mais des architectures prédictives d’embedding joint (JEPA) entraînées sur la vidéo et d’autres données sensorielles à large bande passante.

La question n’est pas binaire. Les LLM comprennent - ils extraient des motifs, construisent des représentations internes, effectuent du raisonnement. Mais leur compréhension est contrainte par la pauvreté de leur signal d’entraînement. Le langage est la représentation symbolique et compressée de la réalité par l’humanité. C’est une compression avec pertes. Vous pouvez en récupérer beaucoup - plus que la plupart des gens ne s’y attendaient - mais vous ne pouvez pas tout récupérer.

Points clés

  • La fracture centrale : Brown soutient que les LLM comprennent vraiment grâce à la reconnaissance de motifs à un niveau d’abstraction élevé ; LeCun soutient que leur compréhension est superficielle sans ancrage physique
  • Écart de densité d’information : 10^14 octets entraînent un LLM sur tout le texte d’Internet OU un modèle de vision sur ce qu’un enfant de 4 ans a vu (16 000 heures de données visuelles à 2 Mo/s)
  • Efficacité d’échantillonnage vs. capacité ultime : Les chats apprennent à marcher plus vite que les humains, mais cela ne les rend pas plus intelligents - ce qui compte, c’est la performance finale
  • Raisonnement mathématique : Les résultats des IMO 2025 montrent que les LLM résolvent des problèmes nouveaux au niveau de la douzaine de meilleurs humains en combinant des concepts, pas seulement en reconnaissant des motifs de données d’entraînement
  • Avantage d’interprétabilité : Nous avons un meilleur accès aux neurones des LLM qu’aux neurones humains - nous pouvons figer, rejouer et tracer les circuits computationnels qui se forment pendant la résolution de problèmes
  • Problème d’ancrage : Les LLM réussissent les examens du barreau mais nous n’avons toujours pas de robots qui apprennent les tâches ménagères ou de voitures autonomes qui apprennent en 20 heures comme les adolescents
  • Analogie des échecs : AlphaZero a eu besoin de plus de parties que les grands maîtres humains pour atteindre une performance surhumaine - prouve à la fois “inefficacité d’échantillonnage” et “supériorité ultime”
  • Consensus sur la conscience : Les deux chercheurs conviennent que les LLM ne sont pas conscients (ou “probablement pas”) malgré le débat sur la compréhension
  • Perspectives d’avenir : Les deux prédisent “renaissance” plutôt que “jour du jugement dernier” - ni l’un ni l’autre ne craint les seigneurs robots, les deux voient un potentiel positif transformateur
  • La voie de LeCun : World models entraînés sur des données continues multidimensionnelles (vidéo) utilisant des architectures JEPA, pas seulement la prédiction du prochain token basée sur le texte
  • Interprétabilité mécaniste : Les LLM développent spontanément des circuits computationnels internes pour résoudre des problèmes mathématiques tout en étant entraînés uniquement à prédire les prochains tokens
  • Le piège binaire : La question “comprennent-ils” exige une réponse en gradient - le “en quelque sorte” de LeCun est plus précis qu’un oui ou un non

Vue d’ensemble

Les LLM comprennent-ils ? “En quelque sorte” est la réponse honnête. Ils extraient des motifs et effectuent du raisonnement à un niveau d’abstraction élevé, mais leur compréhension est contrainte par l’entraînement sur le langage - la compression avec pertes de la réalité par l’humanité. Vous pouvez récupérer beaucoup à partir du texte, mais pas l’intuition physique. C’est pourquoi nous avons des modèles qui réussissent l’examen du barreau mais pas de robots qui nettoient les cuisines.