Yann LeCun sur AMI, les World Models, et pourquoi les LLMs ne suffisent pas

world-modelsjeparesearchstartupmetadeepmind

L’un des pères fondateurs du deep learning mise sa prochaine décennie sur une voie différente du reste de l’industrie.

Perspective

Cette conversation avec Yann LeCun est une leçon magistrale de pensée à contre-courant soutenue par des décennies d’intuition technique. Alors que l’industrie investit des milliards dans le scaling des LLMs, LeCun lance AMI (Advanced Machine Intelligence) avec une thèse radicalement différente : on ne peut pas atteindre une IA de niveau humain uniquement par le texte.

Les chiffres sont frappants. Entraîner un LLM compétitif nécessite 30 billions de tokens - environ 10^14 bytes de données textuelles. C’est effectivement tout le texte librement disponible sur internet. Comparez cela à la vidéo : ces mêmes 10^14 bytes représentent seulement 15 000 heures de vidéo à 2MB/s. C’est 30 minutes de vidéos uploadées sur YouTube. C’est ce qu’un enfant de 4 ans a vu pendant toute sa vie éveillée.

L’argument de LeCun ne concerne pas seulement l’efficacité des données - il s’agit de densité d’information et de redondance. Les LLMs ont besoin de comptes de paramètres massifs parce qu’ils mémorisent essentiellement des faits isolés issus du texte. Les world models entraînés sur la vidéo apprennent des représentations abstraites de la physique, de la causalité et de la dynamique. La redondance dans les données visuelles n’est pas un bug - c’est ce qui permet l’apprentissage.

Ce qui rend cette conversation particulièrement précieuse, c’est l’arc historique. LeCun retrace son parcours de 20 ans des autoencodeurs épars aux réseaux siamois, à l’apprentissage contrastif, jusqu’à JEPA. Chaque itération résolvait un problème spécifique : comment entraîner un système à apprendre des représentations abstraites utiles sans s’effondrer vers des solutions triviales ?

La réponse vers laquelle il a convergé : Joint Embedding Predictive Architectures (JEPA). Au lieu de prédire chaque pixel (ce qui est impossible pour des futurs non déterministes), on prédit dans un espace de représentation abstrait. On élimine tous les détails imprévisibles - bruit, textures non pertinentes, incertitude quantique - et on se concentre sur ce qui compte pour la planification.

Le timing d’AMI est délibéré. Alors que Meta, Google et autres grands labs “se referment” et deviennent plus secrets, LeCun double la mise sur la recherche ouverte. Son argument est pragmatique : on ne peut pas appeler ça de la recherche si on ne publie pas, parce qu’on finira juste par s’illusionner avec du hype interne. Les scientifiques ont besoin de validation externe, et les percées nécessitent la liberté de publier.

La stratégie produit est ambitieuse mais pragmatique. AMI publiera de la recherche en amont tout en construisant des produits réels autour des world models et des systèmes de planification. Le pari est que les systèmes agentiques basés sur les LLMs “ne marchent vraiment pas très bien” parce qu’ils manquent de la capacité à prédire les conséquences et à planifier dans des espaces de représentation abstraits.

Un détail technique enfoui dans la conversation est particulièrement frappant : les méthodes contrastives actuelles (comme celles que LeCun a pionnées en 2005-2006) plafonnent autour de 200 dimensions dans leurs représentations apprises, même sur ImageNet. C’est le plafond. Les avancées récentes comme Barlow Twins, VICReg et SigReg (partie du système LJEPA) poussent au-delà de cette limite en maximisant le contenu informationnel plutôt qu’en utilisant simplement une loss contrastive.

L’analogie avec la CFD est parfaite : nous ne simulons pas le flux d’air autour d’un avion en modélisant des molécules individuelles, encore moins des champs quantiques. Nous utilisons des représentations abstraites au bon niveau de granularité. C’est ce que les world models doivent faire - ne pas simuler chaque détail, mais apprendre les bonnes abstractions pour la planification.

Points clés

  • Thèse d’AMI : Une IA de niveau humain nécessite des world models entraînés sur des données continues à haute dimension (vidéo), pas seulement du texte
  • Écart d’efficacité des données : 10^14 bytes entraînent un LLM sur tout le texte d’internet OU un modèle de vision sur 15 000 heures de vidéo (30 min de YouTube)
  • Architecture JEPA : Prédire dans un espace de représentation abstrait, pas dans l’espace des pixels - élimine les détails imprévisibles tout en préservant la structure
  • Stratégie de recherche : AMI publiera ouvertement parce que “on ne peut pas appeler ça de la recherche sans publier” - le hype interne crée des illusions
  • Évolution technique : De l’apprentissage contrastif (2005) à VICReg/SigReg (2024) - dépasser le plafond de 200 dimensions
  • Exigence de planification : L’intelligence nécessite prédiction des conséquences + optimisation, pas seulement du pattern matching
  • Critique de l’industrie : Les grands labs (Google, Meta, OpenAI) deviennent plus fermés malgré les bénéfices historiques de la recherche ouverte
  • Vision produit : World models pour des systèmes de planification qui surpassent les agents basés sur les LLMs en fiabilité et efficacité d’échantillonnage

Vue d’ensemble

Un lauréat du prix Turing mise sa prochaine décennie sur la thèse qu’une IA basée uniquement sur le texte ne peut pas atteindre l’intelligence de niveau humain. S’il a raison, les investissements de billions de dollars de l’industrie dans les LLMs construisent des outils, pas des esprits - et la vraie voie vers l’AGI passe par la vidéo, les world models, et la physique apprise.