Andrej Karpathy : Nous Construisons des Fantômes, Pas des Animaux

Dwarkesh Patel
interviewagentsagitrainingresearch

Perspective

Voici Andrej Karpathy dans son aspect le plus philosophique - non pas en train d’enseigner les réseaux de neurones, mais en train de réfléchir à ce que nous construisons réellement. Le cadrage “fantômes, pas animaux” est provocateur et important.

L’intuition centrale : les LLM ont émergé d’un processus d’optimisation fondamentalement différent de l’intelligence biologique. Les animaux sont le résultat de l’évolution - ils disposent de quantités massives de matériel codé en dur. Un zèbre court quelques minutes après sa naissance. Ce n’est pas de l’apprentissage par renforcement, c’est des millions d’années d’évolution encodant des poids dans l’ADN par un mécanisme que nous ne comprenons pas. Les LLM, en revanche, sont entraînés en imitant des documents Internet. Ce sont des “entités spirituelles éthérées” - entièrement numériques, imitant les humains, partant d’un point complètement différent dans l’espace des intelligences possibles.

“La décennie des agents, pas l’année des agents” est la façon dont Karpathy repousse le battage médiatique des laboratoires. Il est dans l’IA depuis 15 ans, a vu des prédictions échouer à répétition, et a calibré ses intuitions. Les problèmes sont traitables mais difficiles. Quand embaucheriez-vous réellement Claude comme stagiaire ? Vous ne le feriez pas aujourd’hui car ça ne fonctionne tout simplement pas de manière suffisamment fiable. Combler cet écart prendra une décennie.

Le pré-entraînement comme “évolution médiocre” est un modèle mental utile. L’évolution donne aux animaux un point de départ avec des algorithmes et des représentations intégrés. Le pré-entraînement fait quelque chose d’analogue mais par un processus pratiquement réalisable - la complétion de motifs sur des documents Internet. La nuance intéressante : le pré-entraînement fait deux choses simultanément : (1) acquérir des connaissances, et (2) amorcer des circuits d’intelligence en observant des motifs algorithmiques. Karpathy pense que la partie connaissance pourrait en fait freiner les modèles - les rendant trop dépendants de la mémorisation plutôt que du raisonnement.

La différence de compression explique beaucoup. Llama 3 stocke environ 0,7 bits par token à partir de son ensemble d’entraînement de 15 billions de tokens. Le cache KV pendant l’inférence stocke 320 kilooctets par token - une différence de 35 millions de fois. Tout ce qui est dans les poids est un “souvenir vague”. Tout ce qui est dans le contexte est une mémoire de travail, directement accessible. Cela explique pourquoi l’apprentissage en contexte semble plus intelligent que ce qui est intégré dans les poids.

Points Clés

  • “Fantômes, pas animaux” - Les LLM sont des entités numériques imitant les humains, pas des intelligences évoluées avec du matériel codé en dur
  • Décennie des agents, pas année - Les agents actuels sont impressionnants mais cognitivement limités ; des “employés IA” fiables sont à 10 ans
  • Le pré-entraînement est une évolution médiocre - Un moyen pratiquement réalisable d’obtenir des représentations de départ, mais très différent de l’optimisation biologique
  • La connaissance pourrait nuire - Les modèles qui s’appuient moins sur les connaissances mémorisées et plus sur le raisonnement pourraient être meilleurs pour les problèmes nouveaux
  • Mémoire de travail vs souvenir vague - Le cache KV (contexte) est 35 millions de fois plus dense en information que les poids par token
  • L’apprentissage en contexte pourrait exécuter une descente de gradient interne - Certains articles suggèrent que les couches d’attention implémentent quelque chose comme de l’optimisation
  • Parties manquantes du cerveau - Transformer ≈ tissu cortical, traces de raisonnement ≈ cortex préfrontal, mais de nombreuses structures restent inexplorées
  • Les premières tentatives d’agents étaient prématurées - Le projet Universe (2016) a échoué car les modèles manquaient de puissance représentationnelle ; il fallait d’abord obtenir les LLM

Vue d’Ensemble

Nous ne construisons pas des humains artificiels - nous construisons quelque chose d’entièrement nouveau. Les LLM sont des “fantômes” qui ont émergé de l’imitation de texte, pas des “animaux” façonnés par l’évolution. Comprendre cette différence est essentiel pour construire des systèmes qui complètent plutôt qu’imitent mal l’intelligence humaine.