
Andrej Karpathy
Founder at Eureka Labs
Ancien directeur de l'IA chez Tesla et membre fondateur d'OpenAI. Éducateur YouTube qui rend l'apprentissage profond accessible. Créateur de nanoGPT.
À propos d’Andrej Karpathy
Andrej Karpathy est l’un des chercheurs et éducateurs en IA les plus respectés. Il était membre fondateur d’OpenAI, puis a dirigé l’équipe de vision Autopilot de Tesla, et est devenu célèbre pour rendre l’apprentissage profond accessible via des vidéos YouTube et des projets open source.
Temps forts de carrière
- Eureka Labs (2024-présent) : Fondateur, startup d’éducation à l’IA
- Tesla (2017-2022) : Directeur de l’IA, a dirigé la vision par ordinateur d’Autopilot
- OpenAI (2015-2017) : Membre fondateur et chercheur scientifique
- Doctorat Stanford : Étudié sous Fei-Fei Li sur le sous-titrage d’images
- nanoGPT : Création d’une implémentation minimale de GPT pour l’éducation
Positions notables
Sur les LLM comme “fantômes”
Le cadrage le plus provocateur de Karpathy :
“LLMs are ‘ethereal spirit entities’ - fully digital, mimicking humans, starting from a completely different point in the space of possible intelligences. We’re building ghosts, not animals.”
“Les LLM sont des ‘entités spirituelles éthérées’ - entièrement numériques, imitant les humains, partant d’un point complètement différent dans l’espace des intelligences possibles. Nous construisons des fantômes, pas des animaux.”
Les animaux ont évolué avec du matériel codé en dur. Un zèbre court quelques minutes après sa naissance. Les LLM ont émergé de l’imitation de texte - un processus d’optimisation fondamentalement différent.
Sur les calendriers des agents
Une vérification de la réalité sur le battage médiatique :
“Decade of agents, not year of agents. When would you actually hire Claude as an intern? You wouldn’t today because it just doesn’t work reliably enough.”
“Décennie des agents, pas année des agents. Quand embaucheriez-vous réellement Claude comme stagiaire ? Vous ne le feriez pas aujourd’hui parce que ce n’est tout simplement pas assez fiable.”
Sur contexte vs poids
Aperçu technique sur le fonctionnement des LLM :
“The KV cache stores 320 KB per token vs 0.7 bits in weights - a 35 million fold difference. Anything in context is working memory; anything in weights is hazy recollection.”
“Le cache KV stocke 320 Ko par token contre 0,7 bits dans les poids - une différence de 35 millions de fois. Tout ce qui est dans le contexte est de la mémoire de travail ; tout ce qui est dans les poids est un souvenir flou.”
Citations clés
- “Nous construisons des fantômes, pas des animaux.”
- “Décennie des agents, pas année des agents.”
- “Le pré-entraînement est une évolution médiocre.”
Lectures connexes
- Scaling Laws - Le paradigme que Karpathy a aidé à établir
- Pre-training - Ce que Karpathy appelle “évolution médiocre”