Andrej Karpathy

Andrej Karpathy

Founder at Eureka Labs

Ancien directeur de l'IA chez Tesla et membre fondateur d'OpenAI. Éducateur YouTube qui rend l'apprentissage profond accessible. Créateur de nanoGPT.

researcheducationteslaopenai

À propos d’Andrej Karpathy

Andrej Karpathy est l’un des chercheurs et éducateurs en IA les plus respectés. Il était membre fondateur d’OpenAI, puis a dirigé l’équipe de vision Autopilot de Tesla, et est devenu célèbre pour rendre l’apprentissage profond accessible via des vidéos YouTube et des projets open source.

Temps forts de carrière

  • Eureka Labs (2024-présent) : Fondateur, startup d’éducation à l’IA
  • Tesla (2017-2022) : Directeur de l’IA, a dirigé la vision par ordinateur d’Autopilot
  • OpenAI (2015-2017) : Membre fondateur et chercheur scientifique
  • Doctorat Stanford : Étudié sous Fei-Fei Li sur le sous-titrage d’images
  • nanoGPT : Création d’une implémentation minimale de GPT pour l’éducation

Positions notables

Sur les LLM comme “fantômes”

Le cadrage le plus provocateur de Karpathy :

“LLMs are ‘ethereal spirit entities’ - fully digital, mimicking humans, starting from a completely different point in the space of possible intelligences. We’re building ghosts, not animals.”

“Les LLM sont des ‘entités spirituelles éthérées’ - entièrement numériques, imitant les humains, partant d’un point complètement différent dans l’espace des intelligences possibles. Nous construisons des fantômes, pas des animaux.”

Les animaux ont évolué avec du matériel codé en dur. Un zèbre court quelques minutes après sa naissance. Les LLM ont émergé de l’imitation de texte - un processus d’optimisation fondamentalement différent.

Sur les calendriers des agents

Une vérification de la réalité sur le battage médiatique :

“Decade of agents, not year of agents. When would you actually hire Claude as an intern? You wouldn’t today because it just doesn’t work reliably enough.”

“Décennie des agents, pas année des agents. Quand embaucheriez-vous réellement Claude comme stagiaire ? Vous ne le feriez pas aujourd’hui parce que ce n’est tout simplement pas assez fiable.”

Sur contexte vs poids

Aperçu technique sur le fonctionnement des LLM :

“The KV cache stores 320 KB per token vs 0.7 bits in weights - a 35 million fold difference. Anything in context is working memory; anything in weights is hazy recollection.”

“Le cache KV stocke 320 Ko par token contre 0,7 bits dans les poids - une différence de 35 millions de fois. Tout ce qui est dans le contexte est de la mémoire de travail ; tout ce qui est dans les poids est un souvenir flou.”

Citations clés

  • “Nous construisons des fantômes, pas des animaux.”
  • “Décennie des agents, pas année des agents.”
  • “Le pré-entraînement est une évolution médiocre.”

Lectures connexes

  • Scaling Laws - Le paradigme que Karpathy a aidé à établir
  • Pre-training - Ce que Karpathy appelle “évolution médiocre”

Video Mentions

Video thumbnail

Thèse des fantômes, pas des animaux

Les LLM sont des 'entités spirituelles éthérées' - entièrement numériques, imitant les humains, partant d'un point complètement différent dans l'espace des intelligences possibles. Nous construisons des fantômes, pas des animaux.

Video thumbnail

Vérification de la réalité sur le calendrier des agents

Décennie des agents, pas année des agents. Quand embaucheriez-vous réellement Claude comme stagiaire ? Vous ne le feriez pas aujourd'hui parce que ce n'est tout simplement pas assez fiable.

Video thumbnail

Compression contexte vs poids

Le cache KV stocke 320 Ko par token contre 0,7 bits dans les poids - une différence de 35 millions de fois. Tout ce qui est dans le contexte est de la mémoire de travail ; tout ce qui est dans les poids est un souvenir flou.

Video thumbnail

Éducation à l'IA

Introduction aux grands modèles de langage en 30 minutes - rendre les concepts complexes de l'IA accessibles par des explications claires.