
Nathan Lambert
Chercheur principal & Responsable du post-training
A propos de Nathan Lambert
Nathan Lambert est chercheur principal et responsable du post-training a l'Allen Institute for AI (AI2), ou il dirige les travaux sur TULU -- l'un des rares pipelines de post-training entierement ouverts pour les modeles de langage. Il est egalement l'auteur de The RLHF Book, la reference definitive sur l'apprentissage par renforcement a partir de retours humains, et le fondateur de la newsletter Interconnects AI.
Avant AI2, Lambert a bati l'equipe de recherche RLHF chez Hugging Face et a contribue aux integrations d'apprentissage par renforcement dans la bibliotheque Diffusers, largement utilisee. Il est titulaire d'un doctorat de l'UC Berkeley, ou il a travaille a l'intersection de la robotique, de l'apprentissage par renforcement base sur les modeles et du controle, avec des stages chez Facebook AI et DeepMind.
Lambert est l'un des defenseurs les plus vocaux du developpement d'IA open source aux Etats-Unis, ecrivant regulierement sur les dynamiques competitives entre les modeles fermes et ouverts, et sur les implications strategiques des publications open-weight chinoises.
Parcours
- Chercheur principal & Responsable du post-training chez AI2 (actuel)
- Direction du developpement du pipeline de post-training TULU (applique aux modeles Llama et OLMo)
- Ancien responsable de l'equipe de recherche RLHF chez Hugging Face
- Auteur de The RLHF Book
- Doctorat en genie electrique et informatique, UC Berkeley
- Stages chez Facebook AI Research et DeepMind
- Fondateur de la newsletter Interconnects AI
Positions notables
Sur l'avantage culturel d'Anthropic
Lambert voit le succes d'Anthropic avec Claude Code comme un phenomene culturel, pas seulement technique. L'entreprise "se presente comme la moins chaotique" des grands laboratoires, et leur pari sur les outils de code a cree un enthousiasme organique de la communaute que le marketing ne peut reproduire.
Sur le pre-entrainement vs. le post-training
Remet en question le discours "le pre-entrainement est mort", arguant que la majeure partie du calcul va encore dans le pre-entrainement et continuera ainsi jusqu'a ce que la qualite du modele de base sature -- moment ou le calcul RL durera simplement plus longtemps. Prevoit l'emergence de paliers d'abonnement a 2 000 $ en 2026.
Sur la strategie open-weight de la Chine
Decrit les entreprises chinoises comme realistes sur leur position : les entreprises occidentales ne paieront pas pour des abonnements API chinois en raison de preoccupations de securite, donc les modeles open-weight sont un jeu strategique pour l'influence mondiale et l'acces au marche. Il prevoit plus de constructeurs de modeles ouverts en 2026 qu'en 2025, avec beaucoup de modeles notables venant de Chine.
Sur les avantages structurels de Google
Soutient que Google a un avantage historique en infrastructure IA car ils developpent tout de bout en bout (TPU personnalises, centres de donnees) sans payer les marges "delirantes" de Nvidia -- un avantage de cout qui se compose a grande echelle.
Citations cles
- "The hype over Anthropic's Claude Opus 4.5 model has been absolutely insane... culturally Anthropic is known for betting very hard on code." (L'engouement autour du modele Claude Opus 4.5 d'Anthropic a ete absolument dement... culturellement, Anthropic est connu pour miser tres fort sur le code.) -- sur Anthropic
- "I still think most of the compute is going in at pre-training because you can still make a model better." (Je pense encore que la majeure partie du calcul va dans le pre-entrainement parce qu'on peut encore ameliorer un modele.) -- sur la mise a l'echelle
- "US models are currently better and we use them... I try Chinese models and I'm like, fun, but I don't go back to it." (Les modeles americains sont actuellement meilleurs et nous les utilisons... J'essaie les modeles chinois et je me dis, amusant, mais je n'y reviens pas.) -- sur la qualite des modeles
Lectures connexes
- Apprentissage par renforcement - Le domaine de recherche principal de Lambert
- Lois de mise a l'echelle - Central dans son analyse du progres de l'IA
- Agents IA - Discute le defi du deploiement des agents
