Nathan Lambert

Senior Research Scientist & Post-Training Lead

researchopen-sourcerlhfpost-training

Sobre Nathan Lambert

Nathan Lambert es Senior Research Scientist y lider de post-entrenamiento en el Allen Institute for AI (AI2), donde lidera el trabajo en TULU — uno de los pocos pipelines de post-entrenamiento completamente abiertos para modelos de lenguaje. Tambien es autor de The RLHF Book, la referencia definitiva sobre aprendizaje por refuerzo con retroalimentacion humana, y fundador de la newsletter Interconnects AI.

Antes de AI2, Lambert construyo el equipo de investigacion de RLHF en Hugging Face y contribuyo integraciones de aprendizaje por refuerzo a la ampliamente utilizada biblioteca Diffusers. Tiene un doctorado de UC Berkeley, donde trabajo en la interseccion de robotica, aprendizaje por refuerzo basado en modelos y control, con pasantias en Facebook AI y DeepMind.

Lambert es uno de los defensores mas activos del desarrollo de IA de codigo abierto en EE.UU., escribiendo regularmente sobre las dinamicas competitivas entre modelos cerrados y abiertos, y las implicaciones estrategicas de los lanzamientos de modelos abiertos chinos.

Trayectoria profesional

Senior Research Scientist y lider de post-entrenamiento en AI2 (actual)
Lidero el desarrollo del pipeline de post-entrenamiento TULU (aplicado a modelos Llama y OLMo)
Ex lider del equipo de investigacion de RLHF en Hugging Face
Autor de The RLHF Book
Doctorado en Ingenieria Electrica y Ciencias de la Computacion, UC Berkeley
Pasantias en Facebook AI Research y DeepMind
Fundador de la newsletter Interconnects AI

Posiciones destacadas

Sobre la ventaja cultural de Anthropic

Lambert ve el exito de Anthropic con Claude Code como un fenomeno cultural, no solo tecnico. La empresa "se presenta como la menos caotica" de los grandes laboratorios, y su apuesta por las herramientas de codigo ha creado un entusiasmo organico en la comunidad que el marketing no puede replicar.

Sobre pre-entrenamiento vs. post-entrenamiento

Cuestiona la narrativa de que "el pre-entrenamiento esta muerto", argumentando que la mayor parte del computo aun se destina al pre-entrenamiento y seguira asi hasta que la calidad del modelo base se sature — momento en el cual el computo de RL simplemente se extendera mas. Espera que surjan planes de suscripcion de $2,000 en 2026.

Sobre la estrategia de modelos abiertos de China

Describe a las empresas chinas como realistas sobre su posicion: las empresas occidentales no pagaran por suscripciones API chinas debido a preocupaciones de seguridad, por lo que los modelos abiertos son una jugada estrategica para lograr influencia global y acceso al mercado. Espera mas constructores de modelos abiertos en 2026 que en 2025, con muchos destacados provenientes de China.

Sobre las ventajas estructurales de Google

Argumenta que Google tiene una ventaja historica en infraestructura de IA porque desarrollan todo de arriba a abajo (TPUs personalizados, centros de datos) sin pagar los margenes "descomunales" de Nvidia — una ventaja de costos que se multiplica a escala.

Citas clave

"The hype over Anthropic's Claude Opus 4.5 model has been absolutely insane... culturally Anthropic is known for betting very hard on code." (El hype sobre el modelo Claude Opus 4.5 de Anthropic ha sido absolutamente descomunal... culturalmente Anthropic es conocida por apostar muy fuerte por el codigo.) — sobre Anthropic
"I still think most of the compute is going in at pre-training because you can still make a model better." (Sigo pensando que la mayor parte del computo se destina al pre-entrenamiento porque aun puedes mejorar un modelo.) — sobre el escalamiento
"US models are currently better and we use them... I try Chinese models and I'm like, fun, but I don't go back to it." (Los modelos de EE.UU. son actualmente mejores y los usamos... Pruebo modelos chinos y pienso, divertido, pero no vuelvo a ellos.) — sobre la calidad de los modelos

Lectura relacionada

Reinforcement Learning - El area central de investigacion de Lambert
Scaling Laws - Central en su analisis del progreso de la IA
AI Agents - Discute el desafio del despliegue de agentes

Video Appearances

Estado de la IA y modelos abiertos

Analiza el hype de Claude Opus 4.5 de Anthropic, la competencia de modelos abiertos chinos y por que las ventajas de infraestructura de Google podrian determinar la carrera de la IA. Lidera el post-entrenamiento de TULU en AI2.

at 00:05:00

Related People

Sebastian Raschka Lex Fridman