
Nathan Lambert
Senior Research Scientist & Post-Training Lead
Sobre Nathan Lambert
Nathan Lambert es Senior Research Scientist y lider de post-entrenamiento en el Allen Institute for AI (AI2), donde lidera el trabajo en TULU — uno de los pocos pipelines de post-entrenamiento completamente abiertos para modelos de lenguaje. Tambien es autor de The RLHF Book, la referencia definitiva sobre aprendizaje por refuerzo con retroalimentacion humana, y fundador de la newsletter Interconnects AI.
Antes de AI2, Lambert construyo el equipo de investigacion de RLHF en Hugging Face y contribuyo integraciones de aprendizaje por refuerzo a la ampliamente utilizada biblioteca Diffusers. Tiene un doctorado de UC Berkeley, donde trabajo en la interseccion de robotica, aprendizaje por refuerzo basado en modelos y control, con pasantias en Facebook AI y DeepMind.
Lambert es uno de los defensores mas activos del desarrollo de IA de codigo abierto en EE.UU., escribiendo regularmente sobre las dinamicas competitivas entre modelos cerrados y abiertos, y las implicaciones estrategicas de los lanzamientos de modelos abiertos chinos.
Trayectoria profesional
- Senior Research Scientist y lider de post-entrenamiento en AI2 (actual)
- Lidero el desarrollo del pipeline de post-entrenamiento TULU (aplicado a modelos Llama y OLMo)
- Ex lider del equipo de investigacion de RLHF en Hugging Face
- Autor de The RLHF Book
- Doctorado en Ingenieria Electrica y Ciencias de la Computacion, UC Berkeley
- Pasantias en Facebook AI Research y DeepMind
- Fundador de la newsletter Interconnects AI
Posiciones destacadas
Sobre la ventaja cultural de Anthropic
Lambert ve el exito de Anthropic con Claude Code como un fenomeno cultural, no solo tecnico. La empresa "se presenta como la menos caotica" de los grandes laboratorios, y su apuesta por las herramientas de codigo ha creado un entusiasmo organico en la comunidad que el marketing no puede replicar.
Sobre pre-entrenamiento vs. post-entrenamiento
Cuestiona la narrativa de que "el pre-entrenamiento esta muerto", argumentando que la mayor parte del computo aun se destina al pre-entrenamiento y seguira asi hasta que la calidad del modelo base se sature — momento en el cual el computo de RL simplemente se extendera mas. Espera que surjan planes de suscripcion de $2,000 en 2026.
Sobre la estrategia de modelos abiertos de China
Describe a las empresas chinas como realistas sobre su posicion: las empresas occidentales no pagaran por suscripciones API chinas debido a preocupaciones de seguridad, por lo que los modelos abiertos son una jugada estrategica para lograr influencia global y acceso al mercado. Espera mas constructores de modelos abiertos en 2026 que en 2025, con muchos destacados provenientes de China.
Sobre las ventajas estructurales de Google
Argumenta que Google tiene una ventaja historica en infraestructura de IA porque desarrollan todo de arriba a abajo (TPUs personalizados, centros de datos) sin pagar los margenes "descomunales" de Nvidia — una ventaja de costos que se multiplica a escala.
Citas clave
- "The hype over Anthropic's Claude Opus 4.5 model has been absolutely insane... culturally Anthropic is known for betting very hard on code." (El hype sobre el modelo Claude Opus 4.5 de Anthropic ha sido absolutamente descomunal... culturalmente Anthropic es conocida por apostar muy fuerte por el codigo.) — sobre Anthropic
- "I still think most of the compute is going in at pre-training because you can still make a model better." (Sigo pensando que la mayor parte del computo se destina al pre-entrenamiento porque aun puedes mejorar un modelo.) — sobre el escalamiento
- "US models are currently better and we use them... I try Chinese models and I'm like, fun, but I don't go back to it." (Los modelos de EE.UU. son actualmente mejores y los usamos... Pruebo modelos chinos y pienso, divertido, pero no vuelvo a ellos.) — sobre la calidad de los modelos
Lectura relacionada
- Reinforcement Learning - El area central de investigacion de Lambert
- Scaling Laws - Central en su analisis del progreso de la IA
- AI Agents - Discute el desafio del despliegue de agentes
