
Nathan Lambert
高级研究科学家与后训练负责人
关于Nathan Lambert
Nathan Lambert是Allen Institute for AI (AI2)的高级研究科学家和后训练负责人,他在那里领导TULU项目——这是为数不多的完全开放的语言模型后训练流程之一。他也是The RLHF Book的作者,这是关于基于人类反馈的强化学习的权威参考书,同时还是Interconnects AI通讯的创始人。
在加入AI2之前,Lambert在Hugging Face建立了RLHF研究团队,并为广泛使用的Diffusers库贡献了强化学习集成。他拥有UC Berkeley的博士学位,研究方向涉及机器人技术、基于模型的强化学习和控制,曾在Facebook AI和DeepMind实习。
Lambert是美国最积极倡导开源AI发展的声音之一,他经常撰写关于封闭模型与开放模型之间竞争动态以及中国开源权重发布的战略影响的文章。
职业亮点
- AI2高级研究科学家与后训练负责人(现任)
- 领导TULU后训练流程开发(应用于Llama和OLMo模型)
- 前Hugging Face RLHF研究团队负责人
- The RLHF Book作者
- UC Berkeley电气工程与计算机科学博士
- 曾在Facebook AI Research和DeepMind实习
- Interconnects AI通讯创始人
重要观点
关于Anthropic的文化优势
Lambert认为Anthropic在Claude Code上的成功是一种文化现象,而非仅仅是技术上的。该公司是主要实验室中"表现得最不混乱的",他们在代码工具上的押注创造了营销无法复制的社区自发热情。
关于预训练与后训练
反驳"预训练已死"的说法,认为大部分算力仍然投入预训练,并将持续如此,直到基础模型质量饱和——届时强化学习的算力投入将会持续更长时间。预计2026年将出现2,000美元的订阅层级。
关于中国的开源权重策略
描述中国公司对自身定位很现实:由于安全顾虑,西方公司不会为中国的API订阅付费,因此开源权重模型是争取全球影响力和市场准入的战略举措。他预计2026年的开放模型构建者将比2025年更多,其中许多著名的来自中国。
关于Google的结构性优势
认为Google在AI基础设施方面拥有历史性优势,因为他们从上到下自主开发一切(定制TPU、数据中心),无需支付Nvidia"疯狂的"利润率——这是一种在规模上不断累积的成本优势。
经典语录
- "围绕Anthropic的Claude Opus 4.5模型的热度简直疯狂......从文化上来说,Anthropic以在代码领域重注著称。"(关于Anthropic)
- "我仍然认为大部分算力投入在预训练阶段,因为你仍然可以让模型变得更好。"(关于扩展)
- "美国的模型目前更好,我们也在使用......我试过中国的模型,觉得有意思,但我不会再回去用。"(关于模型质量)
