John Schulman:ChatGPT本可以在2018年构建
OpenAI联合创始人透露早期OpenAI'像学术小组一样七拼八凑',以及为什么好想法在前提条件缺失时会失败。
John Schulman如何看待前沿AI研究的起源
John Schulman联合创立了OpenAI,创造了PPO(RLHF背后的算法),最近离开创办了Thinking Machines。这次罕见的采访提供了前沿AI研究实际如何运作的内部视角:错误的开始、组织文化、区分高产实验室与其他实验室的研究品味。对于任何正在构建AI团队或思考研究组织的人来说,这是第一手资料。
关于早期ChatGPT本可以发生: "With full hindsight, I think you could have gotten something back in 2018 or 2019 with a few people that would get to GPT 3.5 level... nanoGPT is just programmed by one person and runs on one box."(以完全的后见之明,我认为你本可以在2018年或2019年用几个人做出达到GPT 3.5水平的东西...nanoGPT只是由一个人编程并在一台机器上运行。)含义:障碍是知识和信念,而不是算力或团队规模。一个拥有正确洞见的小团队本可以提前数年构建它。
关于早期OpenAI的文化: "It was more rag tag, maybe even like an academic group... a bunch of different research projects driven by people's own taste, groups of one to three people working on something that would turn into a paper or blog post."(它更像是七拼八凑的,甚至可能像一个学术小组...一堆由人们自己品味驱动的不同研究项目,一到三人的小组在做一些最终会变成论文或博客文章的事情。)形成期不是协调的登月计划——而是探索性研究,最终结晶成更大的东西。
关于失败的Universe项目: "There was a project called Universe... the idea was to collect lots of video games and web navigation tasks. It ended up being unsuccessful at the time, but the funny thing is I think it was a deeply correct idea, just a decade too early."(有一个叫Universe的项目...想法是收集大量视频游戏和网络导航任务。它当时最终没有成功,但有趣的是我认为这是一个非常正确的想法,只是早了十年。)模式:好想法在前提条件缺失时会失败,然后在条件改变时成功。
关于研究管理的权衡: "I've seen very different approaches be successful. One model where the manager writes a lot of code, reads all their reports' code, gives detailed technical feedback. I've also seen more hands-off managers who are just sounding boards... both work in different places."(我见过非常不同的方法取得成功。一种模式是管理者写大量代码,阅读所有报告的代码,给出详细的技术反馈。我也见过更放手的管理者,他们只是听取意见...两种方式在不同的地方都有效。)探索性研究需要放手;执行模式需要亲力亲为。上下文决定风格。
关于他如何使用AI进行研究: "If I have an idea, I'll fire off a bunch of questions to GPT-5 Pro and have it do literature searches. Sometimes I'll write a paragraph and tell the model to flesh it out... definitely the literature search ability is extremely useful."(如果我有一个想法,我会向GPT-5 Pro发送一堆问题,让它做文献搜索。有时我会写一段话,让模型充实它...文献搜索能力绝对非常有用。)即使是顶级研究人员也使用LLM进行第一轮反馈和文献发现。
John Schulman关于研究文化和AI进展的6个洞见
- ChatGPT本可以提前数年构建 - 以完全的后见之明,2018-2019年的一个小团队本可以达到GPT-3.5水平;障碍是洞见,而不是资源
- 早期OpenAI是学术风格的 - 一到三人的小组追求自己的研究品味,而不是协调的登月计划;更大的项目后来才出现
- "正确但太早"是一种模式 - Universe(强化学习环境)是一个比前提条件存在早十年的正确想法;失败的项目经常回归
- 研究管理取决于上下文 - 亲力亲为适用于执行和初级人员;放手适用于探索和有经验的个人贡献者
- 价值函数将卷土重来 - 目前在LLM强化学习中未被充分利用,但Schulman预计随着时间范围延长它们会回归
- Thinking Machines在追赶和探索之间平衡 - 新实验室必须复制最先进水平,同时建立探索性研究能力;文化很难后来添加
这对AI研究组织意味着什么
Schulman的观点揭开了前沿AI研究的神秘面纱。关键洞见:早期OpenAI不是一个完美组织的登月计划——而是探索性研究,最终在扩展上达成一致。ChatGPT的反事实(以后见之明在2018年可构建)表明,限制因素不是算力或团队规模,而是知识和信念。对于正在构建AI研究能力的组织,含义是文化和研究品味比资源更重要,"正确但太早"的想法值得跟踪,因为条件最终会改变。


