
John Schulman
Co-founder at Thinking Machines
OpenAI 联合创始人。PPO(近端策略优化)的发明者。领导 OpenAI 的 RL 研究。现在构建 Thinking Machines。
关于 John Schulman
John Schulman 是 OpenAI 的联合创始人,也是强化学习领域最有影响力的研究者之一。他发明了 PPO(近端策略优化),这种算法为 OpenAI 的早期成功提供动力,包括 RLHF。他现在正在构建 Thinking Machines。
职业亮点
- Thinking Machines(2024 年至今):联合创始人
- OpenAI(2015-2024):联合创始人,领导 RL 研究团队
- PPO(2017):发明近端策略优化,成为标准 RL 算法
- RLHF:人类反馈强化学习的关键贡献者
- 伯克利博士:师从 Pieter Abbeel
重要观点
关于 ChatGPT 快速运行
用完全后见之明可以多快完成:
“With full hindsight, you could probably do something back in 2018 or 2019 with a few people that would get to GPT-3.5 level. NanoGPT was programmed by one person on one box in half a year. Maybe in the future we’ll get the demo scene ChatGPT - one file that trains the whole thing and scrapes the web in a day.”
“从完全后见之明来看,你可能可以在 2018 年或 2019 年用几个人做一些事情,达到 GPT-3.5 级别。NanoGPT 由一个人在一个盒子上在半年内编程。也许将来我们会得到演示场景 ChatGPT——一个文件训练整个事情并在一天内抓取网络。“
关于早期 OpenAI 文化
松散的开始:
“Early OpenAI was more rag tag, almost like an academic group. People worked in groups of one, two, three on research projects that would turn into papers. We were influenced by DeepMind who pioneered this way of working with AlphaGo.”
“早期的 OpenAI 更像一个杂乱的小组,几乎像一个学术小组。人们以一、二、三人的小组进行研究项目,最终变成论文。我们受到 DeepMind 的影响,他们用 AlphaGo 开创了这种工作方式。“
关于失败的项目
Universe 是正确的,但太早了:
“Universe was a deeply correct idea but way too early - maybe a decade too early. We tried to create lots of RL environments and joint train on all of them for a general RL agent. The system was unwieldy and models didn’t generalize. Not all projects are successful - maybe even the norm is for a project not to be part of the main branch of the tech tree.”
“Universe 是一个深刻正确的想法,但太早了——也许早了十年。我们试图创建大量 RL 环境并对所有环境进行联合训练,以获得通用 RL agent。系统很笨重,模型没有泛化。并非所有项目都成功——也许项目不成为技术树主分支的常态。“
关键语录
- “2018-2019 年用几个人完全后见之明达到 GPT-3.5 级别。”
- “Universe 早了十年。”
- “大多数项目最终不在技术树的主分支上。“
相关阅读
- 扩展定律 - Schulman 帮助发现的
- 扩展时代的终结 - Schulman 正在驾驭的转变
- Ilya Sutskever - OpenAI 联合创始人