John Schulman

John Schulman

Co-founder at Thinking Machines

OpenAI 联合创始人。PPO(近端策略优化)的发明者。领导 OpenAI 的 RL 研究。现在构建 Thinking Machines。

openairesearchreinforcement-learningpioneer

关于 John Schulman

John Schulman 是 OpenAI 的联合创始人,也是强化学习领域最有影响力的研究者之一。他发明了 PPO(近端策略优化),这种算法为 OpenAI 的早期成功提供动力,包括 RLHF。他现在正在构建 Thinking Machines。

职业亮点

  • Thinking Machines(2024 年至今):联合创始人
  • OpenAI(2015-2024):联合创始人,领导 RL 研究团队
  • PPO(2017):发明近端策略优化,成为标准 RL 算法
  • RLHF:人类反馈强化学习的关键贡献者
  • 伯克利博士:师从 Pieter Abbeel

重要观点

关于 ChatGPT 快速运行

用完全后见之明可以多快完成:

“With full hindsight, you could probably do something back in 2018 or 2019 with a few people that would get to GPT-3.5 level. NanoGPT was programmed by one person on one box in half a year. Maybe in the future we’ll get the demo scene ChatGPT - one file that trains the whole thing and scrapes the web in a day.”

“从完全后见之明来看,你可能可以在 2018 年或 2019 年用几个人做一些事情,达到 GPT-3.5 级别。NanoGPT 由一个人在一个盒子上在半年内编程。也许将来我们会得到演示场景 ChatGPT——一个文件训练整个事情并在一天内抓取网络。“

关于早期 OpenAI 文化

松散的开始:

“Early OpenAI was more rag tag, almost like an academic group. People worked in groups of one, two, three on research projects that would turn into papers. We were influenced by DeepMind who pioneered this way of working with AlphaGo.”

“早期的 OpenAI 更像一个杂乱的小组,几乎像一个学术小组。人们以一、二、三人的小组进行研究项目,最终变成论文。我们受到 DeepMind 的影响,他们用 AlphaGo 开创了这种工作方式。“

关于失败的项目

Universe 是正确的,但太早了:

“Universe was a deeply correct idea but way too early - maybe a decade too early. We tried to create lots of RL environments and joint train on all of them for a general RL agent. The system was unwieldy and models didn’t generalize. Not all projects are successful - maybe even the norm is for a project not to be part of the main branch of the tech tree.”

“Universe 是一个深刻正确的想法,但太早了——也许早了十年。我们试图创建大量 RL 环境并对所有环境进行联合训练,以获得通用 RL agent。系统很笨重,模型没有泛化。并非所有项目都成功——也许项目不成为技术树主分支的常态。“

关键语录

  • “2018-2019 年用几个人完全后见之明达到 GPT-3.5 级别。”
  • “Universe 早了十年。”
  • “大多数项目最终不在技术树的主分支上。“

相关阅读

Video Mentions

Video thumbnail

ChatGPT 快速运行

从完全后见之明来看,你可能可以在 2018 年或 2019 年用几个人做一些事情,达到 GPT-3.5 级别。NanoGPT 由一个人在一个盒子上在半年内编程。

Video thumbnail

早期 OpenAI 文化

早期的 OpenAI 更像是一个学术小组。人们以一、二、三人的小组进行研究项目,最终变成论文。我们受到 DeepMind 的影响,他们用 AlphaGo 开创了这种工作方式。

Video thumbnail

失败但正确的项目

Universe 是一个深刻正确的想法,但太早了——也许早了十年。我们试图创建大量 RL 环境并对所有环境进行联合训练。系统很笨重,模型没有泛化。

Video thumbnail

多智能体训练

我非常喜欢围绕多智能体训练和游戏的想法。游戏为你提供自动课程——如果你与自己的副本对战,对手会随着你变得更好而变得更好。

Video thumbnail

使用 AI 进行研究

如果我现在有一个想法,我会向 GPT-5 Pro 发送一堆问题并让它进行文献搜索。我会写一两段,然后告诉模型充实它。上下文非常重要——将你的笔记本粘贴到 LLM 中以获得反馈。