John Schulman

John Schulman

Co-founder at Thinking Machines

OpenAI共同創設者。PPO(Proximal Policy Optimization)の発明者。OpenAIでRL研究をリード。現在Thinking Machinesを構築。

openairesearchreinforcement-learningpioneer

John Schulmanについて

John SchulmanはOpenAIの共同創設者で、強化学習で最も影響力のある研究者の一人です。PPO(Proximal Policy Optimization)を発明しました。これはRLHFを含むOpenAIの初期の成功の多くを支えたアルゴリズムです。現在Thinking Machinesを構築しています。

キャリアハイライト

  • Thinking Machines (2024年-現在): 共同創設者
  • OpenAI (2015-2024): 共同創設者、RL研究チームをリード
  • PPO (2017年): Proximal Policy Optimizationを発明、標準RLアルゴリズムになる
  • RLHF: 人間のフィードバックからの強化学習への主要な貢献者
  • Berkeley博士号: Pieter Abbeelの下で研究

注目すべき見解

ChatGPTスピードランについて

後知恵でどれだけ早くできたか:

“With full hindsight, you could probably do something back in 2018 or 2019 with a few people that would get to GPT-3.5 level. NanoGPT was programmed by one person on one box in half a year. Maybe in the future we’ll get the demo scene ChatGPT - one file that trains the whole thing and scrapes the web in a day.”

「完全な後知恵があれば、2018年か2019年に数人でGPT-3.5レベルに到達できることをおそらくできたでしょう。NanoGPTは1人が1つのボックスで半年でプログラムしました。おそらく将来、デモシーンChatGPTを手に入れるでしょう - 全体をトレーニングし、1日でウェブをスクレイプする1つのファイル。」

初期のOpenAI文化について

バラバラの始まり:

“Early OpenAI was more rag tag, almost like an academic group. People worked in groups of one, two, three on research projects that would turn into papers. We were influenced by DeepMind who pioneered this way of working with AlphaGo.”

「初期のOpenAIはよりバラバラで、ほとんど学術グループのようでした。人々は1、2、3人のグループで論文になる研究プロジェクトに取り組みました。AlphaGoでこの働き方を開拓したDeepMindに影響を受けました。」

マルチエージェントトレーニングについて

ゲームが重要な理由:

“I’m pretty fond of ideas around multi-agent training and games. Games give you automatic curriculum - if you’re playing against copies of yourself, opponents get better as you get better. There are theoretical CS reasons why setting up games might solve really hard problems.”

「マルチエージェントトレーニングとゲームに関するアイデアが非常に好きです。ゲームは自動カリキュラムを与えます - 自分のコピーと対戦する場合、改善するにつれて対戦相手が改善します。ゲームをセットアップすることが本当に難しい問題を解決するかもしれない理論的なCS理由があります。」

主な引用

  • “完全な後知恵で2018-2019年に数人でGPT-3.5レベル。”
  • “Universeは10年早すぎました。”
  • “ほとんどのプロジェクトは技術ツリーのメインブランチに終わりません。“

関連記事

Video Mentions

Video thumbnail

ChatGPTスピードラン

完全な後知恵があれば、2018年か2019年に数人でGPT-3.5レベルに到達できることをおそらくできたでしょう。NanoGPTは1人が1つのボックスで半年でプログラムしました。

Video thumbnail

初期のOpenAI文化

初期のOpenAIはよりバラバラで、ほとんど学術グループのようでした。人々は1、2、3人のグループで論文になる研究プロジェクトに取り組みました。AlphaGoでこの働き方を開拓したDeepMindに影響を受けました。

Video thumbnail

正しかった失敗したプロジェクト

Universeは深く正しいアイデアでしたが、早すぎました - おそらく10年早すぎました。多くのRL環境を作成し、それらすべてで共同トレーニングしようとしました。システムは扱いにくく、モデルは一般化しませんでした。

Video thumbnail

マルチエージェントトレーニング

マルチエージェントトレーニングとゲームに関するアイデアが非常に好きです。ゲームは自動カリキュラムを与えます - 自分のコピーと対戦する場合、対戦相手は改善するにつれて改善します。

Video thumbnail

研究にAIを使用

今アイデアがあれば、GPT-5 Proに多くの質問を発し、文献検索を行わせます。1〜2段落を書き、モデルに肉付けするよう伝えます。コンテキストは非常に重要です - ノートブックをLLMに貼り付けてフィードバックを得ます。