John Schulman

John Schulman

Co-founder at Thinking Machines

Spoluzakladatel OpenAI. Vynálezce PPO (Proximal Policy Optimization). Vedl RL výzkum v OpenAI. Nyní buduje Thinking Machines.

openairesearchreinforcement-learningpioneer

O John Schulman

John Schulman je spoluzakladatel OpenAI a jeden z nejvlivnějších výzkumníků v reinforcement learningu. Vynalezl PPO (Proximal Policy Optimization), algoritmus, který poháněl hodně raného OpenAI úspěchu včetně RLHF. Nyní buduje Thinking Machines.

Kariérní milníky

  • Thinking Machines (2024-současnost): Spoluzakladatel
  • OpenAI (2015-2024): Spoluzakladatel, vedl RL research tým
  • PPO (2017): Vynalezl Proximal Policy Optimization, stal se standardním RL algoritmem
  • RLHF: Klíčový přispěvatel k reinforcement learning from human feedback
  • Berkeley PhD: Studoval pod Pieter Abbeelem

Významné postoje

K ChatGPT speed run

“With full hindsight, you could probably do something back in 2018 or 2019 with a few people that would get to GPT-3.5 level.”

Překlad: “S plným hindsightem byste mohli pravděpodobně udělat něco zpět v 2018 nebo 2019 s pár lidmi, co by dostalo na GPT-3.5 úroveň.”

K neúspěšným projektům

“Universe was a deeply correct idea but way too early - maybe a decade too early.”

Překlad: “Universe byl hluboko správný nápad, ale cesta příliš brzy - možná dekádu příliš brzy.”

K používání AI pro výzkum

“If I have an idea now, I fire off a bunch of questions to GPT-5 Pro and have it do literature searches.”

Překlad: “Pokud mám nápad nyní, vystřelím spoustu otázek na GPT-5 Pro a nechám ho dělat literaturní vyhledávání.”

Klíčové citáty

  • “GPT-3.5 úroveň v 2018-2019 s pár lidmi a plným hindsightem.”
  • “Universe byl dekádu příliš brzy.”

Související články

Video Mentions

Video thumbnail

ChatGPT speed run

S plným hindsightem byste mohli pravděpodobně udělat něco zpět v 2018 nebo 2019 s pár lidmi, co by dostalo na GPT-3.5 úroveň. NanoGPT byl naprogramován jednou osobou na jednom boxu za půl roku.

Video thumbnail

Neúspěšné projekty, které byly správné

Universe byl hluboko správný nápad, ale cesta příliš brzy - možná dekádu příliš brzy. Snažili jsme se vytvořit mnoho RL prostředí a joint train na všech. Systém byl neohrabaný a modely negeneralizovaly.