John Schulman

John Schulman

Co-founder at Thinking Machines

Spoluzakladateľ OpenAI. Vynálezca PPO (Proximal Policy Optimization). Viedol RL výskum v OpenAI. Teraz buduje Thinking Machines.

openairesearchreinforcement-learningpioneer

O John Schulman

John Schulman je spoluzakladateľ OpenAI a jeden z najvplyvnejších výskumníkov v posilňovacom učení. Vynašiel PPO (Proximal Policy Optimization), algoritmus, ktorý poháňal veľkú časť skorého úspechu OpenAI vrátane RLHF. Teraz buduje Thinking Machines.

Kariérne míľniky

  • Thinking Machines (2024-súčasnosť): Spoluzakladateľ
  • OpenAI (2015-2024): Spoluzakladateľ, viedol RL výskumný tím
  • PPO (2017): Vynašiel Proximal Policy Optimization, stal sa štandardným RL algoritmom
  • RLHF: Kľúčový prispievateľ k posilňovaciemu učeniu z ľudskej spätnej väzby
  • Berkeley PhD: Študoval pod Pieterom Abbeelom

Významné postoje

O ChatGPT Speed Run

Ako rýchlo to mohlo byť urobené s retrospektívnym pohľadom:

“With full hindsight, you could probably do something back in 2018 or 2019 with a few people that would get to GPT-3.5 level. NanoGPT was programmed by one person on one box in half a year. Maybe in the future we’ll get the demo scene ChatGPT - one file that trains the whole thing and scrapes the web in a day.”

“S plným retrospektívnym pohľadom ste mohli pravdepodobne niečo urobiť v roku 2018 alebo 2019 s pár ľuďmi, čo by sa dostalo na úroveň GPT-3.5. NanoGPT naprogramoval jeden človek na jednom boxe za pol roka. Možno v budúcnosti dostaneme demo scénu ChatGPT - jeden súbor, ktorý trénuje celú vec a zgrepuje web za deň.”

O skorej kultúre OpenAI

Improvizované začiatky:

“Early OpenAI was more rag tag, almost like an academic group. People worked in groups of one, two, three on research projects that would turn into papers. We were influenced by DeepMind who pioneered this way of working with AlphaGo.”

“Skorá OpenAI bola viac improvizovaná, takmer ako akademická skupina. Ľudia pracovali v skupinách jeden, dva, tri na výskumných projektoch, ktoré by sa zmenili na články. Ovplyvnil nás DeepMind, ktorý bol priekopníkom tohto spôsobu práce s AlphaGo.”

O neúspešných projektoch

Universe mal pravdu, ale príliš skoro:

“Universe was a deeply correct idea but way too early - maybe a decade too early. We tried to create lots of RL environments and joint train on all of them for a general RL agent. The system was unwieldy and models didn’t generalize. Not all projects are successful - maybe even the norm is for a project not to be part of the main branch of the tech tree.”

“Universe bol hlboko správny nápad, ale príliš skoro - možno o desaťročie skoro. Snažili sme sa vytvoriť veľa RL prostredí a spoločne trénovať na všetkých pre všeobecného RL agenta. Systém bol ťažkopádny a modely negeneralizovali. Nie všetky projekty sú úspešné - možno dokonca normou je, že projekt nie je súčasťou hlavnej vetvy technologického stromu.”

O manažmente výskumu

Dva platné prístupy:

“I’ve seen people take very different approaches and be successful. One model: hands-on manager writing code, reading all reports’ code, giving detailed technical feedback. Another: hands-off manager being a sounding board, giving career advice, letting people do their own thing. Both work in different places.”

“Videl som ľudí zaujať veľmi odlišné prístupy a byť úspešní. Jeden model: praktický manažér píšuci kód, čítajúci kód všetkých reportov, dávajúci detailnú technickú spätnú väzbu. Druhý: manažér bez zásahov, ktorý je rezonančnou doskou, dáva kariérne rady, nechá ľudí robiť ich vec. Oba fungujú na rôznych miestach.”

O multi-agentnom tréningu

Prečo hry záležia:

“I’m pretty fond of ideas around multi-agent training and games. Games give you automatic curriculum - if you’re playing against copies of yourself, opponents get better as you get better. There are theoretical CS reasons why setting up games might solve really hard problems.”

“Som celkom nadšený z nápadov okolo multi-agentného tréningu a hier. Hry vám dávajú automatické kurikulum - ak hráte proti kópiám seba samého, oponenti sa zlepšujú, keď sa vy zlepšujete. Existujú teoretické CS dôvody, prečo nastavenie hier môže vyriešiť skutočne ťažké problémy.”

O používaní AI pre výskum

Ako teraz pracuje:

“If I have an idea now, I fire off a bunch of questions to GPT-5 Pro and have it do literature searches. I’ll write a paragraph or two and tell the model to flesh it out. Keeping a lab notebook is probably even more useful now - paste your notebook into the LLM for feedback.”

“Ak mám teraz nápad, pošlem hromadu otázok do GPT-5 Pro a nechám ho urobiť literatúrne vyhľadávania. Napíšem odsek alebo dva a poviem modelu, aby to rozpracoval. Vedenie laboratórneho zápisníka je pravdepodobne ešte užitočnejšie teraz - vložte svoj zápisník do LLM pre spätnú väzbu.”

Kľúčové citáty

  • “GPT-3.5 úroveň v 2018-2019 s pár ľuďmi a plným retrospektívnym pohľadom.”
  • “Universe bol o desaťročie príliš skoro.”
  • “Väčšina projektov neskončí na hlavnej vetve technologického stromu.”

Súvisiace čítanie

Video Mentions

Video thumbnail

ChatGPT speed run

S plným retrospektívnym pohľadom ste mohli pravdepodobne niečo urobiť v roku 2018 alebo 2019 s pár ľuďmi, čo by sa dostalo na úroveň GPT-3.5. NanoGPT naprogramoval jeden človek na jednom boxe za pol roka.

Video thumbnail

Skorá kultúra OpenAI

Skorá OpenAI bola viac improvizovaná, takmer ako akademická skupina. Ľudia pracovali v skupinách jeden, dva, tri na výskumných projektoch, ktoré by sa zmenili na články. Ovplyvnil nás DeepMind, ktorý bol priekopníkom tohto spôsobu práce s AlphaGo.

Video thumbnail

Neúspešné projekty, ktoré mali pravdu

Universe bol hlboko správny nápad, ale príliš skoro - možno o desaťročie skoro. Snažili sme sa vytvoriť veľa RL prostredí a spoločne trénovať na všetkých. Systém bol ťažkopádny a modely negeneralizovali.

Video thumbnail

Multi-agentný tréning

Som celkom nadšený z nápadov okolo multi-agentného tréningu a hier. Hry vám dávajú automatické kurikulum - ak hráte proti kópiám seba samého, oponenti sa zlepšujú, keď sa vy zlepšujete.

Video thumbnail

Používanie AI pre výskum

Ak mám teraz nápad, pošlem hromadu otázok do GPT-5 Pro a nechám ho urobiť literatúrne vyhľadávania. Napíšem odsek alebo dva a poviem modelu, aby to rozpracoval. Kontext je taký dôležitý - vložte svoj zápisník do LLM pre spätnú väzbu.