
John Schulman
Co-founder at Thinking Machines
Spoluzakladateľ OpenAI. Vynálezca PPO (Proximal Policy Optimization). Viedol RL výskum v OpenAI. Teraz buduje Thinking Machines.
O John Schulman
John Schulman je spoluzakladateľ OpenAI a jeden z najvplyvnejších výskumníkov v posilňovacom učení. Vynašiel PPO (Proximal Policy Optimization), algoritmus, ktorý poháňal veľkú časť skorého úspechu OpenAI vrátane RLHF. Teraz buduje Thinking Machines.
Kariérne míľniky
- Thinking Machines (2024-súčasnosť): Spoluzakladateľ
- OpenAI (2015-2024): Spoluzakladateľ, viedol RL výskumný tím
- PPO (2017): Vynašiel Proximal Policy Optimization, stal sa štandardným RL algoritmom
- RLHF: Kľúčový prispievateľ k posilňovaciemu učeniu z ľudskej spätnej väzby
- Berkeley PhD: Študoval pod Pieterom Abbeelom
Významné postoje
O ChatGPT Speed Run
Ako rýchlo to mohlo byť urobené s retrospektívnym pohľadom:
“With full hindsight, you could probably do something back in 2018 or 2019 with a few people that would get to GPT-3.5 level. NanoGPT was programmed by one person on one box in half a year. Maybe in the future we’ll get the demo scene ChatGPT - one file that trains the whole thing and scrapes the web in a day.”
“S plným retrospektívnym pohľadom ste mohli pravdepodobne niečo urobiť v roku 2018 alebo 2019 s pár ľuďmi, čo by sa dostalo na úroveň GPT-3.5. NanoGPT naprogramoval jeden človek na jednom boxe za pol roka. Možno v budúcnosti dostaneme demo scénu ChatGPT - jeden súbor, ktorý trénuje celú vec a zgrepuje web za deň.”
O skorej kultúre OpenAI
Improvizované začiatky:
“Early OpenAI was more rag tag, almost like an academic group. People worked in groups of one, two, three on research projects that would turn into papers. We were influenced by DeepMind who pioneered this way of working with AlphaGo.”
“Skorá OpenAI bola viac improvizovaná, takmer ako akademická skupina. Ľudia pracovali v skupinách jeden, dva, tri na výskumných projektoch, ktoré by sa zmenili na články. Ovplyvnil nás DeepMind, ktorý bol priekopníkom tohto spôsobu práce s AlphaGo.”
O neúspešných projektoch
Universe mal pravdu, ale príliš skoro:
“Universe was a deeply correct idea but way too early - maybe a decade too early. We tried to create lots of RL environments and joint train on all of them for a general RL agent. The system was unwieldy and models didn’t generalize. Not all projects are successful - maybe even the norm is for a project not to be part of the main branch of the tech tree.”
“Universe bol hlboko správny nápad, ale príliš skoro - možno o desaťročie skoro. Snažili sme sa vytvoriť veľa RL prostredí a spoločne trénovať na všetkých pre všeobecného RL agenta. Systém bol ťažkopádny a modely negeneralizovali. Nie všetky projekty sú úspešné - možno dokonca normou je, že projekt nie je súčasťou hlavnej vetvy technologického stromu.”
O manažmente výskumu
Dva platné prístupy:
“I’ve seen people take very different approaches and be successful. One model: hands-on manager writing code, reading all reports’ code, giving detailed technical feedback. Another: hands-off manager being a sounding board, giving career advice, letting people do their own thing. Both work in different places.”
“Videl som ľudí zaujať veľmi odlišné prístupy a byť úspešní. Jeden model: praktický manažér píšuci kód, čítajúci kód všetkých reportov, dávajúci detailnú technickú spätnú väzbu. Druhý: manažér bez zásahov, ktorý je rezonančnou doskou, dáva kariérne rady, nechá ľudí robiť ich vec. Oba fungujú na rôznych miestach.”
O multi-agentnom tréningu
Prečo hry záležia:
“I’m pretty fond of ideas around multi-agent training and games. Games give you automatic curriculum - if you’re playing against copies of yourself, opponents get better as you get better. There are theoretical CS reasons why setting up games might solve really hard problems.”
“Som celkom nadšený z nápadov okolo multi-agentného tréningu a hier. Hry vám dávajú automatické kurikulum - ak hráte proti kópiám seba samého, oponenti sa zlepšujú, keď sa vy zlepšujete. Existujú teoretické CS dôvody, prečo nastavenie hier môže vyriešiť skutočne ťažké problémy.”
O používaní AI pre výskum
Ako teraz pracuje:
“If I have an idea now, I fire off a bunch of questions to GPT-5 Pro and have it do literature searches. I’ll write a paragraph or two and tell the model to flesh it out. Keeping a lab notebook is probably even more useful now - paste your notebook into the LLM for feedback.”
“Ak mám teraz nápad, pošlem hromadu otázok do GPT-5 Pro a nechám ho urobiť literatúrne vyhľadávania. Napíšem odsek alebo dva a poviem modelu, aby to rozpracoval. Vedenie laboratórneho zápisníka je pravdepodobne ešte užitočnejšie teraz - vložte svoj zápisník do LLM pre spätnú väzbu.”
Kľúčové citáty
- “GPT-3.5 úroveň v 2018-2019 s pár ľuďmi a plným retrospektívnym pohľadom.”
- “Universe bol o desaťročie príliš skoro.”
- “Väčšina projektov neskončí na hlavnej vetve technologického stromu.”
Súvisiace čítanie
- Scaling Laws - Čo Schulman pomohol objaviť
- End of Scaling Era - Transformácia, ktorú Schulman naviguje
- Ilya Sutskever - Kolega spoluzakladateľ OpenAI