
John Schulman
Co-fondateur at Thinking Machines
Co-fondateur d'OpenAI. Inventeur de PPO (Proximal Policy Optimization). A dirigé la recherche RL chez OpenAI. Construit maintenant Thinking Machines.
À propos de John Schulman
John Schulman est co-fondateur d’OpenAI et l’un des chercheurs les plus influents en apprentissage par renforcement. Il a inventé PPO (Proximal Policy Optimization), l’algorithme qui a alimenté une grande partie du succès initial d’OpenAI, y compris RLHF. Il construit maintenant Thinking Machines.
Faits marquants de sa carrière
- Thinking Machines (2024-présent) : Co-fondateur
- OpenAI (2015-2024) : Co-fondateur, a dirigé l’équipe de recherche RL
- PPO (2017) : A inventé Proximal Policy Optimization, devenu l’algorithme RL standard
- RLHF : Contributeur clé à l’apprentissage par renforcement à partir de retours humains
- Doctorat à Berkeley : A étudié sous Pieter Abbeel
Positions notables
Sur la course de vitesse ChatGPT
À quelle vitesse cela aurait pu être fait avec le recul :
“With full hindsight, you could probably do something back in 2018 or 2019 with a few people that would get to GPT-3.5 level. NanoGPT was programmed by one person on one box in half a year. Maybe in the future we’ll get the demo scene ChatGPT - one file that trains the whole thing and scrapes the web in a day.”
“Avec le recul complet, vous pourriez probablement faire quelque chose en 2018 ou 2019 avec quelques personnes qui atteindrait le niveau GPT-3.5. NanoGPT a été programmé par une personne sur une boîte en six mois. Peut-être qu’à l’avenir nous aurons la démo scène ChatGPT - un fichier qui entraîne tout et scrape le web en un jour.”
Sur la culture du premier OpenAI
Les débuts désordonnés :
“Early OpenAI was more rag tag, almost like an academic group. People worked in groups of one, two, three on research projects that would turn into papers. We were influenced by DeepMind who pioneered this way of working with AlphaGo.”
“Le premier OpenAI était plus désordonné, presque comme un groupe académique. Les gens travaillaient en groupes de un, deux, trois sur des projets de recherche qui se transformeraient en articles. Nous étions influencés par DeepMind qui a été pionnier de cette façon de travailler avec AlphaGo.”
Sur les projets échoués
Universe avait raison mais trop tôt :
“Universe was a deeply correct idea but way too early - maybe a decade too early. We tried to create lots of RL environments and joint train on all of them for a general RL agent. The system was unwieldy and models didn’t generalize. Not all projects are successful - maybe even the norm is for a project not to be part of the main branch of the tech tree.”
“Universe était une idée profondément correcte mais beaucoup trop tôt - peut-être une décennie trop tôt. Nous avons essayé de créer beaucoup d’environnements RL et de s’entraîner conjointement sur tous pour un agent RL général. Le système était lourd et les modèles ne généralisaient pas. Tous les projets ne réussissent pas - peut-être même que la norme est qu’un projet ne fasse pas partie de la branche principale de l’arbre technologique.”
Sur la gestion de la recherche
Deux approches valides :
“I’ve seen people take very different approaches and be successful. One model: hands-on manager writing code, reading all reports’ code, giving detailed technical feedback. Another: hands-off manager being a sounding board, giving career advice, letting people do their own thing. Both work in different places.”
“J’ai vu des gens prendre des approches très différentes et réussir. Un modèle : manager pratique écrivant du code, lisant tout le code des rapports, donnant des retours techniques détaillés. Un autre : manager distant étant une caisse de résonance, donnant des conseils de carrière, laissant les gens faire leur propre chose. Les deux fonctionnent à différents endroits.”
Sur l’entraînement multi-agents
Pourquoi les jeux comptent :
“I’m pretty fond of ideas around multi-agent training and games. Games give you automatic curriculum - if you’re playing against copies of yourself, opponents get better as you get better. There are theoretical CS reasons why setting up games might solve really hard problems.”
“J’aime beaucoup les idées autour de l’entraînement multi-agents et des jeux. Les jeux vous donnent un curriculum automatique - si vous jouez contre des copies de vous-même, les adversaires s’améliorent à mesure que vous vous améliorez. Il y a des raisons CS théoriques pour lesquelles configurer des jeux pourrait résoudre des problèmes vraiment difficiles.”
Sur l’utilisation de l’IA pour la recherche
Comment il travaille maintenant :
“If I have an idea now, I fire off a bunch of questions to GPT-5 Pro and have it do literature searches. I’ll write a paragraph or two and tell the model to flesh it out. Keeping a lab notebook is probably even more useful now - paste your notebook into the LLM for feedback.”
“Si j’ai une idée maintenant, j’envoie un tas de questions à GPT-5 Pro et je lui fais faire des recherches de littérature. J’écrirai un paragraphe ou deux et je dirai au modèle de l’étoffer. Tenir un carnet de laboratoire est probablement encore plus utile maintenant - collez votre carnet dans le LLM pour des retours.”
Citations clés
- “Niveau GPT-3.5 en 2018-2019 avec quelques personnes et le recul complet.”
- “Universe avait une décennie d’avance.”
- “La plupart des projets ne finissent pas sur la branche principale de l’arbre technologique.”
Lectures associées
- Lois de scaling - Ce que Schulman a aidé à découvrir
- Fin de l’ère du scaling - La transition que Schulman navigue
- Ilya Sutskever - Collègue co-fondateur d’OpenAI
Video Mentions
Culture du premier OpenAI
Le premier OpenAI était plus désordonné, presque comme un groupe académique. Les gens travaillaient en groupes de un, deux, trois sur des projets de recherche qui se transformeraient en articles. Nous étions influencés par DeepMind qui a été pionnier de cette façon de travailler avec AlphaGo.
Utiliser l'IA pour la recherche
Si j'ai une idée maintenant, j'envoie un tas de questions à GPT-5 Pro et je lui fais faire des recherches de littérature. J'écrirai un paragraphe ou deux et je dirai au modèle de l'étoffer. Le contexte est si important - collez votre notebook dans le LLM pour des retours.