John Schulman

John Schulman

Co-founder at Thinking Machines

Cofundador de OpenAI. Inventor de PPO (Proximal Policy Optimization). Lideró investigación de RL en OpenAI. Ahora construyendo Thinking Machines.

openairesearchreinforcement-learningpioneer

Acerca de John Schulman

John Schulman es cofundador de OpenAI y uno de los investigadores más influyentes en aprendizaje por refuerzo. Inventó PPO (Proximal Policy Optimization), el algoritmo que impulsó gran parte del éxito temprano de OpenAI incluyendo RLHF. Ahora está construyendo Thinking Machines.

Hitos de Carrera

  • Thinking Machines (2024-presente): Cofundador
  • OpenAI (2015-2024): Cofundador, lideró equipo de investigación de RL
  • PPO (2017): Inventó Proximal Policy Optimization, se convirtió en algoritmo estándar de RL
  • RLHF: Contribuidor clave al aprendizaje por refuerzo desde retroalimentación humana
  • PhD en Berkeley: Estudió bajo Pieter Abbeel

Posiciones Notables

Sobre la Carrera Rápida de ChatGPT

Qué tan rápido podría haberse hecho con retrospectiva:

“With full hindsight, you could probably do something back in 2018 or 2019 with a few people that would get to GPT-3.5 level. NanoGPT was programmed by one person on one box in half a year. Maybe in the future we’ll get the demo scene ChatGPT - one file that trains the whole thing and scrapes the web in a day.”

“Con total retrospectiva, probablemente podrías hacer algo en 2018 o 2019 con unas pocas personas que llegaría al nivel de GPT-3.5. NanoGPT fue programado por una persona en una caja en medio año. Tal vez en el futuro tengamos el ChatGPT de escena demo - un archivo que entrena todo y raspa la web en un día.”

Sobre la Cultura Temprana de OpenAI

Los comienzos improvisados:

“Early OpenAI was more rag tag, almost like an academic group. People worked in groups of one, two, three on research projects that would turn into papers. We were influenced by DeepMind who pioneered this way of working with AlphaGo.”

“OpenAI temprana era más improvisada, casi como un grupo académico. La gente trabajaba en grupos de uno, dos, tres en proyectos de investigación que se convertirían en papers. Fuimos influenciados por DeepMind que fue pionero en esta forma de trabajar con AlphaGo.”

Sobre Proyectos Fallidos

Universe era correcta pero demasiado temprana:

“Universe was a deeply correct idea but way too early - maybe a decade too early. We tried to create lots of RL environments and joint train on all of them for a general RL agent. The system was unwieldy and models didn’t generalize. Not all projects are successful - maybe even the norm is for a project not to be part of the main branch of the tech tree.”

“Universe fue una idea profundamente correcta pero demasiado temprana - tal vez una década demasiado temprana. Intentamos crear muchos entornos de RL y entrenar conjuntamente en todos ellos para un agente de RL general. El sistema era difícil de manejar y los modelos no generalizaban. No todos los proyectos son exitosos - tal vez incluso la norma es que un proyecto no sea parte de la rama principal del árbol tecnológico.”

Sobre Gestión de Investigación

Dos enfoques válidos:

“I’ve seen people take very different approaches and be successful. One model: hands-on manager writing code, reading all reports’ code, giving detailed technical feedback. Another: hands-off manager being a sounding board, giving career advice, letting people do their own thing. Both work in different places.”

“He visto a personas tomar enfoques muy diferentes y ser exitosas. Un modelo: gerente práctico escribiendo código, leyendo todo el código de los reportes, dando retroalimentación técnica detallada. Otro: gerente sin intervención siendo una caja de resonancia, dando consejos de carrera, dejando que las personas hagan lo suyo. Ambos funcionan en diferentes lugares.”

Sobre Entrenamiento Multi-Agente

Por qué los juegos importan:

“I’m pretty fond of ideas around multi-agent training and games. Games give you automatic curriculum - if you’re playing against copies of yourself, opponents get better as you get better. There are theoretical CS reasons why setting up games might solve really hard problems.”

“Me gustan mucho las ideas sobre entrenamiento multi-agente y juegos. Los juegos te dan currículo automático - si juegas contra copias de ti mismo, los oponentes mejoran a medida que mejoras. Hay razones teóricas de CS por las que configurar juegos podría resolver problemas realmente difíciles.”

Sobre Usar IA para Investigación

Cómo trabaja ahora:

“If I have an idea now, I fire off a bunch of questions to GPT-5 Pro and have it do literature searches. I’ll write a paragraph or two and tell the model to flesh it out. Keeping a lab notebook is probably even more useful now - paste your notebook into the LLM for feedback.”

“Si tengo una idea ahora, lanzo un montón de preguntas a GPT-5 Pro y hago que haga búsquedas de literatura. Escribiré un párrafo o dos y le diré al modelo que lo desarrolle. Mantener un cuaderno de laboratorio es probablemente aún más útil ahora - pega tu cuaderno en el LLM para retroalimentación.”

Citas Clave

  • “Nivel GPT-3.5 en 2018-2019 con unas pocas personas y total retrospectiva.”
  • “Universe fue una década demasiado temprana.”
  • “La mayoría de los proyectos no terminan en la rama principal del árbol tecnológico.”

Lectura Relacionada

Video Mentions

Video thumbnail

Carrera rápida de ChatGPT

Con total retrospectiva, probablemente podrías hacer algo en 2018 o 2019 con unas pocas personas que llegaría al nivel de GPT-3.5. NanoGPT fue programado por una persona en una caja en medio año.

Video thumbnail

Cultura temprana de OpenAI

OpenAI temprana era más improvisada, casi como un grupo académico. La gente trabajaba en grupos de uno, dos, tres en proyectos de investigación que se convertirían en papers. Fuimos influenciados por DeepMind que fue pionero en esta forma de trabajar con AlphaGo.

Video thumbnail

Proyectos fallidos que eran correctos

Universe fue una idea profundamente correcta pero demasiado temprana - tal vez una década demasiado temprana. Intentamos crear muchos entornos de RL y entrenar conjuntamente en todos ellos. El sistema era difícil de manejar y los modelos no generalizaban.

Video thumbnail

Entrenamiento multi-agente

Me gustan mucho las ideas sobre entrenamiento multi-agente y juegos. Los juegos te dan currículo automático - si juegas contra copias de ti mismo, los oponentes mejoran a medida que mejoras.

Video thumbnail

Usando IA para investigación

Si tengo una idea ahora, lanzo un montón de preguntas a GPT-5 Pro y hago que haga búsquedas de literatura. Escribiré un párrafo o dos y le diré al modelo que lo desarrolle. El contexto es tan importante - pega tu notebook en el LLM para retroalimentación.