
John Schulman
Co-founder at Thinking Machines
OpenAI Mitgründer. Erfinder von PPO (Proximal Policy Optimization). Leitete RL-Forschung bei OpenAI. Baut jetzt Thinking Machines.
Über John Schulman
John Schulman ist Mitgründer von OpenAI und einer der einflussreichsten Forscher im Reinforcement Learning. Er erfand PPO (Proximal Policy Optimization), den Algorithmus, der einen Großteil von OpenAIs frühem Erfolg antrieb, einschließlich RLHF. Er baut jetzt Thinking Machines.
Karriere-Höhepunkte
- Thinking Machines (2024-heute): Mitgründer
- OpenAI (2015-2024): Mitgründer, leitete RL-Forschungsteam
- PPO (2017): Erfand Proximal Policy Optimization, wurde zum Standard-RL-Algorithmus
- RLHF: Wichtiger Beiträger zu Reinforcement Learning from Human Feedback
- Berkeley PhD: Studierte unter Pieter Abbeel
Bemerkenswerte Positionen
Über den ChatGPT Speedrun
Wie schnell es mit Nachsehen hätte gemacht werden können:
“With full hindsight, you could probably do something back in 2018 or 2019 with a few people that would get to GPT-3.5 level. NanoGPT was programmed by one person on one box in half a year. Maybe in the future we’ll get the demo scene ChatGPT - one file that trains the whole thing and scrapes the web in a day.”
Deutsche Übersetzung: “Mit vollem Nachsehen könnte man wahrscheinlich 2018 oder 2019 mit ein paar Leuten etwas machen, das GPT-3.5-Niveau erreichen würde. NanoGPT wurde von einer Person auf einer Box in einem halben Jahr programmiert. Vielleicht bekommen wir in der Zukunft das Demo-Scene ChatGPT - eine Datei, die das Ganze trainiert und das Web an einem Tag scrapt.”
Über frühe OpenAI-Kultur
Die chaotischen Anfänge:
“Early OpenAI was more rag tag, almost like an academic group. People worked in groups of one, two, three on research projects that would turn into papers. We were influenced by DeepMind who pioneered this way of working with AlphaGo.”
Deutsche Übersetzung: “Das frühe OpenAI war mehr chaotisch, fast wie eine akademische Gruppe. Leute arbeiteten in Gruppen von eins, zwei, drei an Forschungsprojekten, die zu Papieren wurden. Wir wurden von DeepMind beeinflusst, die diese Arbeitsweise mit AlphaGo pioneerten.”
Über gescheiterte Projekte
Universe war richtig, aber zu früh:
“Universe was a deeply correct idea but way too early - maybe a decade too early. We tried to create lots of RL environments and joint train on all of them for a general RL agent. The system was unwieldy and models didn’t generalize. Not all projects are successful - maybe even the norm is for a project not to be part of the main branch of the tech tree.”
Deutsche Übersetzung: “Universe war eine zutiefst korrekte Idee, aber viel zu früh - vielleicht ein Jahrzehnt zu früh. Wir versuchten, viele RL-Umgebungen zu erstellen und gemeinsam auf allen zu trainieren für einen allgemeinen RL-Agenten. Das System war unhandlich und Modelle generalisierten nicht. Nicht alle Projekte sind erfolgreich - vielleicht ist es sogar die Norm, dass ein Projekt nicht Teil des Hauptzweigs des Tech-Baums ist.”
Wichtige Zitate
- “GPT-3.5-Niveau in 2018-2019 mit ein paar Leuten und vollem Nachsehen.”
- “Universe war ein Jahrzehnt zu früh.”
- “Die meisten Projekte landen nicht auf dem Hauptzweig des Tech-Baums.”
Weiterführende Literatur
- Scaling Laws - Was Schulman mitentdeckt hat
- End of Scaling Era - Der Übergang, den Schulman navigiert
- Ilya Sutskever - OpenAI-Mitgründer