John Schulman

John Schulman

Co-founder at Thinking Machines

OpenAI Mitgründer. Erfinder von PPO (Proximal Policy Optimization). Leitete RL-Forschung bei OpenAI. Baut jetzt Thinking Machines.

openairesearchreinforcement-learningpioneer

Über John Schulman

John Schulman ist Mitgründer von OpenAI und einer der einflussreichsten Forscher im Reinforcement Learning. Er erfand PPO (Proximal Policy Optimization), den Algorithmus, der einen Großteil von OpenAIs frühem Erfolg antrieb, einschließlich RLHF. Er baut jetzt Thinking Machines.

Karriere-Höhepunkte

  • Thinking Machines (2024-heute): Mitgründer
  • OpenAI (2015-2024): Mitgründer, leitete RL-Forschungsteam
  • PPO (2017): Erfand Proximal Policy Optimization, wurde zum Standard-RL-Algorithmus
  • RLHF: Wichtiger Beiträger zu Reinforcement Learning from Human Feedback
  • Berkeley PhD: Studierte unter Pieter Abbeel

Bemerkenswerte Positionen

Über den ChatGPT Speedrun

Wie schnell es mit Nachsehen hätte gemacht werden können:

“With full hindsight, you could probably do something back in 2018 or 2019 with a few people that would get to GPT-3.5 level. NanoGPT was programmed by one person on one box in half a year. Maybe in the future we’ll get the demo scene ChatGPT - one file that trains the whole thing and scrapes the web in a day.”

Deutsche Übersetzung: “Mit vollem Nachsehen könnte man wahrscheinlich 2018 oder 2019 mit ein paar Leuten etwas machen, das GPT-3.5-Niveau erreichen würde. NanoGPT wurde von einer Person auf einer Box in einem halben Jahr programmiert. Vielleicht bekommen wir in der Zukunft das Demo-Scene ChatGPT - eine Datei, die das Ganze trainiert und das Web an einem Tag scrapt.”

Über frühe OpenAI-Kultur

Die chaotischen Anfänge:

“Early OpenAI was more rag tag, almost like an academic group. People worked in groups of one, two, three on research projects that would turn into papers. We were influenced by DeepMind who pioneered this way of working with AlphaGo.”

Deutsche Übersetzung: “Das frühe OpenAI war mehr chaotisch, fast wie eine akademische Gruppe. Leute arbeiteten in Gruppen von eins, zwei, drei an Forschungsprojekten, die zu Papieren wurden. Wir wurden von DeepMind beeinflusst, die diese Arbeitsweise mit AlphaGo pioneerten.”

Über gescheiterte Projekte

Universe war richtig, aber zu früh:

“Universe was a deeply correct idea but way too early - maybe a decade too early. We tried to create lots of RL environments and joint train on all of them for a general RL agent. The system was unwieldy and models didn’t generalize. Not all projects are successful - maybe even the norm is for a project not to be part of the main branch of the tech tree.”

Deutsche Übersetzung: “Universe war eine zutiefst korrekte Idee, aber viel zu früh - vielleicht ein Jahrzehnt zu früh. Wir versuchten, viele RL-Umgebungen zu erstellen und gemeinsam auf allen zu trainieren für einen allgemeinen RL-Agenten. Das System war unhandlich und Modelle generalisierten nicht. Nicht alle Projekte sind erfolgreich - vielleicht ist es sogar die Norm, dass ein Projekt nicht Teil des Hauptzweigs des Tech-Baums ist.”

Wichtige Zitate

  • “GPT-3.5-Niveau in 2018-2019 mit ein paar Leuten und vollem Nachsehen.”
  • “Universe war ein Jahrzehnt zu früh.”
  • “Die meisten Projekte landen nicht auf dem Hauptzweig des Tech-Baums.”

Weiterführende Literatur

Video Mentions

Video thumbnail

ChatGPT Speedrun

Mit vollem Nachsehen könnte man wahrscheinlich 2018 oder 2019 mit ein paar Leuten etwas machen, das GPT-3.5-Niveau erreichen würde. NanoGPT wurde von einer Person auf einer Box in einem halben Jahr programmiert.

Video thumbnail

Frühe OpenAI-Kultur

Das frühe OpenAI war mehr chaotisch, fast wie eine akademische Gruppe. Leute arbeiteten in Gruppen von eins, zwei, drei an Forschungsprojekten, die zu Papieren wurden. Wir wurden von DeepMind beeinflusst, die diese Arbeitsweise mit AlphaGo pioneerten.

Video thumbnail

Gescheiterte Projekte, die richtig waren

Universe war eine zutiefst korrekte Idee, aber viel zu früh - vielleicht ein Jahrzehnt zu früh. Wir versuchten, viele RL-Umgebungen zu erstellen und gemeinsam auf allen zu trainieren. Das System war unhandlich und Modelle generalisierten nicht.

Video thumbnail

Multi-Agenten-Training

Ich bin ziemlich angetan von Ideen rund um Multi-Agenten-Training und Spiele. Spiele geben dir automatisches Curriculum - wenn du gegen Kopien von dir selbst spielst, werden die Gegner besser, wenn du besser wirst.

Video thumbnail

KI für Forschung nutzen

Wenn ich jetzt eine Idee habe, feuere ich eine Reihe von Fragen an GPT-5 Pro ab und lasse es Literatursuchen durchführen. Ich schreibe ein oder zwei Absätze und sage dem Modell, es auszuarbeiten. Kontext ist so wichtig - füge dein Notebook ins LLM ein für Feedback.