John Schulman : ChatGPT aurait pu etre construit en 2018
Le cofondateur d'OpenAI revele que le debut d'OpenAI etait 'heteroclite comme un groupe academique' et pourquoi les bonnes idees echouent quand les prerequis manquent.
Comment John Schulman voit les origines de la recherche IA de pointe
John Schulman a cofonde OpenAI, cree PPO (l'algorithme derriere RLHF), et a recemment quitte pour fonder Thinking Machines. Cette interview rare offre une vue d'initie sur comment la recherche IA de pointe fonctionne reellement : les faux departs, la culture organisationnelle, le gout en recherche qui separe les laboratoires productifs des autres. Pour quiconque construit des equipes IA ou reflechit a l'organisation de la recherche, c'est du materiel de source primaire.
Sur comment ChatGPT aurait pu arriver plus tot : "With full hindsight, I think you could have gotten something back in 2018 or 2019 with a few people that would get to GPT 3.5 level... nanoGPT is just programmed by one person and runs on one box." (Avec le recul complet, je pense qu'on aurait pu avoir quelque chose en 2018 ou 2019 avec quelques personnes qui atteindrait le niveau GPT 3.5... nanoGPT est juste programme par une personne et tourne sur une seule machine.) L'implication : la barriere etait la connaissance et la conviction, pas le calcul ou la taille de l'equipe. Un petit groupe avec les bonnes idees aurait pu le construire des annees plus tot.
Sur la culture des debuts d'OpenAI : "It was more rag tag, maybe even like an academic group... a bunch of different research projects driven by people's own taste, groups of one to three people working on something that would turn into a paper or blog post." (C'etait plus heteroclite, peut-etre meme comme un groupe academique... un tas de projets de recherche differents guides par le gout propre des gens, des groupes de une a trois personnes travaillant sur quelque chose qui deviendrait un article ou un billet de blog.) Les annees formatives n'etaient pas un moonshot coordonne - c'etait de la recherche exploratoire qui s'est finalement cristallisee en quelque chose de plus grand.
Sur le projet Universe echoue : "There was a project called Universe... the idea was to collect lots of video games and web navigation tasks. It ended up being unsuccessful at the time, but the funny thing is I think it was a deeply correct idea, just a decade too early." (Il y avait un projet appele Universe... l'idee etait de collecter beaucoup de jeux video et de taches de navigation web. Ca s'est avere infructueux a l'epoque, mais le truc marrant c'est que je pense que c'etait une idee profondement correcte, juste une decennie trop tot.) Le pattern : les bonnes idees echouent quand les prerequis manquent, puis reussissent quand les conditions changent.
Sur les compromis de gestion de recherche : "I've seen very different approaches be successful. One model where the manager writes a lot of code, reads all their reports' code, gives detailed technical feedback. I've also seen more hands-off managers who are just sounding boards... both work in different places." (J'ai vu des approches tres differentes reussir. Un modele ou le manager ecrit beaucoup de code, lit tout le code de ses rapports, donne des retours techniques detailles. J'ai aussi vu des managers plus distants qui sont juste des caisses de resonance... les deux fonctionnent dans differents endroits.) La recherche exploratoire a besoin de distance ; le mode execution a besoin de proximite. Le contexte determine le style.
Sur comment il utilise l'IA pour la recherche : "If I have an idea, I'll fire off a bunch of questions to GPT-5 Pro and have it do literature searches. Sometimes I'll write a paragraph and tell the model to flesh it out... definitely the literature search ability is extremely useful." (Si j'ai une idee, j'envoie un tas de questions a GPT-5 Pro et je lui fais faire des recherches bibliographiques. Parfois j'ecris un paragraphe et je dis au modele de le developper... definitivement la capacite de recherche bibliographique est extremement utile.) Meme les meilleurs chercheurs utilisent les LLM pour les premiers retours et la decouverte de litterature.
6 enseignements de John Schulman sur la culture de recherche et le progres de l'IA
- ChatGPT aurait pu etre construit des annees plus tot - Avec le recul complet, une petite equipe en 2018-2019 aurait pu atteindre le niveau GPT-3.5 ; la barriere etait l'insight, pas les ressources
- Le debut d'OpenAI etait de style academique - Petits groupes de 1-3 personnes poursuivant leur propre gout de recherche, pas un moonshot coordonne ; les plus gros projets sont venus plus tard
- "Correct mais trop tot" est un pattern - Universe (environnements RL) etait la bonne idee une decennie avant que les prerequis existent ; les projets echoues reviennent souvent
- La gestion de recherche depend du contexte - Etre proche fonctionne pour l'execution et les juniors ; etre distant fonctionne pour l'exploration et les ICs experimentes
- Les fonctions de valeur feront un retour - Actuellement sous-utilisees dans le RL LLM, mais Schulman s'attend a ce qu'elles reviennent a mesure que les horizons temporels s'etendent
- Thinking Machines equilibre rattrapage et exploration - Les nouveaux labos doivent repliquer l'etat de l'art tout en construisant le muscle de recherche exploratoire ; la culture est difficile a ajouter plus tard
Ce que cela signifie pour les organisations de recherche IA
La perspective de Schulman demystifie la recherche IA de pointe. L'insight cle : le debut d'OpenAI n'etait pas un moonshot parfaitement organise - c'etait de la recherche exploratoire qui a finalement converge sur le scaling. Le contrefactuel de ChatGPT (constructible en 2018 avec le recul) suggere que le facteur limitant n'est pas le calcul ou la taille de l'equipe mais la connaissance et la conviction. Pour les organisations construisant des capacites de recherche IA, l'implication est que la culture et le gout en recherche comptent plus que les ressources, et que les idees "correctes mais trop tot" valent la peine d'etre suivies car les conditions finissent par changer.


