John Schulman: ChatGPT Podría Haberse Construido en 2018
El cofundador de OpenAI revela que el OpenAI temprano era 'desordenado como un grupo académico' y por qué las buenas ideas fallan cuando faltan los prerrequisitos.
Cómo John Schulman Ve los Orígenes de la Investigación de IA de Frontera
John Schulman cofundó OpenAI, creó PPO (el algoritmo detrás de RLHF), y recientemente se fue para fundar Thinking Machines. Esta rara entrevista ofrece una vista interna de cómo realmente funciona la investigación de IA de frontera: los falsos comienzos, la cultura organizacional, el gusto investigativo que separa a los laboratorios productivos del resto. Para cualquiera que construya equipos de IA o piense sobre organización de investigación, este es material de fuente primaria.
Sobre qué tan temprano pudo haber ocurrido ChatGPT: "With full hindsight, I think you could have gotten something back in 2018 or 2019 with a few people that would get to GPT 3.5 level... nanoGPT is just programmed by one person and runs on one box." (Con plena retrospectiva, creo que podrías haber logrado algo en 2018 o 2019 con unas pocas personas que llegaría al nivel de GPT 3.5... nanoGPT está programado por una sola persona y corre en una sola máquina.) La implicación: la barrera era conocimiento y convicción, no cómputo o tamaño de equipo. Un grupo pequeño con las ideas correctas podría haberlo construido años antes.
Sobre la cultura del OpenAI temprano: "It was more rag tag, maybe even like an academic group... a bunch of different research projects driven by people's own taste, groups of one to three people working on something that would turn into a paper or blog post." (Era más desordenado, quizás incluso como un grupo académico... un montón de proyectos de investigación diferentes impulsados por el gusto propio de las personas, grupos de una a tres personas trabajando en algo que se convertiría en un paper o post de blog.) Los años formativos no fueron un moonshot coordinado—fueron investigación exploratoria que eventualmente cristalizó en algo más grande.
Sobre el proyecto Universe fallido: "There was a project called Universe... the idea was to collect lots of video games and web navigation tasks. It ended up being unsuccessful at the time, but the funny thing is I think it was a deeply correct idea, just a decade too early." (Había un proyecto llamado Universe... la idea era recolectar muchos videojuegos y tareas de navegación web. Terminó siendo infructuoso en ese momento, pero lo gracioso es que creo que era una idea profundamente correcta, solo una década demasiado temprana.) El patrón: las buenas ideas fallan cuando faltan los prerrequisitos, luego tienen éxito cuando las condiciones cambian.
Sobre las compensaciones en gestión de investigación: "I've seen very different approaches be successful. One model where the manager writes a lot of code, reads all their reports' code, gives detailed technical feedback. I've also seen more hands-off managers who are just sounding boards... both work in different places." (He visto enfoques muy diferentes ser exitosos. Un modelo donde el gerente escribe mucho código, lee todo el código de sus reportes, da feedback técnico detallado. También he visto gerentes más distantes que son solo cajas de resonancia... ambos funcionan en diferentes lugares.) La investigación exploratoria necesita distancia; el modo de ejecución necesita involucramiento. El contexto determina el estilo.
Sobre cómo usa IA para investigación: "If I have an idea, I'll fire off a bunch of questions to GPT-5 Pro and have it do literature searches. Sometimes I'll write a paragraph and tell the model to flesh it out... definitely the literature search ability is extremely useful." (Si tengo una idea, lanzo un montón de preguntas a GPT-5 Pro y hago que realice búsquedas bibliográficas. A veces escribo un párrafo y le digo al modelo que lo desarrolle... definitivamente la capacidad de búsqueda bibliográfica es extremadamente útil.) Incluso los mejores investigadores usan LLMs para feedback de primera ronda y descubrimiento de literatura.
6 Ideas de John Schulman sobre Cultura de Investigación y Progreso en IA
- ChatGPT podría haberse construido años antes - Con plena retrospectiva, un equipo pequeño en 2018-2019 podría haber alcanzado el nivel de GPT-3.5; la barrera era la idea, no los recursos
- El OpenAI temprano era estilo académico - Grupos pequeños de 1-3 personas persiguiendo su propio gusto investigativo, no un moonshot coordinado; proyectos más grandes emergieron después
- "Correcto pero demasiado temprano" es un patrón - Universe (entornos de RL) era la idea correcta una década antes de que existieran los prerrequisitos; los proyectos fallidos a menudo vuelven
- La gestión de investigación depende del contexto - Involucramiento cercano funciona para ejecución y gente junior; distancia funciona para exploración e ICs experimentados
- Las funciones de valor volverán - Actualmente infrautilizadas en RL de LLM, pero Schulman espera que regresen a medida que los horizontes temporales se extiendan
- Thinking Machines está equilibrando ponerse al día con exploración - Los nuevos laboratorios deben replicar el estado del arte mientras construyen músculo de investigación exploratoria; la cultura es difícil de añadir después
Qué Significa Esto para Organizaciones de Investigación en IA
La perspectiva de Schulman desmitifica la investigación de IA de frontera. La idea clave: el OpenAI temprano no fue un moonshot perfectamente organizado—fue investigación exploratoria que eventualmente convergió en escalar. El contrafactual de ChatGPT (construible en 2018 con retrospectiva) sugiere que el factor limitante no es el cómputo o el tamaño del equipo sino el conocimiento y la convicción. Para organizaciones que construyen capacidades de investigación en IA, la implicación es que la cultura y el gusto investigativo importan más que los recursos, y que las ideas "correctas pero demasiado tempranas" valen la pena rastrear porque las condiciones eventualmente cambian.


