Líder de OpenAI Codex: Construimos la App Android de Sora en 18 Días - Y Llegó al #1 en la Tienda

Lenny's Podcast
interviewdeveloper-toolsagentsgpt

Perspectiva

Este es Alexander Embiricos - líder de producto para OpenAI Codex - explicando por qué su agente de codificación creció 20x desde agosto y por qué la visión es mucho más grande que el autocompletado.

“Un interno realmente inteligente que se niega a leer Slack.” Así es como Alexander describe Codex hoy. Puede hacer cosas increíbles cuando le das la orientación adecuada, pero no revisa DataDog a menos que lo pidas. No participa en la planificación. No sabe qué pasó en la reunión de pie. Eso es lo que están construyendo: un compañero de equipo, no una herramienta.

La aplicación Android de Sora se construyó en 18 días. Una aplicación completamente nueva, y 10 días después (28 días en total) se hizo pública. Esto es Codex acelerando internamente OpenAI. Codex también está de guardia para sus propias ejecuciones de entrenamiento - escribiendo código de infraestructura, revisión de código capturando errores de configuración.

La compresión permite ejecutar agentes 24 horas. Los modelos ahora trabajan rutinariamente durante la noche. Cuando se acercan a los límites del contexto, una nueva capacidad llamada “compresión” les permite preparar un contexto comprimido, reiniciar en una nueva ventana, y continuar. Esto requirió trabajo coordinado en las capas de modelo, API y arnés.

El producto en la nube estaba demasiado en el futuro. Codex cloud se lanzó primero - una computadora remota a la que podías delegar masivamente en paralelo. Excelente para empleados de OpenAI acostumbrados a la solicitud de modelos de razonamiento. No tan bien para la adopción general. El desbloqueador: aterrizar con usuarios en el IDE y CLI primero, luego graduarlos a la delegación con el tiempo.

“¿Habría escrito yo este prompt? Quizás 50/50.” Eso es lo suficientemente bueno. El trabajo del agente no es ser perfecto - es mantener la consistencia y funcionar 24/7. El caso de uso de Karpathy: dale tus bugs más complicados, déjalo ejecutar durante una hora. Resuelve problemas que nada más puede.

Conclusiones Clave

  • Crecimiento 20x desde agosto - Modelos Codex más servidos en API
  • Aplicación Android de Sora en 18 días - Llegó al #1 en la tienda a los 28 días
  • Codex de guardia para su propio entrenamiento - Escribe infraestructura, revisa código
  • Compresión - Permite ejecuciones de 24 horas comprimiendo el contexto
  • GPT 5.11 Codex Max - 30% más rápido en las mismas tareas, más inteligente en razonamiento superior
  • Producto en la nube demasiado futurista - IDE/CLI primero, luego graduarse a delegación
  • La proactividad es la misión - Miles de momentos útiles por día, no decenas
  • Caso de uso de “bugs más complicados” - Karpathy le da los problemas más difíciles a Codex durante la noche
  • Los prompts 50/50 están bien - La consistencia y disponibilidad 24/7 vencen la perfección
  • La señal de dogfooding difiere - Los empleados de OpenAI demasiado cómodos con prompts de razonamiento

Panorama General

Codex no está tratando de ser mejor autocompletado - está tratando de ser un compañero de equipo que trabaja mientras duermes. El cambio de herramienta a colega requiere proactividad: miles de momentos útiles diarios, no decenas. Cuando tu agente de codificación está de guardia para sus propias ejecuciones de entrenamiento, el bucle recursivo de IA mejorando IA ha comenzado.