OpenAI Agent RFT Build Hour: Entrenar Agentes para Usar 60% Menos Llamadas de Herramienta con Mejores Resultados
Perspectiva
Este es el build hour de OpenAI sobre Agent RFT (Ajuste Fino Reforzado para Agentes) - el análisis técnico profundo sobre cómo entrenar agentes para usar mejor tus herramientas específicas. Will (ingeniería de ajuste fino) y Theo (arquitecto de soluciones) caminan a través de un ejemplo completo.
Agent RFT es la primera vez que los modelos interactúan con el mundo exterior durante el entrenamiento. La innovación clave: durante el entrenamiento, el agente puede llamar realmente tus endpoints de herramientas y explorar diferentes formas de usarlas. Entonces tu endpoint clasificador personalizado proporciona la señal de recompensa. El modelo aprende orgánicamente al probar muchas estrategias diferentes de llamadas de herramientas y escalada de gradiente en tu tarea.
La demostración lo hace concreto. Modificaron FinQA (benchmark de QA financiero) para hacerlo más difícil - el agente solo obtiene la pregunta, sin contexto, y debe buscar en 2,800 informes financieros para encontrar el correcto y responder, todo dentro de 10 llamadas de herramienta. Herramientas: búsqueda semántica, listar directorios, cat para leer documentos.
El antes/después es sorprendente. GPT-5 base: precisión del 59%. Después de solo 10 pasos de entrenamiento: precisión del 73% (+11 puntos). Pero igualmente impresionante: las llamadas de herramienta bajaron de 8-9 a mucho menos, tokens de 2,500 a 1,500, latencia reducida 10% (5 segundos más rápido). El modelo aprendió a usar las herramientas de forma más eficiente.
El gráfico de varianza es la herramienta de diagnóstico. Antes del entrenamiento, ejecutas cada muestra varias veces y observas la varianza de puntuación. Las muestras con alta varianza (a veces 0, a veces 1) son donde el modelo puede aprender - caminos de razonamiento buenos vs malos. Las muestras que siempre puntúan 0 o siempre 1 no proporcionan señal de aprendizaje.
Observa la distribución de llamadas de herramientas durante el entrenamiento. El dashboard muestra cómo evoluciona el uso de herramientas: inicialmente muy pesado en “búsqueda”, luego cambia a más llamadas de “listar” y “cat” mientras el modelo aprende qué funciona. “El modelo simplemente está aprendiendo a usar esas herramientas mucho más eficientemente.”
Conclusiones Clave
- Agent RFT = herramientas durante el entrenamiento - Primera vez que los modelos llaman endpoints externos durante el proceso de entrenamiento
- Endpoint clasificador personalizado - Defines la señal de recompensa; el modelo aprende qué se ve “bien”
- Demo de FinQA - Precisión 59% → 73% en 10 pasos; 8-9 llamadas de herramienta → mucho menos
- Reducción de latencia - 10% más rápido (5 segundos); tokens 2500 → 1500
- Multiplicador de cómputo - Controla la exploración; mayor = más varianza, más carga de endpoint
- Diagnóstico de varianza - Ejecuta muestras 3 veces, busca varianza; ahí es donde ocurre el aprendizaje
- Presupuesto de llamadas de herramienta - Puede limitarse a máximo 10 llamadas; el modelo aprende a mantenerse dentro del presupuesto
- Clasificador de modelo vs clasificador de string - El clasificador de modelo maneja varianza de formato (0.07 vs 7%)
- IDs de rollout únicos - Rastrear llamadas de herramientas en rollouts para gestión de estado
- Observa la distribución de herramientas - El dashboard muestra qué herramientas el modelo aprende a favorecer
Visión General
Agent RFT permite a los modelos aprender el uso de herramientas usándolas realmente durante el entrenamiento - explorando estrategias y escalada de gradiente en tu señal de recompensa. La implicación: los agentes pueden entrenarse para usar tus APIs específicas eficientemente, no solo genéricamente. La experiencia en herramientas personalizadas se convierte en una propiedad entrenable.