OpenAI Agent RFT Build Hour : Former des agents à utiliser 60% moins d'appels d'outils avec de meilleurs résultats
Perspective
Il s’agit du build hour d’OpenAI sur Agent RFT (Reinforcement Fine-Tuning pour les agents) - une plongée technique approfondie sur comment entraîner les agents à mieux utiliser vos outils spécifiques. Will (ingénierie de fine-tuning) et Theo (architecte solutions) parcourent un exemple complet.
Agent RFT est la première fois que les modèles interagissent avec le monde extérieur pendant l’entraînement. L’innovation clé : pendant l’entraînement, l’agent peut réellement appeler vos endpoints d’outils et explorer différentes façons de les utiliser. Ensuite, votre endpoint de notation personnalisé fournit le signal de récompense. Le modèle apprend de manière organique en essayant de nombreuses stratégies d’appel d’outils différentes et en optimisant sur votre tâche.
La démo rend les choses concrètes. Ils ont modifié FinQA (benchmark de questions financières) pour le rendre plus difficile - l’agent reçoit seulement la question, sans contexte, et doit chercher parmi 2 800 rapports financiers pour trouver le bon et répondre, le tout en 10 appels d’outils maximum. Outils : recherche sémantique, lister les répertoires, cat pour lire les documents.
Le avant/après est frappant. GPT-5 de base : 59% de précision. Après seulement 10 étapes d’entraînement : 73% de précision (+11 points). Mais tout aussi impressionnant : les appels d’outils sont passés de 8-9 à beaucoup moins, les tokens de 2 500 à 1 500, la latence réduite de 10% (5 secondes plus rapide). Le modèle a appris à utiliser les outils plus efficacement.
Le graphique de variance est l’outil de diagnostic. Avant l’entraînement, vous exécutez chaque échantillon plusieurs fois et examinez la variance des scores. Les échantillons avec une forte variance (parfois 0, parfois 1) sont ceux où le modèle peut apprendre - bons chemins de raisonnement vs mauvais. Les échantillons qui obtiennent toujours 0 ou toujours 1 ne fournissent pas de signal d’apprentissage.
Observez la distribution des appels d’outils pendant l’entraînement. Le tableau de bord montre comment l’utilisation des outils évolue : initialement forte sur “search”, puis se déplace vers plus d’appels “list” et “cat” au fur et à mesure que le modèle apprend ce qui fonctionne. “Le modèle apprend simplement à utiliser ces outils de manière beaucoup plus efficace.”
Points clés
- Agent RFT = outils pendant l’entraînement - Première fois que les modèles appellent des endpoints externes pendant le processus d’entraînement
- Endpoint de notation personnalisé - Vous définissez le signal de récompense ; le modèle apprend ce qui est “bon”
- Démo FinQA - 59% → 73% de précision en 10 étapes ; 8-9 appels d’outils → beaucoup moins
- Réduction de latence - 10% plus rapide (5 secondes) ; tokens 2500 → 1500
- Multiplicateur de calcul - Contrôle l’exploration ; plus élevé = plus de variance, plus de charge sur les endpoints
- Diagnostic de variance - Exécutez les échantillons 3x, recherchez la variance ; c’est là que l’apprentissage se produit
- Budget d’appels d’outils - Peut contraindre à 10 appels max ; le modèle apprend à rester dans le budget
- Notation par modèle vs notation par chaîne - La notation par modèle gère la variance de formatage (0.07 vs 7%)
- IDs de rollout uniques - Suivez les appels d’outils à travers les rollouts pour la gestion d’état
- Observez la distribution des outils - Le tableau de bord montre quels outils le modèle apprend à favoriser
Vue d’ensemble
Agent RFT permet aux modèles d’apprendre l’utilisation d’outils en utilisant réellement les outils pendant l’entraînement - explorant des stratégies et optimisant sur votre signal de récompense. L’implication : les agents peuvent être entraînés à utiliser vos APIs spécifiques efficacement, pas seulement de manière générique. L’expertise sur des outils personnalisés devient une propriété entraînable.