OpenAI Agent RFT Build Hour: Trainiere Agenten so, dass sie 60% weniger Werkzeugaufrufe mit besseren Ergebnissen verwenden

OpenAI
tutorialagentstrainingdeveloper-tools

Perspektive

Dies ist OpenAI’s Build Hour zu Agent RFT (Reinforcement Fine-Tuning für Agenten) - der technische Tiefgang darüber, wie man Agenten trainiert, deine spezifischen Werkzeuge besser zu nutzen. Will (Fine-Tuning-Ingenieur) und Theo (Solutions Architect) gehen durch ein vollständiges Beispiel.

Agent RFT ist das erste Mal, dass Modelle während des Trainings mit der Außenwelt interagieren. Die Schlüsselinnovation: Während des Trainings kann der Agent tatsächlich deine Werkzeug-Endpunkte aufrufen und verschiedene Wege ihrer Nutzung erkunden. Dann bietet dein benutzerdefinierter Grader-Endpunkt das Reward-Signal. Das Modell lernt organisch, indem es viele verschiedene Werkzeugaufrufe-Strategien ausprobiert und sich in deiner Aufgabe nach oben arbeitet.

Die Demo macht es konkret. Sie modifizierten FinQA (Finanz-QA-Benchmark), um es schwieriger zu machen - der Agent erhält nur die Frage, keinen Kontext, und muss durch 2.800 Finanzberichte suchen, um den richtigen zu finden und zu beantworten, alles innerhalb von 10 Werkzeugaufrufen. Werkzeuge: semantische Suche, Verzeichnisse auflisten, Cat zum Lesen von Dokumenten.

Das Vorher-Nachher ist beeindruckend. Baseline GPT-5: 59% Genauigkeit. Nach nur 10 Trainingsschritten: 73% Genauigkeit (+11 Punkte). Aber ebenso beeindruckend: Werkzeugaufrufe sanken von 8-9 auf viel weniger, Tokens von 2.500 auf 1.500, Latenz um 10% reduziert (5 Sekunden schneller). Das Modell lernte, Werkzeuge effizienter zu nutzen.

Das Varianzdiagramm ist das Diagnosewerkzeug. Vor dem Training führst du jedes Sample mehrfach aus und schaust dir die Score-Varianz an. Samples mit hoher Varianz (manchmal 0, manchmal 1) sind, wo das Modell lernen kann - gute Denkpfade vs. schlechte. Samples, die immer 0 oder immer 1 bewerten, liefern kein Lernsignal.

Beobachte die Werkzeugaufrufsverteilung während des Trainings. Das Dashboard zeigt, wie sich die Werkzeugnutzung entwickelt: anfangs schwer bei “search”, dann verschiebt sich zu mehr “list” und “cat” Aufrufen, während das Modell lernt, was funktioniert. “Das Modell lernt gerade, diese Werkzeuge viel effizienter zu nutzen.”

Wichtige Erkenntnisse

  • Agent RFT = Werkzeuge während des Trainings - Erstes Mal, dass Modelle während des Trainingsprozesses externe Endpunkte aufrufen
  • Benutzerdefinierter Grader-Endpunkt - Du definierst das Reward-Signal; Modell lernt, wie “gut” aussieht
  • FinQA-Demo - 59% → 73% Genauigkeit in 10 Schritten; 8-9 Werkzeugaufrufe → viel weniger
  • Latenzreduzierung - 10% schneller (5 Sekunden); Tokens 2500 → 1500
  • Compute-Multiplikator - Kontrolliert Erkundung; höher = mehr Varianz, mehr Endpunktlast
  • Varianz-Diagnose - Samples 3x ausführen, auf Varianz prüfen; das ist, wo Lernen stattfindet
  • Werkzeugaufrufsbudget - Kann auf maximal 10 Aufrufe begrenzt werden; Modell lernt, im Budget zu bleiben
  • Modell-Grader vs. String-Grader - Modell-Grader behandelt Formatierungsvarianz (0,07 vs 7%)
  • Eindeutige Rollout-IDs - Verfolge Werkzeugaufrufe über Rollouts hinweg für State-Management
  • Beobachte Werkzeugverteilung - Dashboard zeigt, welche Werkzeuge das Modell bevorzugt

Großes Bild

Agent RFT ermöglicht es Modellen, die Werkzeugnutzung zu lernen, indem sie tatsächlich Werkzeuge während des Trainings nutzen - Strategien erkunden und sich in deinem Reward-Signal nach oben arbeiten. Die Implikation: Agenten können trainiert werden, deine spezifischen APIs effizient zu nutzen, nicht nur generisch. Benutzerdefinierte Werkzeug-Expertise wird zu einer trainierbaren Eigenschaft.