OpenAI Agent RFT Build Hour: 強化微調整でエージェントのツール呼び出しを60%削減し、より良い結果を実現する
観点
これはOpenAIが実施するAgent RFT(エージェント用強化微調整)に関するビルドアワーです。エージェントが特定のツールをより効果的に使用するようにトレーニングする方法についての技術的な深掘りです。ファインチューニングエンジニアリング担当のWillとソリューションアーキテクトのTheoが完全な例を説明します。
Agent RFTはモデルがトレーニング中に外部世界と相互作用する初めての機会です。 重要な革新点:トレーニング中、エージェントは実際にツールエンドポイントを呼び出し、異なるツール使用方法を探索できます。その後、カスタムグレーダーエンドポイントが報酬シグナルを提供します。モデルは様々なツール呼び出し戦略を試し、タスクに対してヒルクライミングすることによって有機的に学習します。
デモは具体的な内容を示しています。 彼らはFinQA(金融QAベンチマーク)を難しくするように修正しました。エージェントは質問のみを受け取り(コンテキストなし)、2,800の金融レポートを検索して正しいレポートを見つけ、すべて10回のツール呼び出し以内に答える必要があります。ツール:セマンティック検索、ディレクトリ一覧表示、ドキュメント読み取り用のcat。
ビフォー・アフターは劇的です。 ベースラインGPT-5:59%の精度。わずか10ステップのトレーニング後:73%の精度(+11ポイント)。同様に印象的なのは、ツール呼び出しが8~9回から大幅に削減され、トークン数が2,500から1,500に、レイテンシが10%削減(5秒高速化)されたことです。モデルはツールをより効率的に使用する方法を学習しました。
分散プロット診断ツールです。 トレーニング前に、各サンプルを複数回実行して、スコアの分散を確認します。分散が高いサンプル(時々0、時々1)はモデルが学習できる場所です。良い推論パスと悪い推論パスの違いです。常に0または常に1のスコアのサンプルは学習シグナルを提供しません。
トレーニング中のツール呼び出し分布を監視してください。 ダッシュボードはツール使用方法の変化を示します:最初は「検索」が多く、モデルが何が機能するかを学習するにつれて「一覧表示」と「cat」の呼び出しに変わります。「モデルはこれらのツールをはるかに効率的に使用することを学習しているだけです。」
重要なポイント
- Agent RFT = トレーニング中のツール - モデルがトレーニングプロセス中に外部エンドポイントを呼び出すのは初めて
- カスタムグレーダーエンドポイント - 報酬シグナルを定義します。モデルは「良い」がどのようなものかを学習します
- FinQAデモ - 10ステップで59%→73%の精度向上。8~9回のツール呼び出し→はるかに少ない
- レイテンシ削減 - 10%高速化(5秒)。トークン数2500→1500
- 計算乗数 - 探索を制御します。高いほど分散が増加し、エンドポイント負荷が増加
- 分散診断 - サンプルを3回実行して分散を確認します。そこが学習が起こる場所です
- ツール呼び出し予算 - 最大10回の呼び出しに制限できます。モデルは予算内に留まることを学習します
- モデルグレーダー対文字列グレーダー - モデルグレーダーは書式の違いを処理します(0.07対7%)
- 一意なロールアウトID - ロールアウト全体のツール呼び出しを追跡して状態管理を行います
- ツール分布を監視 - ダッシュボードはモデルが学習するのにどのツールを有利にするかを示します
大きな図解
Agent RFTはモデルがトレーニング中にツールを実際に使用することでツール使用方法を学習できるようにします。戦略を探索し、報酬シグナルに対してヒルクライミングします。含意:エージェントは特定のAPIを効率的に使用するようにトレーニングでき、単に一般的にではなくなります。カスタムツールの専門知識はトレーニング可能なプロパティになります。