OpenAI Agent RFT Build Hour: Trénujte agentov na používanie 60% menej volaní nástrojov s lepšími výsledkami

OpenAI
tutorialagentstrainingdeveloper-tools

Perspektíva

Toto je OpenAI build hour na tému Agent RFT (Reinforcement Fine-Tuning pre agentov) - technických hlbokých ponoroch do toho, ako trénovať agentov na lepšie používanie vašich špecifických nástrojov. Will (inžinier fine-tuningu) a Theo (architekt riešení) prejdú kompletným príkladom.

Agent RFT je prvýkrát, keď modely interagujú s vonkajším svetom počas trénovania. Kľúčová inovácia: počas trénovania môže agent skutočne volať vaše koncové body nástrojov a skúmať rôzne spôsoby ich používania. Potom váš vlastný koncový bod vyhodnocovača poskytuje signál odmeny. Model sa učí organicky pokúšaním sa mnohých rôznych stratégií volania nástrojov a optimalizáciou vašej úlohy.

Ukážka to robí konkrétnym. Upravili FinQA (benchmark finančných otázok) tak, aby bolo náročnejšie - agent dostane len otázku, bez kontextu, a musí hľadať v 2 800 finančných správach, aby našiel tú správnu a odpovedal, všetko v rámci 10 volaní nástrojov. Nástroje: sémantické vyhľadávanie, zoznam adresárov, cat na čítanie dokumentov.

Prirovnanie pred a po je nápadné. Základný GPT-5: 59% presnosti. Po iba 10 krokoch trénovania: 73% presnosti (+11 bodov). Ale rovnako pôsobivé: volania nástrojov sa znížili z 8-9 na oveľa menej, tokeny z 2 500 na 1 500, latencia znížená o 10% (5 sekúnd rýchlejšie). Model sa naučil používať nástroje efektívnejšie.

Graf variancie je diagnostický nástroj. Pred tréningom spustíte každú vzorku viackrát a pozriete sa na variáciu skóre. Vzorky s vysokou variáciou (niekedy 0, niekedy 1) sú miesta, kde sa model môže učiť - dobré cesty uvažovania oproti zlým. Vzorky, ktoré vždy dosahujú skóre 0 alebo vždy 1, neposkytujú signál na učenie.

Sledujte rozdelenie volaní nástrojov počas trénovania. Nástroj zobrazuje, ako sa používanie nástrojov vyvíja: spočiatku veľa na “vyhľadávanie”, potom sa posúva na viac volaní “list” a “cat” keď sa model učí, čo funguje. “Model sa jednoducho učí používať tie nástroje oveľa efektívnejšie.”

Kľúčové poznatky

  • Agent RFT = nástroje počas trénovania - Prvýkrát, keď modely volajú vonkajšie koncové body počas procesu trénovania
  • Vlastný koncový bod vyhodnocovača - Vy definujete signál odmeny; model sa učí, ako vyzerá “dobré”
  • FinQA ukážka - 59% → 73% presnosti v 10 krokoch; 8-9 volaní nástrojov → oveľa menej
  • Zníženie latencií - 10% rýchlejšie (5 sekúnd); tokeny 2 500 → 1 500
  • Násobiteľ výpočtov - Kontroluje prieskum; vyššia hodnota = viac variancie, viac záťaže koncových bodov
  • Diagnostika variancie - Spustite vzorky 3x, hľadajte variáciu; tam sa učenie deje
  • Rozpočet volaní nástrojov - Môžete obmedziť na maximum 10 volaní; model sa učí zostať v rámci rozpočtu
  • Vyhodnocovač modelov vs vyhodnocovač reťazcov - Vyhodnocovač modelov zvláda variáciu formátovania (0,07 vs 7%)
  • Jedinečné ID rollouters - Sledovajte volania nástrojov v rolloutoch pre správu stavu
  • Sledujte rozdelenie nástrojov - Nástroj zobrazuje, ktoré nástroje sa model učí uprednostňovať

Širší obraz

Agent RFT umožňuje modelom naučiť sa používanie nástrojov skutočným používaním nástrojov počas trénovania - skúmaním stratégií a optimalizáciou vášho signálu odmeny. Dôsledok: agentov je možné trénovať tak, aby efektívne používali vaše špecifické API, nie len všeobecne. Vlastnosť špecifických nástrojov sa stáva trénovanou vlastnosťou.