OpenAI Agent RFT Build Hour: Trénujte agenty na 60% méně volání nástrojů s lepšími výsledky

OpenAI
tutorialagentstrainingdeveloper-tools

Perspektiva

Toto je OpenAI build hour o Agent RFT (posilovaném ladění pro agenty) - hluboký technický ponor do toho, jak trénovat agenty na lepší používání vašich specifických nástrojů. Will (inženýr ladění) a Theo (řešitel) projdou kompletní příklad.

Agent RFT je poprvé, kdy modely interagují s vnějším světem během trénování. Klíčová inovace: během trénování může agent skutečně volat vaše koncové body nástrojů a prozkoumat různé způsoby jejich používání. Poté váš vlastní koncový bod ohodnotitele poskytuje signál odměny. Model se učí organicky zkoušením mnoha různých strategií volání nástrojů a hill-climbingem na vaší úloze.

Démonstrace to dělá konkrétní. Upravili FinQA (finanční benchmark otázek a odpovědí) na složitější verzi - agent dostane pouze otázku, bez kontextu, a musí prohledat 2 800 finančních zpráv, aby našel tu správnou a odpověděl, vše v rámci 10 volání nástrojů. Nástroje: sémantické hledání, výpis adresářů, čtení dokumentů.

Porovnání před a po je poutavé. Základní GPT-5: 59% přesnost. Po pouhých 10 tréninkových krocích: 73% přesnost (+11 bodů). Ale stejně působivé: volání nástrojů se snížilo z 8-9 na mnohem méně, tokeny z 2 500 na 1 500, latence nižší o 10% (5 sekund rychlejší). Model se naučil nástrojům používat efektivněji.

Graf rozptylu je diagnostický nástroj. Před trénováním spustíte každý vzorek vícekrát a podíváte se na rozptyl skóre. Vzorky s vysokým rozptylem (někdy 0, někdy 1) jsou místa, kde se model může učit - dobré cesty uvažování vs špatné. Vzorky, které vždy skórují 0 nebo vždy 1, neposkytují signál učení.

Sledujte distribuci volání nástrojů během trénování. Přístrojová deska ukazuje, jak se používání nástrojů vyvíjí: zpočátku těžko na “hledání”, poté se mění na více volání “výpisu” a “čtení” s tím, jak se model učí, co funguje. “Model se prostě učí ty nástroje používat mnohem efektivněji.”

Klíčové poznatky

  • Agent RFT = nástroje během trénování - Poprvé, kdy modely volají externí koncové body během procesu trénování
  • Vlastní koncový bod ohodnotitele - Vy definujete signál odměny; model se učí, co vypadá “dobře”
  • FinQA démonstrace - 59% → 73% přesnost za 10 kroků; 8-9 volání nástrojů → mnohem méně
  • Snížení latence - 10% rychlejší (5 sekund); tokeny 2 500 → 1 500
  • Násobitel výpočtu - Řídí průzkum; vyšší = více rozptylu, více zátěže na koncový bod
  • Diagnostika rozptylu - Spusťte vzorky 3x, vyhledejte rozptyl; to je místo, kde se učení děje
  • Rozpočet volání nástrojů - Lze omezit na 10 volání max; model se učí zůstat v rozpočtu
  • Ohodnotitel modelu vs ohodnotitel řetězce - Ohodnotitel modelu zvládá variance formátování (0,07 vs 7%)
  • Jedinečná ID rolloutů - Sledujte volání nástrojů v rámci rolloutů pro správu stavu
  • Sledujte distribuci nástrojů - Přístrojová deska ukazuje, které nástroje se model učí preferovat

Větší obraz

Agent RFT umožňuje modelům naučit se používání nástrojů jejich skutečným používáním během trénování - prozkoumáním strategií a hill-climbingem na vašem signálu odměny. Důsledek: agenty lze trénovat na efektivní používání vašich specifických API, ne jen obecně. Vlastní odbornost na nástroje se stává trenoval vlastností.