OpenAI Agent RFT Build Hour: Trénujte agentov na používanie 60% menej volaní nástrojov s lepšími výsledkami
Perspektíva
Toto je OpenAI build hour na tému Agent RFT (Reinforcement Fine-Tuning pre agentov) - technických hlbokých ponoroch do toho, ako trénovať agentov na lepšie používanie vašich špecifických nástrojov. Will (inžinier fine-tuningu) a Theo (architekt riešení) prejdú kompletným príkladom.
Agent RFT je prvýkrát, keď modely interagujú s vonkajším svetom počas trénovania. Kľúčová inovácia: počas trénovania môže agent skutočne volať vaše koncové body nástrojov a skúmať rôzne spôsoby ich používania. Potom váš vlastný koncový bod vyhodnocovača poskytuje signál odmeny. Model sa učí organicky pokúšaním sa mnohých rôznych stratégií volania nástrojov a optimalizáciou vašej úlohy.
Ukážka to robí konkrétnym. Upravili FinQA (benchmark finančných otázok) tak, aby bolo náročnejšie - agent dostane len otázku, bez kontextu, a musí hľadať v 2 800 finančných správach, aby našiel tú správnu a odpovedal, všetko v rámci 10 volaní nástrojov. Nástroje: sémantické vyhľadávanie, zoznam adresárov, cat na čítanie dokumentov.
Prirovnanie pred a po je nápadné. Základný GPT-5: 59% presnosti. Po iba 10 krokoch trénovania: 73% presnosti (+11 bodov). Ale rovnako pôsobivé: volania nástrojov sa znížili z 8-9 na oveľa menej, tokeny z 2 500 na 1 500, latencia znížená o 10% (5 sekúnd rýchlejšie). Model sa naučil používať nástroje efektívnejšie.
Graf variancie je diagnostický nástroj. Pred tréningom spustíte každú vzorku viackrát a pozriete sa na variáciu skóre. Vzorky s vysokou variáciou (niekedy 0, niekedy 1) sú miesta, kde sa model môže učiť - dobré cesty uvažovania oproti zlým. Vzorky, ktoré vždy dosahujú skóre 0 alebo vždy 1, neposkytujú signál na učenie.
Sledujte rozdelenie volaní nástrojov počas trénovania. Nástroj zobrazuje, ako sa používanie nástrojov vyvíja: spočiatku veľa na “vyhľadávanie”, potom sa posúva na viac volaní “list” a “cat” keď sa model učí, čo funguje. “Model sa jednoducho učí používať tie nástroje oveľa efektívnejšie.”
Kľúčové poznatky
- Agent RFT = nástroje počas trénovania - Prvýkrát, keď modely volajú vonkajšie koncové body počas procesu trénovania
- Vlastný koncový bod vyhodnocovača - Vy definujete signál odmeny; model sa učí, ako vyzerá “dobré”
- FinQA ukážka - 59% → 73% presnosti v 10 krokoch; 8-9 volaní nástrojov → oveľa menej
- Zníženie latencií - 10% rýchlejšie (5 sekúnd); tokeny 2 500 → 1 500
- Násobiteľ výpočtov - Kontroluje prieskum; vyššia hodnota = viac variancie, viac záťaže koncových bodov
- Diagnostika variancie - Spustite vzorky 3x, hľadajte variáciu; tam sa učenie deje
- Rozpočet volaní nástrojov - Môžete obmedziť na maximum 10 volaní; model sa učí zostať v rámci rozpočtu
- Vyhodnocovač modelov vs vyhodnocovač reťazcov - Vyhodnocovač modelov zvláda variáciu formátovania (0,07 vs 7%)
- Jedinečné ID rollouters - Sledovajte volania nástrojov v rolloutoch pre správu stavu
- Sledujte rozdelenie nástrojov - Nástroj zobrazuje, ktoré nástroje sa model učí uprednostňovať
Širší obraz
Agent RFT umožňuje modelom naučiť sa používanie nástrojov skutočným používaním nástrojov počas trénovania - skúmaním stratégií a optimalizáciou vášho signálu odmeny. Dôsledok: agentov je možné trénovať tak, aby efektívne používali vaše špecifické API, nie len všeobecne. Vlastnosť špecifických nástrojov sa stáva trénovanou vlastnosťou.