OpenAI Agent RFT Build Hour: 通过更好的结果让智能体使用工具调用减少60%

OpenAI
tutorialagentstrainingdeveloper-tools

观点

这是OpenAI关于Agent RFT(智能体强化微调)的构建课程 - 关于如何训练智能体更好地使用您的特定工具的技术深度解析。微调工程师Will和解决方案架构师Theo将逐步介绍一个完整示例。

Agent RFT是模型在训练期间首次与外部世界交互的方案。 关键创新是:在训练期间,智能体可以真正调用您的工具端点并探索不同的使用方式。然后您的自定义评分器端点提供奖励信号。模型通过尝试许多不同的工具调用策略并在您的任务上进行爬升来有机地学习。

演示使其具体化。 他们修改了FinQA(金融问答基准)使其更难 - 智能体只获得问题,没有上下文,必须在2,800份财务报告中搜索正确的报告并答题,所有这些都在10次工具调用内完成。工具包括:语义搜索、列出目录、cat读取文档。

前后对比非常显著。 基线GPT-5:59%准确率。仅仅10个训练步骤后:73%准确率(+11个百分点)。同样令人印象深刻的是:工具调用从8-9次下降到明显更少,tokens从2,500下降到1,500,延迟降低10%(快5秒)。模型学会了更高效地使用工具。

方差图是诊断工具。 训练前,您多次运行每个样本并查看分数方差。具有高方差的样本(有时为0,有时为1)是模型可以学习的地方 - 好的推理路径与坏的推理路径。总是得分0或总是得分1的样本不提供学习信号。

观察训练期间的工具调用分布。 仪表板显示工具使用如何演变:最初在”搜索”上很繁重,然后随着模型学习哪些有效而转向更多”列出”和”cat”调用。“模型正在学习更高效地使用这些工具。“

主要要点

  • Agent RFT = 训练期间的工具 - 模型在训练过程中首次调用外部端点
  • 自定义评分器端点 - 您定义奖励信号;模型学习”优秀”的样子
  • FinQA演示 - 10步内从59% → 73%准确率;8-9次工具调用 → 明显更少
  • 延迟减少 - 快10%(快5秒);tokens 2500 → 1500
  • 计算倍数 - 控制探索;更高 = 更多方差,更多端点负载
  • 方差诊断 - 运行样本3次,查找方差;这就是学习发生的地方
  • 工具调用预算 - 可以限制为最多10次调用;模型学会保持在预算内
  • 模型评分器vs字符串评分器 - 模型评分器处理格式化方差(0.07 vs 7%)
  • 唯一的汇总ID - 跟踪汇总中的工具调用以进行状态管理
  • 观察工具分布 - 仪表板显示模型学会倾向于哪些工具

全局视图

Agent RFT让模型通过在训练期间实际使用工具来学习工具使用 - 探索策略并根据您的奖励信号进行爬升。含义是:可以训练智能体高效地使用您的特定API,而不仅仅是通用的。自定义工具专业知识成为可训练的属性。