Newsfeed / OpenRouter COO:Agent 是如何真正进入生产环境的
AI Day·January 28, 2026

OpenRouter COO:Agent 是如何真正进入生产环境的

OpenRouter 的 Chris 分享了 Agent 采用的数据:工具调用率在一年内增长了 5 倍,推理令牌现已占输出的 50%。以下是哪些方法有效。

OpenRouter COO:Agent 是如何真正进入生产环境的

OpenRouter 万亿令牌揭示的 Agent 采用趋势

Chris 是 OpenRouter 的联合创始人兼首席运营官,他处于一个独特的有利位置。OpenRouter 每天处理超过一万亿个令牌,跨越 70 多个云提供商,能够看到 AI 在生产环境中的真实使用情况——不是演示,不是实验,而是大规模的真实工作负载。

数据说明了一个清晰的故事:Agent 不再是理论层面的东西。它们已经投入使用。

工具调用的爆发式增长: "从 5% 以下增长到远超 25%。这个数字在快速上升。" 仅在 Anthropic 模型上,以工具请求结尾的 API 调用百分比在 12 个月内增长了 5 倍。这是 Agent 被部署到生产环境的"消耗足迹"。

SLA 时刻: 大约在 2025 年 7 月,出现了变化。Chris 回忆说:"突然间,我们开始收到客户关于我们 SLA 和正常运行时间的问询……这是一个极其强有力的信号,表明这些东西已经从一群公司的测试阶段转变为真正投入生产。如果它们停止工作,就开始变得重要了。"

推理令牌现已成为主导: 一年前,生产环境中还不存在推理模型。现在,OpenRouter 看到的所有输出令牌中,有 50% 是内部推理令牌。Agent 在行动之前进行思考。

为什么模型混合是新的标准

最成功的 Agent 不使用单一模型——它们针对不同的任务使用多个模型:

用于规划的前沿模型: Claude、GPT-4、Gemini 处理"判断决策"——理解上下文、规划后续步骤、做出需要细微差别的决策。

用于执行的较小模型: 更便宜、更快的模型(如 Qwen 和 MiniMax)处理工具调用本身。Chris 解释说:"它们使用较小的专用模型来执行工具调用请求和执行操作。从判断角度来说不如大模型聪明,但在工具使用上极其准确、表现出色。"

这种模式——用最好的进行推理,用最快的进行执行——是生产环境中 Agent 如何管理质量和成本的方式。

没人谈论的推理质量问题

这里有个反直觉的事实:相同的模型权重在不同的云上会产生不同的结果。

OpenRouter 的基准测试表明,相同的模型可能具有:

  • 不同提供商之间的准确度分数差异
  • 不同的工具调用频率
  • 生产性能的显著差异

"为什么完全相同的模型、具有完全相同的能力,会在不同情况下选择以不同的方式使用工具呢?" 答案在于推理堆栈实现的微妙差异——量化、服务基础设施、API 处理。

这就是 OpenRouter 创建"Exacto 端点"的原因——路由池仅包括经过工具调用准确性基准测试的提供商。对于 Agent,推理质量与模型质量一样重要。

创始人在构建 Agent 时犯的最大错误

当被问及创始人经常做错什么时,Chris 的回答出人意料:他们不为灵活性而构建。

"很难预测我们在 12 个月内需要什么以及推理将来自哪里,以及我们可能需要什么样的模型。"

解决方案不是今天选择完美的模型——而是构建基础设施,让你明天能够切换模型。被锁定在一个提供商的 Agent 无法:

  • 在新的前沿模型发布时进行测试
  • 一旦用例得到验证就降级到更便宜的模型
  • 在提供商出现中断时进行故障转移

企业 Agent 真正需要什么

对于大规模部署 Agent 的团队,Chris 确定了关键问题:

正常运行时间和故障转移: 生产环境中的 Agent 不能停机。这意味着多提供商路由、自动故障转移和实时监控。

数据政策清晰性: "他们的数据中心在哪里?他们是真的拥有 GPU 还是在不同的数据中心租赁 GPU?解密在哪里进行?" 企业安全团队需要得到答案。

突发容量: Agent 按计划运行——隔夜批处理作业、周期性工作流。为波动工作负载购买承诺容量是不行的。共享基础设施才可以。

构建 AI Agent 的 4 个要点

  • 工具调用是 Agent 的特征 - 如果你没有测量工具调用率,你就没有在测量 Agent 采用情况
  • 混合使用前沿模型和专用模型 - 使用最好的模型进行推理,使用快速模型进行执行
  • 推理质量差异很大 - 相同的模型在不同提供商之间可能表现不同;对你的特定用例进行基准测试
  • 为灵活性而构建,而不是完美 - 模型形势每个月都在变化;锁定是真正的风险

为什么这对 AI 赋能的组织很重要

OpenRouter 的数据证实了我们一直在看到的:长期运行的 Agent 已经来临,使这些 Agent 工作的基础设施模式正在变得清晰。

这种转变不仅是技术上的——更是运营上的。当客户开始询问 SLA 问题时,当工具调用率在一年内增长 5 倍时,当推理令牌达到输出的 50% 时……这是大规模生产采用。

对于组织来说,问题不是是否要部署 Agent。而是如何构建基础设施,使 Agent 真正发挥作用:多模型路由、推理质量监控以及适应不断发展的形势的灵活性。

Related