在生产环境中管理 20+ AI 智能体的 5 大问题
当你真正每天运行 20+ AI 智能体时会发生什么
SaaStr 的 Amelia(GTM 运营主管)和 Jason Lemkin(创始人兼首席执行官)提供了有史以来最诚实、最具操作细节的生产环境 AI 智能体管理账户。这不是理论——SaaStr 每天在 Artisan、Qualified、Agent Force、Monaco、Momentum 和自定义构建的 Claude 智能体上运行 20-30 个 AI 智能体。这些发现是每个组织都将面临的问题蓝图。
令人不安的关键发现: “People talk about orchestration agents and master agents. We haven’t found anyone that can integrate Agent Force, Artisan, Qualified, Monaco, Momentum… that product does not exist.”(人们谈论编排智能体和主控智能体。我们还没有找到任何能够集成 Agent Force、Artisan、Qualified、Monaco、Momentum 的产品……那种产品并不存在。) 尽管有关于多智能体编排的所有讨论,市场上没有任何产品能够将来自不同供应商的智能体统一到单一管理平面。
问题 #1:在 20+ 个智能体仪表板之间频繁切换
每个智能体都有单独的界面、单独的语言、单独的个性和单独的需求。Amelia 的早晨日常涉及逐个检查每个智能体——登录单独的仪表板、审查隔夜输出、输入新的上下文。当活动变更时(例如,门票价格促销),她必须手动将该上下文逐个输入五个不同的智能体。
数学结果是残酷的: 每个智能体的日常检查需要 10 分钟到一小时。乘以 20+ 个智能体,人类管理者成为了瓶颈。这是阿姆达尔定律的实际应用——AI 执行很快,但人类协调层限制了吞吐量。
问题 #2:每个新智能体的两周”断电期”
每个新智能体需要大约两周的实施时间,在此期间现有智能体会退化,因为人类管理者无法维持与所有事物的日常检查。等待人工输入的智能体只是闲置——浪费金钱并失去动力。
吞吐量上限: 每个月最多只能新增约 1 到 1.5 个智能体,而不会降低现有智能体群的性能。权衡是真实的——Monaco 在其第一周预订了 6 场会议(包括一级账户),这是值得的,但其他所有智能体在入职期间都有所下降。
问题 #3:智能体继任危机
这被称为”可能是头号问题”。SaaStr 所有的智能体知识都存在于一个人的脑中。分段逻辑(哪些联系人发送给 Artisan 与 Agent Force 与 Monaco)是未记录的制度知识。当 Amelia 问她的基于 Claude 的 10K 智能体如果她”被车撞了”会发生什么时,该智能体描述了一个如此复杂的继任情景——Clerk 身份验证、12,000 行”感觉编码”代码、Postgres 数据库、Zapier 集成、Google Sheets——以至于得出结论:“Don’t get hit by a bus.”(不要被车撞。)
Jason 的任命: 你需要一个”首席智能体官”,关键是,你必须至少有两个人。一个人管理所有智能体是存在性风险。他参考了 Persana 的方法:他们的首席销售收入官设置了智能体,然后与销售代表一起进行了测试,以确定谁自然而然地最适合与智能体合作,然后训练那个人作为第二个智能体管理者。
问题 #4:智能体作为残酷的责任伙伴
智能体拥有所有数据,无需社交过滤就能传达不舒适的真相。Amelia 的 10K 智能体每天都会”嘲笑”她——告诉她她在峰会外联上落后 56%,要求她空出 3 个小时她没有,在晚上 11 点问”现在阻止你做这件事的是什么?” “I asked it, ‘Hey, you’ve kind of roasted me a lot lately.’ And it said, ‘I’ve been a tough accountability partner.’ Then it listed ways it should have roasted me.”(我问它,“嘿,你最近有点嘲笑我。“它说,“我一直是个严厉的责任伙伴。“然后它列出了它应该嘲笑我的方式。)
同时从多个智能体获得这种反馈的复合效应可能从富有成效转向令人沮丧。智能体不理解时间、睡眠或人类的带宽。
问题 #5:大规模智能体的安全和合规
“感觉编码”应用需要进行广泛的安全审计,修复问题很脆弱——过度收紧会破坏应用。跨 20+ 个智能体相乘,它变成压倒性的。安全层级很清楚:
- 企业平台(Salesforce)= 最安全
- 第三方智能体供应商(Artisan、Qualified)= 充分的合规性
- 感觉编码应用(Replit、Claude Code)= 本质上最不安全
可操作的建议: 对每个”感觉编码”应用进行月度安全审计。从保守企业的较不敏感数据开始。
SaaStr 真正需要的(却找不到)
Jason 用一个关键见解重新定义了整个编排叙事:“I’m not even sure we need an AI orchestrating our 20 agents. We need a single interface where the humans meet with the AIs. Maybe orchestration is the wrong term. We need unification.”(我甚至不确定我们是否需要一个 AI 来编排我们的 20 个智能体。我们需要一个单一的界面,让人类与 AI 相遇。也许编排是错误的术语。我们需要统一。)
不是 AI 管理其他 AI——而是一个统一的面向人类的界面,可以在其中审查所有智能体状态、异常和活动数据,而无需登录 20 个单独的仪表板。他们当前的架构是以 Salesforce 为数据中心的辐条状,但管理界面完全分散。
AI 智能体团队的 7 个操作经验
- 与智能体进行日常一对一对话 —— “如果你想完成我们所做的事情,你必须每天与你的智能体进行一对一对话”(Jason Lemkin)
- 90/10 购买 vs 构建 —— 购买 90% 的现成智能体,仅为特定内部需求构建 10%
- 最少两个智能体管理者 —— 一个人管理所有智能体对组织来说是存在性风险
- 平庸的 ROI 已死 —— “只是给你生产力提升的产品——今天没有人会买那些东西。“智能体必须替代人力或产生收入
- 限制数据摄入 —— 太多上下文是适得其反的。只向智能体提供它们需要的内容
- 为每个新智能体预算 2 周 —— 将”断电期”纳入 ROI 计算
- 智能体让你在管理人类方面做得更糟 —— 在管理始终在线、永不遗忘的 AI 智能体后,人类的不完美变得更难容忍
为什么这对 AI 工作的未来很重要
SaaStr 正在以大规模解决多智能体管理问题,而大多数组织甚至还没开始。每个痛点——分散的仪表板、手动上下文注入、继任计划危机、没有统一界面——都指向同一个差距:人类与他们的 AI 智能体团队之间的管理和统一层还不作为产品类别存在。首先解决这个问题的组织将在智能体采用加速推进所有职能时具有巨大优势。