长时运行AI智能体时代来临:如何构建可持续工作数小时的智能体
Claude & Jozo · 10 min read · 2026/01/12
AI智能体工程开发技术最佳实践

长时运行AI智能体时代来临:如何构建可持续工作数小时的智能体

不同寻常的事情正在发生。

AI智能体不再局限于快速任务。它们正在构建完整的应用程序,处理数以千计的文档,运行持续数天的研究项目。

Anthropic刚刚发布了相关研究——智能体跨多个会话构建了一个具有200多项功能的完整Claude.ai克隆版本。

这是从”AI助手”到”AI工作者”的转变。而且这一转变正在发生。


突破:能够持续工作的智能体

多年来,AI智能体一直局限于单次对话模式。你可以在一个会话中获得令人印象深刻的结果,但需要持续努力的任务?不可能实现。

这一切已经改变。

Anthropic研究的核心洞见:有了正确的基础设施,智能体可以可靠地工作数小时、数天,甚至数周。

不只是理论上如此。他们通过让智能体从零开始构建一个生产级Web应用程序证明了这一点。

“该框架提供了上下文管理能力,使智能体能够在不耗尽token限制的情况下持续工作。”

这是一种全新的根本性能力。让我们来了解是什么使它成为可能。


长时运行智能体得以实现的原因

智能体框架模式

突破不在于更好的模型,而在于模型周围更好的基础设施。

智能体框架是实现持续工作的支撑结构:

组件功能
上下文管理归纳旧的工作内容,为新任务释放token
状态持久化跨会话记住决策和进度
环境设置每个会话从干净、已知的状态开始
进度追踪结构化文件显示已完成和待完成的内容

可以把它想象成AI的交班文档。每个”班次”(会话)继承前一个班次的所有内容。

会话如何衔接

会话1:初始化
├── 设置环境
├── 创建进度追踪
├── 完成第一个里程碑
└── 记录状态

会话2至N:继续
├── 加载上一个状态
├── 从中断处继续
├── 完成下一个里程碑
└── 记录状态

最终会话:完成
├── 完成剩余工作
├── 验证所有功能正常
└── 整洁交接

关键所在: 每个会话都是独立的,但框架创造了连续性。


解锁长时运行工作的五种模式

Anthropic的研究确定了能够持续工作的智能体与不能持续工作的智能体之间的区别。以下是这些模式:

1. 初始化模式

每个项目都从结构开始。

第一个会话是特殊的——它奠定基础:

# init.sh - 如何运行此项目
npm install && npm run dev

# progress.txt - 当前进度
Project: Customer Portal
Status: Initialized
Completed: Environment setup
Next: Implement authentication

有效原因: 后续每个会话都知道如何精确地接续工作。

2. 结构化需求(JSON优于散文)

给智能体检查清单,而非小说。

{
  "features": [
    {"name": "User signup", "status": "complete", "verified": true},
    {"name": "Password reset", "status": "in_progress", "verified": false},
    {"name": "Session management", "status": "pending", "verified": false}
  ]
}

有效原因: 清晰的结构防止范围蔓延,让进度一目了然。

3. 基于里程碑的进度

将大型项目分解为清晰的检查点。

不要”构建应用程序”,而是将工作结构化为:

  1. ✅ 认证流程
  2. ✅ 数据库模式
  3. 🔄 用户仪表盘
  4. ⏳ 设置页面
  5. ⏳ 导出功能

有效原因: 每个会话都有明确、可实现的目标。进度持续积累。

4. 端到端验证

信任,但要自动验证。

最好的结果来自要求实际验证:

// 在标记为完成之前,智能体运行真实用户流程
await page.goto('/signup')
await page.fill('[name=email]', '[email protected]')
await page.click('[type=submit]')
// 验证流程确实有效

有效原因: 捕获单元测试会遗漏的集成问题。Anthropic发现通过浏览器自动化bug检测率提高了3.2倍

5. 整洁交接

每个会话结束时为下一个会话做好准备。

会话结束检查清单:

  • ✅ 所有测试通过
  • ✅ 进度文件已更新
  • ✅ 没有未提交的改动
  • ✅ 下一步已记录

有效原因: 下一个会话从构建开始,而非调试。


成果:实际可能实现什么

Anthropic的生产测试——构建Claude.ai克隆版本:

指标结果
构建的功能数200+
所需会话数8-12
每会话功能数8-12
端到端通过率91%

关键指标: pass^3(连续尝试的可靠性)达到78%——生产就绪级别的一致性。

这不是演示。这是持续AI工作在今天可以实现的证明。


两个关键指标

评估长时运行智能体性能时,重点关注:

pass@k:“它能成功吗?”

在k次尝试中至少成功一次的概率。衡量能力

pass^k:“它能持续成功吗?”

在所有k次尝试中都成功的概率。衡量可靠性

两者之间的差距揭示了机会所在。 pass@1为80%但pass^3仅51%的智能体还有提升一致性的空间——这正是框架模式最能发挥作用的地方。


对组织的意义

长时运行智能体开启了新的可能性:

开发项目

  • 跨多个会话构建功能
  • 系统性地重构代码库
  • 逐步处理技术债务

文档处理

  • 数天内分析数以千计的文档
  • 大规模提取和结构化信息
  • 跨大型语料库保持上下文

研究与分析

  • 带综合分析的多天研究项目
  • 持续监控和报告
  • 会耗尽人类注意力的深度分析

业务运营

  • 持续的流程自动化
  • 带验证的多步骤工作流
  • 跨越工作时间的任务

转变: 从”AI协助完成任务”到”AI完成整个项目”。


开始使用

如果你想构建能够持续工作的智能体:

1. 为会话而非对话进行设计

将每个上下文窗口视为一个班次。下一个班次需要知道什么?

2. 投入状态管理

进度文件、git提交、结构化需求。这些基础设施是实现的关键。

3. 自动化验证

不要问智能体是否成功了。自动检查。

4. 从清晰的里程碑开始

将工作分解为可实现的部分。让进度持续积累。

5. 衡量可靠性(pass^k)

能力是入场券。一致性才是生产环境中真正重要的东西。


前方的机遇

我们正处于一个拐点。

AI智能体已经从”令人印象深刻的演示”转变为”持续工作”。基础设施模式已有文档记录。成果已被证明。

现在可以实现的:

  • 智能体持续数小时处理你的代码库
  • 跨越数天的文档处理
  • 会耗尽人类专注力的研究项目
  • 持续运行的业务操作

问题不在于AI智能体是否能够持续工作。它们可以。

问题是:你将用它们构建什么?


亲自尝试

TeamDay构建可靠运行的AI工作流——具备状态管理、验证功能,以及使持续工作成为可能的基础设施。

开始免费试用 →

构建能够完成项目的智能体,而不只是启动项目。


相关阅读

  • OpenRouter 2026最佳AI模型 — 长时运行智能体会消耗数百万token。了解哪些模型提供最佳的成本/性能比,包括探索阶段的免费选项。
  • Claude Code最佳实践 — 掌握持续Claude Code会话的上下文管理和token优化。

来源: