Anthropic 受 GAN 启发的自主应用构建框架

agentsclaudeautomationagentic-codingenterprise

Anthropic 如何教 AI 构建完整应用程序

来自 Anthropic Labs 的 Prithvi Rajasekaran 详细分享了一篇工程技术解析,介绍了让 Claude 自主构建生产级前端设计和全栈应用的框架模式。该方法直接借鉴了生成对抗网络(GANs)的思路——将创造者与评判者分离。

上下文退化是隐形杀手: 第一个关键洞察是,简单的长时间运行 Agent 失败的原因不是能力限制,而是上下文污染。“Context resets — clearing and restarting with structured handoffs — proved more effective than compaction alone.”(上下文重置——清除并通过结构化交接重新启动——比单纯压缩更有效。)该框架不是试图总结不断增长的上下文,而是定期清空上下文,并将结构化状态交给全新的会话。

自我评估不可靠: 第二种失败模式同样隐蔽——Agent 会自信地称赞自己的工作,即使质量平庸。“Separating generator and evaluator roles proved more tractable than making generators self-critical.”(将生成器和评估器角色分离,比让生成器自我批评更加可行。)这是 GAN 思想在软件工程中的应用:不要信任构建者来评价自己的作品。

评估器使用实时浏览器: 系统不仅仅是读取代码——它运行 Playwright 与实时应用程序交互,根据四个标准进行评分:设计质量、原创性、工艺水平和功能性。每个生成周期运行 5-15 轮评估后,输出才会被接受。

三 Agent 全栈架构: 对于完整应用程序,框架部署了规划器(简报 → 产品规格)、生成器(以冲刺方式实现)和评估器(使用 Playwright 进行端到端测试,设有硬性通过/失败阈值)。规划器故意保持高层级,以避免级联的实现错误。

经济账是实实在在的: 单独一个 Agent 在 Opus 4.5 上运行花了 20 分钟和 9 美元——但产出的功能无法正常工作。完整框架花了 6 小时和 200 美元——但交付了一个可运行的应用程序,用户体验显著更好。评估器发现了路由排序问题、缺失的实体关联和错误的工具实现,而生成器对这些问题信心十足地直接提交了。

构建自主 AI 工作者的 5 个关键洞察

  • 评估标准编码了品味 — 通过将”设计质量”和”原创性”定义为可评分的维度,团队可以将输出引导至原本只能意会的审美和功能偏好
  • 基于文件的 Agent 通信有效 — Agent 通过文件(规格说明、进度、需求)而非消息传递进行通信,既忠实于规格说明又不过度约束
  • 框架复杂度应随时间降低 — 使用 Opus 4.6 后,冲刺分解被完全移除,同时保持了质量。持续压力测试哪些脚手架仍然是承重的
  • 评估器捕获最后一公里的差距 — 即使生成器表现优秀,评估器仍能发现集成错误、缺失的路由和自我审查遗漏的状态问题
  • 成本随雄心而扩展 — 200 美元做一个可运行的应用程序,对演示来说昂贵,对产品来说便宜。框架让这种权衡变得明确

生成器-评估器循环对 AI 组织意味着什么

这是迄今为止关于自主 AI 工作如何实际交付高质量成果的最清晰蓝图。教训不是”使用更多 Agent”——而是将创造与评估分离是可靠自主工作的根本原则。部署 AI Agent 执行生产任务的组织应以同样的方式设计其 Agent 架构:永远不要让构建某样东西的 Agent 成为唯一批准它的 Agent。随着模型的改进,脚手架会简化——但关注点分离的原则始终存在。