Anthropic 受 GAN 启发的自主应用构建框架

2026-03-24 Anthropic Engineering

agentsclaudeautomationagentic-codingenterprise

Anthropic 如何教 AI 构建完整应用程序

来自 Anthropic Labs 的 Prithvi Rajasekaran 详细分享了一篇工程技术解析，介绍了让 Claude 自主构建生产级前端设计和全栈应用的框架模式。该方法直接借鉴了生成对抗网络（GANs）的思路——将创造者与评判者分离。

上下文退化是隐形杀手： 第一个关键洞察是，简单的长时间运行 Agent 失败的原因不是能力限制，而是上下文污染。“Context resets — clearing and restarting with structured handoffs — proved more effective than compaction alone.”（上下文重置——清除并通过结构化交接重新启动——比单纯压缩更有效。）该框架不是试图总结不断增长的上下文，而是定期清空上下文，并将结构化状态交给全新的会话。

自我评估不可靠： 第二种失败模式同样隐蔽——Agent 会自信地称赞自己的工作，即使质量平庸。“Separating generator and evaluator roles proved more tractable than making generators self-critical.”（将生成器和评估器角色分离，比让生成器自我批评更加可行。）这是 GAN 思想在软件工程中的应用：不要信任构建者来评价自己的作品。

评估器使用实时浏览器： 系统不仅仅是读取代码——它运行 Playwright 与实时应用程序交互，根据四个标准进行评分：设计质量、原创性、工艺水平和功能性。每个生成周期运行 5-15 轮评估后，输出才会被接受。

三 Agent 全栈架构： 对于完整应用程序，框架部署了规划器（简报 → 产品规格）、生成器（以冲刺方式实现）和评估器（使用 Playwright 进行端到端测试，设有硬性通过/失败阈值）。规划器故意保持高层级，以避免级联的实现错误。

经济账是实实在在的： 单独一个 Agent 在 Opus 4.5 上运行花了 20 分钟和 9 美元——但产出的功能无法正常工作。完整框架花了 6 小时和 200 美元——但交付了一个可运行的应用程序，用户体验显著更好。评估器发现了路由排序问题、缺失的实体关联和错误的工具实现，而生成器对这些问题信心十足地直接提交了。

构建自主 AI 工作者的 5 个关键洞察

评估标准编码了品味 — 通过将”设计质量”和”原创性”定义为可评分的维度，团队可以将输出引导至原本只能意会的审美和功能偏好
基于文件的 Agent 通信有效 — Agent 通过文件（规格说明、进度、需求）而非消息传递进行通信，既忠实于规格说明又不过度约束
框架复杂度应随时间降低 — 使用 Opus 4.6 后，冲刺分解被完全移除，同时保持了质量。持续压力测试哪些脚手架仍然是承重的
评估器捕获最后一公里的差距 — 即使生成器表现优秀，评估器仍能发现集成错误、缺失的路由和自我审查遗漏的状态问题
成本随雄心而扩展 — 200 美元做一个可运行的应用程序，对演示来说昂贵，对产品来说便宜。框架让这种权衡变得明确

生成器-评估器循环对 AI 组织意味着什么

这是迄今为止关于自主 AI 工作如何实际交付高质量成果的最清晰蓝图。教训不是”使用更多 Agent”——而是将创造与评估分离是可靠自主工作的根本原则。部署 AI Agent 执行生产任务的组织应以同样的方式设计其 Agent 架构：永远不要让构建某样东西的 Agent 成为唯一批准它的 Agent。随着模型的改进，脚手架会简化——但关注点分离的原则始终存在。