AnthropicのGANにインスパイアされた自律型アプリ構築ハーネス
AnthropicがAIに完全なアプリケーション構築を教える方法
Anthropic LabsのPrithvi Rajasekaranが、Claudeがプロダクション品質のフロントエンドデザインとフルスタックアプリケーションを自律的に構築するためのハーネスパターンについて、詳細なエンジニアリング解説を共有しています。このアプローチは、Generative Adversarial Networks(GANs)から直接インスピレーションを得ており、作成者と批評者を分離します。
コンテキストの劣化がサイレントキラー: 最初の重要な洞察は、素朴な長時間実行エージェントが能力の限界ではなく、コンテキストの汚染によって崩壊するということです。“Context resets — clearing and restarting with structured handoffs — proved more effective than compaction alone.”(コンテキストリセット——構造化されたハンドオフによるクリアと再開——は、コンパクション単体よりも効果的であることが証明されました。)肥大化し続けるコンテキストを要約しようとするのではなく、ハーネスは定期的にそれを完全にクリアし、構造化された状態を新しいセッションに引き継ぎます。
自己評価は信頼できない: 2番目の失敗モードも同様に厄介です——エージェントは品質が平凡であっても自信を持って自分の作業を称賛します。“Separating generator and evaluator roles proved more tractable than making generators self-critical.”(ジェネレーターとエバリュエーターの役割を分離する方が、ジェネレーターに自己批判させるよりも扱いやすいことが証明されました。)これはソフトウェアエンジニアリングに適用されたGANの洞察です:構築者に自分の作業を採点させてはいけません。
エバリュエーターはライブブラウザを使用: システムはコードを読むだけではなく、Playwrightを実行してライブアプリケーションと対話し、デザイン品質、独創性、作り込み、機能性の4つの基準で評価します。各生成サイクルでは、出力が承認されるまでに5〜15回のエバリュエーターラウンドが実行されます。
3エージェントのフルスタックアーキテクチャ: 完全なアプリケーションの場合、ハーネスはPlanner(ブリーフ→プロダクト仕様)、Generator(スプリントで実装)、Evaluator(ハードなパス/フェイル閾値を持つエンドツーエンドのPlaywrightテスト)を展開します。Plannerは実装エラーの連鎖を避けるため、意図的にハイレベルに留まります。
経済性は現実的: Opus 4.5でのソロエージェント実行は20分で9ドルかかりましたが、機能しない機能を生成しました。フルハーネスは6時間で200ドルかかりましたが、大幅に優れたUXを持つ動作するアプリケーションを提供しました。エバリュエーターは、ジェネレーターが自信を持って出荷したルート順序の問題、エンティティ配線の欠落、不正なツール実装をキャッチしました。
自律型AIワーカー構築のための5つの重要な洞察
- 評価基準がテイストをエンコードする — 「デザイン品質」と「独創性」を採点可能な次元として定義することで、チームは暗黙的になりがちな美的・機能的好みに向けて出力を制御できます
- ファイルベースのエージェント通信が機能する — エージェントはメッセージパッシングではなくファイル(仕様、進捗、要件)を通じて通信し、過度に制約することなく仕様に忠実な作業を維持します
- ハーネスの複雑さは時間とともに減少すべき — Opus 4.6では、品質を維持しながらスプリント分解が完全に削除されました。どのスキャフォールディングがまだ構造を支えているかを継続的にストレステストしましょう
- エバリュエーターがラストマイルのギャップをキャッチする — ジェネレーターが優秀であっても、エバリュエーターはセルフレビューが見逃す統合バグ、欠落ルート、壊れた状態を発見します
- コストは野心に比例する — 動作するアプリケーションに200ドルは、デモとしては高価ですが、プロダクトとしては安価です。ハーネスはそのトレードオフを明確にします
ジェネレーター・エバリュエーターループがAI組織にとって意味すること
これは、自律型AIワークが実際に品質の高い成果を出す方法についての、これまでで最も明確な設計図です。教訓は「もっとエージェントを使え」ではなく、作成と評価の分離が信頼性の高い自律作業の基本であるということです。プロダクションタスクにAIエージェントを導入する組織は、同じ方法でエージェントアーキテクチャを設計すべきです:何かを構築したエージェントだけがそれを承認する唯一の存在であってはなりません。モデルが改善されるにつれてスキャフォールディングは簡素化されますが、関心の分離は持続します。