長時間稼働AIエージェントが登場:何時間も働くエージェントの作り方
注目すべきことが起きています。
AIエージェントはもはや短いタスクだけに限られていません。アプリケーション全体を構築しています。何千もの文書を処理しています。何日にもわたる調査プロジェクトを進めています。
Anthropicは、複数のセッションにわたって200以上の機能を持つClaude.aiの完全なクローンを構築したエージェントに関する研究を発表しました。
これは「AIアシスタント」から「AI労働者」への転換です。そして今起きています。
突破口:作業を持続するエージェント
長年、AIエージェントは単一会話モードに縛られていました。1つのセッションで印象的な結果を得ることはできましたが、継続的な努力が必要なことは?不可能でした。
それが変わりました。
Anthropicの研究からの重要な洞察:適切なインフラがあれば、エージェントは何時間、何日、さらには何週間も信頼性を持って作業できます。
理論上ではなく、実際に。スクラッチから本番対応のWebアプリケーションを構築することで実証しました。
「ハーネスはコンテキスト管理能力を提供し、エージェントがトークン制限を使い切ることなく作業できるようにします。」
これは根本的に新しい能力です。何が可能にしているのかを見ていきましょう。
長時間稼働エージェントを可能にするもの
エージェントハーネスパターン
突破口はより良いモデルではなく、モデルの周りの優れたインフラです。
エージェントハーネスは持続的な作業を可能にする足場です:
| コンポーネント | 機能 |
|---|---|
| コンテキスト管理 | 新しいタスク用のトークンを確保するため古い作業を要約 |
| 状態の永続化 | セッションをまたいで決定と進捗を記憶 |
| 環境のセットアップ | 各セッションはクリーンで既知の状態から開始 |
| 進捗追跡 | 構造化ファイルが完了済みと残りのタスクを表示 |
AIのための引き継ぎ文書のようなイメージです。各「シフト」(セッション)は前のものすべてを引き継ぎます。
セッションのつながり
セッション1:初期化
├── 環境のセットアップ
├── 進捗追跡の作成
├── 最初のマイルストーン完了
└── 状態の記録
セッション2〜N:継続
├── 前の状態を読み込む
├── 中断した箇所から再開
├── 次のマイルストーン完了
└── 状態の記録
最終セッション:完了
├── 残作業の完了
├── すべての動作確認
└── クリーンな引き渡し
魔法: 各セッションは独立していますが、ハーネスが継続性を生み出します。
長時間稼働を可能にする5つのパターン
Anthropicの研究は、作業を持続するエージェントとそうでないエージェントを分ける要素を特定しました。以下がそのパターンです:
1. 初期化パターン
すべてのプロジェクトを構造から始める。
最初のセッションは特別です — 基盤を確立します:
# init.sh - このプロジェクトの実行方法
npm install && npm run dev
# progress.txt - 現在地
プロジェクト:カスタマーポータル
状態:初期化済み
完了:環境のセットアップ
次:認証の実装
機能する理由: 後続の各セッションが作業をどこから引き継ぐかを正確に把握できます。
2. 構造化された要件(JSON > 散文)
エージェントに小説ではなく、チェックリストを与える。
{
"features": [
{"name": "ユーザー登録", "status": "complete", "verified": true},
{"name": "パスワードリセット", "status": "in_progress", "verified": false},
{"name": "セッション管理", "status": "pending", "verified": false}
]
}
機能する理由: 明確な構造がスコープの拡大を防ぎ、進捗を可視化します。
3. マイルストーンベースの進捗
大きなプロジェクトを明確なチェックポイントに分割する。
「アプリケーションを作る」ではなく、作業を以下のように構造化します:
- ✅ 認証フロー
- ✅ データベーススキーマ
- 🔄 ユーザーダッシュボード
- ⏳ 設定ページ
- ⏳ エクスポート機能
機能する理由: 各セッションに明確で達成可能な目標があります。進捗が蓄積されます。
4. エンドツーエンド検証
信頼するが確認する — 自動的に。
最良の結果は実際の検証を要求することから得られます:
// 完了とマークする前に、エージェントが実際のユーザーフローを実行
await page.goto('/signup')
await page.fill('[name=email]', '[email protected]')
await page.click('[type=submit]')
// フローが実際に機能することを確認
機能する理由: ユニットテストが見逃す統合の問題を検出します。Anthropicはブラウザ自動化でバグ検出が3.2倍向上したと報告しています。
5. クリーンな引き継ぎ
各セッションを次のセッションの準備が整った状態で終了する。
セッション終了チェックリスト:
- ✅ すべてのテストが合格
- ✅ 進捗ファイルが更新済み
- ✅ コミット忘れの変更なし
- ✅ 次のステップが記録済み
機能する理由: 次のセッションはデバッグではなく構築から始まります。
結果:実際に何が可能か
AnthropicのAIによるClaude.aiクローン構築テスト:
| 指標 | 結果 |
|---|---|
| 構築された機能 | 200以上 |
| 必要なセッション | 8〜12 |
| セッションあたりの機能 | 8〜12 |
| エンドツーエンド合格率 | 91% |
重要な指標: pass^3(連続した試行での信頼性)が**78%**に達成 — 本番環境での一貫性。
これはデモではありません。持続的なAI作業が今日達成可能であることの証明です。
重要な2つの指標
長時間稼働エージェントのパフォーマンスを評価する際、以下に注目してください:
pass@k:「成功できるか?」
k回の試行のうち少なくとも1回の成功確率。能力を測定。
pass^k:「一貫して成功するか?」
すべてのk回の試行で成功する確率。信頼性を測定。
この差がチャンスを示しています。 80% pass@1だが51% pass^3のエージェントは一貫性向上の余地があり — そこでハーネスパターンが最も役立ちます。
組織への影響
長時間稼働エージェントが開く新しい可能性:
開発プロジェクト
- 複数のセッションにわたって機能を構築
- コードベースを体系的にリファクタリング
- 技術的負債を段階的に処理
文書処理
- 何日もかけて何千もの文書を分析
- 大規模に情報を抽出・構造化
- 大規模なコーパスにわたってコンテキストを維持
調査・分析
- 統合を伴う複数日の調査プロジェクト
- 継続的なモニタリングとレポーティング
- 人間の注意を消耗させるような詳細な分析
業務
- 継続的なプロセス自動化
- 検証を伴う多段階ワークフロー
- 業務時間をまたぐタスク
転換: 「AIがタスクを手伝う」から「AIがプロジェクトを完了させる」へ。
始め方
作業を持続するエージェントを構築したい場合:
1. 会話ではなくセッションのために設計する
各コンテキストウィンドウをシフトと考えてください。次のシフトは何を知る必要がありますか?
2. 状態管理に投資する
進捗ファイル、gitコミット、構造化された要件。このインフラが実現を可能にします。
3. 検証を自動化する
エージェントに成功したかを聞かない。自動的に確認する。
4. 明確なマイルストーンから始める
作業を達成可能な部分に分割する。進捗が蓄積されるようにする。
5. 信頼性を測定する(pass^k)
能力は最低条件です。一貫性こそが本番環境で重要なものです。
今後の可能性
私たちは変曲点にいます。
AIエージェントは「印象的なデモ」から「持続的な作業」へと進化しました。インフラパターンは文書化されています。結果は証明されています。
今日可能なこと:
- 何時間もコードベースに取り組むエージェント
- 何日にもわたる文書処理
- 人間の集中力を超える調査プロジェクト
- 継続的に稼働する業務
AIエージェントが持続的な作業をこなせるかという問いではありません。こなせます。
問いは:それを使って何を構築しますか?
試してみましょう
TeamDayは、状態管理・検証・持続的な作業を可能にするインフラを備えた信頼性の高いAIワークフローを構築しています。
プロジェクトを単に始めるだけでなく、完了させるエージェントを構築しましょう。
関連記事
- OpenRouter 2026のベストAIモデル — 長時間稼働エージェントは何百万ものトークンを消費します。最高のコスト/性能比を提供するモデルを確認しましょう(探索フェーズの無料オプション含む)。
- Claude Code ベストプラクティス — 持続的なClaude Codeセッションのためのコンテキスト管理とトークン最適化をマスターしましょう。
出典:
- Demystifying Evals for AI Agents - Anthropic Engineering
- Effective Harnesses for Long-Running Agents - Anthropic Engineering