Langwierige KI-Agenten sind da: Wie man Agenten baut, die stundenlang arbeiten
Etwas Bemerkenswertes geschieht.
KI-Agenten sind nicht länger auf schnelle Aufgaben beschränkt. Sie entwickeln ganze Anwendungen. Verarbeiten Tausende von Dokumenten. Führen mehrtägige Forschungsprojekte durch.
Anthropic hat gerade Forschungsergebnisse veröffentlicht über Agenten, die einen vollständigen Claude.ai-Klon gebaut haben — 200+ Funktionen über mehrere Sessions hinweg.
Das ist der Wandel vom „KI-Assistenten” zum „KI-Mitarbeiter”. Und er passiert jetzt.
Der Durchbruch: Agenten, die Arbeit aufrechterhalten
Jahrelang waren KI-Agenten auf den Einzelkonversations-Modus beschränkt. Eindrucksvolle Ergebnisse in einer Session waren möglich, aber alles, was anhaltenden Einsatz erforderte? Nicht machbar.
Das hat sich geändert.
Die zentrale Erkenntnis aus Anthropics Forschung: Mit der richtigen Infrastruktur können Agenten zuverlässig über Stunden, Tage, sogar Wochen arbeiten.
Nicht theoretisch. Tatsächlich. Sie demonstrierten es, indem Agenten eine produktionsreife Webanwendung von Grund auf bauten.
„Der Harness bietet Kontextverwaltungsfähigkeiten, die Agenten ermöglichen, zu arbeiten, ohne Token-Limits zu erschöpfen.”
Das ist eine grundlegend neue Fähigkeit. Schauen wir uns an, was sie ermöglicht.
Was langwierige Agenten möglich macht
Das Agent-Harness-Muster
Der Durchbruch liegt nicht in einem besseren Modell — sondern in besserer Infrastruktur um das Modell herum.
Ein Agent-Harness ist das Gerüst, das nachhaltige Arbeit ermöglicht:
| Komponente | Was es tut |
|---|---|
| Kontextverwaltung | Fasst ältere Arbeit zusammen, um Tokens für neue Aufgaben freizugeben |
| Zustandspersistenz | Merkt sich Entscheidungen und Fortschritte über Sessions hinweg |
| Umgebungseinrichtung | Jede Session beginnt von einem sauberen, bekannten Zustand |
| Fortschrittsverfolgung | Strukturierte Dateien zeigen, was erledigt ist und was als Nächstes kommt |
Stellen Sie es sich vor wie Schichtübergabe-Dokumentation für KI. Jede „Schicht” (Session) erbt alles von der vorherigen.
Wie Sessions sich verbinden
Session 1: Initialisierung
├── Umgebung einrichten
├── Fortschrittsverfolgung erstellen
├── Ersten Meilenstein abschließen
└── Zustand dokumentieren
Session 2-N: Fortsetzen
├── Vorherigen Zustand laden
├── Dort weitermachen, wo aufgehört wurde
├── Nächsten Meilenstein abschließen
└── Zustand dokumentieren
Letzte Session: Abschluss
├── Verbleibende Arbeit fertigstellen
├── Alles verifizieren
└── Saubere Übergabe
Das Besondere: Jede Session ist unabhängig, aber der Harness schafft Kontinuität.
Fünf Muster, die langwierige Arbeit ermöglichen
Anthropics Forschung identifiziert, was Agenten, die Arbeit aufrechterhalten, von denen unterscheidet, die es nicht tun. Hier sind die Muster:
1. Das Initializer-Muster
Beginnen Sie jedes Projekt mit Struktur.
Die erste Session ist besonders — sie legt das Fundament:
# init.sh - Wie dieses Projekt ausgeführt wird
npm install && npm run dev
# progress.txt - Wo wir stehen
Projekt: Kundenportal
Status: Initialisiert
Abgeschlossen: Umgebungseinrichtung
Nächstes: Authentifizierung implementieren
Warum es funktioniert: Jede folgende Session weiß genau, wie sie die Arbeit aufnimmt.
2. Strukturierte Anforderungen (JSON > Prosa)
Geben Sie Agenten eine Checkliste, keinen Roman.
{
"features": [
{"name": "Benutzerregistrierung", "status": "complete", "verified": true},
{"name": "Passwort zurücksetzen", "status": "in_progress", "verified": false},
{"name": "Session-Verwaltung", "status": "pending", "verified": false}
]
}
Warum es funktioniert: Klare Struktur verhindert Scope-Creep und macht Fortschritte sichtbar.
3. Meilensteinbasierter Fortschritt
Teilen Sie große Projekte in klare Kontrollpunkte auf.
Anstatt „die Anwendung bauen”, strukturieren Sie die Arbeit so:
- ✅ Authentifizierungs-Flow
- ✅ Datenbankschema
- 🔄 Benutzer-Dashboard
- ⏳ Einstellungsseite
- ⏳ Export-Funktionen
Warum es funktioniert: Jede Session hat ein klares, erreichbares Ziel. Fortschritte summieren sich.
4. End-to-End-Verifizierung
Vertrauen, aber verifizieren — automatisch.
Die besten Ergebnisse erzielt man, wenn tatsächliche Verifizierung verlangt wird:
// Bevor als abgeschlossen markiert wird, führen Agenten echte Nutzer-Flows aus
await page.goto('/signup')
await page.fill('[name=email]', '[email protected]')
await page.click('[type=submit]')
// Verifizieren, dass der Flow tatsächlich funktioniert
Warum es funktioniert: Erkennt Integrationsprobleme, die Unit-Tests übersehen. Anthropic verzeichnete 3,2× bessere Fehlererkennung mit Browser-Automatisierung.
5. Saubere Übergaben
Beenden Sie jede Session bereit für die nächste.
Session-Ende-Checkliste:
- ✅ Alle Tests bestehen
- ✅ Fortschrittsdatei aktualisiert
- ✅ Keine uncommiteten Änderungen
- ✅ Nächste Schritte dokumentiert
Warum es funktioniert: Die nächste Session beginnt mit Aufbau, nicht mit Debugging.
Die Ergebnisse: Was tatsächlich möglich ist
Anthropics Produktionstest — Bau eines Claude.ai-Klons:
| Metrik | Ergebnis |
|---|---|
| Gebaute Funktionen | 200+ |
| Benötigte Sessions | 8–12 |
| Funktionen pro Session | 8–12 |
| End-to-End-Bestehensquote | 91 % |
Die Schlüsselkennzahl: pass^3 (Zuverlässigkeit über aufeinanderfolgende Versuche) erreichte 78 % — produktionsreife Konsistenz.
Das ist keine Demo. Es ist ein Beweis, dass nachhaltige KI-Arbeit heute erreichbar ist.
Zwei Kennzahlen, die zählen
Bei der Beurteilung der Leistung langwieriger Agenten konzentrieren Sie sich auf:
pass@k: „Kann es gelingen?”
Wahrscheinlichkeit des Erfolgs in mindestens einem von k Versuchen. Misst Fähigkeit.
pass^k: „Gelingt es konsistent?”
Wahrscheinlichkeit des Erfolgs in ALLEN k Versuchen. Misst Zuverlässigkeit.
Die Lücke zwischen diesen zeigt Potenzial. Ein Agent mit 80 % pass@1 aber 51 % pass^3 hat Raum zur Verbesserung der Konsistenz — und genau dort hilft das Harness-Muster am meisten.
Was das für Organisationen ermöglicht
Langwierige Agenten eröffnen neue Möglichkeiten:
Entwicklungsprojekte
- Funktionen über mehrere Sessions hinweg bauen
- Codebasen systematisch refaktorieren
- Technische Schulden schrittweise abbauen
Dokumentenverarbeitung
- Tausende Dokumente über Tage analysieren
- Informationen in großem Maßstab extrahieren und strukturieren
- Kontext über große Korpora hinweg aufrechterhalten
Forschung und Analyse
- Mehrtägige Forschungsprojekte mit Synthese
- Kontinuierliches Monitoring und Berichterstattung
- Tiefe Analysen, die menschliche Aufmerksamkeit erschöpfen würden
Betrieb
- Laufende Prozessautomatisierung
- Mehrstufige Workflows mit Verifizierung
- Aufgaben, die Geschäftszeiten überspannen
Der Wandel: Von „KI hilft bei Aufgaben” zu „KI schließt Projekte ab.”
Erste Schritte
Wenn Sie Agenten entwickeln möchten, die Arbeit aufrechterhalten:
1. Für Sessions entwerfen, nicht für Konversationen
Betrachten Sie jedes Kontextfenster als eine Schicht. Was muss die nächste Schicht wissen?
2. In Zustandsverwaltung investieren
Fortschrittsdateien, Git-Commits, strukturierte Anforderungen. Diese Infrastruktur ist der Schlüssel.
3. Verifizierung automatisieren
Fragen Sie Agenten nicht, ob sie Erfolg hatten. Prüfen Sie automatisch.
4. Mit klaren Meilensteinen beginnen
Arbeit in erreichbare Teile aufteilen. Fortschritte kumulieren lassen.
5. Zuverlässigkeit messen (pass^k)
Fähigkeit ist die Mindestanforderung. Konsistenz ist das, was für die Produktion zählt.
Die Chance vor uns
Wir stehen an einem Wendepunkt.
KI-Agenten haben sich von „beeindruckenden Demos” zu „nachhaltiger Arbeit” entwickelt. Die Infrastruktur-Muster sind dokumentiert. Die Ergebnisse sind belegt.
Was heute möglich ist:
- Agenten, die stundenlang an Ihrer Codebasis arbeiten
- Dokumentenverarbeitung über Tage hinweg
- Forschungsprojekte, die menschliche Konzentration erschöpfen würden
- Betriebsabläufe, die kontinuierlich laufen
Die Frage ist nicht, ob KI-Agenten nachhaltige Arbeit leisten können. Sie können.
Die Frage lautet: Was werden Sie mit ihnen aufbauen?
Selbst ausprobieren
TeamDay entwickelt KI-Workflows, die zuverlässig laufen — mit Zustandsverwaltung, Verifizierung und der Infrastruktur, die nachhaltige Arbeit ermöglicht.
Kostenlose Testversion starten →
Bauen Sie Agenten, die Projekte abschließen, nicht nur beginnen.
Weiterführende Lektüre
- Beste KI-Modelle auf OpenRouter 2026 — Langwierige Agenten verbrauchen Millionen von Tokens. Erfahren Sie, welche Modelle das beste Kosten-/Leistungsverhältnis bieten, einschließlich kostenloser Optionen für Erkundungsphasen.
- Claude Code Best Practices — Meistern Sie Kontextverwaltung und Token-Optimierung für nachhaltige Claude Code-Sessions.
Quellen:
- Demystifying Evals for AI Agents - Anthropic Engineering
- Effective Harnesses for Long-Running Agents - Anthropic Engineering