Langwierige KI-Agenten sind da: Wie man Agenten baut, die stundenlang arbeiten

Etwas Bemerkenswertes geschieht.

KI-Agenten sind nicht länger auf schnelle Aufgaben beschränkt. Sie entwickeln ganze Anwendungen. Verarbeiten Tausende von Dokumenten. Führen mehrtägige Forschungsprojekte durch.

Anthropic hat gerade Forschungsergebnisse veröffentlicht über Agenten, die einen vollständigen Claude.ai-Klon gebaut haben — 200+ Funktionen über mehrere Sessions hinweg.

Das ist der Wandel vom „KI-Assistenten" zum „KI-Mitarbeiter". Und er passiert jetzt.

Der Durchbruch: Agenten, die Arbeit aufrechterhalten

Jahrelang waren KI-Agenten auf den Einzelkonversations-Modus beschränkt. Eindrucksvolle Ergebnisse in einer Session waren möglich, aber alles, was anhaltenden Einsatz erforderte? Nicht machbar.

Das hat sich geändert.

Die zentrale Erkenntnis aus Anthropics Forschung: Mit der richtigen Infrastruktur können Agenten zuverlässig über Stunden, Tage, sogar Wochen arbeiten.

Nicht theoretisch. Tatsächlich. Sie demonstrierten es, indem Agenten eine produktionsreife Webanwendung von Grund auf bauten.

„Der Harness bietet Kontextverwaltungsfähigkeiten, die Agenten ermöglichen, zu arbeiten, ohne Token-Limits zu erschöpfen."

Das ist eine grundlegend neue Fähigkeit. Schauen wir uns an, was sie ermöglicht.

Was langwierige Agenten möglich macht

Das Agent-Harness-Muster

Der Durchbruch liegt nicht in einem besseren Modell — sondern in besserer Infrastruktur um das Modell herum.

Ein Agent-Harness ist das Gerüst, das nachhaltige Arbeit ermöglicht:

Komponente	Was es tut
Kontextverwaltung	Fasst ältere Arbeit zusammen, um Tokens für neue Aufgaben freizugeben
Zustandspersistenz	Merkt sich Entscheidungen und Fortschritte über Sessions hinweg
Umgebungseinrichtung	Jede Session beginnt von einem sauberen, bekannten Zustand
Fortschrittsverfolgung	Strukturierte Dateien zeigen, was erledigt ist und was als Nächstes kommt

Stellen Sie es sich vor wie Schichtübergabe-Dokumentation für KI. Jede „Schicht" (Session) erbt alles von der vorherigen.

Wie Sessions sich verbinden

Session 1: Initialisierung
├── Umgebung einrichten
├── Fortschrittsverfolgung erstellen
├── Ersten Meilenstein abschließen
└── Zustand dokumentieren

Session 2-N: Fortsetzen
├── Vorherigen Zustand laden
├── Dort weitermachen, wo aufgehört wurde
├── Nächsten Meilenstein abschließen
└── Zustand dokumentieren

Letzte Session: Abschluss
├── Verbleibende Arbeit fertigstellen
├── Alles verifizieren
└── Saubere Übergabe

Das Besondere: Jede Session ist unabhängig, aber der Harness schafft Kontinuität.

Fünf Muster, die langwierige Arbeit ermöglichen

Anthropics Forschung identifiziert, was Agenten, die Arbeit aufrechterhalten, von denen unterscheidet, die es nicht tun. Hier sind die Muster:

1. Das Initializer-Muster

Beginnen Sie jedes Projekt mit Struktur.

Die erste Session ist besonders — sie legt das Fundament:

# init.sh - Wie dieses Projekt ausgeführt wird
npm install && npm run dev

# progress.txt - Wo wir stehen
Projekt: Kundenportal
Status: Initialisiert
Abgeschlossen: Umgebungseinrichtung
Nächstes: Authentifizierung implementieren

Warum es funktioniert: Jede folgende Session weiß genau, wie sie die Arbeit aufnimmt.

2. Strukturierte Anforderungen (JSON > Prosa)

Geben Sie Agenten eine Checkliste, keinen Roman.

{
  "features": [
    {"name": "Benutzerregistrierung", "status": "complete", "verified": true},
    {"name": "Passwort zurücksetzen", "status": "in_progress", "verified": false},
    {"name": "Session-Verwaltung", "status": "pending", "verified": false}
  ]
}

Warum es funktioniert: Klare Struktur verhindert Scope-Creep und macht Fortschritte sichtbar.

3. Meilensteinbasierter Fortschritt

Teilen Sie große Projekte in klare Kontrollpunkte auf.

Anstatt „die Anwendung bauen", strukturieren Sie die Arbeit so:

✅ Authentifizierungs-Flow
✅ Datenbankschema
🔄 Benutzer-Dashboard
⏳ Einstellungsseite
⏳ Export-Funktionen

Warum es funktioniert: Jede Session hat ein klares, erreichbares Ziel. Fortschritte summieren sich.

4. End-to-End-Verifizierung

Vertrauen, aber verifizieren — automatisch.

Die besten Ergebnisse erzielt man, wenn tatsächliche Verifizierung verlangt wird:

// Bevor als abgeschlossen markiert wird, führen Agenten echte Nutzer-Flows aus
await page.goto('/signup')
await page.fill('[name=email]', '[email protected]')
await page.click('[type=submit]')
// Verifizieren, dass der Flow tatsächlich funktioniert

Warum es funktioniert: Erkennt Integrationsprobleme, die Unit-Tests übersehen. Anthropic verzeichnete 3,2× bessere Fehlererkennung mit Browser-Automatisierung.

5. Saubere Übergaben

Beenden Sie jede Session bereit für die nächste.

Session-Ende-Checkliste:

✅ Alle Tests bestehen
✅ Fortschrittsdatei aktualisiert
✅ Keine uncommiteten Änderungen
✅ Nächste Schritte dokumentiert

Warum es funktioniert: Die nächste Session beginnt mit Aufbau, nicht mit Debugging.

Die Ergebnisse: Was tatsächlich möglich ist

Anthropics Produktionstest — Bau eines Claude.ai-Klons:

Metrik	Ergebnis
Gebaute Funktionen	200+
Benötigte Sessions	8–12
Funktionen pro Session	8–12
End-to-End-Bestehensquote	91 %

Die Schlüsselkennzahl: pass^3 (Zuverlässigkeit über aufeinanderfolgende Versuche) erreichte 78 % — produktionsreife Konsistenz.

Das ist keine Demo. Es ist ein Beweis, dass nachhaltige KI-Arbeit heute erreichbar ist.

Zwei Kennzahlen, die zählen

Bei der Beurteilung der Leistung langwieriger Agenten konzentrieren Sie sich auf:

pass@k: „Kann es gelingen?"

Wahrscheinlichkeit des Erfolgs in mindestens einem von k Versuchen. Misst Fähigkeit.

pass^k: „Gelingt es konsistent?"

Wahrscheinlichkeit des Erfolgs in ALLEN k Versuchen. Misst Zuverlässigkeit.

Die Lücke zwischen diesen zeigt Potenzial. Ein Agent mit 80 % pass@1 aber 51 % pass^3 hat Raum zur Verbesserung der Konsistenz — und genau dort hilft das Harness-Muster am meisten.

Was das für Organisationen ermöglicht

Langwierige Agenten eröffnen neue Möglichkeiten:

Entwicklungsprojekte

Funktionen über mehrere Sessions hinweg bauen
Codebasen systematisch refaktorieren
Technische Schulden schrittweise abbauen

Dokumentenverarbeitung

Tausende Dokumente über Tage analysieren
Informationen in großem Maßstab extrahieren und strukturieren
Kontext über große Korpora hinweg aufrechterhalten

Forschung und Analyse

Mehrtägige Forschungsprojekte mit Synthese
Kontinuierliches Monitoring und Berichterstattung
Tiefe Analysen, die menschliche Aufmerksamkeit erschöpfen würden

Betrieb

Laufende Prozessautomatisierung
Mehrstufige Workflows mit Verifizierung
Aufgaben, die Geschäftszeiten überspannen

Der Wandel: Von „KI hilft bei Aufgaben" zu „KI schließt Projekte ab."

Erste Schritte

Wenn Sie Agenten entwickeln möchten, die Arbeit aufrechterhalten:

1. Für Sessions entwerfen, nicht für Konversationen

Betrachten Sie jedes Kontextfenster als eine Schicht. Was muss die nächste Schicht wissen?

2. In Zustandsverwaltung investieren

Fortschrittsdateien, Git-Commits, strukturierte Anforderungen. Diese Infrastruktur ist der Schlüssel.

3. Verifizierung automatisieren

Fragen Sie Agenten nicht, ob sie Erfolg hatten. Prüfen Sie automatisch.

4. Mit klaren Meilensteinen beginnen

Arbeit in erreichbare Teile aufteilen. Fortschritte kumulieren lassen.

5. Zuverlässigkeit messen (pass^k)

Fähigkeit ist die Mindestanforderung. Konsistenz ist das, was für die Produktion zählt.

Die Chance vor uns

Wir stehen an einem Wendepunkt.

KI-Agenten haben sich von „beeindruckenden Demos" zu „nachhaltiger Arbeit" entwickelt. Die Infrastruktur-Muster sind dokumentiert. Die Ergebnisse sind belegt.

Was heute möglich ist:

Agenten, die stundenlang an Ihrer Codebasis arbeiten
Dokumentenverarbeitung über Tage hinweg
Forschungsprojekte, die menschliche Konzentration erschöpfen würden
Betriebsabläufe, die kontinuierlich laufen

Die Frage ist nicht, ob KI-Agenten nachhaltige Arbeit leisten können. Sie können.

Die Frage lautet: Was werden Sie mit ihnen aufbauen?

Selbst ausprobieren

TeamDay entwickelt KI-Workflows, die zuverlässig laufen — mit Zustandsverwaltung, Verifizierung und der Infrastruktur, die nachhaltige Arbeit ermöglicht.

Kostenlose Testversion starten →

Bauen Sie Agenten, die Projekte abschließen, nicht nur beginnen.

Weiterführende Lektüre

Beste KI-Modelle auf OpenRouter 2026 — Langwierige Agenten verbrauchen Millionen von Tokens. Erfahren Sie, welche Modelle das beste Kosten-/Leistungsverhältnis bieten, einschließlich kostenloser Optionen für Erkundungsphasen.
Claude Code Best Practices — Meistern Sie Kontextverwaltung und Token-Optimierung für nachhaltige Claude Code-Sessions.

Quellen:

Demystifying Evals for AI Agents - Anthropic Engineering
Effective Harnesses for Long-Running Agents - Anthropic Engineering

Langwierige KI-Agenten sind da: Wie man Agenten baut, die stundenlang arbeiten

Langwierige KI-Agenten sind da: Wie man Agenten baut, die stundenlang arbeiten

Der Durchbruch: Agenten, die Arbeit aufrechterhalten

Was langwierige Agenten möglich macht

Das Agent-Harness-Muster

Wie Sessions sich verbinden

Fünf Muster, die langwierige Arbeit ermöglichen

1. Das Initializer-Muster

2. Strukturierte Anforderungen (JSON > Prosa)

3. Meilensteinbasierter Fortschritt

4. End-to-End-Verifizierung

5. Saubere Übergaben

Die Ergebnisse: Was tatsächlich möglich ist

Zwei Kennzahlen, die zählen

pass@k: „Kann es gelingen?"

pass^k: „Gelingt es konsistent?"

Was das für Organisationen ermöglicht

Entwicklungsprojekte

Dokumentenverarbeitung

Forschung und Analyse

Betrieb

Erste Schritte

1. Für Sessions entwerfen, nicht für Konversationen

2. In Zustandsverwaltung investieren

3. Verifizierung automatisieren

4. Mit klaren Meilensteinen beginnen

5. Zuverlässigkeit messen (pass^k)

Die Chance vor uns

Selbst ausprobieren

Weiterführende Lektüre

Turn the best models into shipped work