Anthropics GAN-inspirierter Harness für autonomes App-Building

2026-03-24 Anthropic Engineering

agentsclaudeautomationagentic-codingenterprise

Wie Anthropic KI beibringt, komplette Anwendungen zu erstellen

Prithvi Rajasekaran von Anthropic Labs teilt eine detaillierte technische Analyse der Harness-Muster, die es Claude ermöglichen, produktionsreife Frontend-Designs und Full-Stack-Anwendungen autonom zu erstellen. Der Ansatz ist direkt von Generative Adversarial Networks (GANs) inspiriert — die Trennung von Ersteller und Kritiker.

Kontext-Degradation ist der stille Killer: Die erste wichtige Erkenntnis ist, dass naive, lang laufende Agenten nicht an ihren Fähigkeiten scheitern, sondern an Kontext-Verschmutzung. “Context resets — clearing and restarting with structured handoffs — proved more effective than compaction alone.” (Kontext-Resets — Zurücksetzen und Neustarten mit strukturierten Übergaben — erwiesen sich als effektiver als bloße Komprimierung.) Anstatt einen stetig wachsenden Kontext zusammenzufassen, löscht der Harness ihn regelmäßig und übergibt strukturierten Zustand an eine neue Sitzung.

Selbstbewertung ist unzuverlässig: Der zweite Fehlermodus ist ebenso tückisch — Agenten loben selbstbewusst ihre eigene Arbeit, auch wenn die Qualität mittelmäßig ist. “Separating generator and evaluator roles proved more tractable than making generators self-critical.” (Die Trennung von Generator- und Evaluator-Rollen erwies sich als praktikabler, als Generatoren selbstkritisch zu machen.) Das ist die GAN-Erkenntnis angewandt auf Software Engineering: Vertraue dem Ersteller nicht bei der Bewertung seiner eigenen Arbeit.

Der Evaluator nutzt einen Live-Browser: Das System liest nicht nur Code — es verwendet Playwright, um mit der laufenden Anwendung zu interagieren und nach vier Kriterien zu bewerten: Design-Qualität, Originalität, Handwerkskunst und Funktionalität. Jeder Generierungszyklus durchläuft 5-15 Evaluator-Runden, bevor das Ergebnis akzeptiert wird.

Drei-Agenten-Full-Stack-Architektur: Für vollständige Anwendungen setzt der Harness einen Planner (Brief → Produktspezifikation), einen Generator (Implementierung in Sprints) und einen Evaluator (End-to-End Playwright-Tests mit harten Bestanden/Nicht-Bestanden-Schwellen) ein. Der Planner bleibt absichtlich auf hoher Ebene, um kaskadierende Implementierungsfehler zu vermeiden.

Die Wirtschaftlichkeit ist real: Ein einzelner Agenten-Lauf auf Opus 4.5 dauerte 20 Minuten und kostete $9 — lieferte aber nicht-funktionale Features. Der vollständige Harness brauchte 6 Stunden und $200 — lieferte aber eine funktionierende Anwendung mit deutlich besserer UX. Der Evaluator fand Probleme bei der Route-Reihenfolge, fehlende Entity-Verknüpfungen und fehlerhafte Tool-Implementierungen, die der Generator selbstbewusst ausgeliefert hatte.

5 Zentrale Erkenntnisse für den Aufbau autonomer KI-Arbeiter

Bewertungskriterien kodieren Geschmack — Durch die Definition von „Design-Qualität” und „Originalität” als bewertbare Dimensionen können Teams Ergebnisse in Richtung ästhetischer und funktionaler Präferenzen steuern, die sonst implizit blieben
Dateibasierte Agenten-Kommunikation funktioniert — Agenten kommunizieren über Dateien (Spezifikationen, Fortschritt, Anforderungen) statt über Message Passing, wodurch die Arbeit spezifikationstreu bleibt, ohne übermäßig einzuschränken
Harness-Komplexität sollte mit der Zeit abnehmen — Mit Opus 4.6 wurde die Sprint-Zerlegung komplett entfernt, bei gleichbleibender Qualität. Teste kontinuierlich, welches Scaffolding noch tragend ist
Der Evaluator findet Lücken auf der letzten Meile — Selbst wenn der Generator exzellent ist, findet der Evaluator Integrationsfehler, fehlende Routen und defekten Zustand, die bei der Selbstüberprüfung übersehen werden
Kosten skalieren mit dem Anspruch — $200 für eine funktionierende Anwendung sind teuer für eine Demo, aber günstig für ein Produkt. Der Harness macht den Kompromiss explizit

Was Generator-Evaluator-Schleifen für KI-Organisationen bedeuten

Dies ist die bisher klarste Blaupause dafür, wie autonome KI-Arbeit tatsächlich Qualitätsergebnisse liefert. Die Lektion lautet nicht „nutze mehr Agenten” — sondern dass die Trennung von Erstellung und Bewertung fundamental für zuverlässige autonome Arbeit ist. Organisationen, die KI-Agenten für Produktionsaufgaben einsetzen, sollten ihre Agenten-Architekturen genauso gestalten: Lass niemals den Agenten, der etwas gebaut hat, der einzige sein, der es abnimmt. Mit besseren Modellen vereinfacht sich das Scaffolding — aber die Trennung der Verantwortlichkeiten bleibt bestehen.