Harness inspirovaný GAN od Anthropic pro autonomní tvorbu aplikací
Jak Anthropic učí AI vytvářet kompletní aplikace
Prithvi Rajasekaran z Anthropic Labs sdílí podrobný inženýrský rozbor harness vzorů, které umožňují Claudovi autonomně vytvářet produkční frontend designy a full-stack aplikace. Přístup čerpá přímou inspiraci z Generative Adversarial Networks (GAN) — oddělením tvůrce od kritika.
Degradace kontextu je tichý zabiják: Prvním zásadním poznatkem je, že naivní dlouho běžící agenti selhávají nikoli kvůli limitům schopností, ale kvůli znečištění kontextu. “Context resets — clearing and restarting with structured handoffs — proved more effective than compaction alone.” (Resety kontextu — vyčištění a restart se strukturovaným předáním — se ukázaly efektivnější než pouhá komprese.) Místo pokusu o sumarizaci neustále rostoucího kontextu harness periodicky vymaže kontext a předá strukturovaný stav nové session.
Sebehodnocení je nespolehlivé: Druhý režim selhání je stejně zákeřný — agenti sebevědomě chválí svou vlastní práci, i když je kvalita průměrná. “Separating generator and evaluator roles proved more tractable than making generators self-critical.” (Oddělení rolí generátoru a hodnotitele se ukázalo jako lépe řešitelné než nutit generátory k sebekritice.) Toto je poznatek z GAN aplikovaný na softwarové inženýrství: nevěřte tvůrci, že ohodnotí svou vlastní práci.
Hodnotitel používá živý prohlížeč: Systém nečte pouze kód — spouští Playwright pro interakci s živou aplikací a hodnotí podle čtyř kritérií: kvalita designu, originalita, řemeslné zpracování a funkcionalita. Každý generační cyklus projde 5–15 koly hodnocení, než je výstup akceptován.
Tříagentová full-stack architektura: Pro kompletní aplikace harness nasazuje Plánovače (brief → produktová specifikace), Generátor (implementuje ve sprintech) a Hodnotitele (end-to-end Playwright testování s přísnými prahy úspěšnosti). Plánovač záměrně zůstává na vysoké úrovni, aby se vyhnul kaskádovým implementačním chybám.
Ekonomika je reálná: Samostatný agentní běh na Opus 4.5 trval 20 minut a stál $9 — ale vytvořil nefunkční features. Plný harness trval 6 hodin a stál $200 — ale dodal funkční aplikaci s výrazně lepším UX. Hodnotitel odhalil problémy s řazením rout, chybějící napojení entit a nesprávné implementace nástrojů, které generátor sebevědomě odeslal.
5 klíčových poznatků pro tvorbu autonomních AI pracovníků
- Hodnotící kritéria kódují vkus — Definováním „kvality designu” a „originality” jako hodnotitelných dimenzí mohou týmy směrovat výstupy k estetickým a funkčním preferencím, které by jinak zůstaly implicitní
- Souborová komunikace mezi agenty funguje — Agenti komunikují prostřednictvím souborů (specifikace, průběh, požadavky) místo předávání zpráv, čímž udržují práci věrnou specifikacím bez přílišného omezování
- Složitost harnessu by měla v čase klesat — S Opus 4.6 bylo dekompozice sprintů zcela odstraněna při zachování kvality. Průběžně testujte, které prvky scaffoldingu jsou stále nosné
- Hodnotitel zachytává last-mile mezery — I když je generátor výborný, hodnotitel najde integrační chyby, chybějící routy a rozbitý stav, které sebekontrola mine
- Náklady rostou s ambicemi — $200 za funkční aplikaci je drahé na demo, levné na produkt. Harness činí tento kompromis explicitním
Co smyčky generátor-hodnotitel znamenají pro AI organizace
Toto je dosud nejjasnější plán, jak autonomní AI práce skutečně dodává kvalitní výsledky. Poučení není „použijte více agentů” — ale že oddělení tvorby od hodnocení je zásadní pro spolehlivou autonomní práci. Organizace nasazující AI agenty pro produkční úkoly by měly navrhovat architektury svých agentů stejným způsobem: nikdy nenechte agenta, který něco vytvořil, být jediným, kdo to schvaluje. S vylepšováním modelů se scaffolding zjednodušuje — ale oddělení odpovědností přetrvává.