Anthropic a GAN-inšpirovaný harness na autonómne vytváranie aplikácií

agentsclaudeautomationagentic-codingenterprise

Ako Anthropic učí AI vytvárať kompletné aplikácie

Prithvi Rajasekaran z Anthropic Labs zdieľa detailný inžiniersky rozbor harness vzorov, ktoré umožňujú Claude autonómne vytvárať produkčne kvalitné frontendové dizajny a full-stack aplikácie. Prístup sa priamo inšpiruje generatívnymi adversariálnymi sieťami (GAN) — oddelením tvorcu od kritika.

Degradácia kontextu je tichý zabijak: Prvý zásadný poznatok je, že naivní dlhodobo bežiaci agenti zlyhávajú nie kvôli limitom schopností, ale kvôli znečisteniu kontextu. “Context resets — clearing and restarting with structured handoffs — proved more effective than compaction alone.” (Resety kontextu — vyčistenie a reštart so štruktúrovaným odovzdaním — sa ukázali efektívnejšie než samotná kompakcia.) Namiesto pokusov o sumarizáciu neustále rastúceho kontextu harness periodicky vyčistí kontext a odovzdá štruktúrovaný stav novej čistej relácii.

Sebahodnotenie je nespoľahlivé: Druhý režim zlyhania je rovnako zákerný — agenti sebavedome chvália svoju vlastnú prácu, aj keď je kvalita priemerná. “Separating generator and evaluator roles proved more tractable than making generators self-critical.” (Oddelenie rolí generátora a evaluátora sa ukázalo realizovateľnejšie než učiť generátory sebekritike.) Toto je GAN poznatok aplikovaný na softvérové inžinierstvo: nedôverujte staviteľovi, aby hodnotil svoju vlastnú prácu.

Evaluátor používa živý prehliadač: Systém nečíta len kód — spúšťa Playwright na interakciu so živou aplikáciou a hodnotí podľa štyroch kritérií: kvalita dizajnu, originalita, remeselné spracovanie a funkčnosť. Každý generačný cyklus prejde 5-15 evaluačnými kolami, kým je výstup akceptovaný.

Trojagentová full-stack architektúra: Pre kompletné aplikácie harness nasadzuje Plánovača (brief → produktová špecifikácia), Generátor (implementácia v šprintoch) a Evaluátora (end-to-end Playwright testovanie s pevnými prahmi úspech/neúspech). Plánovač zámerne zostáva na vysokej úrovni, aby sa predišlo kaskádovým implementačným chybám.

Ekonomika je reálna: Samostatný beh agenta na Opus 4.5 trval 20 minút a stál $9 — ale produkoval nefunkčné funkcie. Plný harness trval 6 hodín a stál $200 — ale dodal fungujúcu aplikáciu s výrazne lepším UX. Evaluátor zachytil problémy s poradím rout, chýbajúce prepojenia entít a nesprávne implementácie nástrojov, ktoré generátor sebavedome dodal.

5 kľúčových poznatkov pre budovanie autonómnych AI pracovníkov

  • Evaluačné kritériá kódujú vkus — Definovaním „kvality dizajnu” a „originality” ako hodnotiteľných dimenzií môžu tímy smerovať výstupy k estetickým a funkčným preferenciám, ktoré by inak zostali implicitné
  • Súborová komunikácia medzi agentmi funguje — Agenti komunikujú cez súbory (špecifikácie, pokrok, požiadavky) namiesto odovzdávania správ, čím udržiavajú prácu vernú špecifikáciám bez nadmerného obmedzovania
  • Komplexita harnessu by mala časom klesať — S Opus 4.6 bola dekompozícia šprintov úplne odstránená pri zachovaní kvality. Priebežne testujte, ktoré oporné konštrukcie sú stále nosné
  • Evaluátor zachytáva medzery poslednej míle — Aj keď je generátor výborný, evaluátor nájde integračné chyby, chýbajúce routy a rozbitý stav, ktoré sebakontrola prehliadne
  • Náklady rastú s ambíciami — $200 za fungujúcu aplikáciu je drahé na demo, lacné na produkt. Harness robí tento kompromis explicitným

Čo generátor-evaluátor slučky znamenajú pre AI organizácie

Toto je doteraz najjasnejší plán, ako autonómna AI práca skutočne dodáva kvalitné výsledky. Poučenie nie je „používajte viac agentov” — ale že oddelenie tvorby od hodnotenia je fundamentálne pre spoľahlivú autonómnu prácu. Organizácie nasadzujúce AI agentov na produkčné úlohy by mali navrhovať svoje agentové architektúry rovnako: nikdy nenechajte agenta, ktorý niečo vytvoril, aby bol jediný, kto to schváli. S vylepšovaním modelov sa oporné konštrukcie zjednodušujú — ale oddelenie zodpovedností pretrváva.