Dlouhotrvající AI agenti jsou tady: Jak postavit agenty pracující hodiny
Děje se něco pozoruhodného.
AI agenti již nejsou omezeni na rychlé úlohy. Budují celé aplikace. Zpracovávají tisíce dokumentů. Provozují vícedenní výzkumné projekty.
Anthropic právě zveřejnil výzkum o agentech, kteří postavili kompletní klon Claude.ai — 200+ funkcí napříč více relacemi.
Jde o přechod od „AI asistenta” k „AI pracovníku”. A děje se to teď.
Průlom: Agenti, kteří udržují práci
Po léta byli AI agenti uvězněni v režimu jedné konverzace. V jedné relaci jste mohli dosáhnout působivých výsledků, ale cokoliv vyžadujícího trvalé úsilí? Nebylo to možné.
To se změnilo.
Klíčový poznatek z výzkumu Anthropic: se správnou infrastrukturou mohou agenti pracovat spolehlivě po hodiny, dny, dokonce týdny.
Ne teoreticky. Skutečně. Demonstrovali to tím, že nechali agenty postavit produkční webovou aplikaci od nuly.
„Harness poskytuje schopnosti správy kontextu, které umožňují agentům pracovat bez vyčerpání limitů tokenů.”
Jde o zásadně novou schopnost. Pojďme se podívat, co to umožňuje.
Co umožňuje dlouhotrvající agenty
Vzor Agent Harness
Průlom není lepší model — je to lepší infrastruktura kolem modelu.
Agent harness je lešení umožňující trvalou práci:
| Komponenta | Co dělá |
|---|---|
| Správa kontextu | Sumarizuje starší práci pro uvolnění tokenů pro nové úlohy |
| Persistence stavu | Pamatuje si rozhodnutí a postup napříč relacemi |
| Nastavení prostředí | Každá relace začíná z čistého, známého stavu |
| Sledování postupu | Strukturované soubory ukazují, co je hotovo a co zbývá |
Představte si to jako dokumentaci pro předávání směny u AI. Každá „směna” (relace) dědí vše z předchozí.
Jak se relace propojují
Relace 1: Inicializace
├── Nastavit prostředí
├── Vytvořit sledování postupu
├── Dokončit první milník
└── Zdokumentovat stav
Relace 2-N: Pokračování
├── Načíst předchozí stav
├── Pokračovat kde bylo skončeno
├── Dokončit další milník
└── Zdokumentovat stav
Finální relace: Dokončení
├── Dokončit zbývající práci
├── Ověřit, že vše funguje
└── Čisté předání
Kouzlo: Každá relace je nezávislá, ale harness vytváří kontinuitu.
Pět vzorů, které odemykají dlouhotrvající práci
Výzkum Anthropic identifikoval, co odděluje agenty udržující práci od těch, kteří selhávají. Zde jsou vzory:
1. Vzor inicializátoru
Začněte každý projekt strukturou.
První relace je zvláštní — zakládá základ:
# init.sh - Jak spustit tento projekt
npm install && npm run dev
# progress.txt - Kde jsme
Projekt: Zákaznický portál
Stav: Inicializován
Dokončeno: Nastavení prostředí
Další: Implementovat autentizaci
Proč to funguje: Každá následující relace přesně ví, jak práci převzít.
2. Strukturované požadavky (JSON > próza)
Dejte agentům kontrolní seznam, ne román.
{
"features": [
{"name": "Registrace uživatele", "status": "complete", "verified": true},
{"name": "Reset hesla", "status": "in_progress", "verified": false},
{"name": "Správa relací", "status": "pending", "verified": false}
]
}
Proč to funguje: Jasná struktura zabraňuje rozšiřování rozsahu a zviditelňuje postup.
3. Postup na základě milníků
Rozdělte velké projekty na jasné kontrolní body.
Místo „postav aplikaci” strukturujte práci jako:
- ✅ Autentizační tok
- ✅ Schéma databáze
- 🔄 Uživatelský dashboard
- ⏳ Stránka nastavení
- ⏳ Funkce exportu
Proč to funguje: Každá relace má jasný, dosažitelný cíl. Postup se kumuluje.
4. End-to-end ověření
Důvěřuj, ale prověřuj — automaticky.
Nejlepší výsledky přicházejí z požadování skutečného ověření:
// Před označením jako dokončené agenti spouštějí skutečné uživatelské toky
await page.goto('/signup')
await page.fill('[name=email]', '[email protected]')
await page.click('[type=submit]')
// Ověřit, že tok skutečně funguje
Proč to funguje: Zachycuje integrační problémy, které unit testy přehlíží. Anthropic zaznamenal 3,2× lepší detekci chyb s automatizací prohlížeče.
5. Čistá předání
Ukončete každou relaci připravenou pro další.
Kontrolní seznam konce relace:
- ✅ Všechny testy projdou
- ✅ Soubor postupu aktualizován
- ✅ Žádné necommitnuté změny
- ✅ Zdokumentovány další kroky
Proč to funguje: Příští relace začíná budováním, ne laděním.
Výsledky: Co je skutečně možné
Produkční test Anthropic — budování klonu Claude.ai:
| Metrika | Výsledek |
|---|---|
| Postavené funkce | 200+ |
| Potřebné relace | 8–12 |
| Funkcí na relaci | 8–12 |
| Míra průchodu end-to-end | 91 % |
Klíčová metrika: pass^3 (spolehlivost napříč po sobě jdoucími pokusy) dosáhla 78 % — konzistence vhodná pro produkci.
Nejde o demo. Je to důkaz, že trvalá práce AI je dnes dosažitelná.
Dvě metriky, které záleží
Při hodnocení výkonu dlouhotrvajícího agenta se zaměřte na:
pass@k: „Dokáže uspět?”
Pravděpodobnost úspěchu v alespoň jednom z k pokusů. Měří schopnost.
pass^k: „Uspívá konzistentně?”
Pravděpodobnost úspěchu ve VŠECH k pokusech. Měří spolehlivost.
Mezera mezi těmito ukazateli odhaluje příležitosti. Agent s 80 % pass@1 ale 51 % pass^3 má prostor ke zlepšení konzistence — a právě tam vzor harness nejvíce pomáhá.
Co to odemyká pro organizace
Dlouhotrvající agenti otevírají nové možnosti:
Vývojové projekty
- Budování funkcí napříč více relacemi
- Systematické refaktorování kódových základen
- Postupné zpracování technického dluhu
Zpracování dokumentů
- Analýza tisíců dokumentů po dobu dnů
- Extrakce a strukturování informací ve velkém měřítku
- Udržení kontextu napříč velkými korpusy
Výzkum a analýza
- Vícedenní výzkumné projekty se syntézou
- Průběžné monitorování a reportování
- Hloubkové analýzy, které by vyčerpaly lidskou pozornost
Operace
- Průběžná automatizace procesů
- Víceúrovňové pracovní postupy s ověřením
- Úlohy překlenující pracovní dobu
Posun: Od „AI pomáhá s úlohami” k „AI dokončuje projekty.”
Začínáme
Pokud chcete budovat agenty udržující práci:
1. Navrhujte pro relace, ne pro konverzace
Přemýšlejte o každém kontextovém okně jako o směně. Co potřebuje vědět příští směna?
2. Investujte do správy stavu
Soubory postupu, git commity, strukturované požadavky. Tato infrastruktura je to, co to umožňuje.
3. Automatizujte ověřování
Neptejte se agentů, zda uspěli. Zkontrolujte to automaticky.
4. Začněte s jasnými milníky
Rozdělte práci na dosažitelné části. Nechte postup kumulovat se.
5. Měřte spolehlivost (pass^k)
Schopnost je nutný základ. Konzistence je to, na čem záleží pro produkci.
Příležitost vpředu
Jsme na inflexním bodě.
AI agenti přešli od „působivých dem” k „trvalé práci”. Vzory infrastruktury jsou zdokumentovány. Výsledky jsou prokázány.
Co je možné nyní:
- Agenti pracující na vaší kódové základně po hodiny
- Zpracování dokumentů trvající dny
- Výzkumné projekty, které by vyčerpaly lidské soustředění
- Operace běžící nepřetržitě
Otázka není, zda AI agenti dokážou provádět trvalou práci. Dokážou.
Otázka je: co s nimi postavíte?
Vyzkoušejte sami
TeamDay buduje AI pracovní postupy, které běží spolehlivě — se správou stavu, ověřováním a infrastrukturou, která umožňuje trvalou práci.
Začněte bezplatnou zkušební verzi →
Postavte agenty, kteří projekty dokončují, ne jen začínají.
Související čtení
- Nejlepší AI modely na OpenRouter 2026 — Dlouhotrvající agenti spotřebovávají miliony tokenů. Podívejte se, které modely nabízejí nejlepší poměr cena/výkon, včetně bezplatných možností pro fáze průzkumu.
- Osvědčené postupy Claude Code — Zvládněte správu kontextu a optimalizaci tokenů pro trvalé relace Claude Code.
Zdroje:
- Demystifying Evals for AI Agents - Anthropic Engineering
- Effective Harnesses for Long-Running Agents - Anthropic Engineering