Dlouhotrvající AI agenti jsou tady: Jak postavit agenty pracující hodiny

Děje se něco pozoruhodného.

AI agenti již nejsou omezeni na rychlé úlohy. Budují celé aplikace. Zpracovávají tisíce dokumentů. Provozují vícedenní výzkumné projekty.

Anthropic právě zveřejnil výzkum o agentech, kteří postavili kompletní klon Claude.ai — 200+ funkcí napříč více relacemi.

Jde o přechod od „AI asistenta" k „AI pracovníku". A děje se to teď.

Průlom: Agenti, kteří udržují práci

Po léta byli AI agenti uvězněni v režimu jedné konverzace. V jedné relaci jste mohli dosáhnout působivých výsledků, ale cokoliv vyžadujícího trvalé úsilí? Nebylo to možné.

To se změnilo.

Klíčový poznatek z výzkumu Anthropic: se správnou infrastrukturou mohou agenti pracovat spolehlivě po hodiny, dny, dokonce týdny.

Ne teoreticky. Skutečně. Demonstrovali to tím, že nechali agenty postavit produkční webovou aplikaci od nuly.

„Harness poskytuje schopnosti správy kontextu, které umožňují agentům pracovat bez vyčerpání limitů tokenů."

Jde o zásadně novou schopnost. Pojďme se podívat, co to umožňuje.

Co umožňuje dlouhotrvající agenty

Vzor Agent Harness

Průlom není lepší model — je to lepší infrastruktura kolem modelu.

Agent harness je lešení umožňující trvalou práci:

Komponenta	Co dělá
Správa kontextu	Sumarizuje starší práci pro uvolnění tokenů pro nové úlohy
Persistence stavu	Pamatuje si rozhodnutí a postup napříč relacemi
Nastavení prostředí	Každá relace začíná z čistého, známého stavu
Sledování postupu	Strukturované soubory ukazují, co je hotovo a co zbývá

Představte si to jako dokumentaci pro předávání směny u AI. Každá „směna" (relace) dědí vše z předchozí.

Jak se relace propojují

Relace 1: Inicializace
├── Nastavit prostředí
├── Vytvořit sledování postupu
├── Dokončit první milník
└── Zdokumentovat stav

Relace 2-N: Pokračování
├── Načíst předchozí stav
├── Pokračovat kde bylo skončeno
├── Dokončit další milník
└── Zdokumentovat stav

Finální relace: Dokončení
├── Dokončit zbývající práci
├── Ověřit, že vše funguje
└── Čisté předání

Kouzlo: Každá relace je nezávislá, ale harness vytváří kontinuitu.

Pět vzorů, které odemykají dlouhotrvající práci

Výzkum Anthropic identifikoval, co odděluje agenty udržující práci od těch, kteří selhávají. Zde jsou vzory:

1. Vzor inicializátoru

Začněte každý projekt strukturou.

První relace je zvláštní — zakládá základ:

# init.sh - Jak spustit tento projekt
npm install && npm run dev

# progress.txt - Kde jsme
Projekt: Zákaznický portál
Stav: Inicializován
Dokončeno: Nastavení prostředí
Další: Implementovat autentizaci

Proč to funguje: Každá následující relace přesně ví, jak práci převzít.

2. Strukturované požadavky (JSON > próza)

Dejte agentům kontrolní seznam, ne román.

{
  "features": [
    {"name": "Registrace uživatele", "status": "complete", "verified": true},
    {"name": "Reset hesla", "status": "in_progress", "verified": false},
    {"name": "Správa relací", "status": "pending", "verified": false}
  ]
}

Proč to funguje: Jasná struktura zabraňuje rozšiřování rozsahu a zviditelňuje postup.

3. Postup na základě milníků

Rozdělte velké projekty na jasné kontrolní body.

Místo „postav aplikaci" strukturujte práci jako:

✅ Autentizační tok
✅ Schéma databáze
🔄 Uživatelský dashboard
⏳ Stránka nastavení
⏳ Funkce exportu

Proč to funguje: Každá relace má jasný, dosažitelný cíl. Postup se kumuluje.

4. End-to-end ověření

Důvěřuj, ale prověřuj — automaticky.

Nejlepší výsledky přicházejí z požadování skutečného ověření:

// Před označením jako dokončené agenti spouštějí skutečné uživatelské toky
await page.goto('/signup')
await page.fill('[name=email]', '[email protected]')
await page.click('[type=submit]')
// Ověřit, že tok skutečně funguje

Proč to funguje: Zachycuje integrační problémy, které unit testy přehlíží. Anthropic zaznamenal 3,2× lepší detekci chyb s automatizací prohlížeče.

5. Čistá předání

Ukončete každou relaci připravenou pro další.

Kontrolní seznam konce relace:

✅ Všechny testy projdou
✅ Soubor postupu aktualizován
✅ Žádné necommitnuté změny
✅ Zdokumentovány další kroky

Proč to funguje: Příští relace začíná budováním, ne laděním.

Výsledky: Co je skutečně možné

Produkční test Anthropic — budování klonu Claude.ai:

Metrika	Výsledek
Postavené funkce	200+
Potřebné relace	8–12
Funkcí na relaci	8–12
Míra průchodu end-to-end	91 %

Klíčová metrika: pass^3 (spolehlivost napříč po sobě jdoucími pokusy) dosáhla 78 % — konzistence vhodná pro produkci.

Nejde o demo. Je to důkaz, že trvalá práce AI je dnes dosažitelná.

Dvě metriky, které záleží

Při hodnocení výkonu dlouhotrvajícího agenta se zaměřte na:

pass@k: „Dokáže uspět?"

Pravděpodobnost úspěchu v alespoň jednom z k pokusů. Měří schopnost.

pass^k: „Uspívá konzistentně?"

Pravděpodobnost úspěchu ve VŠECH k pokusech. Měří spolehlivost.

Mezera mezi těmito ukazateli odhaluje příležitosti. Agent s 80 % pass@1 ale 51 % pass^3 má prostor ke zlepšení konzistence — a právě tam vzor harness nejvíce pomáhá.

Co to odemyká pro organizace

Dlouhotrvající agenti otevírají nové možnosti:

Vývojové projekty

Budování funkcí napříč více relacemi
Systematické refaktorování kódových základen
Postupné zpracování technického dluhu

Zpracování dokumentů

Analýza tisíců dokumentů po dobu dnů
Extrakce a strukturování informací ve velkém měřítku
Udržení kontextu napříč velkými korpusy

Výzkum a analýza

Vícedenní výzkumné projekty se syntézou
Průběžné monitorování a reportování
Hloubkové analýzy, které by vyčerpaly lidskou pozornost

Operace

Průběžná automatizace procesů
Víceúrovňové pracovní postupy s ověřením
Úlohy překlenující pracovní dobu

Posun: Od „AI pomáhá s úlohami" k „AI dokončuje projekty."

Začínáme

Pokud chcete budovat agenty udržující práci:

1. Navrhujte pro relace, ne pro konverzace

Přemýšlejte o každém kontextovém okně jako o směně. Co potřebuje vědět příští směna?

2. Investujte do správy stavu

Soubory postupu, git commity, strukturované požadavky. Tato infrastruktura je to, co to umožňuje.

3. Automatizujte ověřování

Neptejte se agentů, zda uspěli. Zkontrolujte to automaticky.

4. Začněte s jasnými milníky

Rozdělte práci na dosažitelné části. Nechte postup kumulovat se.

5. Měřte spolehlivost (pass^k)

Schopnost je nutný základ. Konzistence je to, na čem záleží pro produkci.

Příležitost vpředu

Jsme na inflexním bodě.

AI agenti přešli od „působivých dem" k „trvalé práci". Vzory infrastruktury jsou zdokumentovány. Výsledky jsou prokázány.

Co je možné nyní:

Agenti pracující na vaší kódové základně po hodiny
Zpracování dokumentů trvající dny
Výzkumné projekty, které by vyčerpaly lidské soustředění
Operace běžící nepřetržitě

Otázka není, zda AI agenti dokážou provádět trvalou práci. Dokážou.

Otázka je: co s nimi postavíte?

Vyzkoušejte sami

TeamDay buduje AI pracovní postupy, které běží spolehlivě — se správou stavu, ověřováním a infrastrukturou, která umožňuje trvalou práci.

Začněte bezplatnou zkušební verzi →

Postavte agenty, kteří projekty dokončují, ne jen začínají.

Související čtení

Nejlepší AI modely na OpenRouter 2026 — Dlouhotrvající agenti spotřebovávají miliony tokenů. Podívejte se, které modely nabízejí nejlepší poměr cena/výkon, včetně bezplatných možností pro fáze průzkumu.
Osvědčené postupy Claude Code — Zvládněte správu kontextu a optimalizaci tokenů pro trvalé relace Claude Code.

Zdroje:

Demystifying Evals for AI Agents - Anthropic Engineering
Effective Harnesses for Long-Running Agents - Anthropic Engineering

Dlouhotrvající AI agenti jsou tady: Jak postavit agenty pracující hodiny

Dlouhotrvající AI agenti jsou tady: Jak postavit agenty pracující hodiny

Průlom: Agenti, kteří udržují práci

Co umožňuje dlouhotrvající agenty

Vzor Agent Harness

Jak se relace propojují

Pět vzorů, které odemykají dlouhotrvající práci

1. Vzor inicializátoru

2. Strukturované požadavky (JSON > próza)

3. Postup na základě milníků

4. End-to-end ověření

5. Čistá předání

Výsledky: Co je skutečně možné

Dvě metriky, které záleží

pass@k: „Dokáže uspět?"

pass^k: „Uspívá konzistentně?"

Co to odemyká pro organizace

Vývojové projekty

Zpracování dokumentů

Výzkum a analýza

Operace

Začínáme

1. Navrhujte pro relace, ne pro konverzace

2. Investujte do správy stavu

3. Automatizujte ověřování

4. Začněte s jasnými milníky

5. Měřte spolehlivost (pass^k)

Příležitost vpředu

Vyzkoušejte sami

Související čtení

Turn the best models into shipped work