Dlouhotrvající AI agenti jsou tady: Jak postavit agenty pracující hodiny
Claude & Jozo · 10 min read · 2026/01/12
AIAgentiInženýrstvíVývojTechnickéOsvědčené postupy

Dlouhotrvající AI agenti jsou tady: Jak postavit agenty pracující hodiny

Děje se něco pozoruhodného.

AI agenti již nejsou omezeni na rychlé úlohy. Budují celé aplikace. Zpracovávají tisíce dokumentů. Provozují vícedenní výzkumné projekty.

Anthropic právě zveřejnil výzkum o agentech, kteří postavili kompletní klon Claude.ai — 200+ funkcí napříč více relacemi.

Jde o přechod od „AI asistenta” k „AI pracovníku”. A děje se to teď.


Průlom: Agenti, kteří udržují práci

Po léta byli AI agenti uvězněni v režimu jedné konverzace. V jedné relaci jste mohli dosáhnout působivých výsledků, ale cokoliv vyžadujícího trvalé úsilí? Nebylo to možné.

To se změnilo.

Klíčový poznatek z výzkumu Anthropic: se správnou infrastrukturou mohou agenti pracovat spolehlivě po hodiny, dny, dokonce týdny.

Ne teoreticky. Skutečně. Demonstrovali to tím, že nechali agenty postavit produkční webovou aplikaci od nuly.

„Harness poskytuje schopnosti správy kontextu, které umožňují agentům pracovat bez vyčerpání limitů tokenů.”

Jde o zásadně novou schopnost. Pojďme se podívat, co to umožňuje.


Co umožňuje dlouhotrvající agenty

Vzor Agent Harness

Průlom není lepší model — je to lepší infrastruktura kolem modelu.

Agent harness je lešení umožňující trvalou práci:

KomponentaCo dělá
Správa kontextuSumarizuje starší práci pro uvolnění tokenů pro nové úlohy
Persistence stavuPamatuje si rozhodnutí a postup napříč relacemi
Nastavení prostředíKaždá relace začíná z čistého, známého stavu
Sledování postupuStrukturované soubory ukazují, co je hotovo a co zbývá

Představte si to jako dokumentaci pro předávání směny u AI. Každá „směna” (relace) dědí vše z předchozí.

Jak se relace propojují

Relace 1: Inicializace
├── Nastavit prostředí
├── Vytvořit sledování postupu
├── Dokončit první milník
└── Zdokumentovat stav

Relace 2-N: Pokračování
├── Načíst předchozí stav
├── Pokračovat kde bylo skončeno
├── Dokončit další milník
└── Zdokumentovat stav

Finální relace: Dokončení
├── Dokončit zbývající práci
├── Ověřit, že vše funguje
└── Čisté předání

Kouzlo: Každá relace je nezávislá, ale harness vytváří kontinuitu.


Pět vzorů, které odemykají dlouhotrvající práci

Výzkum Anthropic identifikoval, co odděluje agenty udržující práci od těch, kteří selhávají. Zde jsou vzory:

1. Vzor inicializátoru

Začněte každý projekt strukturou.

První relace je zvláštní — zakládá základ:

# init.sh - Jak spustit tento projekt
npm install && npm run dev

# progress.txt - Kde jsme
Projekt: Zákaznický portál
Stav: Inicializován
Dokončeno: Nastavení prostředí
Další: Implementovat autentizaci

Proč to funguje: Každá následující relace přesně ví, jak práci převzít.

2. Strukturované požadavky (JSON > próza)

Dejte agentům kontrolní seznam, ne román.

{
  "features": [
    {"name": "Registrace uživatele", "status": "complete", "verified": true},
    {"name": "Reset hesla", "status": "in_progress", "verified": false},
    {"name": "Správa relací", "status": "pending", "verified": false}
  ]
}

Proč to funguje: Jasná struktura zabraňuje rozšiřování rozsahu a zviditelňuje postup.

3. Postup na základě milníků

Rozdělte velké projekty na jasné kontrolní body.

Místo „postav aplikaci” strukturujte práci jako:

  1. ✅ Autentizační tok
  2. ✅ Schéma databáze
  3. 🔄 Uživatelský dashboard
  4. ⏳ Stránka nastavení
  5. ⏳ Funkce exportu

Proč to funguje: Každá relace má jasný, dosažitelný cíl. Postup se kumuluje.

4. End-to-end ověření

Důvěřuj, ale prověřuj — automaticky.

Nejlepší výsledky přicházejí z požadování skutečného ověření:

// Před označením jako dokončené agenti spouštějí skutečné uživatelské toky
await page.goto('/signup')
await page.fill('[name=email]', '[email protected]')
await page.click('[type=submit]')
// Ověřit, že tok skutečně funguje

Proč to funguje: Zachycuje integrační problémy, které unit testy přehlíží. Anthropic zaznamenal 3,2× lepší detekci chyb s automatizací prohlížeče.

5. Čistá předání

Ukončete každou relaci připravenou pro další.

Kontrolní seznam konce relace:

  • ✅ Všechny testy projdou
  • ✅ Soubor postupu aktualizován
  • ✅ Žádné necommitnuté změny
  • ✅ Zdokumentovány další kroky

Proč to funguje: Příští relace začíná budováním, ne laděním.


Výsledky: Co je skutečně možné

Produkční test Anthropic — budování klonu Claude.ai:

MetrikaVýsledek
Postavené funkce200+
Potřebné relace8–12
Funkcí na relaci8–12
Míra průchodu end-to-end91 %

Klíčová metrika: pass^3 (spolehlivost napříč po sobě jdoucími pokusy) dosáhla 78 % — konzistence vhodná pro produkci.

Nejde o demo. Je to důkaz, že trvalá práce AI je dnes dosažitelná.


Dvě metriky, které záleží

Při hodnocení výkonu dlouhotrvajícího agenta se zaměřte na:

pass@k: „Dokáže uspět?”

Pravděpodobnost úspěchu v alespoň jednom z k pokusů. Měří schopnost.

pass^k: „Uspívá konzistentně?”

Pravděpodobnost úspěchu ve VŠECH k pokusech. Měří spolehlivost.

Mezera mezi těmito ukazateli odhaluje příležitosti. Agent s 80 % pass@1 ale 51 % pass^3 má prostor ke zlepšení konzistence — a právě tam vzor harness nejvíce pomáhá.


Co to odemyká pro organizace

Dlouhotrvající agenti otevírají nové možnosti:

Vývojové projekty

  • Budování funkcí napříč více relacemi
  • Systematické refaktorování kódových základen
  • Postupné zpracování technického dluhu

Zpracování dokumentů

  • Analýza tisíců dokumentů po dobu dnů
  • Extrakce a strukturování informací ve velkém měřítku
  • Udržení kontextu napříč velkými korpusy

Výzkum a analýza

  • Vícedenní výzkumné projekty se syntézou
  • Průběžné monitorování a reportování
  • Hloubkové analýzy, které by vyčerpaly lidskou pozornost

Operace

  • Průběžná automatizace procesů
  • Víceúrovňové pracovní postupy s ověřením
  • Úlohy překlenující pracovní dobu

Posun: Od „AI pomáhá s úlohami” k „AI dokončuje projekty.”


Začínáme

Pokud chcete budovat agenty udržující práci:

1. Navrhujte pro relace, ne pro konverzace

Přemýšlejte o každém kontextovém okně jako o směně. Co potřebuje vědět příští směna?

2. Investujte do správy stavu

Soubory postupu, git commity, strukturované požadavky. Tato infrastruktura je to, co to umožňuje.

3. Automatizujte ověřování

Neptejte se agentů, zda uspěli. Zkontrolujte to automaticky.

4. Začněte s jasnými milníky

Rozdělte práci na dosažitelné části. Nechte postup kumulovat se.

5. Měřte spolehlivost (pass^k)

Schopnost je nutný základ. Konzistence je to, na čem záleží pro produkci.


Příležitost vpředu

Jsme na inflexním bodě.

AI agenti přešli od „působivých dem” k „trvalé práci”. Vzory infrastruktury jsou zdokumentovány. Výsledky jsou prokázány.

Co je možné nyní:

  • Agenti pracující na vaší kódové základně po hodiny
  • Zpracování dokumentů trvající dny
  • Výzkumné projekty, které by vyčerpaly lidské soustředění
  • Operace běžící nepřetržitě

Otázka není, zda AI agenti dokážou provádět trvalou práci. Dokážou.

Otázka je: co s nimi postavíte?


Vyzkoušejte sami

TeamDay buduje AI pracovní postupy, které běží spolehlivě — se správou stavu, ověřováním a infrastrukturou, která umožňuje trvalou práci.

Začněte bezplatnou zkušební verzi →

Postavte agenty, kteří projekty dokončují, ne jen začínají.


Související čtení


Zdroje: