Dlhotrvajúci AI agenti sú tu: Ako postaviť agentov pracujúcich hodiny

Deje sa niečo pozoruhodné.

AI agenti už nie sú obmedzení na rýchle úlohy. Budujú celé aplikácie. Spracovávajú tisíce dokumentov. Prevádzkujú viacdňové výskumné projekty.

Anthropic práve zverejnil výskum o agentoch, ktorí postavili kompletný klon Claude.ai — 200+ funkcií naprieč viacerými reláciami.

Ide o prechod od „AI asistenta" k „AI pracovníkovi". A deje sa to teraz.

Prelom: Agenti, ktorí udržiavajú prácu

Roky boli AI agenti uväznení v režime jednej konverzácie. V jednej relácii ste mohli dosiahnuť pôsobivé výsledky, ale čokoľvek vyžadujúce trvalé úsilie? Nebolo to možné.

To sa zmenilo.

Kľúčový poznatk z výskumu Anthropic: so správnou infraštruktúrou môžu agenti pracovať spoľahlivo hodiny, dni, dokonca týždne.

Nie teoreticky. Skutočne. Demonštrovali to tým, že nechali agentov postaviť produkčnú webovú aplikáciu od nuly.

„Harness poskytuje schopnosti správy kontextu, ktoré umožňujú agentom pracovať bez vyčerpania limitov tokenov."

Ide o zásadne novú schopnosť. Pozrime sa, čo to umožňuje.

Čo umožňuje dlhotrvajúcich agentov

Vzor Agent Harness

Prelom nie je lepší model — je to lepšia infraštruktúra okolo modelu.

Agent harness je lešenie umožňujúce trvalú prácu:

Komponent	Čo robí
Správa kontextu	Sumarizuje staršiu prácu pre uvoľnenie tokenov pre nové úlohy
Persistencia stavu	Pamätá si rozhodnutia a postup naprieč reláciami
Nastavenie prostredia	Každá relácia začína z čistého, známeho stavu
Sledovanie postupu	Štruktúrované súbory ukazujú, čo je hotové a čo zostáva

Predstavte si to ako dokumentáciu pre odovzdávanie zmeny pri AI. Každá „zmena" (relácia) dedí všetko z predchádzajúcej.

Ako sa relácie prepájajú

Relácia 1: Inicializácia
├── Nastaviť prostredie
├── Vytvoriť sledovanie postupu
├── Dokončiť prvý míľnik
└── Zdokumentovať stav

Relácie 2-N: Pokračovanie
├── Načítať predchádzajúci stav
├── Pokračovať kde bolo skončené
├── Dokončiť ďalší míľnik
└── Zdokumentovať stav

Finálna relácia: Dokončenie
├── Dokončiť zostatok práce
├── Overiť, že všetko funguje
└── Čisté odovzdanie

Čaro: Každá relácia je nezávislá, ale harness vytvára kontinuitu.

Päť vzorov, ktoré odomykajú dlhotrvajúcu prácu

Výskum Anthropic identifikoval, čo oddeľuje agentov udržiavajúcich prácu od tých, ktorí zlyhávajú. Tu sú vzory:

1. Vzor inicializátora

Začnite každý projekt štruktúrou.

Prvá relácia je špeciálna — zakladá základ:

# init.sh - Ako spustiť tento projekt
npm install && npm run dev

# progress.txt - Kde sme
Projekt: Zákaznícky portál
Stav: Inicializovaný
Dokončené: Nastavenie prostredia
Ďalšie: Implementovať autentizáciu

Prečo to funguje: Každá nasledujúca relácia presne vie, ako prácu prevziať.

2. Štruktúrované požiadavky (JSON > próza)

Dajte agentom kontrolný zoznam, nie román.

{
  "features": [
    {"name": "Registrácia používateľa", "status": "complete", "verified": true},
    {"name": "Reset hesla", "status": "in_progress", "verified": false},
    {"name": "Správa relácií", "status": "pending", "verified": false}
  ]
}

Prečo to funguje: Jasná štruktúra zabraňuje rozšíreniu rozsahu a zviditeľňuje postup.

3. Postup na základe míľnikov

Rozdeľte veľké projekty na jasné kontrolné body.

Namiesto „postav aplikáciu" štruktúrujte prácu ako:

✅ Autentizačný tok
✅ Schéma databázy
🔄 Používateľský dashboard
⏳ Stránka nastavení
⏳ Funkcie exportu

Prečo to funguje: Každá relácia má jasný, dosiahnuteľný cieľ. Postup sa kumuluje.

4. End-to-end overenie

Dôveruj, ale preveruj — automaticky.

Najlepšie výsledky prichádzajú z požadovania skutočného overenia:

// Pred označením ako dokončené agenti spúšťajú skutočné používateľské toky
await page.goto('/signup')
await page.fill('[name=email]', '[email protected]')
await page.click('[type=submit]')
// Overiť, že tok skutočne funguje

Prečo to funguje: Zachytáva integračné problémy, ktoré unit testy prehliadajú. Anthropic zaznamenal 3,2× lepšiu detekciu chýb s automatizáciou prehliadača.

5. Čisté odovzdania

Ukončite každú reláciu pripravenú pre ďalšiu.

Kontrolný zoznam konca relácie:

✅ Všetky testy prechádzajú
✅ Súbor postupu aktualizovaný
✅ Žiadne necommitnuté zmeny
✅ Zdokumentované ďalšie kroky

Prečo to funguje: Ďalšia relácia začína budovaním, nie ladením.

Výsledky: Čo je skutočne možné

Produkčný test Anthropic — budovanie klonu Claude.ai:

Metrika	Výsledok
Postavené funkcie	200+
Potrebné relácie	8–12
Funkcií na reláciu	8–12
Miera prechodu end-to-end	91 %

Kľúčová metrika: pass^3 (spoľahlivosť naprieč po sebe nasledujúcimi pokusmi) dosiahla 78 % — konzistencia vhodná pre produkciu.

Nejde o demo. Je to dôkaz, že trvalá práca AI je dnes dosiahnuteľná.

Dve metriky, ktoré záleží

Pri hodnotení výkonu dlhotrvajúceho agenta sa zamerajte na:

pass@k: „Dokáže uspieť?"

Pravdepodobnosť úspechu v aspoň jednom z k pokusov. Meria schopnosť.

pass^k: „Uspeje konzistentne?"

Pravdepodobnosť úspechu vo VŠETKÝCH k pokusoch. Meria spoľahlivosť.

Medzera medzi týmito ukazovateľmi odhaľuje príležitosti. Agent s 80 % pass@1 ale 51 % pass^3 má priestor na zlepšenie konzistencie — a práve tam vzor harness najviac pomáha.

Čo to odomyká pre organizácie

Dlhotrvajúci agenti otvárajú nové možnosti:

Vývojové projekty

Budovanie funkcií naprieč viacerými reláciami
Systematické refaktorovanie kódových základní
Postupné spracovanie technického dlhu

Spracovanie dokumentov

Analýza tisícov dokumentov počas dní
Extrakcia a štruktúrovanie informácií vo veľkom rozsahu
Udržanie kontextu naprieč veľkými korpusmi

Výskum a analýza

Viacdňové výskumné projekty so syntézou
Nepretržité monitorovanie a reportovanie
Hĺbkové analýzy, ktoré by vyčerpali ľudskú pozornosť

Operácie

Priebežná automatizácia procesov
Viacúrovňové pracovné postupy s overením
Úlohy preklenujúce pracovnú dobu

Posun: Od „AI pomáha s úlohami" k „AI dokončuje projekty."

Začíname

Ak chcete budovať agentov udržiavajúcich prácu:

1. Navrhujte pre relácie, nie pre konverzácie

Premýšľajte o každom kontextovom okne ako o zmene. Čo potrebuje vedieť nasledujúca zmena?

2. Investujte do správy stavu

Súbory postupu, git commity, štruktúrované požiadavky. Táto infraštruktúra je to, čo to umožňuje.

3. Automatizujte overovanie

Nepýtajte sa agentov, či uspeli. Skontrolujte to automaticky.

4. Začnite s jasnými míľnikmi

Rozdeľte prácu na dosiahnuteľné časti. Nechajte postup kumulovať sa.

5. Merajte spoľahlivosť (pass^k)

Schopnosť je nevyhnutný základ. Konzistencia je to, na čom záleží pre produkciu.

Príležitosť vpred

Sme na inflexnom bode.

AI agenti prešli od „pôsobivých dem" k „trvalej práci". Vzory infraštruktúry sú zdokumentované. Výsledky sú preukázané.

Čo je možné teraz:

Agenti pracujúci na vašej kódovej základni hodiny
Spracovanie dokumentov trvajúce dni
Výskumné projekty, ktoré by vyčerpali ľudské sústredenie
Operácie bežiace nepretržite

Otázka nie je, či AI agenti dokážu vykonávať trvalú prácu. Dokážu.

Otázka je: čo s nimi postavíte?

Vyskúšajte sami

TeamDay buduje AI pracovné postupy, ktoré bežia spoľahlivo — so správou stavu, overovaním a infraštruktúrou, ktorá umožňuje trvalú prácu.

Začnite bezplatnú skúšobnú verziu →

Postavte agentov, ktorí projekty dokončujú, nie len začínajú.

Súvisiace čítanie

Najlepšie AI modely na OpenRouter 2026 — Dlhotrvajúci agenti spotrebúvajú milióny tokenov. Pozrite sa, ktoré modely ponúkajú najlepší pomer cena/výkon vrátane bezplatných možností pre fázy prieskumu.
Osvedčené postupy Claude Code — Zvládnite správu kontextu a optimalizáciu tokenov pre trvalé relácie Claude Code.

Zdroje:

Demystifying Evals for AI Agents - Anthropic Engineering
Effective Harnesses for Long-Running Agents - Anthropic Engineering

Dlhotrvajúci AI agenti sú tu: Ako postaviť agentov pracujúcich hodiny

Dlhotrvajúci AI agenti sú tu: Ako postaviť agentov pracujúcich hodiny

Prelom: Agenti, ktorí udržiavajú prácu

Čo umožňuje dlhotrvajúcich agentov

Vzor Agent Harness

Ako sa relácie prepájajú

Päť vzorov, ktoré odomykajú dlhotrvajúcu prácu

1. Vzor inicializátora

2. Štruktúrované požiadavky (JSON > próza)

3. Postup na základe míľnikov

4. End-to-end overenie

5. Čisté odovzdania

Výsledky: Čo je skutočne možné

Dve metriky, ktoré záleží

pass@k: „Dokáže uspieť?"

pass^k: „Uspeje konzistentne?"

Čo to odomyká pre organizácie

Vývojové projekty

Spracovanie dokumentov

Výskum a analýza

Operácie

Začíname

1. Navrhujte pre relácie, nie pre konverzácie

2. Investujte do správy stavu

3. Automatizujte overovanie

4. Začnite s jasnými míľnikmi

5. Merajte spoľahlivosť (pass^k)

Príležitosť vpred

Vyskúšajte sami

Súvisiace čítanie

Turn the best models into shipped work