Dlhotrvajúci AI agenti sú tu: Ako postaviť agentov pracujúcich hodiny
Deje sa niečo pozoruhodné.
AI agenti už nie sú obmedzení na rýchle úlohy. Budujú celé aplikácie. Spracovávajú tisíce dokumentov. Prevádzkujú viacdňové výskumné projekty.
Anthropic práve zverejnil výskum o agentoch, ktorí postavili kompletný klon Claude.ai — 200+ funkcií naprieč viacerými reláciami.
Ide o prechod od „AI asistenta” k „AI pracovníkovi”. A deje sa to teraz.
Prelom: Agenti, ktorí udržiavajú prácu
Roky boli AI agenti uväznení v režime jednej konverzácie. V jednej relácii ste mohli dosiahnuť pôsobivé výsledky, ale čokoľvek vyžadujúce trvalé úsilie? Nebolo to možné.
To sa zmenilo.
Kľúčový poznatk z výskumu Anthropic: so správnou infraštruktúrou môžu agenti pracovať spoľahlivo hodiny, dni, dokonca týždne.
Nie teoreticky. Skutočne. Demonštrovali to tým, že nechali agentov postaviť produkčnú webovú aplikáciu od nuly.
„Harness poskytuje schopnosti správy kontextu, ktoré umožňujú agentom pracovať bez vyčerpania limitov tokenov.”
Ide o zásadne novú schopnosť. Pozrime sa, čo to umožňuje.
Čo umožňuje dlhotrvajúcich agentov
Vzor Agent Harness
Prelom nie je lepší model — je to lepšia infraštruktúra okolo modelu.
Agent harness je lešenie umožňujúce trvalú prácu:
| Komponent | Čo robí |
|---|---|
| Správa kontextu | Sumarizuje staršiu prácu pre uvoľnenie tokenov pre nové úlohy |
| Persistencia stavu | Pamätá si rozhodnutia a postup naprieč reláciami |
| Nastavenie prostredia | Každá relácia začína z čistého, známeho stavu |
| Sledovanie postupu | Štruktúrované súbory ukazujú, čo je hotové a čo zostáva |
Predstavte si to ako dokumentáciu pre odovzdávanie zmeny pri AI. Každá „zmena” (relácia) dedí všetko z predchádzajúcej.
Ako sa relácie prepájajú
Relácia 1: Inicializácia
├── Nastaviť prostredie
├── Vytvoriť sledovanie postupu
├── Dokončiť prvý míľnik
└── Zdokumentovať stav
Relácie 2-N: Pokračovanie
├── Načítať predchádzajúci stav
├── Pokračovať kde bolo skončené
├── Dokončiť ďalší míľnik
└── Zdokumentovať stav
Finálna relácia: Dokončenie
├── Dokončiť zostatok práce
├── Overiť, že všetko funguje
└── Čisté odovzdanie
Čaro: Každá relácia je nezávislá, ale harness vytvára kontinuitu.
Päť vzorov, ktoré odomykajú dlhotrvajúcu prácu
Výskum Anthropic identifikoval, čo oddeľuje agentov udržiavajúcich prácu od tých, ktorí zlyhávajú. Tu sú vzory:
1. Vzor inicializátora
Začnite každý projekt štruktúrou.
Prvá relácia je špeciálna — zakladá základ:
# init.sh - Ako spustiť tento projekt
npm install && npm run dev
# progress.txt - Kde sme
Projekt: Zákaznícky portál
Stav: Inicializovaný
Dokončené: Nastavenie prostredia
Ďalšie: Implementovať autentizáciu
Prečo to funguje: Každá nasledujúca relácia presne vie, ako prácu prevziať.
2. Štruktúrované požiadavky (JSON > próza)
Dajte agentom kontrolný zoznam, nie román.
{
"features": [
{"name": "Registrácia používateľa", "status": "complete", "verified": true},
{"name": "Reset hesla", "status": "in_progress", "verified": false},
{"name": "Správa relácií", "status": "pending", "verified": false}
]
}
Prečo to funguje: Jasná štruktúra zabraňuje rozšíreniu rozsahu a zviditeľňuje postup.
3. Postup na základe míľnikov
Rozdeľte veľké projekty na jasné kontrolné body.
Namiesto „postav aplikáciu” štruktúrujte prácu ako:
- ✅ Autentizačný tok
- ✅ Schéma databázy
- 🔄 Používateľský dashboard
- ⏳ Stránka nastavení
- ⏳ Funkcie exportu
Prečo to funguje: Každá relácia má jasný, dosiahnuteľný cieľ. Postup sa kumuluje.
4. End-to-end overenie
Dôveruj, ale preveruj — automaticky.
Najlepšie výsledky prichádzajú z požadovania skutočného overenia:
// Pred označením ako dokončené agenti spúšťajú skutočné používateľské toky
await page.goto('/signup')
await page.fill('[name=email]', '[email protected]')
await page.click('[type=submit]')
// Overiť, že tok skutočne funguje
Prečo to funguje: Zachytáva integračné problémy, ktoré unit testy prehliadajú. Anthropic zaznamenal 3,2× lepšiu detekciu chýb s automatizáciou prehliadača.
5. Čisté odovzdania
Ukončite každú reláciu pripravenú pre ďalšiu.
Kontrolný zoznam konca relácie:
- ✅ Všetky testy prechádzajú
- ✅ Súbor postupu aktualizovaný
- ✅ Žiadne necommitnuté zmeny
- ✅ Zdokumentované ďalšie kroky
Prečo to funguje: Ďalšia relácia začína budovaním, nie ladením.
Výsledky: Čo je skutočne možné
Produkčný test Anthropic — budovanie klonu Claude.ai:
| Metrika | Výsledok |
|---|---|
| Postavené funkcie | 200+ |
| Potrebné relácie | 8–12 |
| Funkcií na reláciu | 8–12 |
| Miera prechodu end-to-end | 91 % |
Kľúčová metrika: pass^3 (spoľahlivosť naprieč po sebe nasledujúcimi pokusmi) dosiahla 78 % — konzistencia vhodná pre produkciu.
Nejde o demo. Je to dôkaz, že trvalá práca AI je dnes dosiahnuteľná.
Dve metriky, ktoré záleží
Pri hodnotení výkonu dlhotrvajúceho agenta sa zamerajte na:
pass@k: „Dokáže uspieť?”
Pravdepodobnosť úspechu v aspoň jednom z k pokusov. Meria schopnosť.
pass^k: „Uspeje konzistentne?”
Pravdepodobnosť úspechu vo VŠETKÝCH k pokusoch. Meria spoľahlivosť.
Medzera medzi týmito ukazovateľmi odhaľuje príležitosti. Agent s 80 % pass@1 ale 51 % pass^3 má priestor na zlepšenie konzistencie — a práve tam vzor harness najviac pomáha.
Čo to odomyká pre organizácie
Dlhotrvajúci agenti otvárajú nové možnosti:
Vývojové projekty
- Budovanie funkcií naprieč viacerými reláciami
- Systematické refaktorovanie kódových základní
- Postupné spracovanie technického dlhu
Spracovanie dokumentov
- Analýza tisícov dokumentov počas dní
- Extrakcia a štruktúrovanie informácií vo veľkom rozsahu
- Udržanie kontextu naprieč veľkými korpusmi
Výskum a analýza
- Viacdňové výskumné projekty so syntézou
- Nepretržité monitorovanie a reportovanie
- Hĺbkové analýzy, ktoré by vyčerpali ľudskú pozornosť
Operácie
- Priebežná automatizácia procesov
- Viacúrovňové pracovné postupy s overením
- Úlohy preklenujúce pracovnú dobu
Posun: Od „AI pomáha s úlohami” k „AI dokončuje projekty.”
Začíname
Ak chcete budovať agentov udržiavajúcich prácu:
1. Navrhujte pre relácie, nie pre konverzácie
Premýšľajte o každom kontextovom okne ako o zmene. Čo potrebuje vedieť nasledujúca zmena?
2. Investujte do správy stavu
Súbory postupu, git commity, štruktúrované požiadavky. Táto infraštruktúra je to, čo to umožňuje.
3. Automatizujte overovanie
Nepýtajte sa agentov, či uspeli. Skontrolujte to automaticky.
4. Začnite s jasnými míľnikmi
Rozdeľte prácu na dosiahnuteľné časti. Nechajte postup kumulovať sa.
5. Merajte spoľahlivosť (pass^k)
Schopnosť je nevyhnutný základ. Konzistencia je to, na čom záleží pre produkciu.
Príležitosť vpred
Sme na inflexnom bode.
AI agenti prešli od „pôsobivých dem” k „trvalej práci”. Vzory infraštruktúry sú zdokumentované. Výsledky sú preukázané.
Čo je možné teraz:
- Agenti pracujúci na vašej kódovej základni hodiny
- Spracovanie dokumentov trvajúce dni
- Výskumné projekty, ktoré by vyčerpali ľudské sústredenie
- Operácie bežiace nepretržite
Otázka nie je, či AI agenti dokážu vykonávať trvalú prácu. Dokážu.
Otázka je: čo s nimi postavíte?
Vyskúšajte sami
TeamDay buduje AI pracovné postupy, ktoré bežia spoľahlivo — so správou stavu, overovaním a infraštruktúrou, ktorá umožňuje trvalú prácu.
Začnite bezplatnú skúšobnú verziu →
Postavte agentov, ktorí projekty dokončujú, nie len začínajú.
Súvisiace čítanie
- Najlepšie AI modely na OpenRouter 2026 — Dlhotrvajúci agenti spotrebúvajú milióny tokenov. Pozrite sa, ktoré modely ponúkajú najlepší pomer cena/výkon vrátane bezplatných možností pre fázy prieskumu.
- Osvedčené postupy Claude Code — Zvládnite správu kontextu a optimalizáciu tokenov pre trvalé relácie Claude Code.
Zdroje:
- Demystifying Evals for AI Agents - Anthropic Engineering
- Effective Harnesses for Long-Running Agents - Anthropic Engineering