Dlhotrvajúci AI agenti sú tu: Ako postaviť agentov pracujúcich hodiny
Claude & Jozo · 10 min read · 2026/01/12
AIAgentiInžinierstvoVývojTechnickéOsvedčené postupy

Dlhotrvajúci AI agenti sú tu: Ako postaviť agentov pracujúcich hodiny

Deje sa niečo pozoruhodné.

AI agenti už nie sú obmedzení na rýchle úlohy. Budujú celé aplikácie. Spracovávajú tisíce dokumentov. Prevádzkujú viacdňové výskumné projekty.

Anthropic práve zverejnil výskum o agentoch, ktorí postavili kompletný klon Claude.ai — 200+ funkcií naprieč viacerými reláciami.

Ide o prechod od „AI asistenta” k „AI pracovníkovi”. A deje sa to teraz.


Prelom: Agenti, ktorí udržiavajú prácu

Roky boli AI agenti uväznení v režime jednej konverzácie. V jednej relácii ste mohli dosiahnuť pôsobivé výsledky, ale čokoľvek vyžadujúce trvalé úsilie? Nebolo to možné.

To sa zmenilo.

Kľúčový poznatk z výskumu Anthropic: so správnou infraštruktúrou môžu agenti pracovať spoľahlivo hodiny, dni, dokonca týždne.

Nie teoreticky. Skutočne. Demonštrovali to tým, že nechali agentov postaviť produkčnú webovú aplikáciu od nuly.

„Harness poskytuje schopnosti správy kontextu, ktoré umožňujú agentom pracovať bez vyčerpania limitov tokenov.”

Ide o zásadne novú schopnosť. Pozrime sa, čo to umožňuje.


Čo umožňuje dlhotrvajúcich agentov

Vzor Agent Harness

Prelom nie je lepší model — je to lepšia infraštruktúra okolo modelu.

Agent harness je lešenie umožňujúce trvalú prácu:

KomponentČo robí
Správa kontextuSumarizuje staršiu prácu pre uvoľnenie tokenov pre nové úlohy
Persistencia stavuPamätá si rozhodnutia a postup naprieč reláciami
Nastavenie prostrediaKaždá relácia začína z čistého, známeho stavu
Sledovanie postupuŠtruktúrované súbory ukazujú, čo je hotové a čo zostáva

Predstavte si to ako dokumentáciu pre odovzdávanie zmeny pri AI. Každá „zmena” (relácia) dedí všetko z predchádzajúcej.

Ako sa relácie prepájajú

Relácia 1: Inicializácia
├── Nastaviť prostredie
├── Vytvoriť sledovanie postupu
├── Dokončiť prvý míľnik
└── Zdokumentovať stav

Relácie 2-N: Pokračovanie
├── Načítať predchádzajúci stav
├── Pokračovať kde bolo skončené
├── Dokončiť ďalší míľnik
└── Zdokumentovať stav

Finálna relácia: Dokončenie
├── Dokončiť zostatok práce
├── Overiť, že všetko funguje
└── Čisté odovzdanie

Čaro: Každá relácia je nezávislá, ale harness vytvára kontinuitu.


Päť vzorov, ktoré odomykajú dlhotrvajúcu prácu

Výskum Anthropic identifikoval, čo oddeľuje agentov udržiavajúcich prácu od tých, ktorí zlyhávajú. Tu sú vzory:

1. Vzor inicializátora

Začnite každý projekt štruktúrou.

Prvá relácia je špeciálna — zakladá základ:

# init.sh - Ako spustiť tento projekt
npm install && npm run dev

# progress.txt - Kde sme
Projekt: Zákaznícky portál
Stav: Inicializovaný
Dokončené: Nastavenie prostredia
Ďalšie: Implementovať autentizáciu

Prečo to funguje: Každá nasledujúca relácia presne vie, ako prácu prevziať.

2. Štruktúrované požiadavky (JSON > próza)

Dajte agentom kontrolný zoznam, nie román.

{
  "features": [
    {"name": "Registrácia používateľa", "status": "complete", "verified": true},
    {"name": "Reset hesla", "status": "in_progress", "verified": false},
    {"name": "Správa relácií", "status": "pending", "verified": false}
  ]
}

Prečo to funguje: Jasná štruktúra zabraňuje rozšíreniu rozsahu a zviditeľňuje postup.

3. Postup na základe míľnikov

Rozdeľte veľké projekty na jasné kontrolné body.

Namiesto „postav aplikáciu” štruktúrujte prácu ako:

  1. ✅ Autentizačný tok
  2. ✅ Schéma databázy
  3. 🔄 Používateľský dashboard
  4. ⏳ Stránka nastavení
  5. ⏳ Funkcie exportu

Prečo to funguje: Každá relácia má jasný, dosiahnuteľný cieľ. Postup sa kumuluje.

4. End-to-end overenie

Dôveruj, ale preveruj — automaticky.

Najlepšie výsledky prichádzajú z požadovania skutočného overenia:

// Pred označením ako dokončené agenti spúšťajú skutočné používateľské toky
await page.goto('/signup')
await page.fill('[name=email]', '[email protected]')
await page.click('[type=submit]')
// Overiť, že tok skutočne funguje

Prečo to funguje: Zachytáva integračné problémy, ktoré unit testy prehliadajú. Anthropic zaznamenal 3,2× lepšiu detekciu chýb s automatizáciou prehliadača.

5. Čisté odovzdania

Ukončite každú reláciu pripravenú pre ďalšiu.

Kontrolný zoznam konca relácie:

  • ✅ Všetky testy prechádzajú
  • ✅ Súbor postupu aktualizovaný
  • ✅ Žiadne necommitnuté zmeny
  • ✅ Zdokumentované ďalšie kroky

Prečo to funguje: Ďalšia relácia začína budovaním, nie ladením.


Výsledky: Čo je skutočne možné

Produkčný test Anthropic — budovanie klonu Claude.ai:

MetrikaVýsledok
Postavené funkcie200+
Potrebné relácie8–12
Funkcií na reláciu8–12
Miera prechodu end-to-end91 %

Kľúčová metrika: pass^3 (spoľahlivosť naprieč po sebe nasledujúcimi pokusmi) dosiahla 78 % — konzistencia vhodná pre produkciu.

Nejde o demo. Je to dôkaz, že trvalá práca AI je dnes dosiahnuteľná.


Dve metriky, ktoré záleží

Pri hodnotení výkonu dlhotrvajúceho agenta sa zamerajte na:

pass@k: „Dokáže uspieť?”

Pravdepodobnosť úspechu v aspoň jednom z k pokusov. Meria schopnosť.

pass^k: „Uspeje konzistentne?”

Pravdepodobnosť úspechu vo VŠETKÝCH k pokusoch. Meria spoľahlivosť.

Medzera medzi týmito ukazovateľmi odhaľuje príležitosti. Agent s 80 % pass@1 ale 51 % pass^3 má priestor na zlepšenie konzistencie — a práve tam vzor harness najviac pomáha.


Čo to odomyká pre organizácie

Dlhotrvajúci agenti otvárajú nové možnosti:

Vývojové projekty

  • Budovanie funkcií naprieč viacerými reláciami
  • Systematické refaktorovanie kódových základní
  • Postupné spracovanie technického dlhu

Spracovanie dokumentov

  • Analýza tisícov dokumentov počas dní
  • Extrakcia a štruktúrovanie informácií vo veľkom rozsahu
  • Udržanie kontextu naprieč veľkými korpusmi

Výskum a analýza

  • Viacdňové výskumné projekty so syntézou
  • Nepretržité monitorovanie a reportovanie
  • Hĺbkové analýzy, ktoré by vyčerpali ľudskú pozornosť

Operácie

  • Priebežná automatizácia procesov
  • Viacúrovňové pracovné postupy s overením
  • Úlohy preklenujúce pracovnú dobu

Posun: Od „AI pomáha s úlohami” k „AI dokončuje projekty.”


Začíname

Ak chcete budovať agentov udržiavajúcich prácu:

1. Navrhujte pre relácie, nie pre konverzácie

Premýšľajte o každom kontextovom okne ako o zmene. Čo potrebuje vedieť nasledujúca zmena?

2. Investujte do správy stavu

Súbory postupu, git commity, štruktúrované požiadavky. Táto infraštruktúra je to, čo to umožňuje.

3. Automatizujte overovanie

Nepýtajte sa agentov, či uspeli. Skontrolujte to automaticky.

4. Začnite s jasnými míľnikmi

Rozdeľte prácu na dosiahnuteľné časti. Nechajte postup kumulovať sa.

5. Merajte spoľahlivosť (pass^k)

Schopnosť je nevyhnutný základ. Konzistencia je to, na čom záleží pre produkciu.


Príležitosť vpred

Sme na inflexnom bode.

AI agenti prešli od „pôsobivých dem” k „trvalej práci”. Vzory infraštruktúry sú zdokumentované. Výsledky sú preukázané.

Čo je možné teraz:

  • Agenti pracujúci na vašej kódovej základni hodiny
  • Spracovanie dokumentov trvajúce dni
  • Výskumné projekty, ktoré by vyčerpali ľudské sústredenie
  • Operácie bežiace nepretržite

Otázka nie je, či AI agenti dokážu vykonávať trvalú prácu. Dokážu.

Otázka je: čo s nimi postavíte?


Vyskúšajte sami

TeamDay buduje AI pracovné postupy, ktoré bežia spoľahlivo — so správou stavu, overovaním a infraštruktúrou, ktorá umožňuje trvalú prácu.

Začnite bezplatnú skúšobnú verziu →

Postavte agentov, ktorí projekty dokončujú, nie len začínajú.


Súvisiace čítanie


Zdroje: