COO OpenRouter: Jak se agenti opravdu dostávají do produkce
Chris z OpenRouter sdílí data o adopci agentů: míra tool callů se zvýšila 5x za rok, reasoning tokeny nyní tvoří 50% výstupu. Zde je, co funguje.
Co biliony tokenů od OpenRouter odhalují o adopci agentů
Chris, zakladatel a COO OpenRouter, má jedinečný pohled. Zpracovávajíc každý den přes bilion tokenů přes 70+ cloudových poskytovatelů, OpenRouter vidí, jak se AI opravdu používá v produkci—ne v demech, ne v experimentech, ale v reálných závaznosciích v rozsahu.
Data vypovídají jasně: agenti už nejsou teoretický koncept. Jsou v provozu.
Exploze tool callingu: "Sub 5% na well north of 25%. A tento trend je velmi rychle vzestupný." Jen na modelech Anthropic se procento API callů skončivších s tool requestem za dvanáct měsíců zvýšilo 5x. Toto je "podpis výfuku" agentů nasazených do produkce.
Moment SLA: Kolem července 2025 se něco změnilo. Chris si vzpomíná: "Najednou jsme začali dostávat dotazy od zákazníků na naše SLA a dostupnost... to je extrémně silný indikátor, že se tyto věci náhle změnily z skupin společností, které je testují, na věci, které jsou velmi v produkci. A pokud se dostanou dolů, začne to být důležité."
Reasoning tokeny nyní dominují: Před rokem reasoning modely v produkci neexistovaly. Nyní 50% všech výstupních tokenů, které OpenRouter vidí, jsou interní reasoning tokeny. Agenti si myslí, než jednoají.
Proč je mix modelů nový standard
Nejvíce úspěšní agenti nepoužívají jeden model—používají více modelů pro různé úkoly:
Frontier modely pro plánování: Claude, GPT-4, Gemini zvládají "rozhodnutí"—pochopení kontextu, plánování dalších kroků, rozhodnutí vyžadující nuanci.
Menší modely pro spuštění: Levnější, rychlejší modely jako Qwen a MiniMax zvládají samotné tool cally. Chris vysvětluje: "Používají menší specializované modely k provedení tool call requestů a ke spuštění. Méně inteligentní z hlediska úsudku, ale extrémně přesné, extrémně dobré s tool use."
Tento vzor—uvažuj s nejlepšímy, proveď s nejrychlejšími—je jak produkční agenti řídí kvalitu i náklady.
Problém s kvalitou inference, o kterém nikdo nemluví
Tady je něco kontraintuitivního: stejné váhy modelů produkují různé výsledky na různých cloudech.
Benchmarking OpenRouter odhalil, že identické modely mohou mít:
- Různé skóre přesnosti napříč poskytovateli
- Různé frekvence tool-callingu
- Významný rozptyl v produkčním výkonu
"Proč by přesně stejný model se stejným intelektem zvolil, aby používal nástroje jinak v různých situacích?" Odpověď spočívá v jemných rozdílech v tom, jak jsou inference stacky implementovány—kvantizace, serving infrastruktura, API handling.
To je důvod, proč OpenRouter vytvořil "Exacto endpointy"—routing pooly, které zahrnují pouze poskytovatele benchmarked pro tool-calling přesnost. Pro agenty je kvalita inference stejně důležitá jako kvalita modelu.
Největší chyba zakladatele při budování agentů
Když byl Chris dotázán, co zakladatelé dělají špatně, jeho odpověď byla neočekávaná: nestaví si pro optionalitu.
"Je extrémně těžké předpovědět, co budeme potřebovat za 12 měsíců a kde ta inference přijde a jaké druhy modelů bychom mohli potřebovat."
Řešení není výběr dokonalého modelu dnes—je to stavba infrastruktury, která vám umožní přepnout modely zítra. Agent, který je uzamčen na jednoho poskytovatele, nemůže:
- Testovat, když se objeví nový frontier model
- Snížit se na levnější modely, jakmile je use case prokázán
- Převzít při výpadcích poskytovatelů
Co skutečně potřebují podnikový agenti
Pro týmy nasazující agenty ve velkém měřítku Chris identifikoval kritické obavy:
Dostupnost a failover: Produkční agenti nemůžou být offline. Tečka. To znamená multi-provider routing, automatický failover a skutečné monitorování.
Jasnost datové politiky: "Kde jsou jejich datová centra? Vlastně vlastní GPU nebo mají GPU, která jsou pronajatá v různých datových centrech? Kde se dešifrování děje?" Týmy podnikového zabezpečení potřebují odpovědi.
Burst kapacita: Agenti běží podle plánů—noční dávkové úlohy, periodické workflowy. Nákup committed kapacity pro špičkové workloady nefunguje. Sdílená infrastruktura ano.
4 poznatky pro týmy budující AI agenty
- Tool calling je signatura agenta - Pokud neměříte míru tool callů, neměříte adopci agenta
- Mix frontier a specialty modelů - Použijte nejlepší modely pro uvažování, rychlé modely pro spuštění
- Kvalita inference se divě liší - Stejný model se může chovat jinak napříč poskytovateli; benchmark váš konkrétní use case
- Stavte pro optionalitu, ne dokonalost - Krajina modelů se mění měsíčně; lock-in je skutečné riziko
Proč na to záleží pro organizace poháněné AI
Data OpenRouter potvrzují, co jsme viděli: dlouhotrvající agenti jsou zde, a infrastrukturní vzory, které je zprovozňují, se stávají jasnými.
Posun není jen technický—je operační. Když zákazníci začnou ptát na SLA, když se míra tool callů zvýší 5x za rok, když reasoning tokeny dosáhnou 50% výstupu... to je adopce v produkci ve velkém měřítku.
Otázka pro organizace není, zda nasadit agenty. Je to, jak vybudovat infrastrukturu, která umožní agentům opravdu pracovat: multi-model routing, monitoring kvality inference a flexibilita přizpůsobit se, jak se krajina vyvíjí.


