COO spoločnosti OpenRouter: Ako sa Agenti Dostávajú do Produkcie
Chris z OpenRouter zdieľa dáta o adoptácii agentov: Call rate nástrojov vzrástol 5x za rok, reasoning tokeny teraz tvoria 50% výstupu. Čo funguje.
Čo Objaví Bilión Tokenov OpenRouter o Adoptácii Agentov
Chris, spoluzakladateľ a COO spoločnosti OpenRouter, má jedinečný pohľad. Spracovanie viac ako bilióna tokenov denne cez 70+ poskytovateľov cloudu umožňuje OpenRouter vidieť, ako sa AI skutočne používa v produkcii—nie demá, nie experimenty, ale skutočné workloady v rozsahu.
Dáta hovoria jasne: agenti už nie sú teoretickí. Nasadzujú sa.
Výbuch volania nástrojov: "Sub 5% to well north of 25%. And this is trending up rapidly." Iba na modeloch Anthropic sa percento volania API končiacich s požiadavkou na nástroj zvýšilo 5x za dvanásť mesiacov. Toto je "exhaust signature" agentov nasadzovaných do produkcie.
SLA moment: Okolo júla 2025 sa niečo zmenilo. Chris si spomína: "Suddenly we started getting questions from customers about our SLAs and our uptime... that's an extremely strong indicator that these things have suddenly gone from groups of companies testing them out to being very much in production. And if they go down, it starts to matter."
Reasoning tokeny teraz dominujú: Pred rokom existovali reasoning modely v produkcii. Teraz 50% všetkých výstupných tokenov, ktoré vidí OpenRouter, sú interné reasoning tokeny. Agenti myslia predtým, ako konajú.
Prečo je Miešanie Modelov Nový Štandard
Najúspešnejší agenti nepoužívajú jeden model—používajú viacero modelov na rôzne úlohy:
Frontier modely na plánovanie: Claude, GPT-4, Gemini zvládajú "rozhodnutia"—pochopenie kontextu, plánovanie ďalších krokov, rozhodnutia vyžadujúce nuansy.
Menšie modely na vykonávanie: Lacnejšie, rýchlejšie modely ako Qwen a MiniMax zvládajú samotné volania nástrojov. Chris vysvetľuje: "They're using smaller specialty models to do tool call requests and to execute. Less smart from a judgment perspective but extremely accurate, extremely good with tool use."
Tento vzor—premýšľanie s tým najlepším, vykonávanie s tým najrýchlejším—je spôsob, ako produkčné agenti spravujú kvalitu aj náklady.
Problem s Kvalitou Inferencie, o Ktorom Nikto Nehovorí
Tu je niečo kontraintuitívne: rovnaké váhy modelu produkujú rôzne výsledky na rôznych cloudoch.
Benchmarking OpenRouter zistil, že identické modely môžu mať:
- Rôzne presnosť skóre cez poskytovateľov
- Rôzne frekvencie volania nástrojov
- Zmysluplné rozdiely v produkčnom výkone
"Why would the exact same model with the exact same smarts choose to use tools differently in different situations?" Odpoveď spočíva v jemných rozdieloch v tom, ako sa implementujú inferenčné zásobníky—kvantizácia, infraštruktúra serverovania, spracovanie API.
Preto OpenRouter vytvoril "Exacto endpoints"—routing pools, ktoré zahŕňajú iba poskytovateľov benchmarkovaných na presnosť volania nástrojov. Pre agentov kvalita inferencie záleží rovnako ako kvalita modelu.
Najväčšia Chyba Zakladateľov pri Budovaní Agentov
Keď bol otázaný, čo robia zakladatelia zle, Chrisova odpoveď bola neočakávaná: nebudujú pre flexibilitu.
"It's extremely hard to predict what we're going to need in 12 months and where that inference will come from and what kind of models we might need."
Riešenie nie je výber dokonalého modelu dnes—je to budovanie infraštruktúry, ktorá vám umožní zmeniť modely zajtra. Agent, ktorý je uzamknutý na jedného poskytovateľa, nemôže:
- Testovať keď príde nový frontier model
- Prejsť na lacnejšie modely keď je prípad použitia overený
- Fallover keď majú poskytovatelia výpadky
Čo Enterprise Agenti Skutočne Potrebujú
Pre tímy nasadzujúce agentov vo väčšom meradle Chris identifikoval kritické obavy:
Dostupnosť a failover: Produkční agenti nemôžu zlyhať. Bodka. To znamená multi-provider routing, automatický failover, a skutočné monitorovanie.
Jasnosť dátovej politiky: "Where are their data centers? Do they actually own the GPUs or do they have GPUs that are leased in different data centers? Where's the decryption happening?" Bezpečnostné tímy podniku potrebujú odpovede.
Burst kapacita: Agenti bežia na časových plánoch—nočné dávkové úlohy, periodické workflowy. Nákup zaväznej kapacity na špičkové workloady nefunguje. Zdieľaná infraštruktúra áno.
4 Poznatky pre Tímy Budujúce AI Agentov
- Volanie nástrojov je podpis agenta - Ak nemeriaš volanie nástrojov, nemeriš adoptáciu agenta
- Miešaj frontier a špecializované modely - Používaj najlepšie modely na premýšľanie, rýchle modely na vykonávanie
- Kvalita inferencie sa líši prudko - Rovnaký model sa môže správať inak cez poskytovateľov; benchmark si tvoj špecifický prípad
- Buduj pre flexibilitu, nie dokonalosť - Krajina modelov sa zmení mesačne; uzamknutie je skutočné riziko
Prečo to Záleží na AI-Poháňaných Organizáciách
Dáta OpenRouter potvrdzujú to, čo vidíme: dlhodobí agenti sú tu, a infraštruktúrne vzory, ktoré ich robia, sa stávajú jasnými.
Posun nie je iba technický—je operačný. Keď zákazníci začnú pýtať na SLA, keď sa volania nástrojov zvýšia 5x za rok, keď reasoning tokeny dosiahnu 50% výstupu... to je produkčná adopcia vo veľkom.
Otázka pre organizácie nie je či nasadiť agentov. Je to ako budovať infraštruktúru, ktorá umožní agentom skutočne pracovať: multi-model routing, monitorovanie kvality inferencie, a flexibilita prispôsobiť sa ako sa krajina vyvíja.


