OpenRouter COO: Wie Agents tatsächlich in Produktion gehen
Chris von OpenRouter teilt Daten zur Agent-Adoption: Tool-Call-Raten sind in einem Jahr um das 5-Fache gestiegen, Reasoning-Token machen jetzt 50% der Ausgabe aus. Das funktioniert tatsächlich.
Was OpenRouters Billionen Token über Agent-Adoption offenbaren
Chris, Mitgründer und COO von OpenRouter, sitzt auf einem einzigartigen Beobachtungsposten. Durch die Verarbeitung von über einer Billion Token täglich über 70+ Cloud-Provider hinweg sieht OpenRouter, wie KI tatsächlich in der Produktion eingesetzt wird—nicht in Demos, nicht in Experimenten, sondern in echten Workloads im großen Maßstab.
Die Daten erzählen eine klare Geschichte: Agents sind nicht mehr theoretisch. Sie werden tatsächlich deployed.
Die Tool-Calling-Explosion: "Sub 5% to well north of 25%. And this is trending up rapidly." Nur bei Anthropic-Modellen ist der Prozentsatz der API-Aufrufe, die mit einer Tool-Anfrage enden, in zwölf Monaten um das 5-Fache gestiegen. Dies ist die "Exhaust Signature" von Agents, die in die Produktion gehen.
Der SLA-Moment: Um Juli 2025 herum geschah etwas. Chris erinnert sich: "Suddenly we started getting questions from customers about our SLAs and our uptime... that's an extremely strong indicator that these things have suddenly gone from groups of companies testing them out to being very much in production. And if they go down, it starts to matter."
Reasoning-Token dominieren jetzt: Vor einem Jahr gab es Reasoning-Modelle nicht in der Produktion. Jetzt machen 50% aller Output-Token, die OpenRouter sieht, interne Reasoning-Token aus. Agents denken, bevor sie handeln.
Warum Model-Mixing der neue Standard ist
Die erfolgreichsten Agents verwenden nicht ein einzelnes Modell—sie nutzen mehrere Modelle für verschiedene Aufgaben:
Frontier-Modelle für Planung: Claude, GPT-4, Gemini handhaben die "Judgment Calls"—verstehen Kontext, planen nächste Schritte, treffen Entscheidungen, die Nuance erfordern.
Kleinere Modelle für Ausführung: Billigere, schnellere Modelle wie Qwen und MiniMax handhaben die Tool-Calls selbst. Chris erklärt: "They're using smaller specialty models to do tool call requests and to execute. Less smart from a judgment perspective but extremely accurate, extremely good with tool use."
Dieses Muster—mit dem Besten denken, mit dem Schnellen ausführen—ist, wie Production Agents sowohl Qualität als auch Kosten bewältigen.
Das Inference-Qualitätsproblem, über das keiner spricht
Hier kommt etwas Kontraintuitives: die gleichen Modellgewichte erzeugen unterschiedliche Ergebnisse in verschiedenen Clouds.
OpenRouters Benchmarking enthüllte, dass identische Modelle haben können:
- Unterschiedliche Genauigkeitswerte bei verschiedenen Providern
- Unterschiedliche Tool-Calling-Häufigkeiten
- Aussagekräftige Unterschiede in der Production-Performance
"Why would the exact same model with the exact same smarts choose to use tools differently in different situations?" Die Antwort liegt in subtilen Unterschieden, wie Inference-Stacks implementiert werden—Quantisierung, Serving-Infrastruktur, API-Handling.
Deshalb hat OpenRouter "Exacto Endpoints" erstellt—Routing-Pools, die nur Provider enthalten, die für Tool-Calling-Genauigkeit benchmarkt wurden. Für Agents ist Inference-Qualität genauso wichtig wie Modell-Qualität.
Der größte Fehler des Gründers beim Bauen von Agents
Auf die Frage, was Gründer falsch machen, war Chriss Antwort unerwartet: sie bauen nicht für Optionalität.
"It's extremely hard to predict what we're going to need in 12 months and where that inference will come from and what kind of models we might need."
Die Lösung ist nicht, heute das perfekte Modell zu wählen—es ist, eine Infrastruktur zu bauen, die es dir erlaubt, Modelle morgen zu wechseln. Ein Agent, der an einen Provider gebunden ist, kann nicht:
- Testen, wenn ein neues Frontier-Modell verfügbar wird
- Auf billigere Modelle wechseln, sobald der Use Case bewährt ist
- Failover, wenn Provider Ausfallzeiten haben
Was Enterprise Agents tatsächlich brauchen
Für Teams, die Agents im großen Maßstab deployen, identifizierte Chris die kritischen Belange:
Uptime und Failover: Production Agents können nicht ausfallen. Punkt. Das bedeutet Multi-Provider-Routing, automatisches Failover und echtes Monitoring.
Klarheit bei der Datenpolitik: "Where are their data centers? Do they actually own the GPUs or do they have GPUs that are leased in different data centers? Where's the decryption happening?" Enterprise-Sicherheitsteams brauchen Antworten.
Burst-Kapazität: Agents laufen nach Zeitplänen—Batch-Jobs über Nacht, periodische Workflows. Committed Capacity für spiky Workloads zu kaufen funktioniert nicht. Shared Infrastructure funktioniert.
4 Erkenntnisse für Teams, die KI Agents bauen
- Tool Calling ist die Agent-Signatur - Wenn du Tool-Call-Raten nicht misst, misst du nicht die Agent-Adoption
- Mische Frontier- und Spezialmodelle - Verwende die besten Modelle für Reasoning, schnelle Modelle für Ausführung
- Inference-Qualität variiert stark - Das gleiche Modell kann sich bei verschiedenen Providern unterschiedlich verhalten; benchmark deinen spezifischen Use Case
- Baue für Optionalität, nicht Perfektion - Die Modell-Landschaft ändert sich monatlich; Lock-in ist das echte Risiko
Warum das für KI-getriebene Organisationen wichtig ist
OpenRouters Daten bestätigen, was wir beobachtet haben: langfristige Agents sind da, und die Infrastruktur-Muster, die sie funktionieren lassen, werden klarer.
Die Verschiebung ist nicht nur technisch—sie ist operativ. Wenn Kunden anfangen, nach SLAs zu fragen, wenn Tool-Call-Raten in einem Jahr um das 5-Fache steigen, wenn Reasoning-Token 50% der Ausgabe erreichen... das ist Production-Adoption im großen Maßstab.
Die Frage für Organisationen ist nicht, ob Agents deployen. Es ist, wie man die Infrastruktur baut, die Agents tatsächlich funktionieren lässt: Multi-Model-Routing, Inference-Qualitäts-Monitoring und die Flexibilität, sich anzupassen, wenn sich die Landschaft weiterentwickelt.


