OpenRouter COO: Comment les Agents Entrent Réellement en Production

2026-01-28 AI Day

agentsenterpriseinferencetool-use

Ce qu’un Trillion de Tokens d’OpenRouter Révèle sur l’Adoption des Agents

Chris, co-fondateur et COO d’OpenRouter, occupe une position unique. En traitant plus d’un trillion de tokens chaque jour sur 70+ fournisseurs cloud, OpenRouter voit comment l’IA est réellement utilisée en production—pas des démos, pas des expériences, mais de vrais workloads à grande échelle.

Les données racontent une histoire claire: les agents ne sont plus théoriques. Ils sont déployés.

L’explosion des appels d’outils: “Sub 5% to well north of 25%. And this is trending up rapidly.” (De moins de 5% à bien plus de 25%. Et cela augmente rapidement.) Sur les modèles Anthropic seuls, le pourcentage d’appels API se terminant par une demande d’outil a augmenté 5x en douze mois. C’est la “signature d’exhaust” des agents déployés en production.

Le moment SLA: Autour de juillet 2025, quelque chose a changé. Chris se souvient: “Suddenly we started getting questions from customers about our SLAs and our uptime… that’s an extremely strong indicator that these things have suddenly gone from groups of companies testing them out to being very much in production. And if they go down, it starts to matter.” (Soudainement, nous avons commencé à recevoir des questions de clients sur nos SLA et notre disponibilité… c’est un indicateur extrêmement fort que ces choses sont soudainement passées de groupes d’entreprises les testant à être très présentes en production. Et s’ils tombent en panne, cela commence à avoir de l’importance.)

Les tokens de raisonnement dominent maintenant: Il y a un an, les modèles de raisonnement n’existaient pas en production. Maintenant, 50% de tous les tokens de sortie qu’OpenRouter voit sont des tokens de raisonnement interne. Les agents réfléchissent avant d’agir.

Pourquoi le Mélange de Modèles Est le Nouveau Standard

Les agents les plus réussis n’utilisent pas un seul modèle—ils utilisent plusieurs modèles pour différentes tâches:

Modèles frontière pour la planification: Claude, GPT-4, Gemini gèrent les “appels de jugement”—comprendre le contexte, planifier les étapes suivantes, prendre des décisions qui nécessitent de la nuance.

Modèles plus petits pour l’exécution: Des modèles moins chers et plus rapides comme Qwen et MiniMax gèrent les appels d’outils eux-mêmes. Chris explique: “They’re using smaller specialty models to do tool call requests and to execute. Less smart from a judgment perspective but extremely accurate, extremely good with tool use.” (Ils utilisent des modèles spécialisés plus petits pour faire des demandes d’appels d’outils et exécuter. Moins intelligents d’un point de vue jugement, mais extrêmement précis, extrêmement bons avec l’utilisation d’outils.)

Ce schéma—raisonner avec le meilleur, exécuter avec le plus rapide—est comment les agents en production gèrent à la fois la qualité et le coût.

Le Problème de Qualité d’Inférence que Personne ne Parle

Voici quelque chose de contre-intuitif: les mêmes poids de modèle produisent des résultats différents sur différents clouds.

L’étalonnage d’OpenRouter a révélé que des modèles identiques peuvent avoir:

Des scores de précision différents selon les fournisseurs
Des fréquences d’appels d’outils différentes
Une variance significative dans les performances en production

“Why would the exact same model with the exact same smarts choose to use tools differently in different situations?” (Pourquoi le même modèle exactement avec la même intelligence choisirait-il d’utiliser les outils différemment dans différentes situations?) La réponse réside dans les différences subtiles dans la façon dont les piles d’inférence sont implémentées—quantification, infrastructure d’exécution, gestion des API.

C’est pourquoi OpenRouter a créé les “points d’accès Exacto”—des pools de routage qui incluent uniquement les fournisseurs étalonnés pour la précision des appels d’outils. Pour les agents, la qualité d’inférence est aussi importante que la qualité du modèle.

La Plus Grande Erreur du Fondateur en Construisant des Agents

Quand on a demandé à Chris ce que les fondateurs se trompent, sa réponse a été inattendue: ils ne construisent pas pour l’optionnalité.

“It’s extremely hard to predict what we’re going to need in 12 months and where that inference will come from and what kind of models we might need.” (C’est extrêmement difficile de prédire ce dont nous aurons besoin dans 12 mois et d’où viendra cette inférence et quels modèles nous pourrions avoir besoin.)

La solution n’est pas de choisir le modèle parfait aujourd’hui—c’est de construire une infrastructure qui vous permet de changer de modèle demain. Un agent verrouillé à un fournisseur ne peut pas:

Tester quand un nouveau modèle frontière sort
Rétrograder vers des modèles moins chers une fois le cas d’usage prouvé
Basculer quand les fournisseurs ont des pannes

Ce que les Agents Entreprise Ont Réellement Besoin

Pour les équipes déployant des agents à grande échelle, Chris a identifié les préoccupations critiques:

Disponibilité et basculement: Les agents en production ne peuvent pas tomber en panne. Point final. Cela signifie un routage multi-fournisseur, un basculement automatique et une surveillance réelle.

Clarté de la politique de données: “Where are their data centers? Do they actually own the GPUs or do they have GPUs that are leased in different data centers? Where’s the decryption happening?” (Où se trouvent leurs centres de données? Possèdent-ils réellement les GPU ou ont-ils des GPU loués dans différents centres de données? Où se produit le décryptage?) Les équipes de sécurité entreprise ont besoin de réponses.

Capacité par rafales: Les agents s’exécutent selon des horaires—travaux batch la nuit, workflows périodiques. L’achat de capacité engagée pour des workloads irréguliers ne fonctionne pas. L’infrastructure partagée le fait.

4 Conclusions pour les Équipes Construisant des Agents IA

L’appel d’outils est la signature de l’agent - Si vous ne mesurez pas les taux d’appels d’outils, vous ne mesurez pas l’adoption des agents
Mélangez les modèles frontière et spécialisés - Utilisez les meilleurs modèles pour le raisonnement, les modèles rapides pour l’exécution
La qualité d’inférence varie énormément - Le même modèle peut se comporter différemment selon les fournisseurs; testez votre cas d’usage spécifique
Construisez pour l’optionnalité, pas la perfection - Le paysage des modèles change mensuellement; le verrouillage est le vrai risque

Pourquoi Cela Importe pour les Organisations Alimentées par l’IA

Les données d’OpenRouter confirment ce que nous avons vu: les agents de longue durée sont ici, et les schémas d’infrastructure qui les font fonctionner deviennent clairs.

Le changement n’est pas seulement technique—c’est opérationnel. Quand les clients commencent à poser des questions sur les SLA, quand les taux d’appels d’outils 5x en un an, quand les tokens de raisonnement atteignent 50% de la sortie… c’est l’adoption en production à grande échelle.

La question pour les organisations n’est pas si déployer des agents. C’est comment construire l’infrastructure qui permet aux agents de fonctionner réellement: routage multi-modèle, surveillance de la qualité d’inférence, et la flexibilité de s’adapter à mesure que le paysage évolue.