Newsfeed / CEO de OpenRouter: Cómo los Agentes Realmente Van a Producción
AI Day·January 28, 2026

CEO de OpenRouter: Cómo los Agentes Realmente Van a Producción

Chris de OpenRouter comparte datos sobre la adopción de agentes: las llamadas de herramienta se dispararon 5x en un año, los tokens de razonamiento representan ahora el 50% de la salida. Aquí está lo que funciona.

CEO de OpenRouter: Cómo los Agentes Realmente Van a Producción

Lo Que el Billón de Tokens de OpenRouter Revela Sobre la Adopción de Agentes

Chris, cofundador y COO de OpenRouter, ocupa un punto de vista único. Procesando más de un billón de tokens diarios en 70+ proveedores de nube, OpenRouter ve cómo la IA se está utilizando realmente en producción—no en demostraciones, no en experimentos, sino en cargas de trabajo reales a escala.

Los datos cuentan una historia clara: los agentes ya no son teóricos. Se están lanzando.

La explosión de llamadas de herramienta: "De menos del 5% a muy por encima del 25%. Y esto va tendiendo hacia arriba rápidamente." Solo en los modelos de Anthropic, el porcentaje de llamadas a API terminando con una solicitud de herramienta se disparó 5x en doce meses. Esta es la "firma de escape" de los agentes siendo desplegados en producción.

El momento de los SLA: Alrededor de julio de 2025, algo cambió. Chris recuerda: "De repente comenzamos a recibir preguntas de clientes sobre nuestros SLA y nuestro tiempo de actividad... eso es un indicador extremadamente fuerte de que estas cosas han pasado repentinamente de grupos de empresas probándolas a estar muy en producción. Y si se caen, comienza a importar."

Los tokens de razonamiento ahora dominan: Hace un año, los modelos de razonamiento no existían en producción. Ahora, el 50% de todos los tokens de salida que OpenRouter ve son tokens de razonamiento interno. Los agentes están pensando antes de actuar.

Por Qué la Mezcla de Modelos es el Nuevo Estándar

Los agentes más exitosos no usan un solo modelo—utilizan múltiples modelos para diferentes tareas:

Modelos fronterizos para planificación: Claude, GPT-4, Gemini manejan las "decisiones de juicio"—entender el contexto, planificar los próximos pasos, tomar decisiones que requieren matices.

Modelos más pequeños para ejecución: Modelos más baratos y rápidos como Qwen y MiniMax manejan las propias llamadas de herramienta. Chris explica: "Están usando modelos especializados más pequeños para hacer solicitudes de llamadas de herramienta y ejecutar. Menos inteligentes desde una perspectiva de juicio pero extremadamente precisos, extremadamente buenos con el uso de herramientas."

Este patrón—razonar con el mejor, ejecutar con el rápido—es cómo los agentes en producción manejan tanto la calidad como el costo.

El Problema de Calidad de Inferencia del que Nadie Habla

Aquí hay algo contraintuitivo: el mismo peso de modelo produce resultados diferentes en diferentes nubes.

El análisis comparativo de OpenRouter reveló que modelos idénticos pueden tener:

  • Diferentes puntuaciones de precisión entre proveedores
  • Diferentes frecuencias de llamadas de herramienta
  • Varianza significativa en el rendimiento en producción

"¿Por qué exactamente el mismo modelo con exactamente la misma inteligencia elegiría usar herramientas de manera diferente en diferentes situaciones?" La respuesta radica en diferencias sutiles en cómo se implementan los apilamientos de inferencia—cuantización, infraestructura de servicio, manejo de API.

Por eso OpenRouter creó "puntos finales Exacto"—grupos de enrutamiento que solo incluyen proveedores evaluados comparativamente para precisión de llamada de herramienta. Para los agentes, la calidad de la inferencia importa tanto como la calidad del modelo.

El Mayor Error del Fundador al Construir Agentes

Cuando se le pregunta qué cometen errores los fundadores, la respuesta de Chris fue inesperada: no construyen para la opcionalidad.

"Es extremadamente difícil predecir lo que vamos a necesitar en 12 meses y de dónde vendrá esa inferencia y qué tipo de modelos podríamos necesitar."

La solución no es elegir el modelo perfecto hoy—es construir infraestructura que te permita cambiar modelos mañana. Un agente que está bloqueado a un proveedor no puede:

  • Probar cuando cae un nuevo modelo fronterizo
  • Degradar a modelos más baratos una vez que el caso de uso está probado
  • Failover cuando los proveedores tienen interrupciones

Lo Que los Agentes Empresariales Realmente Necesitan

Para equipos que despliegan agentes a escala, Chris identificó las preocupaciones críticas:

Tiempo de actividad y failover: Los agentes en producción no pueden caerse. Punto. Esto significa enrutamiento multi-proveedor, failover automático y monitoreo real.

Claridad de política de datos: "¿Dónde están sus centros de datos? ¿Realmente poseen las GPU o tienen GPU que están arrendadas en diferentes centros de datos? ¿Dónde está sucediendo el desencriptado?" Los equipos de seguridad empresarial necesitan respuestas.

Capacidad de ráfaga: Los agentes se ejecutan en horarios—trabajos de procesamiento por lotes nocturnos, flujos de trabajo periódicos. Comprar capacidad comprometida para cargas de trabajo pico no funciona. La infraestructura compartida sí.

4 Conclusiones para Equipos Construyendo Agentes de IA

  • La llamada de herramienta es la firma del agente - Si no estás midiendo tasas de llamada de herramienta, no estás midiendo la adopción de agentes
  • Mezcla modelos fronterizos y especializados - Usa los mejores modelos para razonamiento, modelos rápidos para ejecución
  • La calidad de la inferencia varía mucho - El mismo modelo puede comportarse de manera diferente entre proveedores; evalúa comparativamente tu caso de uso específico
  • Construye para la opcionalidad, no la perfección - El panorama de modelos cambia mensualmente; el bloqueo es el riesgo real

Por Qué Esto Importa para Organizaciones Impulsadas por IA

Los datos de OpenRouter confirman lo que hemos estado viendo: los agentes de larga duración están aquí, y los patrones de infraestructura que los hacen funcionar se están volviendo claros.

El cambio no es solo técnico—es operacional. Cuando los clientes comienzan a hacer preguntas sobre SLA, cuando las tasas de llamada de herramienta se disparan 5x en un año, cuando los tokens de razonamiento alcanzan el 50% de la salida... eso es adopción en producción a escala.

La pregunta para las organizaciones no es si desplegar agentes. Es cómo construir la infraestructura que permite que los agentes realmente funcionen: enrutamiento multi-modelo, monitoreo de calidad de inferencia, y la flexibilidad para adaptarse conforme el panorama evoluciona.

Related