Por qué fracasan la mayoría de productos de IA: Lecciones de más de 50 implementaciones empresariales
Veteranos de OpenAI y Google, Aishwarya Ranti y Kiriti Bhattam, comparten el marco CCCD para construir productos de IA que no erosionen la confianza del cliente ni requieran correcciones interminables.
Las dos diferencias fundamentales que rompen el desarrollo tradicional de productos
Aishwarya Ranti trabajó en investigación de IA en Alexa y Microsoft, con más de 35 artículos de investigación publicados. Kiriti Bhattam lidera Codex en OpenAI después de una década construyendo infraestructura de IA en Google y Kumo. Juntos han apoyado más de 50 implementaciones de IA y enseñan el curso de IA mejor valorado en Maven. Su mensaje central: los productos de IA requieren una forma de pensar completamente diferente.
La primera diferencia es el no determinismo. "You don't know how your user might behave with your product and you also don't know how the LLM might respond to that." En el software tradicional, construyes un motor de decisiones bien mapeado. Booking.com tiene botones y formularios que convierten la intención en acción de forma predecible. Con IA, tanto la entrada (el lenguaje natural puede expresar la misma intención de innumerables formas) como la salida (los LLMs son cajas negras probabilísticas) son impredecibles. Estás trabajando con una entrada, salida y proceso que no comprendes completamente.
La segunda diferencia es el trade-off entre agencia y control. "Every time you hand over decision-making capabilities to agentic systems, you're kind of relinquishing some amount of control on your end." A Ash le sorprende que más personas no hablen de esto. La comunidad de IA está obsesionada con construir agentes autónomos, pero la autonomía significa perder control. Antes de dar más agencia a un agente de IA, necesitas verificar que ha ganado confianza a través de fiabilidad demostrada.
El problema del 74% de fiabilidad es real. Un artículo de UC Berkeley encontró que el 74-75% de las empresas citaban la fiabilidad como su mayor problema. Por eso no se sentían cómodos desplegando productos de cara al cliente—no podían confiar en el sistema. Esto explica por qué la mayoría de la IA empresarial hoy se centra en herramientas de productividad en lugar de reemplazo completo de flujos de trabajo.
Por qué el marco CCCD previene fallos catastróficos de IA
Los invitados desarrollaron el marco de Calibración Continua, Desarrollo Continuo después de experiencias dolorosas. Construyeron un agente de soporte al cliente de extremo a extremo que requirió tantas correcciones urgentes que tuvieron que cerrarlo. El chatbot de Air Canada alucinó una política de reembolso que no existía, y tuvieron que honrarla legalmente. Estos desastres son prevenibles.
Comienza con alto control y baja agencia. "It's not about being the first company to have an agent among your competitors. It's about have you built the right flywheels in place so that you can improve over time." Para un agente de soporte al cliente: la V1 solo enruta tickets a departamentos (los humanos aún deciden). La V2 sugiere borradores de respuestas que los humanos pueden editar, registrando qué cambios hacen. La V3 maneja la resolución de extremo a extremo solo después de que V1 y V2 demostraron ser fiables.
Para asistentes de código, aplica el mismo patrón. V1: sugerir completaciones en línea y fragmentos. V2: generar bloques más grandes como tests o refactorizaciones para revisión humana. V3: aplicar cambios y abrir PRs de forma autónoma. Para marketing: V1 redacta textos, V2 construye y ejecuta campañas con aprobación, V3 lanza y auto-optimiza a través de canales.
La progresión del soporte al cliente lo enseña todo. Incluso el enrutamiento—aparentemente simple—puede ser increíblemente complejo en empresas. Las taxonomías son desordenadas con categorías duplicadas y nodos muertos de 2019. Los agentes humanos conocen estas peculiaridades por experiencia; la IA no. Al comenzar con el enrutamiento, arreglas problemas de datos antes de que torpedeen automatizaciones más ambiciosas. El efecto volante significa que cada versión genera datos de entrenamiento para la siguiente.
Qué separa a las empresas que tienen éxito con productos de IA
Los invitados ven un "triángulo del éxito" con tres dimensiones: grandes líderes, buena cultura y progreso técnico. Ninguna funciona de forma aislada.
Los líderes deben reconstruir sus intuiciones. "Leaders have to get back to being hands-on... You must be comfortable with the fact that your intuitions might not be right and you probably are the dumbest person in the room." Un CEO con el que trabajó Ash bloqueaba de 4-6am cada mañana para "ponerse al día con IA"—sin reuniones, solo aprendiendo de fuentes confiables. Volvía con preguntas para debatir con expertos en IA. Los líderes que construyeron intuiciones durante 10-15 años ahora necesitan reaprenderlas.
La cultura de empoderamiento supera al miedo FOMO. Los expertos en la materia son críticos—entienden lo que la IA debería hacer realmente. Pero en muchas empresas, se niegan a ayudar porque piensan que sus trabajos están siendo reemplazados. Los líderes deben enmarcar la IA como aumentación para productividad 10x, no como reemplazo. Haz que toda la organización trabaje junta para hacer útil la IA.
Obsesión técnica con flujos de trabajo, no herramientas. Los equipos exitosos entienden sus flujos de trabajo profundamente antes de elegir tecnología. "80% of so-called AI engineers, AI PMs spend their time actually understanding their workflows very well." El agente podría solo manejar parte de un flujo de trabajo. Machine learning podría manejar otra parte. El código determinístico maneja el resto. La obsesión con herramientas sin entender flujos de trabajo lleva al fracaso.
Por qué las evals se malinterpretan y qué hacer en su lugar
El debate de "evals" se ha convertido en difusión semántica—todos usan el término de forma diferente. Las empresas de etiquetado de datos llaman a las anotaciones de expertos "evals". Los PMs que escriben criterios de aceptación llaman a eso "evals". Las comparaciones de benchmarks de modelos se llaman "evals". Un cliente le dijo a Ash "hacemos evals" y se refería a que revisaban rankings de LM Arena.
Ni las evals ni el monitoreo de producción solos son suficientes. Las evals son tu conocimiento confiable del producto codificado en conjuntos de datos de prueba—cosas que tu agente absolutamente no debería hacer mal. El monitoreo de producción captura señales implícitas: usuarios regenerando respuestas (indicando insatisfacción), pulgares abajo, o desactivando funciones por completo. Las evals capturan modos de fallo conocidos; el monitoreo de producción captura patrones emergentes que no podrías predecir.
El proceso es: desplegar, monitorear, analizar, iterar. No puedes predecir cada modo de fallo por adelantado. El monitoreo de producción te alerta sobre trazas que vale la pena examinar. El análisis de errores revela patrones. Solo entonces decides: ¿es esto una corrección puntual, o un problema sistémico que requiere nuevos criterios de evaluación? Construir demasiadas evals demasiado pronto crea carga de mantenimiento sin capturar problemas reales.
5 conclusiones para construir productos de IA que realmente funcionan
- El problema primero, siempre - Empezar pequeño te obliga a definir el problema real; la complejidad de la solución es una pendiente resbaladiza
- El dolor es el nuevo foso - Las empresas que tienen éxito pasaron por el dolor de aprender qué funciona; todavía no hay manual ni libro de texto
- Los agentes de un clic son marketing - Cualquiera que venda despliegue autónomo instantáneo te está engañando; los datos empresariales son desordenados y necesitan calibración
- Multi-agente se malinterpreta - Dividir responsabilidades entre agentes pares sin orquestación humana es extremadamente difícil de controlar
- Los agentes de código siguen subestimados - A pesar del ruido en Twitter/Reddit, la penetración fuera de Bay Area sigue siendo baja; hay una creación de valor masiva por delante
Qué significa esto para organizaciones que despliegan agentes de IA
La perspectiva central: el desarrollo de productos de IA no es desarrollo de software tradicional con IA intercambiada. El no determinismo y el trade-off entre agencia y control significan que no puedes predecir el comportamiento, no puedes controlar completamente los resultados, y debes ganar confianza incrementalmente. El marco CCCD—comenzando con alto control, aumentando gradualmente la agencia conforme la fiabilidad se demuestra—previene los fallos catastróficos que fuerzan cierres y erosionan la confianza del cliente. Las empresas que ganan con IA no son las más rápidas; son las que construyen volantes que componen mejoras con el tiempo.


