Lenny's Podcast·January 11, 2026

Pourquoi la plupart des produits IA echouent : lecons de plus de 50 deploiements en entreprise

Aishwarya Ranti et Kiriti Bhattam, anciens de OpenAI et Google, partagent le framework CCCD pour construire des produits IA qui ne degradent pas la confiance client et n'exigent pas de correctifs sans fin.

enterprise agents productivity future-of-work

Pourquoi la plupart des produits IA echouent : lecons de plus de 50 deploiements en entreprise

Les deux differences fondamentales qui cassent le developpement produit traditionnel

Aishwarya Ranti a travaille sur la recherche IA chez Alexa et Microsoft, avec plus de 35 articles de recherche publies. Kiriti Bhattam dirige Codex chez OpenAI apres une decennie a construire l'infrastructure IA chez Google et Kumo. Ensemble, ils ont accompagne plus de 50 deploiements IA et enseignent le cours IA le mieux note sur Maven. Leur message central : les produits IA exigent une facon de penser completement differente.

La premiere difference est le non-determinisme. "You don't know how your user might behave with your product and you also don't know how the LLM might respond to that." Dans le logiciel traditionnel, on construit un moteur de decision bien cartographie. Booking.com a des boutons et des formulaires qui convertissent l'intention en action de maniere previsible. Avec l'IA, tant l'entree (le langage naturel peut exprimer la meme intention d'innombrables facons) que la sortie (les LLM sont des boites noires probabilistes) sont imprevisibles. On travaille avec une entree, une sortie et un processus qu'on ne comprend pas entierement.

La deuxieme difference est le compromis agence-controle. "Every time you hand over decision-making capabilities to agentic systems, you're kind of relinquishing some amount of control on your end." Ash trouve choquant que plus de gens n'en parlent pas. La communaute IA est obsedee par la construction d'agents autonomes, mais autonomie signifie perte de controle. Avant de donner plus d'agence a un agent IA, il faut verifier qu'il a merite la confiance par une fiabilite demontree.

Le probleme des 74% de fiabilite est reel. Un article de UC Berkeley a revele que 74-75% des entreprises citaient la fiabilite comme leur plus gros probleme. C'est pourquoi elles n'etaient pas a l'aise pour deployer des produits destines aux clients — elles ne pouvaient pas faire confiance au systeme. Cela explique pourquoi la plupart des IA d'entreprise aujourd'hui se concentrent sur les outils de productivite plutot que sur le remplacement de workflows de bout en bout.

Pourquoi le framework CCCD previent les echecs catastrophiques de l'IA

Les invites ont developpe le framework Continuous Calibration, Continuous Development apres une experience douloureuse. Ils avaient construit un agent de support client de bout en bout qui necessitait tellement de correctifs urgents qu'ils ont du l'arreter. Le chatbot d'Air Canada a hallucine une politique de remboursement qui n'existait pas, et ils ont du l'honorer legalement. Ces desastres sont evitables.

Commencez avec un controle eleve et une faible agence. "It's not about being the first company to have an agent among your competitors. It's about have you built the right flywheels in place so that you can improve over time." Pour un agent de support client : V1 se contente de router les tickets vers les departements (les humains decident toujours). V2 suggere des brouillons de reponses que les humains peuvent editer, en enregistrant les modifications qu'ils apportent. V3 gere la resolution de bout en bout uniquement apres que V1 et V2 ont prouve leur fiabilite.

Pour les assistants de codage, le meme schema s'applique. V1 : suggerer des completions en ligne et des snippets. V2 : generer des blocs plus importants comme des tests ou des refactorisations pour revue humaine. V3 : appliquer les modifications et ouvrir des PR de maniere autonome. Pour le marketing : V1 redige du contenu, V2 construit et lance des campagnes avec approbation, V3 lance et optimise automatiquement sur tous les canaux.

La progression du support client enseigne tout. Meme le routage — apparemment simple — peut etre incroyablement complexe dans les entreprises. Les taxonomies sont desordonnees avec des categories en double et des noeuds morts depuis 2019. Les agents humains connaissent ces subtilites par experience ; l'IA non. En commencant par le routage, on corrige les problemes de donnees avant qu'ils ne torpillent une automatisation plus ambitieuse. L'effet volant d'inertie signifie que chaque version genere des donnees d'entrainement pour la suivante.

Ce qui distingue les entreprises qui reussissent avec les produits IA

Les invites voient un "triangle du succes" avec trois dimensions : de grands leaders, une bonne culture et des progres techniques. Aucun ne fonctionne isolement.

Les leaders doivent reconstruire leurs intuitions. "Leaders have to get back to being hands-on... You must be comfortable with the fact that your intuitions might not be right and you probably are the dumbest person in the room." Un PDG avec qui Ash a travaille bloquait 4h-6h du matin chaque jour pour "rattraper l'IA" — pas de reunions, juste apprendre de sources de confiance. Il revenait avec des questions a discuter avec des experts en IA. Les leaders qui ont construit leurs intuitions sur 10-15 ans doivent maintenant les reapprendre.

Une culture d'autonomisation bat la peur du FOMO. Les experts metier sont critiques — ils comprennent ce que l'IA devrait reellement faire. Mais dans de nombreuses entreprises, ils refusent d'aider car ils pensent que leurs emplois sont menaces. Les leaders doivent presenter l'IA comme une augmentation pour une productivite 10x, pas un remplacement. Faites travailler toute l'organisation ensemble pour rendre l'IA utile.

Obsession technique des workflows, pas des outils. Les equipes qui reussissent comprennent leurs workflows en profondeur avant de choisir la technologie. "80% of so-called AI engineers, AI PMs spend their time actually understanding their workflows very well." L'agent peut ne gerer qu'une partie d'un workflow. Le machine learning peut gerer une autre partie. Le code deterministe gere le reste. L'obsession des outils sans comprehension des workflows mene a l'echec.

Pourquoi les evals sont mal compris et que faire a la place

Le debat sur les "evals" est devenu une diffusion semantique — tout le monde utilise le terme differemment. Les entreprises d'etiquetage de donnees appellent les annotations d'experts "evals." Les PM qui ecrivent des criteres d'acceptation appellent ca "evals." Les comparaisons de benchmarks de modeles s'appellent "evals." Un client a dit a Ash "on fait des evals" et voulait dire qu'ils consultaient les classements LM Arena.

Ni les evals ni le monitoring de production seuls ne sont suffisants. Les evals sont votre connaissance produit de confiance encodee dans des jeux de donnees de test — des choses que votre agent ne doit absolument pas mal faire. Le monitoring de production capture des signaux implicites : utilisateurs qui regenerent des reponses (indiquant une insatisfaction), pouces vers le bas, ou desactivation complete de fonctionnalites. Les evals attrapent les modes d'echec connus ; le monitoring de production attrape les patterns emergents qu'on ne pouvait pas predire.

Le processus est : deployer, monitorer, analyser, iterer. On ne peut pas predire chaque mode d'echec a l'avance. Le monitoring de production vous alerte sur les traces a examiner. L'analyse des erreurs revele des patterns. Ce n'est qu'alors qu'on decide : est-ce un correctif ponctuel, ou un probleme systemique necessitant de nouveaux criteres d'evaluation ? Construire trop d'evals trop tot cree une charge de maintenance sans attraper les vrais problemes.

5 enseignements pour construire des produits IA qui fonctionnent vraiment

Le probleme d'abord, toujours - Commencer petit vous force a definir le vrai probleme ; la complexite de la solution est une pente glissante
La douleur est le nouveau rempart - Les entreprises qui reussissent ont traverse la douleur d'apprendre ce qui marche ; il n'y a pas encore de playbook ou de manuel
Les agents en un clic sont du marketing - Quiconque vend un deploiement autonome instantane vous induit en erreur ; les donnees d'entreprise sont desordonnees et necessitent une calibration
Le multi-agent est mal compris - Diviser les responsabilites entre agents pairs sans orchestration humaine est extremement difficile a controler
Les agents de codage restent sous-estimes - Malgre les discussions sur Twitter/Reddit, la penetration hors Bay Area est encore faible ; creation de valeur massive a venir

Ce que cela signifie pour les organisations deployant des agents IA

L'insight central : le developpement de produits IA n'est pas du developpement logiciel traditionnel avec l'IA en remplacement. Le non-determinisme et le compromis agence-controle signifient qu'on ne peut pas predire le comportement, qu'on ne peut pas entierement controler les resultats, et qu'on doit gagner la confiance incrementalement. Le framework CCCD — commencer avec un controle eleve, augmenter progressivement l'agence a mesure que la fiabilite se prouve — previent les echecs catastrophiques qui forcent les arrets et erodent la confiance client. Les entreprises qui gagnent avec l'IA ne sont pas les plus rapides ; elles construisent des volants d'inertie qui amplifient l'amelioration au fil du temps.