Recherche Stanford : Pourquoi votre ROI du codage IA pourrait en fait être négatif
Perspective
C’est la recherche la plus rigoureuse que j’ai vue sur le ROI des outils de codage IA - deux années de données de séries temporelles transversales de Stanford, utilisant un modèle de machine learning entraîné sur des millions d’évaluations de code par des experts. Les résultats devraient mettre mal à l’aise chaque responsable technique.
L’écart entre les gagnants et les perdants de l’IA s’élargit. En comparant 46 équipes utilisant l’IA avec 46 équipes similaires sans IA, le gain de productivité médian est d’environ 10%. Mais la variance est frappante - et elle augmente avec le temps. Les meilleurs performers cumulent des gains tandis que ceux en difficulté prennent encore plus de retard. Si vous ne mesurez pas dans quelle cohorte vous vous trouvez, vous naviguez à l’aveugle.
L’utilisation de tokens corrèle faiblement avec les gains - et il existe une “vallée de la mort”. Les équipes dépensant environ 10 millions de tokens par ingénieur par mois ont en fait performé moins bien que les équipes en utilisant moins. La qualité de l’utilisation de l’IA compte plus que la quantité. Le vrai prédicteur ? La propreté du codebase. Un score composite de tests, types, documentation et modularité a montré une corrélation R² de 0,40 avec les gains de productivité de l’IA.
L’étude de cas est accablante. Une équipe de 350 personnes a adopté l’IA et a vu les PR augmenter de 14%. La direction aurait célébré. Mais une mesure plus approfondie a montré : la qualité du code a chuté de 9%, le travail refait a augmenté de 2,5x, et la production effective n’a pas augmenté du tout. Le ROI pourrait être négatif - mais sans mesure appropriée, l’entreprise aurait revendiqué des millions d’économies.
L’IA sans hygiène accélère l’entropie. Les codebases propres amplifient les gains de l’IA ; les codebases désordonnés créent une spirale mortelle. L’IA génère du code plus rapidement, les ingénieurs perdent confiance quand les résultats nécessitent une réécriture importante, l’adoption s’effondre. Le cadre compte : métrique principale (production technique, pas les PR ou lignes de code) plus garde-fous (travail refait, qualité, dette technique, métriques humaines).
Points clés
- Gain de productivité IA médian : ~10% - Mais la variance est énorme et s’élargit entre les meilleurs et les moins bons performers
- L’utilisation de tokens ne prédit pas les gains - La qualité de l’utilisation compte plus ; il existe une “vallée de la mort” autour de 10M tokens/mois
- La propreté du codebase est le prédicteur clé - Corrélation R² de 0,40 entre l’hygiène du code et les gains de productivité de l’IA
- Le nombre de PR est trompeur - Une équipe a montré 14% d’augmentation des PR mais 9% de baisse de qualité et 2,5x d’augmentation du travail refait
- Accès ≠ adoption ≠ utilisation efficace - Les mêmes outils, les mêmes licences peuvent produire des résultats très différents entre les unités commerciales
- L’IA accélère l’entropie sans discipline - Le code propre amplifie les gains ; le code désordonné crée des spirales mortelles qui érodent la confiance
- Mesurer rétroactivement avec l’historique git - Pas besoin de mettre en place des expériences ; analysez ce qui s’est déjà passé
- Les métriques de garde-fou comptent - Métrique principale (production) + garde-fous (travail refait, qualité, dette technique) prévient la loi de Goodhart
Vue d’ensemble
Deux années de recherche Stanford montrent que le ROI du codage IA pourrait être négatif pour certaines équipes - 14% de PR en plus mais 9% de baisse de qualité et 2,5x d’augmentation du travail refait. Le plus grand prédicteur des gains de l’IA n’est pas l’utilisation de tokens mais la propreté du codebase. Le code propre amplifie l’IA ; le code désordonné crée une spirale mortelle qui érode la confiance.