Investigación de Stanford: Por qué tu ROI de Código AI Podría Ser Negativo

AI Engineer
researchenterprisedeveloper-toolsfuture-of-worktutorial

Perspectiva

Esta es la investigación más rigurosa que he visto sobre el ROI de las herramientas de codificación IA - dos años de datos de series de tiempo transversales de Stanford, utilizando un modelo de aprendizaje automático entrenado en millones de evaluaciones de código de expertos. Los hallazgos deberían incomodar a cada líder de ingeniería.

La brecha entre ganadores y perdedores de IA se está ampliando. Comparando 46 equipos que usan IA contra 46 equipos similares sin IA, la ganancia de productividad media es de alrededor del 10%. Pero la varianza es llamativa - y está aumentando con el tiempo. Los mejores desempeños están compactando ganancias mientras que los que luchan se quedan atrás. Si no estás midiendo en qué cohorte estás, estás volando a ciegas.

El uso de tokens se correlaciona débilmente con las ganancias - y hay un “valle de la muerte”. Los equipos que gastan alrededor de 10 millones de tokens por ingeniero por mes en realidad tuvieron peor desempeño que los equipos que usan menos. La calidad del uso de IA importa más que la cantidad. ¿El predictor real? Limpieza de la base de código. Una puntuación compuesta de pruebas, tipos, documentación y modularidad mostró una correlación R² de 0.40 con las ganancias de productividad de IA.

El caso de estudio es condenatorio. Un equipo de 350 personas adoptó IA y vio aumentar las PR en un 14%. El liderazgo habría celebrado. Pero la medición más profunda mostró: la calidad del código cayó en un 9%, el trabajo reecho aumentó 2.5 veces, y la salida efectiva no aumentó en absoluto. El ROI podría ser negativo - pero sin medición adecuada, la empresa habría reclamado millones en ahorros.

IA sin higiene acelera la entropía. Las bases de código limpias amplifican las ganancias de IA; las bases de código desordenadas crean una espiral de muerte. IA genera código más rápido, los ingenieros pierden confianza cuando las salidas necesitan reescrituras pesadas, la adopción colapsa. El marco importa: métrica principal (salida de ingeniería, no PR o LoC) más guardrails (trabajo reecho, calidad, deuda técnica, métricas de personas).

Conclusiones Clave

  • Ganancia media de productividad de IA: ~10% - Pero la varianza es enorme y se está ampliando entre los mejores y peores desempeños
  • El uso de tokens no predice ganancias - La calidad del uso importa más; hay un “valle de la muerte” alrededor de 10M tokens/mes
  • La limpieza de la base de código es el predictor clave - Correlación R² de 0.40 entre higiene del código y ganancias de productividad de IA
  • Los conteos de PR son engañosos - Un equipo mostró un aumento del 14% en PR pero una caída del 9% en calidad y un aumento de 2.5x en trabajo reecho
  • Acceso ≠ adopción ≠ uso efectivo - Las mismas herramientas, las mismas licencias pueden producir resultados salvajemente diferentes entre unidades de negocio
  • IA acelera la entropía sin disciplina - Código limpio amplifica ganancias; código desordenado crea espirales de muerte que erosionan la confianza
  • Medir retroactivamente con historial de git - No necesitas configurar experimentos; analiza lo que ya sucedió
  • Las métricas de guardrail importan - Métrica principal (salida) + guardrails (trabajo reecho, calidad, deuda técnica) previene la Ley de Goodhart

Panorama General

Dos años de investigación de Stanford muestran que el ROI de codificación de IA podría ser negativo para algunos equipos - 14% más PR pero 9% de caída de calidad y 2.5x aumento de trabajo reecho. El mayor predictor de ganancias de IA no es el uso de tokens sino la limpieza de la base de código. El código limpio amplifica IA; el código desordenado crea una espiral de muerte que erosiona la confianza.