Stanford-Forschung: Warum Ihr AI-Codierungs-ROI möglicherweise tatsächlich negativ ist
Perspektive
Dies ist die rigoroseste Forschung, die ich zum ROI von AI-Codierungs-Tools gesehen habe – zwei Jahre an Cross-Sectional-Zeitreihendaten von Stanford, unter Verwendung eines Machine-Learning-Modells, das auf Millionen von Expertenbewertungen von Code trainiert wurde. Die Ergebnisse sollten jeden Engineering-Leader in Unbehagen versetzen.
Die Kluft zwischen AI-Gewinnern und Verlierern wird größer. Bei Abgleich von 46 AI-nutzenden Teams mit 46 ähnlichen Teams ohne AI liegt der mediane Produktivitätsgewinn bei etwa 10%. Aber die Varianz ist auffallend – und sie nimmt im Laufe der Zeit zu. Top-Performer vergrößern ihre Gewinne, während Rückständige weiter zurückfallen. Wenn Sie nicht gemessen haben, welche Gruppe Sie angehören, fliegen Sie blind.
**Token-Nutzung korreliert schwach mit Gewinnen – und es gibt ein „Tal des Todes”.**Teams, die etwa 10 Millionen Token pro Engineer pro Monat ausgeben, schnitten tatsächlich schlechter ab als Teams, die weniger nutzten. Die Qualität der AI-Nutzung ist wichtiger als die Menge. Der echte Prädiktor? Codebase-Sauberkeit. Ein zusammengesetzter Wert aus Tests, Typisierung, Dokumentation und Modularität zeigte eine 0,40-R²-Korrelation mit AI-Produktivitätsgewinnen.
Die Fallstudie ist verdammend. Ein Team mit 350 Personen adoptierte AI und sah PRs um 14% ansteigen. Die Geschäftsführung hätte das gefeiert. Aber tiefere Messungen zeigten: Code-Qualität sank um 9%, Überarbeitungen stiegen um das 2,5-Fache, und die tatsächliche Leistung stieg überhaupt nicht. Der ROI könnte negativ sein – aber ohne ordentliche Messung hätte das Unternehmen Millionen an Einsparungen behauptet.
AI ohne Hygiene beschleunigt die Entropie. Saubere Codebases verstärken AI-Gewinne; unordentliche Codebases erzeugen eine Todeisspirale. AI generiert Code schneller, Ingenieure verlieren das Vertrauen, wenn Outputs starke Umarbeitungen erfordern, die Adoption bricht zusammen. Der Rahmen ist wichtig: Primäre Metrik (Engineering-Output, nicht PRs oder Zeilen Code) plus Schutzmaßnahmen (Überarbeitungen, Qualität, technische Schulden, Personalmetriken).
Wichtigste Erkenntnisse
- Medianer AI-Produktivitätsgewinn: ~10% – Aber die Varianz ist riesig und wächst zwischen Top- und Low-Performern
- Token-Nutzung sagt Gewinne nicht voraus – Qualität der Nutzung ist wichtiger; es gibt ein „Tal des Todes” bei etwa 10M Token/Monat
- Codebase-Sauberkeit ist der Schlüsselprädiktor – 0,40-R²-Korrelation zwischen Code-Hygiene und AI-Produktivitätsgewinnen
- PR-Zählungen sind irreführend – Ein Team zeigte 14% PR-Anstieg aber 9% Qualitätsabfall und 2,5x Überarbeitungszunahme
- Zugang ≠ Adoption ≠ effektive Nutzung – Dieselben Tools, dieselben Lizenzen können über Geschäftsbereiche völlig unterschiedliche Ergebnisse erzielen
- AI beschleunigt die Entropie ohne Disziplin – Sauberer Code verstärkt Gewinne; unordentlicher Code erzeugt vertrauenszerstörende Todesspiralen
- Mit Git-Verlauf rückwirkend messen – Sie müssen keine Experimente einrichten; analysieren Sie, was bereits passiert ist
- Schutzmaßnahmen-Metriken sind wichtig – Primäre Metrik (Leistung) + Schutzmaßnahmen (Überarbeitungen, Qualität, technische Schulden) verhindern das Goodhart-Gesetz
Großes Bild
Zwei Jahre Stanford-Forschung zeigen, dass der AI-Codierungs-ROI für einige Teams möglicherweise negativ ist – 14% mehr PRs aber 9% Qualitätsabfall und 2,5x Überarbeitungszunahme. Der größte Prädiktor von AI-Gewinnen ist nicht die Token-Nutzung, sondern die Codebase-Sauberkeit. Sauberer Code verstärkt AI; unordentlicher Code erzeugt eine vertrauenszerstörende Todesspirrale.