Výzkum Stanfordu: Proč vaší ROI z AI kódování může být vlastně negativní
Perspektiva
Toto je nejpřísnější výzkum, jaký jsem viděl na téma ROI z nástrojů AI pro kódování - dvouletá data z průřezové časové řady ze Stanfordu, s použitím modelu strojového učení trénovaného na milionech expertních hodnocení kódu. Zjištění by měla udělat každého vedoucího inženýrství neklidným.
Mezera mezi vítězi a poraženými v AI se rozšiřuje. Porovnáním 46 týmů používajících AI s 46 podobnými týmy bez AI je medián zisku produktivity kolem 10%. Ale rozptyl je nápadný - a zvyšuje se v čase. Nejlepší výkonnost dosahuje složitých zisků, zatímco zápasící týmy zaostávají. Pokud neměříte, v které skupině jste, letíte bez viditelnosti.
Využití tokenů slabě koreluje se zisky - a existuje “Death Valley”. Týmy, které vynakládaly kolem 10 milionů tokenů na inženýra za měsíc, ve skutečnosti vykazovaly horší výkon než týmy používající méně. Kvalita využití AI je důležitější než kvantita. Skutečný prediktor? Čistota kódové základny. Kompozitní skóre testů, typů, dokumentace a modularity vykazovalo 0,40 R² korelaci se zisky produktivity AI.
Případová studie je přezírající. Tým s 350 zaměstnanci přijal AI a viděl nárůst PR o 14%. Vedení by slavilo. Ale hlubší měření ukázalo: kvalita kódu klesla o 9%, přepracování se zvýšilo 2,5x a efektivní výstup vůbec nerostl. ROI by mohl být negativní - ale bez správného měření by společnost tvrdila, že uspořila miliony.
AI bez hygieny zrychluje entropii. Čisté kódové základny zesilují zisky AI; neuspořádané kódové základny vytvářejí spirálu smrti. AI generuje kód rychleji, inženýři ztrácejí důvěru, když výstupy vyžadují těžké přepsání, přijetí se zhroutí. Rámec záleží: primární metrika (inženýrský výstup, ne PRs nebo řádky kódu) plus ochranné prvky (přepracování, kvalita, technický dluh, metriky lidských zdrojů).
Klíčové poznatky
- Medián zisku produktivity AI: ~10% - Ale rozptyl je obrovský a rozšiřuje se mezi nejlepšími a nejhoršími výkonnosti
- Využití tokenů nepredikuje zisky - Kvalita používání je důležitější; existuje “Death Valley” kolem 10 milionů tokenů/měsíc
- Čistota kódové základny je klíčovým prediktorem - 0,40 R² korelace mezi hygienou kódu a zisky produktivity AI
- Počty PR jsou zavádějící - Jeden tým vykazoval 14% nárůst PR, ale 9% pokles kvality a 2,5x zvýšení přepracování
- Přístup ≠ přijetí ≠ efektivní použití - Stejné nástroje, stejné licence mohou vytvářet divoce odlišné výsledky v obchodních jednotkách
- AI bez disciplíny zrychluje entropii - Čistý kód zesiluje zisky; neuspořádaný kód vytváří spirály smrti ničící důvěru
- Měřit retroaktivně pomocí historie gitu - Nemusíte nastavovat experimenty; analyzujte, co se již stalo
- Metriky ochranných prvků jsou důležité - Primární metrika (výstup) + ochranné prvky (přepracování, kvalita, technický dluh) zabraňují Goodhartovu zákonu
Širší obrázek
Dvouletý výzkum Stanfordu ukazuje, že ROI z AI kódování by mohl být pro některé týmy negativní - 14% více PR, ale 9% pokles kvality a 2,5x zvýšení přepracování. Největší prediktor zisku AI není využití tokenů, ale čistota kódové základny. Čistý kód zesiluje AI; neuspořádaný kód vytváří spirálu smrti ničící důvěru.