スタンフォード大学の研究: AI コーディングの ROI がマイナスかもしれない理由
Perspective
AI コーディング ツールの ROI に関する最も厳密な研究であり、スタンフォード大学の 2 年間の横断面時系列データを使用し、数百万の専門家コード評価に基づいて訓練された機械学習モデルを使用したものである。これらの発見は、すべてのエンジニアリング リーダーに不安をもたらすべきである。
AI の勝者と敗者のギャップが広がっている。 46 の AI 使用チームを 46 の同様の非 AI チームと照合した結果、生産性向上の中央値は約 10% 前後である。しかし、ばらつきは顕著であり、時間とともに増加している。トップパフォーマーはゲインを複合させながら、苦労しているチームはさらに後退している。自分たちがどのコホートにいるかを測定していなければ、盲目的に飛行しているようなものである。
トークン使用量は弱い相関を持ち、「死の谷」が存在する。 月あたりエンジニアあたり約 1,000 万トークンを費やしているチームは、実は、より少なく使用しているチームよりもパフォーマンスが悪かった。AI の使用の質が量よりも重要である。本当の予測因子は何か? コードベースの清潔さである。テスト、型、ドキュメント、モジュール性の複合スコアは、AI 生産性向上との 0.40 R² 相関を示した。
ケース スタディは痛烈である。 350 人のチームが AI を導入し、PR が 14% 増加した。リーダーシップは祝ったはずである。しかし、より深い測定は以下を示した: コード品質が 9% 低下し、再作業が 2.5 倍増加し、実際の出力はまったく増加しなかった。ROI はマイナスかもしれない - しかし適切な測定がなければ、企業は数百万単位の節約を主張していたであろう。
衛生状態のない AI はエントロピーを加速させる。 クリーンなコードベースは AI ゲインを増幅させ、乱雑なコードベースは死のスパイラルを作成する。AI はより速くコードを生成し、エンジニアはアウトプットが大規模な書き直しを必要とする場合、信頼を失い、採用が崩壊する。フレームワークが重要である: プライマリ メトリック (エンジニアリング アウトプット、PR または LoC ではない) とガードレール (再作業、品質、技術負債、人的メトリック)。
Key Takeaways
- AI 生産性向上の中央値: 約 10% - しかし、ばらつきは大きく、トップパフォーマーとボトムパフォーマーの間で拡大している
- トークン使用量はゲインを予測しない - 使用の質の方が重要であり、月あたり約 1,000 万トークンの「死の谷」が存在する
- コードベースの清潔さが主要な予測因子である - コード衛生と AI 生産性向上との間に 0.40 R² 相関がある
- PR 数は誤解を招きやすい - あるチームは 14% の PR 増加を示したが、9% の品質低下と 2.5 倍の再作業増加がみられた
- アクセス ≠ 導入 ≠ 効果的な使用 - 同じツール、同じライセンスでも、事業部門全体で大きく異なる結果を生み出すことができる
- AI は規律がなければエントロピーを加速させる - クリーンなコードはゲインを増幅させ、乱雑なコードは信頼を損なわせるデススパイラルを作成する
- git 履歴で遡及的に測定する - 実験を設定する必要はない、すでに起こったことを分析する
- ガードレール メトリックが重要である - プライマリ メトリック (出力) + ガードレール (再作業、品質、技術負債) は Goodhart の法則を防止する
Big Picture
スタンフォード大学の 2 年間の研究は、一部のチームにとって AI コーディング ROI がマイナスかもしれないことを示している - 14% 多くの PR であるが、9% の品質低下と 2.5 倍の再作業増加。AI ゲインの最大の予測因子はトークン使用量ではなく、コードベースの清潔さである。クリーンなコードは AI を増幅させ、乱雑なコードは信頼を損なわせるデススパイラルを作成する。