OpenAI Codex コードレビュー:チームが見落とすバグを検出する方法
観点
これはOpenAIがCodexコードレビュー機能を実演するもので、PRを自動的にレビューする機能です。アラインメントチーム出身のMayaとRomaが、その仕組みと、AIの安全性にとってなぜ重要なのかを説明します。
「人間による検証がボトルネックになりつつあります。」 AIの能力が成長し、コーディングエージェントがより多くのコードを生成するにつれて、検証も比例してスケールする必要があります。これがコードレビューモデルの背後にあるアラインメント動機です。「検証能力がAIの能力と同じ速度でスケールするようにする」ことです。
静的解析ではありません。 モデルは差分だけでなく、リポジトリ全体にアクセスできます。依存関係を追跡し、より広いコードベースのコンテキストを理解し、さらに重要なことに、独自の仮説をテストするためのPythonコードを書くことができます。「モデルはある仮説を形成し、その仮説をテストするためのPythonコードを書き、それが実際に正しいかどうかを確認することにしました。」
高精度でトレーニングされています。 彼らは「実際に重要であり、実生活で修正する価値がある」バグに特にトレーニングし、不正なコメント率を非常に低く保つことを目標としています。評価:以前のモデルより誤検知が大幅に少ないですが、「最も重要な評価は、単に実際の運用で人々がそれを使うことです。」
すでにOpenAIで実際のバグをキャッチしています。 「重要なトレーニング実行バグが潜在的に重要なモデルリリースを遅延させる可能性がある」問題や、差分からは見えない設定の問題から守られました。CodexのPMであるAlexは、VS Code拡張機能に貢献する際にReact/CSSバグで引っかかりました。その後、「@Codex fair enough、修正してください」と依頼しました。
カスタム指示用のagents.md。 モデルはあなたのコードベースのカスタムコードレビューガイドラインのためにagents.mdを探します。注意を払うべきことや無視すべきこと、さらには応答スタイルまでを指定できます。Mayaの例:「Codexに、バグを犯すたびに『あなたはそれでも素晴らしいプログラマーです』と言ってほしかった。」
プッシュ前のCLIレビュー。 Codex CLIの/reviewでローカルの変更をレビューします。GitHubにプッシュする前にバグをキャッチできます。同僚がPRを見る前に。
主な要点
- 検証は能力と同じ速度でスケールする必要があります - アラインメント動機:エージェントがより多くのコードを生成するにつれて、レビューも追いつく必要があります
- 差分だけでなく、リポジトリ全体にアクセス - 依存関係を追跡し、より広いコンテキストを理解します
- 仮説をテストするためにコードを書きます - 静的解析ではなく、積極的に仮説を検証します
- 高精度トレーニング - 以前のモデルより誤検知率が低い
- OpenAIで実際のバグをキャッチ - トレーニング実行バグ、設定の問題、クロスコードベース寄稿
- @Codexコメント - カスタム指示で手動でレビューをトリガーできます
- agents.mdサポート - リポジトリ固有のレビューガイドラインを追加できます
- CLI /reviewコマンド - プッシュ前にローカルの変更をレビューします
- 「修正してください」ワークフロー - レビュー後、Codexに見つかった問題を修正するよう依頼できます
- ドラフトPRテクニック - 人間レビューをリクエストする前のドラフトステージでレビューします
全体像
AIがより多くのコードを書くにつれて、人間による検証がボトルネックになります。独自の仮説をテストするためにコードを書くコードレビュー—単なる静的解析ではなく—はアラインメント上の賭けです:検証は生成と同じ速度でスケールする必要があります。すでにOpenAIのトレーニング実行を遅延させるバグをキャッチしています。