OpenAI Codex コードレビュー:チームが見落とすバグを検出する方法

OpenAI
developer-toolsagentstutorial

観点

これはOpenAIがCodexコードレビュー機能を実演するもので、PRを自動的にレビューする機能です。アラインメントチーム出身のMayaとRomaが、その仕組みと、AIの安全性にとってなぜ重要なのかを説明します。

「人間による検証がボトルネックになりつつあります。」 AIの能力が成長し、コーディングエージェントがより多くのコードを生成するにつれて、検証も比例してスケールする必要があります。これがコードレビューモデルの背後にあるアラインメント動機です。「検証能力がAIの能力と同じ速度でスケールするようにする」ことです。

静的解析ではありません。 モデルは差分だけでなく、リポジトリ全体にアクセスできます。依存関係を追跡し、より広いコードベースのコンテキストを理解し、さらに重要なことに、独自の仮説をテストするためのPythonコードを書くことができます。「モデルはある仮説を形成し、その仮説をテストするためのPythonコードを書き、それが実際に正しいかどうかを確認することにしました。」

高精度でトレーニングされています。 彼らは「実際に重要であり、実生活で修正する価値がある」バグに特にトレーニングし、不正なコメント率を非常に低く保つことを目標としています。評価:以前のモデルより誤検知が大幅に少ないですが、「最も重要な評価は、単に実際の運用で人々がそれを使うことです。」

すでにOpenAIで実際のバグをキャッチしています。 「重要なトレーニング実行バグが潜在的に重要なモデルリリースを遅延させる可能性がある」問題や、差分からは見えない設定の問題から守られました。CodexのPMであるAlexは、VS Code拡張機能に貢献する際にReact/CSSバグで引っかかりました。その後、「@Codex fair enough、修正してください」と依頼しました。

カスタム指示用のagents.md。 モデルはあなたのコードベースのカスタムコードレビューガイドラインのためにagents.mdを探します。注意を払うべきことや無視すべきこと、さらには応答スタイルまでを指定できます。Mayaの例:「Codexに、バグを犯すたびに『あなたはそれでも素晴らしいプログラマーです』と言ってほしかった。」

プッシュ前のCLIレビュー。 Codex CLIの/reviewでローカルの変更をレビューします。GitHubにプッシュする前にバグをキャッチできます。同僚がPRを見る前に。

主な要点

  • 検証は能力と同じ速度でスケールする必要があります - アラインメント動機:エージェントがより多くのコードを生成するにつれて、レビューも追いつく必要があります
  • 差分だけでなく、リポジトリ全体にアクセス - 依存関係を追跡し、より広いコンテキストを理解します
  • 仮説をテストするためにコードを書きます - 静的解析ではなく、積極的に仮説を検証します
  • 高精度トレーニング - 以前のモデルより誤検知率が低い
  • OpenAIで実際のバグをキャッチ - トレーニング実行バグ、設定の問題、クロスコードベース寄稿
  • @Codexコメント - カスタム指示で手動でレビューをトリガーできます
  • agents.mdサポート - リポジトリ固有のレビューガイドラインを追加できます
  • CLI /reviewコマンド - プッシュ前にローカルの変更をレビューします
  • 「修正してください」ワークフロー - レビュー後、Codexに見つかった問題を修正するよう依頼できます
  • ドラフトPRテクニック - 人間レビューをリクエストする前のドラフトステージでレビューします

全体像

AIがより多くのコードを書くにつれて、人間による検証がボトルネックになります。独自の仮説をテストするためにコードを書くコードレビュー—単なる静的解析ではなく—はアラインメント上の賭けです:検証は生成と同じ速度でスケールする必要があります。すでにOpenAIのトレーニング実行を遅延させるバグをキャッチしています。