OpenAI Codex 代码审查:模型如何捕捉你团队可能遗漏的错误

OpenAI
developer-toolsagentstutorial

观点

这是 OpenAI 展示 Codex 代码审查功能 - 自动审查你的 PR 的功能。来自对齐团队的 Maya 和 Roma 演示了它的工作原理以及为什么它对 AI 安全很重要。

“人工验证正在成为瓶颈。” 随着 AI 能力的增长和编码代理生成更多代码,你需要验证以相应的速度扩展。这是代码审查模型背后的对齐动机 - 确保 “验证能力的增长速度与 AI 能力一样快。”

这不是静态分析。 该模型可以访问完整的代码库,而不仅仅是差异部分。它可以追踪依赖项、理解更广泛的代码库上下文,以及 - 至关重要的是 - 编写 Python 代码来测试自己的假设。“它决定形成一些假设并编写一些 Python 代码来测试该假设并检查它是否实际正确。”

为高精度而训练。 他们专门针对 “实际存在且人们愿意在现实中修复的” 错误进行了训练,同时目标是保持非常低的错误评论率。评估:相比之前的模型,误报率要低得多,但 “最重要的评估就是人们在实践中使用它。”

已经在 OpenAI 捕捉到真实的错误。 它拯救了他们免受 “可能会延迟重要模型发布的关键训练运行错误” 和从差异中看不到的配置问题。Codex 产品经理 Alex 在为 VS Code 扩展做贡献时遇到了 React/CSS 错误 - 然后要求 “@Codex 说得好,修复它。”

agents.md 用于自定义指令。 该模型在你的代码库中查找 agents.md 以获取自定义代码审查指南。你可以指定要注意的内容、要忽略的内容,甚至响应风格。Maya 的示例:“我想让 Codex 告诉我每次我犯错误时我仍然是一个很棒的程序员。”

推送前进行 CLI 审查。 Codex CLI 中的 /review 在将更改推送到 GitHub 之前审查你的本地更改 - 在你的同事甚至看到 PR 之前捕捉错误。

关键要点

  • 验证必须与能力一起扩展 - 对齐动机:当代理生成更多代码时,审查必须跟上
  • 完整的代码库访问,而不仅仅是差异 - 追踪依赖项、理解更广泛的上下文
  • 编写代码来测试假设 - 不是静态分析;主动验证假设
  • 高精度训练 - 误报率低于之前的模型
  • 在 OpenAI 捕捉到真实的错误 - 训练运行错误、配置问题、跨代码库贡献
  • @Codex 评论 - 可以使用自定义指令手动触发审查
  • agents.md 支持 - 添加特定于代码库的审查指南
  • CLI /review 命令 - 在推送前审查本地更改
  • “修复它” 工作流 - 审查后,要求 Codex 修复它发现的问题
  • 草稿 PR 技术 - 在草稿阶段审查,然后再请求人工审查

大局观

随着 AI 编写更多代码,人工验证成为了瓶颈。编写代码来测试自己假设的代码审查 - 不仅仅是静态分析 - 是一个对齐赌注:验证必须与生成一样快地扩展。已经在捕捉会延迟 OpenAI 训练运行的错误。