OpenAI Codex Code Review: Wie das Modell Fehler findet, die Ihr Team übersehen könnte

OpenAI
developer-toolsagentstutorial

Perspektive

Dies ist OpenAI, das Codex Code Review demonstriert - die Funktion, die Ihre PRs automatisch überprüft. Maya aus dem Alignment-Team und Roma zeigen, wie es funktioniert und warum es für AI Safety wichtig ist.

“Menschliche Überprüfung wird zum Engpass.” Mit zunehmenden KI-Fähigkeiten und mehr Code von Coding-Agenten brauchen Sie Überprüfung, die proportional skaliert. Das ist die Alignment-Motivation hinter Code-Review-Modellen - sicherstellen, dass “Überprüfungsfähigkeiten so schnell skalieren wie KI-Fähigkeiten.”

Es ist keine statische Analyse. Das Modell hat Zugriff auf das gesamte Repository, nicht nur auf das Diff. Es kann Abhängigkeiten nachverfolgen, den breiteren Codebasis-Kontext verstehen und - entscheidend - Python-Code schreiben, um seine eigenen Hypothesen zu testen. “Es hat sich entschieden, eine Hypothese zu bilden und Python-Code zu schreiben, um die Hypothese zu testen und zu überprüfen, ob sie tatsächlich korrekt ist.”

Für hohe Präzision trainiert. Sie trainierten speziell für Fehler, “die tatsächlich wichtig sind und die Leute in der Praxis beheben würden”, mit dem Ziel, eine sehr niedrige Rate falscher Kommentare zu erreichen. Die Bewertung: viel weniger falsch-positive Ergebnisse als frühere Modelle, aber “die wichtigste Bewertung ist einfach, dass Leute es in der Praxis nutzen.”

Findet bereits echte Fehler bei OpenAI. Es rettete sie vor “kritischen Training-Run-Bugs, die potenziell wichtige Modell-Veröffentlichungen verzögern würden” und Konfigurationsproblemen, die aus dem Diff allein nicht sichtbar sind. Alex, der Codex PM, wurde bei einem React/CSS-Bug erwischt, als er zur VS Code-Erweiterung beitrug - dann fragte er “@Codex fair genug, behebe es.”

agents.md für benutzerdefinierte Anweisungen. Das Modell sucht nach agents.md in Ihrer Codebasis für benutzerdefinierte Code-Review-Richtlinien. Sie können angeben, worauf Sie achten möchten, was ignoriert werden soll, sogar den Antwortstil. Mayas Beispiel: “Ich wollte, dass Codex mir jedes Mal sagt, wenn ich einen Fehler mache, dass ich immer noch ein fantastischer Programmierer bin.”

CLI-Überprüfung vor dem Push. /review in Codex CLI überprüft Ihre lokalen Änderungen, bevor sie zu GitHub gelangen - Fehler finden, bevor Ihre Kollegen die PR überhaupt sehen.

Wichtigste Erkenntnisse

  • Überprüfung muss mit Fähigkeiten skalieren - Alignment-Motivation: Mit mehr Code von Agenten muss die Überprüfung mithalten
  • Vollständiger Repo-Zugriff, nicht nur Diff - Verfolgt Abhängigkeiten, versteht breiteren Kontext
  • Schreibt Code, um Hypothesen zu testen - Keine statische Analyse; überprüft aktiv Annahmen
  • Hochpräzisions-Training - Niedrigere falsch-positive Rate als frühere Modelle
  • Echte Fehler bei OpenAI gefunden - Training-Run-Fehler, Konfigurationsprobleme, Beiträge über Codebases hinweg
  • @Codex-Kommentare - Kann Überprüfung manuell mit benutzerdefinierten Anweisungen auslösen
  • agents.md-Unterstützung - Fügen Sie Repo-spezifische Review-Richtlinien hinzu
  • CLI /review-Befehl - Überprüfen Sie lokale Änderungen vor dem Push
  • “Fix it up”-Workflow - Nach der Überprüfung können Sie Codex bitten, den gefundenen Fehler zu beheben
  • Draft PR-Technik - Überprüfung im Draft-Stadium, bevor menschliche Überprüfung angefordert wird

Das große Bild

Mit mehr Code von KI wird menschliche Überprüfung zum Engpass. Code Review, das Code schreibt, um seine eigenen Hypothesen zu testen - nicht nur statische Analyse - ist eine Alignment-Wette: Überprüfung muss genauso schnell skalieren wie Generierung. Findet bereits Fehler, die OpenAIs Training Runs verzögern würden.