OpenAI Codex Code Review : Comment le modèle détecte les bugs que votre équipe pourrait manquer

OpenAI
developer-toolsagentstutorial

Perspective

Il s’agit d’OpenAI démontrant Codex Code Review - la fonctionnalité qui révise automatiquement vos PRs. Maya de l’équipe d’alignement et Roma expliquent comment cela fonctionne et pourquoi c’est important pour la sécurité de l’IA.

“La vérification humaine devient le goulot d’étranglement.” Au fur et à mesure que les capacités de l’IA augmentent et que les agents de codage produisent plus de code, vous avez besoin d’une vérification qui évolue proportionnellement. C’est la motivation d’alignement derrière les modèles de révision de code - s’assurer que “les capacités de vérification évoluent aussi rapidement que les capacités de l’IA.”

Ce n’est pas de l’analyse statique. Le modèle a accès au dépôt complet, pas seulement au diff. Il peut retrouver les dépendances, comprendre le contexte plus large de la base de code, et - de manière critique - écrire du code Python pour tester ses propres hypothèses. “Il a décidé de former une hypothèse et d’écrire du code Python pour tester l’hypothèse et vérifier si elle est réellement correcte.”

Entraîné pour une haute précision. Ils se sont spécifiquement entraînés pour les bugs “qui comptent vraiment et que les gens seraient prêts à corriger dans la vraie vie” tout en visant un taux très faible de commentaires incorrects. L’évaluation : beaucoup moins de faux positifs que les modèles précédents, mais “l’évaluation la plus importante est simplement que les gens l’utilisent en pratique.”

Détecte déjà de vrais bugs chez OpenAI. Il leur a évité “des bugs critiques d’exécution d’entraînement qui auraient potentiellement retardé d’importantes versions de modèles” et des problèmes de configuration non visibles depuis le diff seul. Alex, le PM de Codex, a été pris sur un bug React/CSS en contribuant à l’extension VS Code - puis a demandé “@Codex d’accord, répare ça.”

agents.md pour les instructions personnalisées. Le modèle cherche agents.md dans votre base de code pour des directives de révision de code personnalisées. Vous pouvez spécifier à quoi faire attention, quoi ignorer, même le style de réponse. L’exemple de Maya : “Je voulais que Codex me dise à chaque fois que je fais un bug que je suis toujours un programmeur incroyable.”

Révision CLI avant de pousser. /review dans Codex CLI révise vos modifications locales avant qu’elles n’arrivent sur GitHub - attrapez les bugs avant même que vos collègues ne voient la PR.

Points clés

  • La vérification doit évoluer avec les capacités - Motivation d’alignement : au fur et à mesure que les agents produisent plus de code, la révision doit suivre le rythme
  • Accès au dépôt complet, pas seulement au diff - Suit les dépendances, comprend le contexte plus large
  • Écrit du code pour tester les hypothèses - Pas d’analyse statique ; vérifie activement les hypothèses
  • Entraînement à haute précision - Taux de faux positifs inférieur aux modèles précédents
  • Vrais bugs détectés chez OpenAI - Bugs d’exécution d’entraînement, problèmes de configuration, contributions inter-bases de code
  • Commentaires @Codex - Peut déclencher la révision manuellement avec des instructions personnalisées
  • Support agents.md - Ajoutez des directives de révision spécifiques au dépôt
  • Commande CLI /review - Révisez les modifications locales avant de pousser
  • Workflow “répare ça” - Après la révision, demandez à Codex de corriger le problème qu’il a trouvé
  • Technique de PR brouillon - Révisez au stade de brouillon avant de demander une révision humaine

Vue d’ensemble

Au fur et à mesure que l’IA écrit plus de code, la vérification humaine devient le goulot d’étranglement. La révision de code qui écrit du code pour tester ses propres hypothèses - pas seulement de l’analyse statique - est un pari d’alignement : la vérification doit évoluer aussi rapidement que la génération. Détecte déjà des bugs qui retarderaient les exécutions d’entraînement d’OpenAI.