Newsfeed / OpenAI Codex Code Review: Jak model odhaluje chyby, kterých by si váš tým nemusí všimnout
OpenAI·November 4, 2025

OpenAI Codex Code Review: Jak model odhaluje chyby, kterých by si váš tým nemusí všimnout

Roma a Maya ukazují, jak Codex přezkušuje PR pomocí procházení celé kódové základny, psaní testovacího kódu k ověření hypotéz a opravy problémů na vyžádání.

OpenAI Codex Code Review: Jak model odhaluje chyby, kterých by si váš tým nemusí všimnout

Perspektiva

Toto je OpenAI, který demonstruje Codex Code Review - funkci, která automaticky recenzuje vaše PRy. Maya z týmu zaměřeného na bezpečnost a Roma procházejí tím, jak to funguje a proč je to důležité pro bezpečnost AI.

"Lidské ověření se stává úzkým místem." Jak se schopnosti AI rostou a kódující agenti produkují více kódu, musíte mít ověření, které se bude škálovat proporcionálně. To je motivace zaměřená na bezpečnost stojící za modely pro recenzi kódu - zajištění, že "schopnosti ověření se škálují stejně rychle jako schopnosti AI."

Nejde o statickou analýzu. Model má přístup k celému úložišti, ne jen k diffu. Dokáže sledovat závislosti, porozumět širšímu kontextu kódové základny a - kriticky - psát Python kód k testování vlastních hypotéz. "Rozhodl se vytvořit nějakou hypotézu a napsat Python kód k testování hypotézy a ověření, zda je skutečně správná."

Trénováno na vysokou přesnost. Konkrétně trénovali na chybách, "které skutečně záleží a které by lidé byli ochotni opravit v reálném životě", přičemž se zaměřovali na velmi nízkou míru nesprávných komentářů. Vyhodnocení: mnohem méně falešných pozitiv než u předchozích modelů, ale "nejdůležitější vyhodnocení je prostě lidé, kteří jej používají v praxi."

Již nyní odhaluje skutečné chyby v OpenAI. Zachránilo je to před "kritickými chybami trénovacích běhů, které by potenciálně mohly zpozdit důležité vydání modelů" a problémy s konfigurací neviditelné z samotného diffu. Alex, PM Codexu, byl chycen na React/CSS chybě, když přispíval k rozšíření VS Code - pak požádal "@Codex férové, oprav to."

agents.md pro vlastní pokyny. Model hledá agents.md ve vaší kódové základně pro vlastní pokyny k recenzi kódu. Můžete specifikovat, na co se zaměřit, na co ignorovat, dokonce i styl odpovědi. Mayina ukázka: "Chtěla jsem, aby mi Codex řekl pokaždé, když udělám chybu, že jsem stále úžasný programátor."

Recenze CLI před push. /review v Codex CLI přezkušuje vaše místní změny dříve, než se dostanou na GitHub - odhalte chyby předtím, než je vaši kolegové vůbec vidí na PR.

Hlavní poznatky

  • Ověření se musí škálovat se schopnostmi - Motivace zaměřená na bezpečnost: jak agenti produkují více kódu, recenze musí držet krok
  • Přístup k celému repo, ne jen diff - Sleduje závislosti, rozumí širšímu kontextu
  • Píše kód k testování hypotéz - Není to statická analýza; aktivně ověřuje předpoklady
  • Trénování na vysokou přesnost - Nižší míra falešných pozitiv než u předchozích modelů
  • Skutečné chyby odhalené v OpenAI - Chyby trénovacích běhů, problémy s konfigurací, příspěvky do více kódových základen
  • @Codex komentáře - Lze spustit recenzi ručně s vlastními pokyny
  • podpora agents.md - Přidejte pokyny k recenzi specifické pro úložiště
  • CLI příkaz /review - Přezkoumat místní změny před push
  • Pracovní postup "Oprav to" - Po recenzi požádejte Codex o opravu problému, který našel
  • Technika návrhu PR - Recenze v etapě návrhu před vyžádáním lidské recenze

Velká otázka

Jak AI píše více kódu, lidské ověření se stává úzkým místem. Recenze kódu, která píše kód k testování vlastních hypotéz - ne jen statická analýza - je sázka na bezpečnost: ověření se musí škálovat stejně rychle jako generace. Již nyní odhaluje chyby, které by zpozdilyly trénovací běhy OpenAI.

Related