OpenAI Codex Code Review: Jak model odhaluje chyby, kterých by si váš tým nemusí všimnout
Roma a Maya ukazují, jak Codex přezkušuje PR pomocí procházení celé kódové základny, psaní testovacího kódu k ověření hypotéz a opravy problémů na vyžádání.
Perspektiva
Toto je OpenAI, který demonstruje Codex Code Review - funkci, která automaticky recenzuje vaše PRy. Maya z týmu zaměřeného na bezpečnost a Roma procházejí tím, jak to funguje a proč je to důležité pro bezpečnost AI.
"Lidské ověření se stává úzkým místem." Jak se schopnosti AI rostou a kódující agenti produkují více kódu, musíte mít ověření, které se bude škálovat proporcionálně. To je motivace zaměřená na bezpečnost stojící za modely pro recenzi kódu - zajištění, že "schopnosti ověření se škálují stejně rychle jako schopnosti AI."
Nejde o statickou analýzu. Model má přístup k celému úložišti, ne jen k diffu. Dokáže sledovat závislosti, porozumět širšímu kontextu kódové základny a - kriticky - psát Python kód k testování vlastních hypotéz. "Rozhodl se vytvořit nějakou hypotézu a napsat Python kód k testování hypotézy a ověření, zda je skutečně správná."
Trénováno na vysokou přesnost. Konkrétně trénovali na chybách, "které skutečně záleží a které by lidé byli ochotni opravit v reálném životě", přičemž se zaměřovali na velmi nízkou míru nesprávných komentářů. Vyhodnocení: mnohem méně falešných pozitiv než u předchozích modelů, ale "nejdůležitější vyhodnocení je prostě lidé, kteří jej používají v praxi."
Již nyní odhaluje skutečné chyby v OpenAI. Zachránilo je to před "kritickými chybami trénovacích běhů, které by potenciálně mohly zpozdit důležité vydání modelů" a problémy s konfigurací neviditelné z samotného diffu. Alex, PM Codexu, byl chycen na React/CSS chybě, když přispíval k rozšíření VS Code - pak požádal "@Codex férové, oprav to."
agents.md pro vlastní pokyny. Model hledá agents.md ve vaší kódové základně pro vlastní pokyny k recenzi kódu. Můžete specifikovat, na co se zaměřit, na co ignorovat, dokonce i styl odpovědi. Mayina ukázka: "Chtěla jsem, aby mi Codex řekl pokaždé, když udělám chybu, že jsem stále úžasný programátor."
Recenze CLI před push. /review v Codex CLI přezkušuje vaše místní změny dříve, než se dostanou na GitHub - odhalte chyby předtím, než je vaši kolegové vůbec vidí na PR.
Hlavní poznatky
- Ověření se musí škálovat se schopnostmi - Motivace zaměřená na bezpečnost: jak agenti produkují více kódu, recenze musí držet krok
- Přístup k celému repo, ne jen diff - Sleduje závislosti, rozumí širšímu kontextu
- Píše kód k testování hypotéz - Není to statická analýza; aktivně ověřuje předpoklady
- Trénování na vysokou přesnost - Nižší míra falešných pozitiv než u předchozích modelů
- Skutečné chyby odhalené v OpenAI - Chyby trénovacích běhů, problémy s konfigurací, příspěvky do více kódových základen
- @Codex komentáře - Lze spustit recenzi ručně s vlastními pokyny
- podpora agents.md - Přidejte pokyny k recenzi specifické pro úložiště
- CLI příkaz /review - Přezkoumat místní změny před push
- Pracovní postup "Oprav to" - Po recenzi požádejte Codex o opravu problému, který našel
- Technika návrhu PR - Recenze v etapě návrhu před vyžádáním lidské recenze
Velká otázka
Jak AI píše více kódu, lidské ověření se stává úzkým místem. Recenze kódu, která píše kód k testování vlastních hypotéz - ne jen statická analýza - je sázka na bezpečnost: ověření se musí škálovat stejně rychle jako generace. Již nyní odhaluje chyby, které by zpozdilyly trénovací běhy OpenAI.


