OpenAI Codex Code Review: Ako Model Odchytáva Chyby, Ktoré Váš Tím Mohla Prehliadnuť

OpenAI
developer-toolsagentstutorial

Perspektíva

Toto je OpenAI demonštrácia Codex Code Review - funkcie, ktorá automaticky recenzuje vaše PR. Maya z alignment tímu a Roma prejdú, ako to funguje a prečo je to dôležité pre bezpečnosť AI.

“Ľudské overenie sa stáva úzkym hrdlom.” Keďže schopnosti AI rastú a kódovacie agenty produkujú viac kódu, potrebujete overenie, ktoré bude proporcionálne škálovateľné. To je motivácia alignment stojaca za modelmi kódovej recenzie - zaistenie, že “schopnosti overenia sa škálujú rovnako rýchlo ako schopnosti AI.”

Nie je to statická analýza. Model má prístup k celému repozitáriu, nie len k diffu. Môže sledovať závislosti, pochopiť širší kontext kódovej základne a - čo je kritické - písať Python kód na testovanie vlastných hypotéz. “Rozhodlo sa vytvoriť nejakú hypotézu a napísať Python kód na testovanie hypotézy a kontrolu, či je skutočne správna.”

Tréning na vysokú presnosť. Špecificky trénovali na chyby “ktoré skutočne majú význam a ľudia by boli ochotní ich opraviť v reálnej praxi” s cieľom dosiahnuť veľmi nízku chybovosť nesprávnych komentárov. Hodnotenie: oveľa menej falošných pozitív ako predchádzajúce modely, ale “najdôležitejšie hodnotenie je jednoducho ľudia, ktorí ho používajú v praxi.”

Už odchytáva reálne chyby v OpenAI. Zachránilo ich pred “kritickými bugmi pri tréningových behoch, ktoré by mohli potenciálne odsúť dôležité vydania modelov” a problémami s konfiguráciou, ktoré nie sú viditeľné z samotného diffu. Alex, PM Codexu, sa chytil na React/CSS chybe pri prispievaní k VS Code rozšíreniu - potom sa opýtal “@Codex v poriadku, oprav to.”

agents.md pre vlastné pokyny. Model hľadá agents.md v tvojej kódovej základne na vlastné pokyny na kódovú recenziu. Môžeš špecifikovať, na čo sa zamerať, čo ignorovať, dokonca aj štýl odpovede. Mayin príklad: “Chcela som, aby mi Codex povedal zakaždým, keď urobím chybu, že som stále úžasná programátorka.”

Recenzia CLI pred pushnutím. /review v Codex CLI recenzuje tvoje lokálne zmeny predtým, ako sa dostanú na GitHub - odchytaj chyby skôr, ako ich tvoji kolegovia vôbec uvidia v PR.

Kľúčové Zistenia

  • Overenie musí škálovať s schopnosťami - Motivácia alignment: keďže agenty produkujú viac kódu, recenzia musí držať krok
  • Prístup k plnému repozitáriu, nie len diffu - Sleduje závislosti, rozumie širšiemu kontextu
  • Píše kód na testovanie hypotéz - Nie statická analýza; aktívne overuje predpoklady
  • Tréning na vysokú presnosť - Nižšia miera falošných pozitív ako predchádzajúce modely
  • Reálne chyby odchytené v OpenAI - Bugmi v tréningových behoch, problémy s konfiguráciou, príspevky cez kódové základne
  • Komentáre @Codex - Môže spustiť recenziu manuálne s vlastnými pokynmi
  • Podpora agents.md - Pridaj pokyny na kódovú recenziu špecifické pre repozitár
  • CLI /review príkaz - Recenzuj lokálne zmeny pred pushnutím
  • Workflow “oprav to” - Po recenzii požiadaj Codex, aby opravil chybu, ktorú našiel
  • Technika Draft PR - Recenzuj v draft štádiu skôr, ako požiadaš o ľudskú recenziu

Veľký Obrázok

Keďže AI píše viac kódu, ľudské overenie sa stáva úzkym hrdlom. Kódová recenzia, ktorá píše kód na testovanie vlastných hypotéz - nie len statická analýza - je azimuth alignment: overenie musí škálovať rovnako rýchlo ako generovanie. Už odchytáva chyby, ktoré by zdržali OpenAI tréningové behy.