OpenAI Codex Code Review: Ako Model Odchytáva Chyby, Ktoré Váš Tím Mohla Prehliadnuť
Perspektíva
Toto je OpenAI demonštrácia Codex Code Review - funkcie, ktorá automaticky recenzuje vaše PR. Maya z alignment tímu a Roma prejdú, ako to funguje a prečo je to dôležité pre bezpečnosť AI.
“Ľudské overenie sa stáva úzkym hrdlom.” Keďže schopnosti AI rastú a kódovacie agenty produkujú viac kódu, potrebujete overenie, ktoré bude proporcionálne škálovateľné. To je motivácia alignment stojaca za modelmi kódovej recenzie - zaistenie, že “schopnosti overenia sa škálujú rovnako rýchlo ako schopnosti AI.”
Nie je to statická analýza. Model má prístup k celému repozitáriu, nie len k diffu. Môže sledovať závislosti, pochopiť širší kontext kódovej základne a - čo je kritické - písať Python kód na testovanie vlastných hypotéz. “Rozhodlo sa vytvoriť nejakú hypotézu a napísať Python kód na testovanie hypotézy a kontrolu, či je skutočne správna.”
Tréning na vysokú presnosť. Špecificky trénovali na chyby “ktoré skutočne majú význam a ľudia by boli ochotní ich opraviť v reálnej praxi” s cieľom dosiahnuť veľmi nízku chybovosť nesprávnych komentárov. Hodnotenie: oveľa menej falošných pozitív ako predchádzajúce modely, ale “najdôležitejšie hodnotenie je jednoducho ľudia, ktorí ho používajú v praxi.”
Už odchytáva reálne chyby v OpenAI. Zachránilo ich pred “kritickými bugmi pri tréningových behoch, ktoré by mohli potenciálne odsúť dôležité vydania modelov” a problémami s konfiguráciou, ktoré nie sú viditeľné z samotného diffu. Alex, PM Codexu, sa chytil na React/CSS chybe pri prispievaní k VS Code rozšíreniu - potom sa opýtal “@Codex v poriadku, oprav to.”
agents.md pre vlastné pokyny. Model hľadá agents.md v tvojej kódovej základne na vlastné pokyny na kódovú recenziu. Môžeš špecifikovať, na čo sa zamerať, čo ignorovať, dokonca aj štýl odpovede. Mayin príklad: “Chcela som, aby mi Codex povedal zakaždým, keď urobím chybu, že som stále úžasná programátorka.”
Recenzia CLI pred pushnutím. /review v Codex CLI recenzuje tvoje lokálne zmeny predtým, ako sa dostanú na GitHub - odchytaj chyby skôr, ako ich tvoji kolegovia vôbec uvidia v PR.
Kľúčové Zistenia
- Overenie musí škálovať s schopnosťami - Motivácia alignment: keďže agenty produkujú viac kódu, recenzia musí držať krok
- Prístup k plnému repozitáriu, nie len diffu - Sleduje závislosti, rozumie širšiemu kontextu
- Píše kód na testovanie hypotéz - Nie statická analýza; aktívne overuje predpoklady
- Tréning na vysokú presnosť - Nižšia miera falošných pozitív ako predchádzajúce modely
- Reálne chyby odchytené v OpenAI - Bugmi v tréningových behoch, problémy s konfiguráciou, príspevky cez kódové základne
- Komentáre @Codex - Môže spustiť recenziu manuálne s vlastnými pokynmi
- Podpora agents.md - Pridaj pokyny na kódovú recenziu špecifické pre repozitár
- CLI /review príkaz - Recenzuj lokálne zmeny pred pushnutím
- Workflow “oprav to” - Po recenzii požiadaj Codex, aby opravil chybu, ktorú našiel
- Technika Draft PR - Recenzuj v draft štádiu skôr, ako požiadaš o ľudskú recenziu
Veľký Obrázok
Keďže AI píše viac kódu, ľudské overenie sa stáva úzkym hrdlom. Kódová recenzia, ktorá píše kód na testovanie vlastných hypotéz - nie len statická analýza - je azimuth alignment: overenie musí škálovať rovnako rýchlo ako generovanie. Už odchytáva chyby, ktoré by zdržali OpenAI tréningové behy.