Definitívny sprievodca Eval: Začnite so 100 manuálnymi recenziami a 'Benevolentným diktátorom'
Perspektíva
Toto sú Hamel Hussein a Shrea Shankar - učitelia #1 kurzu eval na Maven, ktorí školili viac ako 2000 PM-ov a inžinierov vrátane tímov z OpenAI a Anthropic. Ich proces je prekvapivo manuálny na začiatku, a to je presne ten bod.
“Najväčší omyl je: nemôže to AI len ohodnotiť?” To nefunguje. Keď Hamel ukázal stopu, kde AI naplánovala virtuálnu prehliadku, ktorá neexistuje, ChatGPT by povedal “vyzerá dobre”, pretože mu chýba kontext vedieť, že táto funkcia neexistuje. Odborník v domiene to pozná za sekundy. LLM-y vynechajú vôňu produktu.
Proces: otvorené kódovanie s benevolentným diktátorom. Pozrite sa na stopy (denníky LLM interakcií). Napíšte si rýchle poznámky o tom, čo je zle - iba prvá/najvyššia chyba, ktorú vidíte. Neponúšajte sa hľadať všetko. Nepoužívajte komisie. Menujte jednu osobu, ktorej vkusu dôverite (experta v domiene). Udržiavajte to neformálne: “jank” je v poriadku ako poznámka. Skúmajte aspoň 100 stôp, kým nedosiahnete “teoretickú saturáciu” - keď prestanete učiť sa nové veci.
Analýza chýb predchádza písaniu testov. To sa líši od softvérového inžinierstva, kde skočíte na unit testy. S LLM-ami je plocha príliš veľká a správanie príliš stochastické. Potrebujete najskôr analýzu dát, aby ste pochopili, čo vôbec testovať. Iba po otvorenom kódovaní kodifikujete vzory do automatizovaných eval-ov.
Príklad s agentom v oblasti nehnuteľností je perfektný. Používateľ sa pýta na dostupnosť. AI povie “to nemáme, pekný deň.” Technicky správne. Z pohľadu produktu? Hrozné. Nástroj na správu potenciálnych zákazníkov by mal odovzdať človeku, nie ukončiť rozhovor. To je druh veci, ktorý zachytí len osoba zaujatá produktom.
Neurobme eval-ov drahými. Len binárne skóre (pass/fail). Jeden expert v domiene, nie komisia. Vzorkujte svoje údaje, nerecenzujte všetko. Cieľom nie je dokonalosť - je to užitočné zlepšenie. Ak procesu urobíte drahý, nebudete ho robiť.
Kľúčové poznatky
- LLM-y nemôžu vykonávať analýzu chýb - Chýba im kontext; hovoria “vyzerá dobre” na zjavné zlyhania produktu
- Otvorené kódovanie - Napíšte si rýchle poznámky na prvú chybu; nehľadajte všetko; buďte neformálni
- Benevolentný diktátor - Jeden expert v domiene, ktorého vkusu dôverite; nie komisie
- Minimálne 100 stôp - Kým teoretická saturácia; budete závislí po 20
- Teoretická saturácia - Zastavte sa, keď prestanete učiť sa nové veci
- Len binárne skóre - Pass/fail; nerobiť škály 1-5; robí všetko ovládateľné
- Analýza chýb → testy - Rozdielne od softvérového inžinierstva; pochopte predtým, ako kodifikujete
- Osoba zaujatá produktom je požadovaná - Inžinieri vynechávajú vôňu produktu; odbor je kritický
- Vzorkujte, nerecenzujte všetko - Robí proces udržateľným
- “Jank” je platný - Udržiavajte poznámky neformálne; špecifickosť je dôležitejšia ako lesk
Širší pohľad
AI eval nie je automatizované testovanie - je to analýza údajov vyžadujúca ľudský osud. Spoločnosti, ktoré dodávajú spoľahlivé AI produkty, nepoužívajú sofistikované rámce; dávajú odborníkov z domény pred stopy a nechávajú ich vyvinúť vkus. Neexistuje žiaden skratka.