Kompletní průvodce evals: Začněte se 100 manuálními recenzemi a 'benevolentním diktátorem'
Perspektiva
Tohle jsou Hamel Hussein a Shrea Shankar - vyučující nejlepšího eval kurzu na Mavenu, kteří školili 2000+ PM a inženýrů, včetně týmů z OpenAI a Anthropic. Jejich proces je na začátku překvapivě manuální, a právě na tom záleží.
“Největším omylem je: nemůže to vyhodnocovat samotná AI?” To nefunguje. Když Hamel ukázal stopu, kde AI naplánovala virtuální prohlídku, která neexistovala, ChatGPT řekl “vypadá to dobře”, protože mu chybí kontext vědět, že tato funkce neexistuje. Odborník v dané oblasti to chytí za sekundy. LLM si nevšimnou product smell.
Proces: otevřené kódování s benevolentním diktátorem. Podívejte se na traces (záznamy interakcí LLM). Napište si rychlé poznámky, co je špatně - jen první/nejzápadnější chybu, kterou vidíte. Nesnažte se najít všechno. Nepoužívejte výbory. Jmenujte jednu osobu, jejíž chuť si uznáváte (odborník v dané oblasti). Ponechte to neformální: “jank” je v pořádku jako poznámka. Projděte alespoň 100 traces, dokud nedosáhnete “teoretického nasycení” - když přestanete se učit nové věci.
Analýza chyb předchází psaní testů. To je jiné než v softwarovém inženýrství, kde skočíte přímo na unit testy. S LLM je povrchová plocha příliš velká a chování příliš stochastické. Nejdřív potřebujete analýzu dat, abyste pochopili, co vlastně testovat. Jen po otevřeném kódování kodifikujete vzory do automatizovaných evals.
Příklad agenta v realitní kanceláři je perfektní. Uživatel se ptá na dostupnost. AI říká “to nemáme, hezký den.” Technicky správné. Z pohledu produktu? Hrozné. Nástroj pro správu potenciálních klientů by měl předat rozhovor člověku, ne ho ukončit. To je přesně ten druh věci, kterou poznamená jen člověk ze produktu.
Neudělejte evaly drahé. Pouze binární skóre (passou/neprojde). Jeden odborník, ne výbor. Vzorkujte svá data, nerecenzujte všechno. Cílem není dokonalost - jde o použitelné zlepšení. Pokud uděláte proces drahý, nebudete ho dělat.
Klíčové poznatky
- LLM si neumí poradit s analýzou chyb - Chybí jim kontext; řeknou “vypadá to dobře” na zjevné selhání produktu
- Otevřené kódování - Napište si rychlé poznámky o první chybě; nesnažte se najít všechno; buďte neformální
- Benevolentní diktátor - Jeden odborník, jehož chuť si uznáváte; ne výbory
- Minimum 100 traces - Dokud teoretické nasycení; budete si jich užívat po 20
- Teoretické nasycení - Zastavte se, když přestanete se učit nové věci
- Pouze binární skóre - Projde/neprojde; nepoužívejte škály 1-5; dělá vše zvládnutelné
- Analýza chyb → testy - Jiné než v softwarovém inženýrství; pochopte dříve než kodifikujete
- Je potřeba člověk ze produktu - Inženýři si nevšimnou product smell; doménová expertise je kritická
- Vzorkujte, nerecenzujte všechno - Dělá proces udržitelný
- “Jank” je platný - Ponechte si poznámky neformální; konkrétnost je důležitější než lesk
Velký obraz
AI eval není automatizované testování - je to analýza dat vyžadující lidský úsudek. Firmy, které dodávají spolehlivé AI produkty, nepoužívají sofistikované frameworky; staví odborníky před traces a nechávají je, aby si vyvinuli chuť. Neexistuje žádná zkratka.