Der ultimative Leitfaden für Evals: Beginnen Sie mit 100 manuellen Reviews und einem 'wohlwollenden Diktator'

Lenny's Podcast
tutorialdeveloper-toolsagents

Perspektive

Dies sind Hamel Hussein und Shrea Shankar - Lehrende des #1 Eval-Kurses auf Maven, die über 2.000+ Produktmanager und Ingenieure ausgebildet haben, darunter Teams bei OpenAI und Anthropic. Ihr Prozess ist überraschend manuell zu Beginn, und genau das ist der Punkt.

“Das größte Missverständnis ist: Kann die KI das nicht einfach selbst evaluieren?” Es funktioniert nicht. Als Hamel eine Trace zeigte, in der eine KI eine virtuelle Tour geplant hatte, die nicht existierte, würde ChatGPT sagen “sieht gut aus”, weil es dem Kontext fehlt zu wissen, dass dieses Feature nicht existiert. Der Domänenexperte fängt es in Sekunden. Large Language Models verpassen das Produktgespür.

Der Prozess: offene Codierung mit wohlwollendem Diktator. Schauen Sie sich Traces an (Protokolle von Large Language Model-Interaktionen). Schreiben Sie schnelle Notizen, was falsch ist - nur den ersten/frühesten Fehler, den Sie sehen. Versuchen Sie nicht, alles zu finden. Verwenden Sie keine Komitees. Ernennen Sie eine Person, deren Geschmack Sie vertrauen (der Domänenexperte). Halten Sie es informal: “Jank” ist ein gültiger Notiz. Analysieren Sie mindestens 100 Traces, bis Sie “theoretische Sättigung” erreichen - wenn Sie nicht mehr Neues lernen.

Fehleranalyse geht dem Schreiben von Tests voraus. Dies unterscheidet sich von Software-Entwicklung, wo Sie zu Unit-Tests übergehen. Bei Large Language Models ist die Angriffsfläche zu groß und das Verhalten zu stochastisch. Sie benötigen zunächst Datenanalyse, um zu verstehen, was Sie überhaupt testen sollten. Erst nach der offenen Codierung codifizieren Sie Muster in automatisierte Evals.

Das Immobilienmakler-Beispiel ist perfekt. Nutzer fragt nach Verfügbarkeit. KI antwortet “das haben wir nicht, schönen Tag noch.” Technisch korrekt. Produktionsseite? Schrecklich. Ein Lead-Management-Tool sollte an einen Menschen übergeben, nicht das Gespräch beenden. Das ist die Art von Dingen, die nur ein Produktperson fängt.

Machen Sie Evals nicht teuer. Nur binäre Bewertungen (bestanden/nicht bestanden). Ein Domänenexperte, kein Komitee. Sampeln Sie Ihre Daten, überprüfen Sie nicht alles. Das Ziel ist nicht Perfektion - es sind umsetzbare Verbesserungen. Wenn Sie den Prozess teuer machen, werden Sie ihn nicht tun.

Haupterkenntnisse

  • Large Language Models können keine Fehleranalyse durchführen - Ihnen fehlt der Kontext; sagen “sieht gut aus” bei offensichtlichen Produktfehlern
  • Offene Codierung - Schreiben Sie schnelle Notizen zum ersten Fehler; finden Sie nicht alles; seien Sie informal
  • Wohlwollender Diktator - Ein Domänenexperte, dessen Geschmack Sie vertrauen; keine Komitees
  • Mindestens 100 Traces - Bis zur theoretischen Sättigung; Sie werden nach 20 süchtig
  • Theoretische Sättigung - Stoppen Sie, wenn Sie nicht mehr Neues lernen
  • Nur binäre Bewertungen - Bestanden/nicht bestanden; machen Sie keine 1-5 Skalen; macht alles machbar
  • Fehleranalyse → Tests - Unterschied zu Software-Entwicklung; verstehen Sie, bevor Sie codifizieren
  • Produktperson erforderlich - Ingenieure verpassen Produktgespür; Domänenkompetenz ist kritisch
  • Sampeln, nicht alles überprüfen - Macht den Prozess nachhaltig
  • “Jank” ist gültig - Halten Sie Notizen informal; Spezifizität ist wichtiger als Pomp

Großes Bild

KI-Evaluierung ist nicht automatisiertes Testen - es ist Datenanalyse, die menschliches Urteilsvermögen erfordert. Die Unternehmen, die zuverlässige KI-Produkte verschiffen, verwenden keine ausgefeilten Frameworks; sie stellen Domänenexperten vor Traces und lassen sie Geschmack entwickeln. Es gibt keine Abkürzung.