Lenny's Podcast·January 11, 2026

Warum die meisten KI-Produkte scheitern: Erkenntnisse aus 50+ Enterprise-Implementierungen

OpenAI- und Google-Veteranen Aishwarya Ranti und Kiriti Bhattam teilen das CCCD-Framework für KI-Produkte, die weder das Kundenvertrauen untergraben noch endlose Notfall-Patches erfordern.

enterprise agents productivity future-of-work

Warum die meisten KI-Produkte scheitern: Erkenntnisse aus 50+ Enterprise-Implementierungen

Die zwei fundamentalen Unterschiede, die traditionelle Produktentwicklung sprengen

Aishwarya Ranti arbeitete an KI-Forschung bei Alexa und Microsoft, mit über 35 veröffentlichten Forschungsarbeiten. Kiriti Bhattam leitet Codex bei OpenAI nach einem Jahrzehnt Aufbau von KI-Infrastruktur bei Google und Kumo. Zusammen haben sie über 50 KI-Implementierungen begleitet und unterrichten den bestbewerteten KI-Kurs auf Maven. Ihre Kernbotschaft: KI-Produkte erfordern völlig anderes Denken.

Der erste Unterschied ist Nicht-Determinismus. "You don't know how your user might behave with your product and you also don't know how the LLM might respond to that." Bei traditioneller Software baut man eine gut kartierte Entscheidungsmaschine. Booking.com hat Buttons und Formulare, die Absichten vorhersagbar in Aktionen umwandeln. Bei KI sind sowohl Input (natürliche Sprache kann dieselbe Absicht auf unzählige Arten ausdrücken) als auch Output (LLMs sind probabilistische Black Boxes) unvorhersehbar. Man arbeitet mit Input, Output und Prozess, die man nicht vollständig versteht.

Der zweite Unterschied ist der Autonomie-Kontroll-Kompromiss. "Every time you hand over decision-making capabilities to agentic systems, you're kind of relinquishing some amount of control on your end." Ash findet es schockierend, dass nicht mehr Menschen darüber sprechen. Die KI-Community ist besessen davon, autonome Agenten zu bauen, aber Autonomie bedeutet Kontrollverlust. Bevor man einem KI-Agenten mehr Autonomie gibt, muss man verifizieren, dass er durch nachgewiesene Zuverlässigkeit Vertrauen verdient hat.

Das 74%-Zuverlässigkeitsproblem ist real. Eine UC Berkeley-Studie ergab, dass 74-75% der Unternehmen Zuverlässigkeit als ihr größtes Problem nannten. Deshalb fühlten sie sich nicht wohl dabei, kundenorientierte Produkte einzusetzen – sie konnten dem System nicht vertrauen. Das erklärt, warum sich die meiste Enterprise-KI heute auf Produktivitätstools konzentriert statt auf End-to-End-Workflow-Ersatz.

Warum das CCCD-Framework katastrophale KI-Ausfälle verhindert

Die Gäste entwickelten das Continuous Calibration, Continuous Development-Framework nach schmerzhaften Erfahrungen. Sie bauten einen End-to-End-Kundensupport-Agenten, der so viele Notfall-Patches erforderte, dass sie ihn abschalten mussten. Air Canadas Chatbot halluzinierte eine Erstattungsrichtlinie, die nicht existierte, und sie mussten diese rechtlich einhalten. Diese Katastrophen sind vermeidbar.

Beginne mit hoher Kontrolle und niedriger Autonomie. "It's not about being the first company to have an agent among your competitors. It's about have you built the right flywheels in place so that you can improve over time." Für einen Kundensupport-Agenten: V1 leitet Tickets nur an Abteilungen weiter (Menschen entscheiden noch). V2 schlägt Antwortentwürfe vor, die Menschen bearbeiten können, und protokolliert deren Änderungen. V3 übernimmt End-to-End-Lösung erst nachdem V1 und V2 sich als zuverlässig erwiesen haben.

Für Coding-Assistenten gilt dasselbe Muster. V1: Inline-Vervollständigungen und Snippets vorschlagen. V2: Größere Blöcke wie Tests oder Refactorings zur menschlichen Überprüfung generieren. V3: Änderungen autonom anwenden und PRs öffnen. Für Marketing: V1 entwirft Texte, V2 erstellt und führt Kampagnen mit Genehmigung durch, V3 startet und optimiert automatisch über Kanäle hinweg.

Die Kundensupport-Progression lehrt alles. Selbst Routing – scheinbar einfach – kann in Unternehmen unglaublich komplex sein. Taxonomien sind chaotisch mit doppelten Kategorien und toten Knoten von 2019. Menschliche Agenten kennen diese Eigenheiten aus Erfahrung; KI nicht. Indem man mit Routing beginnt, behebt man Datenprobleme, bevor sie ambitioniertere Automatisierung torpedieren. Der Schwungrad-Effekt bedeutet, dass jede Version Trainingsdaten für die nächste generiert.

Was Unternehmen unterscheidet, die mit KI-Produkten erfolgreich sind

Die Gäste sehen ein "Erfolgsdreieck" mit drei Dimensionen: großartige Führungskräfte, gute Kultur und technischer Fortschritt. Keine funktioniert isoliert.

Führungskräfte müssen ihre Intuition neu aufbauen. "Leaders have to get back to being hands-on... You must be comfortable with the fact that your intuitions might not be right and you probably are the dumbest person in the room." Ein CEO, mit dem Ash arbeitete, blockierte jeden Morgen 4-6 Uhr für "Catching up mit KI" – keine Meetings, nur Lernen aus vertrauenswürdigen Quellen. Er kam mit Fragen zurück, die er mit KI-Experten besprechen konnte. Führungskräfte, die ihre Intuition über 10-15 Jahre aufgebaut haben, müssen sie jetzt neu lernen.

Kultur der Befähigung schlägt FOMO-Angst. Fachexperten sind entscheidend – sie verstehen, was KI tatsächlich tun sollte. Aber in vielen Unternehmen weigern sie sich zu helfen, weil sie denken, ihre Jobs werden ersetzt. Führungskräfte müssen KI als Verstärkung für 10-fache Produktivität rahmen, nicht als Ersatz. Bringe die gesamte Organisation dazu, zusammenzuarbeiten, um KI nützlich zu machen.

Technische Besessenheit mit Workflows, nicht Tools. Erfolgreiche Teams verstehen ihre Workflows tiefgreifend, bevor sie Technologie wählen. "80% of so-called AI engineers, AI PMs spend their time actually understanding their workflows very well." Der Agent könnte nur einen Teil eines Workflows übernehmen. Machine Learning könnte einen anderen Teil übernehmen. Deterministischer Code erledigt den Rest. Tool-Besessenheit ohne Workflow-Verständnis führt zum Scheitern.

Warum Evals missverstanden werden und was man stattdessen tun sollte

Die "Eval"-Debatte ist zu semantischer Verwässerung geworden – jeder verwendet den Begriff anders. Daten-Labeling-Unternehmen nennen Expertenannotationen "Evals". PMs, die Akzeptanzkriterien schreiben, nennen das "Evals". Modell-Benchmark-Vergleiche werden "Evals" genannt. Ein Kunde sagte Ash "wir machen Evals" und meinte damit, dass sie LM Arena-Rankings checkten.

Weder Evals noch Produktions-Monitoring allein reicht aus. Evals sind dein vertrauenswürdiges Produktwissen, kodiert in Test-Datensätzen – Dinge, die dein Agent absolut nicht falsch machen sollte. Produktions-Monitoring fängt implizite Signale: Nutzer regenerieren Antworten (was Unzufriedenheit anzeigt), Daumen runter, oder schalten Features komplett ab. Evals fangen bekannte Fehlermodi; Produktions-Monitoring fängt aufkommende Muster, die du nicht vorhersagen konntest.

Der Prozess ist: Deployen, Monitoren, Analysieren, Iterieren. Man kann nicht jeden Fehlermodus im Voraus vorhersagen. Produktions-Monitoring alarmiert dich bei Traces, die Untersuchung verdienen. Fehleranalyse enthüllt Muster. Erst dann entscheidest du: Ist das ein Einmal-Fix oder ein systemisches Problem, das neue Evaluierungskriterien erfordert? Zu viele Evals zu früh zu bauen erzeugt Wartungsaufwand, ohne echte Probleme zu fangen.

5 Erkenntnisse für KI-Produkte, die tatsächlich funktionieren

Problem zuerst, immer - Klein anzufangen zwingt dich, das tatsächliche Problem zu definieren; Lösungskomplexität ist ein schlüpfriger Abhang
Schmerz ist der neue Burggraben - Erfolgreiche Unternehmen haben den Schmerz durchgemacht zu lernen, was funktioniert; es gibt noch kein Playbook oder Lehrbuch
Ein-Klick-Agenten sind Marketing - Jeder, der sofortige autonome Implementierung verkauft, führt dich in die Irre; Enterprise-Daten sind chaotisch und brauchen Kalibrierung
Multi-Agent wird missverstanden - Verantwortlichkeiten auf Peer-Agenten ohne menschliche Orchestrierung zu verteilen ist extrem schwer zu kontrollieren
Coding-Agenten bleiben unterschätzt - Trotz Twitter/Reddit-Gerede ist die Durchdringung außerhalb der Bay Area noch gering; massive Wertschöpfung steht bevor

Was das für Organisationen bedeutet, die KI-Agenten einsetzen

Die Kerneinsicht: KI-Produktentwicklung ist keine traditionelle Softwareentwicklung mit ausgetauschter KI. Nicht-Determinismus und der Autonomie-Kontroll-Kompromiss bedeuten, dass man Verhalten nicht vorhersagen kann, Ergebnisse nicht vollständig kontrollieren kann und Vertrauen schrittweise verdienen muss. Das CCCD-Framework – beginnend mit hoher Kontrolle, schrittweise steigende Autonomie wenn sich Zuverlässigkeit beweist – verhindert die katastrophalen Ausfälle, die Abschaltungen erzwingen und Kundenvertrauen untergraben. Unternehmen, die bei KI gewinnen, bewegen sich nicht am schnellsten; sie bauen Schwungräder, die Verbesserung über Zeit verstärken.