Proč většina AI produktů selhává: Poučení z 50+ podnikových nasazení
Veteráni z OpenAI a Google Aishwarya Ranti a Kiriti Bhattam sdílejí CCCD framework pro budování AI produktů, které nepodkopávají důvěru zákazníků a nevyžadují nekonečné rychlé opravy.
Dva zásadní rozdíly, které rozbíjejí tradiční vývoj produktů
Aishwarya Ranti pracovala na výzkumu AI v Alexa a Microsoft a má přes 35 publikovaných výzkumných prací. Kiriti Bhattam vede Codex v OpenAI po dekádě budování AI infrastruktury v Google a Kumo. Společně podpořili více než 50 AI nasazení a vyučují nejlépe hodnocený AI kurz na Maven. Jejich hlavní sdělení: AI produkty vyžadují úplně jiný způsob myšlení.
První rozdíl je nedeterminismus. "You don't know how your user might behave with your product and you also don't know how the LLM might respond to that." V tradičním softwaru vytváříte dobře zmapovaný rozhodovací engine. Booking.com má tlačítka a formuláře, které předvídatelně převádějí záměr na akci. S AI je jak vstup (přirozený jazyk může vyjádřit stejný záměr nesčetnými způsoby), tak výstup (LLM jsou probabilistické černé skříňky) nepředvídatelný. Pracujete se vstupem, výstupem a procesem, kterému plně nerozumíte.
Druhý rozdíl je kompromis mezi autonomií a kontrolou. "Every time you hand over decision-making capabilities to agentic systems, you're kind of relinquishing some amount of control on your end." Ash považuje za šokující, že o tom více lidí nemluví. AI komunita je posedlá budováním autonomních agentů, ale autonomie znamená ztrátu kontroly. Než dáte AI agentovi více pravomocí, musíte ověřit, že si důvěru zasloužil prostřednictvím prokázané spolehlivosti.
Problém 74% spolehlivosti je reálný. Práce UC Berkeley zjistila, že 74-75 % podniků uvádí spolehlivost jako svůj největší problém. Proto se necítili pohodlně při nasazování produktů pro zákazníky — nemohli systému důvěřovat. To vysvětluje, proč se většina dnešního podnikového AI zaměřuje na nástroje produktivity spíše než na kompletní nahrazení pracovních postupů.
Proč CCCD Framework předchází katastrofálním selháním AI
Hosté vyvinuli framework Continuous Calibration, Continuous Development po bolestivé zkušenosti. Vybudovali end-to-end agenta zákaznické podpory, který vyžadoval tolik rychlých oprav, že ho museli vypnout. Chatbot Air Canada vyhallucinal refundační politiku, která neexistovala, a museli ji právně dodržet. Těmto katastrofám lze předcházet.
Začněte s vysokou kontrolou a nízkou autonomií. "It's not about being the first company to have an agent among your competitors. It's about have you built the right flywheels in place so that you can improve over time." Pro agenta zákaznické podpory: V1 pouze směruje tikety na oddělení (lidé stále rozhodují). V2 navrhuje koncepty odpovědí, které lidé mohou upravit, a zaznamenává, jaké změny dělají. V3 zpracovává řešení end-to-end pouze poté, co V1 a V2 prokázaly spolehlivost.
Pro asistenty pro kódování platí stejný vzorec. V1: navrhovat inline doplňování a úryvky. V2: generovat větší bloky jako testy nebo refaktoringy pro lidskou kontrolu. V3: aplikovat změny a autonomně otevírat PR. Pro marketing: V1 vytváří koncepty textů, V2 buduje a spouští kampaně se schválením, V3 spouští a automaticky optimalizuje napříč kanály.
Progrese zákaznické podpory učí všemu. Dokonce i směrování — zdánlivě jednoduché — může být v podnicích neuvěřitelně složité. Taxonomie jsou chaotické s duplicitními kategoriemi a mrtvými uzly z roku 2019. Lidští agenti tyto zvláštnosti znají ze zkušenosti; AI ne. Začátkem se směrováním opravíte problémy s daty dříve, než potopí ambicióznější automatizaci. Efekt setrvačníku znamená, že každá verze generuje trénovací data pro další.
Co odlišuje společnosti, které s AI produkty uspějí
Hosté vidí "trojúhelník úspěchu" se třemi dimenzemi: skvělí lídři, dobrá kultura a technický pokrok. Žádná nefunguje izolovaně.
Lídři musí přebudovat své intuice. "Leaders have to get back to being hands-on... You must be comfortable with the fact that your intuitions might not be right and you probably are the dumbest person in the room." Jeden CEO, se kterým Ash pracovala, blokoval každé ráno od 4 do 6 hodin na "dohánění AI" — žádné schůzky, jen učení se z důvěryhodných zdrojů. Vracel se s otázkami, které konzultoval s AI experty. Lídři, kteří si budovali intuice 10-15 let, je nyní potřebují znovu naučit.
Kultura zmocnění překonává strach z FOMO. Odborníci na danou problematiku jsou kritičtí — rozumějí tomu, co by AI měla skutečně dělat. Ale v mnoha společnostech odmítají pomáhat, protože si myslí, že jejich práce jsou nahrazovány. Lídři musí AI prezentovat jako augmentaci pro 10násobnou produktivitu, ne jako náhradu. Zapojte celou organizaci do spolupráce, aby AI byla užitečná.
Technická posedlost pracovními postupy, ne nástroji. Úspěšné týmy hluboce rozumějí svým pracovním postupům před výběrem technologie. "80% of so-called AI engineers, AI PMs spend their time actually understanding their workflows very well." Agent může zvládnout jen část pracovního postupu. Machine learning může zvládnout jinou část. Deterministický kód zvládne zbytek. Posedlost nástroji bez pochopení pracovních postupů vede k neúspěchu.
Proč jsou Evaly nepochopeny a co dělat místo toho
Debata o "evalech" se stala sémantickou difuzí — každý používá tento termín jinak. Společnosti pro značkování dat nazývají expertní anotace "evaly". PM píšící akceptační kritéria to nazývají "evaly". Porovnání benchmarků modelů se nazývají "evaly". Klient řekl Ash "děláme evaly" a myslel tím, že kontrolovali žebříčky LM Arena.
Ani evaly, ani monitoring produkce samy o sobě nestačí. Evaly jsou vaše důvěryhodné produktové znalosti zakódované v testovacích datasetech — věci, které by váš agent rozhodně neměl udělat špatně. Monitoring produkce zachycuje implicitní signály: uživatelé regenerující odpovědi (indikující nespokojenost), palce dolů nebo úplné vypínání funkcí. Evaly zachycují známé módy selhání; monitoring produkce zachycuje vznikající vzorce, které jste nemohli předvídat.
Proces je: nasadit, monitorovat, analyzovat, iterovat. Nemůžete předvídat každý mód selhání dopředu. Monitoring produkce vás upozorní na trasování hodné prozkoumání. Analýza chyb odhalí vzorce. Teprve pak rozhodnete: je to jednorázová oprava, nebo systémový problém vyžadující nová hodnotící kritéria? Vytváření příliš mnoha evalů příliš brzy vytváří zátěž údržby bez zachycení skutečných problémů.
5 klíčových poznatků pro budování AI produktů, které skutečně fungují
- Nejdříve problém, vždy - Začátek v malém vás nutí definovat skutečný problém; složitost řešení je kluzký svah
- Bolest je nový příkop - Společnosti, které uspěly, prošly bolestí učení se, co funguje; zatím neexistuje žádný manuál ani učebnice
- Agenti na jedno kliknutí jsou marketing - Kdokoli prodávající okamžité autonomní nasazení vás zavádí; podniková data jsou chaotická a potřebují kalibraci
- Multi-agent je nepochopen - Rozdělení odpovědností mezi peer agenty bez lidské orchestrace je extrémně těžké kontrolovat
- Agenti pro kódování zůstávají podceňováni - Navzdory diskuzím na Twitter/Reddit je penetrace mimo Bay Area stále nízká; před námi je masivní tvorba hodnoty
Co to znamená pro organizace nasazující AI agenty
Klíčový poznatek: vývoj AI produktů není tradiční vývoj softwaru s vyměněnou AI. Nedeterminismus a kompromis mezi autonomií a kontrolou znamenají, že nemůžete předvídat chování, nemůžete plně kontrolovat výsledky a musíte si důvěru získávat postupně. CCCD framework — začínající s vysokou kontrolou a postupně zvyšující autonomii, jak se spolehlivost prokáže — předchází katastrofálním selháním, která nutí k vypnutí a podkopávají důvěru zákazníků. Společnosti vítězící s AI nejdou nejrychleji; budují setrvačníky, které časem kumulují zlepšení.


